阅读目录
- 都说万事开头难,可一旦开头,就是全新的状态,就有可能收获自己未曾预料到的成果。从2018.12.28开始,决定跟随《机器学习实战》的脚步开始其征程,记录是为了更好的监督、理解和推进,学习过程中用到的数据集和代码都将上传到github
机器学习征程博客:(1)以后面例子来解释,这里的C表示类别,x,y表示词汇集中的各种特征词,p(c|x,y)理解为有x,y特征词的情况下为类型C的概率
若要求类型C1中各特征词的概率:p(x,y|C1) = p(x1,y1|C1) * p(x2,y2|C1) ... p(xn,yn|C1)
根据上面的公式,我们可以定义贝叶斯分类准则为:
a.如果p(c1|x,y) > p(c2|x,y),那么属于c1类
b.如果p(c1|x,y) < p(c2|x,y),那么属于c2类
def loadDataSet(): """ 创建数据集 """ postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'], ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'], ['stop', 'posting', 'stupid', 'worthless', 'garbage'], ['mr', 'licks', 'ate', 'my', 'steak',
关键字:
