大数据中朴素贝叶斯法的示例分析

  介绍

这篇文章给大家分享的是有关大数据中朴素贝叶斯法的示例分析的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。

<节>
  

最为广泛的两种分类模型是决策树模型(决策树模型)和朴素贝叶斯模型(朴素贝叶斯模型,现),本案例采用朴素贝叶斯模型。朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法,本节对此算法作了重点分析。

<强>一,,垃圾消息识别算法——朴素贝叶斯

<人力资源/>

和决策树模型相比,朴素贝叶斯分类器(朴素贝叶斯分类器,NBC)发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率,同时,NBC模型所需估计的参数较少,对缺失数据不太敏感,算法也比较简单。

理论上,NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为NBC模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响。

这个多在250年前发明的算法,在信息领域内有着无与伦比的地位。贝叶斯分类是一系列分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。朴素贝叶斯算法(朴素贝叶斯)是其中应用最为广泛的分类算法之一。

<强> 1。实现基础机器学习贝叶斯分类的核心

分类是将一个未知样本分到几个预先已知类的过程。数据分类问题的解决是一个两步过程:第一步,建立一个模型,描述预先的数据集或概念集。通过分析由属性描述的样本(或实例,对象等)来构造模型。假定每一个样本都有一个预先定义的类,由一个被称为类标签的属性确定。为建立模型而被分析的数据元组形成训练数据集,该步也称作有指导的学习。

在众多的分类模型中,应用最为广泛的两种分类模型是决策树模型和朴素贝叶斯模型。决策树模型通过构造树来解决分类问题。首先利用训练数据集来构造一棵决策树,一旦树建立起来,它就可为未知样本产生一个分类。

在分类问题中使用决策树模型有很多的优点,决策树便于使用,而且高效;根据决策树可以很容易地构造出规则,而规则通常易于解释和理解;决策树可很好地扩展到大型数据库中,同时它的大小独立于数据库的大小,决策树模型的另外一大优点就是可以对有许多属性的数据集构造决策树。决策树模型也有一些缺点,比如处理缺失数据时的困难,过度拟合问题的出现,以及忽略数据集中属性之间的相关性等。

解决这个问题的方法一般是建立一个属性模型,对于不相互独立的属性,把他们单独处理,例如中文文本分类识别的时候,我们可以建立一个字典来处理一些词组。如果发现特定的问题中存在特殊的模式属性,那么就单独处理。

这样做也符合贝叶斯概率原理,因为我们把一个词组看作一个单独的模式,例如英文文本处理一些长度不等的单词,也都作为单独独立的模式进行处理,这是自然语言与其他分类识别问题的不同点。

实际计算先验概率时候,因为这些模式都是作为概率被程序计算,而不是自然语言被人来理解,所以结果是一样的。

在属性个数比较多或者属性之间相关性较大时,朴素贝叶斯模型的分类效率比不上决策树模型。但这点有待验证,因为具体的问题不同,算法得出的结果不同,同一个算法对于同一个问题,只要模式发生变化,也存在不同的识别性能。这点在很多国外论文中已经得到公认,算法对于属性的识别情况决定于很多因素,例如训练样本和测试样本的比例影响算法的性能。

决策树对于文本分类识别,要看具体情况。在属性相关性较小时,朴素贝叶斯模型的性能相对较好。属性相关性较大的时候,决策树算法性能较好。

<强> 2。null

大数据中朴素贝叶斯法的示例分析