- <>
(均匀分布)(normaldistribution)
李>
密度函数关于平均值对称
标准差
,,,,,,,,,,,,,,,,,,,,,,,,,95.449974%的面积在平均数左右两个标准差的范围内。
反曲点
Variance
=1/n∑(xi-u)2
基本概念
分类(classification)
识别出样本所属的类别。根据识别前是否需要进行训练,可分为有监督分类(supervised%20classification)何无监督分类(unsupervised%20classification)。
有监督分类:根据已知训练区提供的样本,通过计算选择特征参数,建立判别函数以对样本进行的分类。
无监督分类:指人们事先对分类过程不施加任何的先验知识,而仅凭数据,即自然聚类的特性,进行“盲目”的分类;其分类的结果只是对不同类别达到了区分,但不能确定类别的属性。
回归(regression)
统计学上分析数据的方法,目的在于了解连个或多个变数间是否相关、相关方向与强度,并建立数学模型以便观察待定变数来预测研究者感兴趣的变数。更具体的来说,回归分析可以帮助人们了解在只有一个自变量变化时因变量的变化量。
非参数统计(nonparametric%20statistics)
统计学的分支,适用于母群体分布情况未明、小样本、母群体分布不为常态也不以转换为常态。
惰性学习(Lazing%20Leaning)%20也即%20基于实例的学习(Instance-based%20Learning),机械学习(Rote%20Learning)。
概率分类(Probabilistic%20classification),%20基于概率分类,分类器给出一个最优类别猜测结果,同时给出这个猜测的概率估计值。概率分类器,%20给定一个(X是样本集),赋予概率值到所有的(Y是分类标签集),这些概率值的和使1。
文氏图(Venn%20diagram),不太严格意义下用一表示集合/类的一种草图。尤其适合表示集合/类之间的“大致关系”。
B.算法
- <李>
最近邻居法(资讯)
一种用于分类和回归的非参数统计方法。在这两种情况下,输入包含特征空间中的k个最接近的训练样本。是一种基于实例的学习,或者是局部近似和将所有计算推迟到分类之后的惰性学习。衡量邻居的权重非常有用。
在事例分类中,输出是一个分类族群。一个对象的分类是由其邻居的“多数表决”确定的,k个最近邻居中最常见的分类决定了赋予该对象的类别。若k=1,则该对象的类别直接由最近的一个节点赋予。
在事例回归中,输出是该对象的属性值,该值是其k个最近邻居的值的平均值。
这个算法的计算量相当大,耗时。Ko和Seo提出了TCFP(文本分类特征投影)。所需时间是这个算法的1/50。
长处:
,,,,简单有效
,,,,不对数据的分布做假设
,,,,训练阶段快
短处:
,,,,不生成模型,在洞见特性之间关系上能力有限
,,,,分类阶段慢
,,,,内存需求大
,,,,定类特征(名义特性)和丢失数据(缺失数据)需要进行附加的处理
距离计算,可以用欧几里得距离(欧氏距离)
在选择k值时,我们要注意方差平衡(偏见方差权衡)。大的k值可以减少噪声数据的影响,但是可能导致我们忽视掉小而重要的模式。通常地k值可以取训练样本数的平方根。最好是多尝试几个k值,找到相对合理的k值。如果训练样本所具的代表性高,数量大,k的取值会变得不那么重要。