数据挖掘中最容易犯的几个错误,你知道吗? - 行业资讯 - 肥雀云

按照老博士的总结,这十大易犯错误包括:

0。缺乏数据(没有数据)

1。太关注训练(焦点alt="数据挖掘中最容易犯的几个错误,你知道吗?“>

对于分类问题或预估问题来说,常常缺乏准确标注的案例。

例如:在上百万的交易中,可能只有屈指可数的欺诈交易,还有很多的欺诈交易没有被正确标注出来,这就需要在建模前花费大量人力来修正;——需要对潜在的高风险客户进行长期跟踪(比如两年),从而积累足够的评分样本。

idm:就象体育训练中越来越注重实战训练,因为单纯的封闭式训练常常会训练时状态神勇,比赛时一塌糊涂。实际上,只有样本外数据上的模型评分结果才真正有用!(否则的话,直接用参照表好了!)

例如:——MD安德森的医生和研究人员(1993)使用神经网络来进行×××检测,惊奇地发现,训练时间越长(从几天延长至数周),对训练集的性能改善非常轻微,但在测试集上的性能却明显下降,机器学习或计算机科学研究者常常试图让模型在已知数据上表现最优,这样做的结果通常会导致过度拟合(overfit)。欢迎加入大数据学习交流分享群:658558542,,一起吹水交流学习(?点击即可加入群聊)

解决这个问题的典型方法是重抽样(重采样)。重抽样技术包括:引导,交叉验证,重叠,分析……等等。

idm:这个错误和第十种错误有相通之处,请同时参照其解决方法。没有对比也就没有所谓的好坏,辩证法的思想在此体现无遗。”当小孩子手拿一把锤子时,整个世界看起来就是一枚钉子”。要想让工作尽善尽美,就需要一套完整的工具箱。不要简单地信赖你用单个方法分析的结果,至少要和传统方法(比如线性回归或线性判别分析)做个比较。

研究结果:按照《神经网络》期刊的统计,在过去3年来,只有1/6的文章中做到了上述两点。也就是说,在独立于训练样本之外的测试集上进行了开集测试,并与其它广泛采用的方法进行了对比。

使用一系列好的工具和方法。(每种工具或方法可能最多带来5% ~ 10%的改进)。

idm:一般在分类算法中都会给出分类精度作为衡量模型好坏的标准,但在实际项目中我们却几乎不看这个指标。为什么?因为那不是我们关注的目标。

a)项目的目标:一定要锁定正确的目标

例如:欺诈侦测(关注的是正例!)(香农实验室在国际长途电话上的分析):不要试图在一般的通话中把欺诈和非欺诈行为分类出来,重点应放在如何描述正常通话的特征,然后据此发现异常通话行为。

b)模型的目标:让计算机去做你希望它做的事

大多数研究人员会沉迷于模型的收敛性来尽量降低误差,这样让他们可以获得数学上的美感。但更应该让计算机做的事情应该是如何改善业务,而不是仅仅侧重模型计算上的精度。欢迎加入大数据学习交流分享群:658558542,,一起吹水交流学习(?点击即可加入群聊)

idm:“让数据说话“没有错,关键是还要记得另一句话:兼听则明,偏听则暗!如果数据+工具就可以解决问题的话,还要人做什么呢?

4。投机取巧的数据:数据本身只能帮助分析人员找到什么是显著的结果,但它并不能告诉你结果是对还是错。

4 b。经过设计的实验:某些实验设计中掺杂了人为的成分,这样的实验结果也常常不可信。

idm:看似不可能,却是实际中很容易犯的错误,特别是你面对成千上万个变量的时候。认真,仔细,有条理是数据挖掘人员的基本要求。预报(预测)示例:预报芝加哥银行在某天的利率,使用神经网络建模,模型的准确率达到95%。但在模型中却使用了该天的利率作为输入变量。金融业中的预报示例:使用3日的移动平均来预报,但却把移动平均的中点设在今天。

要仔细查看那些让结果表现得异常好的变量,这些变量有可能是不应该使用,或者不应该直接使用的。给数据加上时间戳,避免被误用。

idm:到底是“宁为鸡的头,不为凤尾”,还是“大隐隐于市,小隐隐于野”?不同的人生态度可以有同样精彩的人生,不同的数据也可能蕴含同样重要的价值。异常值可能会导致错误的结果(比如价格中的小数点标错了),但也可能是问题的答案(比如臭氧洞)。所以需要仔细检查这些异常。研究中最让激动的话语不是“啊哈!”,而是“这就有点奇怪了……”数据中的不一致性有可能会是解决问题的线索,深挖下去也许可以解决一个大的业务问题。