扣丁学堂大数据培训简述避免数据挖掘弊端的方法有哪些

2019-01-29 16:46:02 486浏览

本篇文章小编和喜欢大数据开发技术的小伙伴分享一下避免数据挖掘弊端的方法,对大数据开发技术感兴趣或者是想要参加大数据培训学习的小伙伴就随小编一起来看一下吧。



扣丁学堂大数据培训简述避免数据挖掘弊端的方法有哪些



1、缺乏数据


对于分类问题或预估问题来说,常常缺乏准确标注的案例。


例如:

欺诈侦测:在上百万的交易中,可能只有屈指可数的欺诈交易,还有很多的欺诈交易没有被正确标注出来,这就需要在建模前花费大量人力来修正。


信用评分:需要对潜在的高风险客户进行长期跟踪,从而积累足够的评分样本。



2、太关注训练


就像体育训练中越来越注重实战训练,因为单纯的封闭式训练常常会训练时状态神勇,比赛时一塌糊涂。


实际上,只有样本外数据上的模型评分结果才真正有用。


例如:


癌症检测:MD Anderson的医生和研究人员使用神经网络来进行癌症检测,惊奇地发现,训练时间越长(从几天延长至数周),对训练集的性能改善非常轻微,但在测试集上的性能却明显下降。


机器学习或计算机科学研究者常常试图让模型在已知数据上表现最优,这样做的结果通常会导致过度拟合(overfit)。


解决方法:


解决这个问题的典型方法是重抽样(Re-Sampling)。重抽样技术包括:bootstrap、cross-validation、jackknife、leave-one-out…等等。



3、提错了问题


一般在分类算法中都会给出分类精度作为衡量模型好坏的标准,但在实际项目中我们却几乎不看这个指标。为什么?因为那不是我们关注的目标。


项目的目标:一定要锁定正确的目标。


例如:


欺诈侦测(关注的是正例!)(Shannon实验室在国际长途电话上的分析):不要试图在一般的通话中把欺诈和非欺诈行为分类出来,重点应放在如何描述正常通话的特征,然后据此发现异常通话行为。


模型的目标:让计算机去做你希望它做的事


大多数研究人员会沉迷于模型的收敛性来尽量降低误差,这样让他们可以获得数学上的美感。但更应该让计算机做的事情应该是如何改善业务,而不是仅仅侧重模型计算上的精度。



4、只靠数据来说话


让数据说话没有错,关键是还要记得另一句话:兼听则明,偏听则暗!如果数据+工具就可以解决问题的话,还要人做什么呢?


投机取巧的数据:数据本身只能帮助分析人员找到什么是显著的结果,但它并不能告诉你结果是对还是错。经过设计的实验:某些实验设计中掺杂了人为的成分,这样的实验结果也常常不可信。



5、使用了未来的信息


看似不可能,却是实际中很容易犯的错误,特别是你面对成千上万个变量的时候。认真、仔细、有条理是数据挖掘人员的基本要求。


预报示例:预报芝加哥银行在某天的利率,使用神经网络建模,模型的准确率达到95%。但在模型中却使用了该天的利率作为输入变量。


金融业中的预报示例:使用3日的移动平均来预报,但却把移动平均的中点设在今天。


解决方法:


要仔细查看那些让结果表现得异常好的变量,这些变量有可能是不应该使用,或者不应该直接使用的。


给数据加上时间戳,避免被误用。



好了,关于避免数据挖掘弊端的方法就先给大家说这么多,想要了解更多关于大数据方面内容的小伙伴,请关注扣丁学堂大数据培训官网、微信等平台,扣丁学堂老师精心推出的大数据视频教程定能让你快速掌握大数据从入门到精通开发实战技能。扣丁学堂大数据学习群:209080834。


扣丁学堂微信公众号


【关注微信公众号获取更多学习资料】 



查看更多关于“大数据培训资讯”的相关文章>



标签: 扣丁学堂大数据培训 大数据培训 大数据视频教程 大数据在线学习 大数据在线视频 大数据分析教程 大数据基础教程 大数据入门教程 大数据在线学习 大数据云计算
微信
微博
15311698296

全国免费咨询热线

邮箱:codingke@1000phone.com

官方群:148715490

北京千锋互联科技有限公司版权所有   北京市海淀区宝盛北里西区28号天丰利商场4层
京ICP备12003911号-6   Copyright © 2013 - 2019
返回顶部 返回顶部