越学越上瘾   11.11 来百知学IT   课程全面升级

立刻报名学习

400-616-5551

您所在位置: 首页> 学习资讯> 想成为大数据分析师?这个入门框架你必须得懂

想成为大数据分析师?这个入门框架你必须得懂

发布百知教育 来源:学习资讯 2019-09-10

依托于大数据和人工智能的发展,数据分析师成为这几年新兴的职业之一。其实数据分析师听起来高大上,但日常工作并没有什么神秘的,工作套路非常固定化。只需要掌握了以下框架,你起码可以入门数据分析师这个行业了。


数据分析师一般遵循以下一个流程:


1.png

大数据分析师分析框架


数据分析师拿到一个需求之后,一般会按照以下框架走一遍流程,整个流程走完之后,一个大数据分析的项目就差不多了。


一、明确需求——确定业务目标


在进行项目之前,首先需要明确期望效果,应用场景等。效果方面,如果需求提出者期望一个模型要达到远超过现有技术水平的效果,那么做之前可能要三思。在应用场景方面,不同的场景下对模型指标的要求是不同的,在后期取舍过程中要根据场景抉择。比如说,如果是一个安防类的项目,在设计模型和调整参数的过程中就要保证最低程度的漏判,宁可错杀,不可放过。


二、数据预处理


这个世界本来就是复杂的,要想将所有现实现象整理出条理的数据是非常难的。就拿用户婚姻数据来说,你可能觉得只有已婚、未婚两种情况而已。但是,如果是离婚呢?离婚多久定义为未婚呢?如果是离婚之后再结婚呢?这在数据采集端就产生了非常多的歧义。当然会出现很多错误数据。有些数据还有可能是空值。


另外,大数据的热潮从16年才开始逐渐达到顶峰,各大公司也就是近几年开始才慢慢有了“数据就是财富”的意识,开始注重对运营数据的搜集和整理。诚如这样,目前搜集数据的难度依旧很大,更别说几年前随意录入的老旧数据了。所以,若是参加Kaggle等大数据比赛还好,若是真正在公司从事具体的大数据分析业务,大多数情况下,数据的质量是不会太高的。


数据主要存在错误、异常值和噪声三种问题。数据预处理的目的,第一就是对特征不全的数据进行处理(补0、删除该条数据等);第二就是尽量找出不符合现实规律的数据并且进行数据变换;第三就是将每个特征的数据范围缩到一定的范围之内(标准化、归一化等),防止某些数据范围过大得到更多的权重。


插句题外话,数据分析入门时期,除了Kaggle等这些比赛平台,也很难有优质直观的数据来练手。


三、特征工程


这是所有步骤中从字面意思上看最难理解的一个步骤。其实,这一步骤的目的就是最大限度地从原始数据中提取有用的特征供算法和模型使用。

特征工程主要包括两个步骤:特征选择和特征提取。特征选择就是在给的所有信息中提取最有用的特征进行训练。特征提取就是将现有特征进行整合,得到更有用的特征。


在文章的开头提到过,掌握了本文的框架,你就可以入门数据分析师这个行业了。而精通特征工程,你就可以成为一个经验丰富的数据分析师了。数据分析大佬和数据分析初学者最主要的区别,就是能否在大量数据中精准地找出当前业务所需要的有用特征,直接命中当前业务的本质。


Kaggle上有一句非常经典的话,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。数据的好坏大多数情况下没有办法由我们决定,我们只能在特征工程方面下功夫。所以说,要想精通数据分析这个领域,还是要在特征工程这一块儿一定要有足够的敏感度。


要想在特征工程这一步有所提高,一是掌握通用的特征工程方法。包括方差选择法、相关系数法、卡方检验法、互信息法等通用的数学方法,甚至在必要的时候还需要对特征进行降维和特征组合;二是充分了解业务,或者和相应领域的业务专家进行沟通,获取最能表现当前数据的特征。


比如,你要通过大数据构建一个模型来判断一个人的性别。每条数据中包含了身高、体重、头发长度、三围、睫毛长度、臂长、腿长等特征信息。表格示例如下图所示:


6.png

性别分类数据集


应用在人类身上,你就可以非常明确地知道:睫毛长度、臂长、腿长这些特征对判断男女是没有太大帮助的,可以在构建模型的时候舍弃。身高和头发长度可以作为判断的依据。另外,你还可以通过胸围、腰围、臀围组合形成一个更好的组合特征来判断性别。


但是,如果交给一个刚从外星球来的数据分析师来建模,他没有见过地球人,也不了解男女。那么他可能会把臂长、腿长这些特征来构建模型。就算让他来构建组合特征,也会构建出毫无意义的各种组合。比如将睫毛长度、臂长、腿长等进行组合。


别笑!其实你在做某些不熟悉业务的数据建模的时候,非常可能和这个初来乍到的外星人犯一样的错误,有一些毫无意义的特征来构建模型,让内行人笑掉大牙。比如,让一个从来没有做过金融业务的数据分析师来做贷款客户留存模型等金融业务,很可能因为不懂金融业务而犯类似的错误。

四、构建模型


大多数人一提到数据分析,脑海中就会浮现出各种高端深奥的数学模型。选取各种高端的模型,通过数据学习模型的参数,让机器学会对应的分类能力,这本来是最激动人心的环节,但是,事实恰恰相反,在当前的数据分析的所有流程里,建模恰恰是一个最枯燥的流程。因为目前机器学习算法好用的就那么几种,在实际应用中,完全可以想都不用想,直接上常用的那几种算法。比如基础的SVM、LR、决策树以及工业上最常用的XGBOOST。


这其实也是无奈之举,自己设计一个模型需要深厚的数学功底,大多数数据分析师不具备这种能力,而经过时间的长河积淀下来的模型也只有那么几个好用。


所以在实际操作过程中,这一步也是最模板化的,Python下有很多包已经实现了常用的机器学习算法,只需要几条语句和自己的输入就能调用一个成熟的机器学习算法建模,大大节省了自己实现这些算法的难度。这一点也将大数据分析师的门槛极大地拉低,使大数据分析成为一个人人都能用的技术。

五、调试模型


这个时候,炼丹模式就要上线了。建议焚香三炷、调参的时候要沐浴斋戒,心怀虔诚。因为这是整个数据分析环节最不可控的环节。在这里,一切皆有可能。可能你会得到一个非常超出预期的模型,可能你只会得到一个无意义的模型。在这个流程里,生死有命,谋事在人,成事在天,无论得到什么结果,也要保持一颗平常心。


理论上讲,模型调优是一个“没有最好,只有更好”的过程。但是,在实际情况中,考虑到时间成本、人力成本、资源成本等,实际应用中,不需要追求最好,只需要能够使模型达到需求的预期就好。

六、验证模型


模型验证的套路也很固定,无非就是精确度,召回率,F2值等指标。但是要注意,这些指标大多数情况下处于鱼和熊掌不可兼得的状态,精确度提高的同时召回率必然会降低,在实际应用中,最重要的是根据项目的实际情况学会做合适的取舍,通过牺牲一部分指标值来提高另一个指标。

总结


以上所有步骤中,五、六两步是个循环往复的过程。你可能在具体做一个数据分析项目的时候,在这两个步骤中要折腾很久,耗费大量的时间才能得到令自己满意的模型,在这个时候,你要做的仅仅是以下两点:


1、多分析问题本质。多从业务角度想想可能有用的特征和能够提高的点,而不是盲目修改参数,单靠运气,毕竟炼丹师也是需要有合理的配方的。


2、勤保存模型参数。每一个模型都是经过GPU夜以继日工作和自己的苦苦等待得出来的,就算表现再差,也是自己辛苦劳动的成果,尽量做好备份和注释,都详尽记录下来当时的思路和所用到的参数,并且合理命名,万一以后用到了呢。


大数据培训:http://www.baizhiedu.com/bigdata2019



上一篇:大数据催生新职业,数据分析师为何如此“抢手”?

下一篇:大数据培训 | 大数据组件Hadoop、HBase等原理总结

相关推荐