数据分析,是任何一个行业都离不开的,通过数据分析不仅能够发现用户的习惯,还能够抢占先机,未来是数据的时代,这也造成了数据行业的火爆,很多人开始参加大数据培训班,那我们么在上课过程中会使用哪些数据分析工具,以及数据分析的流程呢?
分析工具的选择
1、取数
一般企业的数据保存在本地数据库或者公有云里,有的会采用mysql、oracle、mongodb等,有的会采用hbase、parquet等。我会建议初学者把sql学精,有余力者可以看看hbase、parquet等大数据存储方式。sql是数据领域最常用的语言,无论是hive、spark、flink都支持sql,以至于机器学习也支持sql,像阿里开源的sqlflow。sql永不落伍。
2、编程语言
Python和R是数据分析领域的绝代双骄,我觉得这两个都适合作为数据分析的核心语言,但最好选择一个来学。
由于很多咨询我的人问的都是关于python的问题,我自己也是在用python工作,所以这里讲一下用python来做数据分析的利与弊。
python这几年的火爆程度堪称编程界的小鲜肉,虽然它诞生也快30年了,但风头正劲。作为一门高级编程语言,python除了不善于开发底层应用,几乎可以做任何事情。拿数据分析来说,从数据库操作、数据IO、数据清洗、数据可视化,到机器学习、批量处理、脚本编写、模型优化、深度学习,python都能完美地完成,而且提供了不同的库供你选择。
除此之外,Jupyter notebook是进行数据分析非常优秀的交互式工具,为初学者提供了方便的实验平台。
3、数据分析库
pandas是一款不断进步的python数据科学库,它的数据结构十分适合做数据处理,并且pandas纳入了大量分析函数方法,以及常用统计学模型、可视化处理。如果你使用python做数据分析,在数据预处理的过程,几乎九成的工作需要使用pandas完成。在一些企业招分析师的笔试题中,pandas已经作为必考的工具,所以如果你想要入行数据分析师,请努力学习使用pandas。numpy是python的数值计算库,包括pandas之类的很多分析库都建立在numpy基础上。numpy的核心功能包括:
ndarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。
用于对整组数据进行快速运算的标准数学函数(无需编写循环)。
用于读写磁盘数据的工具以及用于操作内存映射文件的工具。
线性代数、随机数生成以及傅里叶变换功能。
用于集成由C、C++、Fortran等语言编写的代码的A C API。
numpy之于数值计算特别重要是因为它可以高效处理大数组的数据。这是因为:
比起Python的内置序列,numpy数组使用的内存更少。
numpy可以在整个数组上执行复杂的计算,而不需要Python的for循环。
matplotlib和seaborn是python主要的可视化工具,建议大家都去学学,数据的展现和数据分析同样重要。sklearn和keras,sklearn是python机器学库,涵盖了大部分机器学习模型。keras是深度学习库,它包含高效的数值库Theano和TensorFlow。
数据分析流程在确定数据分析工具之后,要关注数据分析的过程,也就是说当你拿到一批数据后如何开启数据分析。
注释:本文内容来自Python大数据分析,作者朱卫军
大数据培训:http://www.baizhiedu.com/bigdata2019