400-616-5551

您所在位置: 首页> 学习课程> 大数据入门学习:大数据基础之绪论与基本概念

大数据入门学习:大数据基础之绪论与基本概念

发布百知教育 来源:学习课程 2019-11-29

1、绪论


大数据的"大"是相对的,例如100MB的数据在几十年前也是大数据,现在来说不算大了,但是应用场景不同,"小数据"也可能变为大数据,例如之前的100MB数据,如果需要在1毫秒之内对100MB数据完成复杂的数据挖掘分析。


那么什么是大数据问题,这里给出计算学科的永恒话题:


1. 给定有限的计算资源c,或成本


2. 给定问题输入x


3. 在一定时间t内


4. 计算出结果f(x)


当输入数据x大到超出了一定的计算能力c或可容忍的时间t,即成为大数据问题。


大数据问题的解决方案是一个交叉学科的方案,当前背景下大数据问题显然需要结合算法、分布式系统和大量用户数据来解决问题。例如最火的AMPLab实验室的三位教授分别是数据库方向(Michael Franklin),机器学习方向(Michael Jordan)、操作系统方向(Ion Stoica)。


大数据对当前社会有哪些意义和价值?




1. 2010年时代杂志刊载的医学界年度十大突破中,医疗科技公司CardioDX通过


对1亿个基因样本的分析,最终识别出能够预测冠心病的23个主要基因


2. 2009年Google的研究人员通过对每日超过3O亿次搜索请求和网页数据的挖掘


分析,在HIN1流感爆发几周就预测出流感传播


3.2007年以来eBay通过数据分析技术可以精确计算出广告中的每一个关键字为公司带来的回报。通过对广告投放的优化,eBay产品销售的广告费降低了99%,而顶级卖家占总销售额的百分比却上升至32%。


那么"大数据"究竟大在哪?大在它的维度,维度包括,数据规模,数据类型,生命周期,加工深度,处理方式,系统用户,数据质量,数据价值。



数据规模大,从TB->PB->EB->ZB->...



多样的数据类型:①结构化数据(关系型数据库):先有模式,后有数据②半结构化数据(XML文档数据):先有部分模式③非结构化数据(文本图片,音频):现有数据,后有模式(半结构和非结构化数据是大数据的主体,占到80%以上)



大数据分析生命周期长:获取记录,抽取清洗,集成聚合,分析建模,解释展示,可如下图所以:


如果你对java大数据开发感兴趣,想系统学习大数据的话,可以加入Java大数据技术学习交流群410391744,欢迎添加,私信管理员,了解课程介绍,免费获取学习资源。


大数据培训班


大数据分析的生命周期


大数据的深度加工难度大且复杂:数据(Raw data),信息(information),知识(Knowledge),智慧(Insight)。

大数据处理方式多:批量(Batch),在线(Online),实时(Real-time)。

大数据的质量要求高:

精确性:数据是否精确表述一个事实。

一致性:不同数据实体间关系是否一致。

完整性:是否所有必要的数据都已经呈现。

时效性:数据及其起源是否能够及时获取。

大数据的价值:

价值密度的稀疏,新浪微博一天有1亿多条消息,几乎都是没有价值的,红楼梦仅有73W字,但是围绕着它的分析,论文,课程,对比那1亿多条消息显然是有价值的多。

目前大数据技术体系现状可以分为以下六点:①采集与集成;②存储于管理;③分析与挖掘;④可视化;⑤隐私与安全;⑥计算范型。


大数据问题有个无法回避的问题就是数据质量问题,之前有提到,大数据的要求高,而传统数据质量仅通过ETL方式执行(抽取,转换,加载,解析,模式分析)没有完全覆盖数据质量的基本性质。并且往往收集来的数据具有的是高纬、海量、多变、模糊、质量低下等特点。所以在大数据中保证绝对的数据质量并不现实。况且在现代软件工程中我们还需要面对来自分布式环境的挑战:如何保证全局数据的一致性、精确性、完整性;流数据环境中如何保证时效性、一致性等问题。


大数据的特点由下图所示:


大数据培训班


基本上大厂都是推出符合自身业务的软件技术栈来弥补硬件上的不足。


这里给出一些常见的大数据软件及平台。


Cassandra,是一套开源的NOSQL数据库,用于社交网、物联网领域的典型大数据系统。


Berkeley大数据处理平台(BDAS),它的特点是快速的处理大量数据。


目前比较热门流行的基本来说是指hadoop生态圈+spark生态圈了,spark生态圈主要是基于Hadoop的文件存储系统,它解决了hadoop在内存上的不足问题,将数据加载在内存上,在内存崩溃时又能利用文件管理系统恢复。所以它的速度要比mapreduce高一到两个数量级。


人们普遍认识到的数据"大"(Volume),不是数据科学面临的全部挑战,甚至不是主要挑战。来自不同数据源的、不同类型、不同语义(Variety)的数据集合的深度综合与融合问题远没有解决,同时,物联网、传感网、穿戴设备等机器数据的快速到达(Velocity),对数据处理的时效性提出了更大的挑战,除此之外数据隐私与可用性(包括数据质量)问题更是存在挑战。


大数据培训班:http://www.baizhiedu.com/bigdata2019


上一篇:大数据培训班 | 大数据就业前景如何?

下一篇:Python最好的就业方向是什么,能赚多少钱?

相关推荐

关闭

立即申请

www.baizhiedu.com