15036188778

您所在位置: 首页> 学习课程> 大数据培训 | 用好Hadoop的方法有哪些?

大数据培训 | 用好Hadoop的方法有哪些?

发布百知教育 来源:学习课程 2019-11-08

现如今的Hadoop正在不断完善,也让海量数据挖掘成为可能,互联网企业们更是想将这个工具发挥到极致,接下来小编给大家整理了一些用好Hadoop的方法,对此感兴趣的小伙伴就随小编来了解一下吧。



百知教育大数据培训分享用好Hadoop的方法有哪些


问题一:Hadoop存储海量数据没有问题,但是如何能够做到海量数据的实时检索,这个有什么好的建议,我们现在是通过跑脚本来检索的,数据量大了就需要等待很长时间才会有结果。


答:海量数据的实时检索可以考虑HBase,建议可以使用hadoop将数据构建成以查询key为键的数据集,然后将集合写入Hbase表中,Hbase会自动以key为键进行索引,在数十亿甚至以上的级别下,查询key的value响应时间也估计再10毫秒内。


如果检索条件是多个组合的情况下,可以适当的设计多个hbase表格,这样的检索也是很快的,同时Hbase也是支持二级索引。在符合条件下查询,Hbase也是支持MapReduce的,如果对响应时间要求不高的情况下,可以考虑将hive和Hbase系统结合来使用。



如果数据量不是很大的情况下也可以考虑支持类似SQL的NOSLQ系统。



问题二:大的文件拆分成很多小的文件后,怎样用Hadoop进行高效的处理这些小文件?以及怎样让各个节点尽可能的负载均衡?


答:1、怎样用Hadoop进行高效的处理这些小文件?


你这个问题提的很好,hadoop在处理大规模数据时是很高效的,但是处理大量的小文件时就会因为系统资源开销过大而导致效率较低,针对这样的问题,可以将小文件打包为大文件,例如使用SequcenFile文件格式,例如以文件签名为key,文件内容本身为value写成SequcenFile文件的一条记录,这样多个小文件就可以通过SequcenFile文件格式变为一个大文件,之前的每个小文件都会映射为SequcenFile文件的一条记录。


2、怎样让各个节点尽可能的负载均衡?


在hadoop集群中负载均衡是非常关键的,这种情况的导致往往是因为用户的数据分布的并不均衡,而计算资源槽位数确实均衡分布在每个节点,这样在作业运行时非本地任务会有大量的数据传输,从而导致集群负载不均衡,因此解决不均衡的要点就是将用户的数据分布均衡,可以使用hadoop内置的balancer脚本命令。

大数据培训班:http://www.baizhiedu.com/bigdata2019


上一篇:UI培训 | 交互设计师如何做好陌生领域的设计?

下一篇:应届生去公司找个Java程序员的职位需要什么技能?

相关推荐

www.baizhiedu.com

有位老师想和您聊一聊

关闭

立即申请