提起分布式计算框架MapReduce,不得不说Hadoop,我们都知道Hadoop是一个开源软件框架,用于在商用硬件集群上存储数据和运行应用程序,但是不知道为什么在大数据培训班就要学习Hadoop,它们有什么联系吗?
大数据其实有两种发展方向,一个是大数据分析,另一个是大数据开发,我们都知道大数据是时代发展和技术进步的产物,那么涉及到大数据的处理,Hadoop只是一种处理大数据的技术手段,它为任何类型的数据提供海量存储,巨大的处理能力以及处理几乎无限的并发任务或作业的能力。
Hadoop组成
Hadoop HDFS:一个高可靠、高吞吐量的分布式文件系统,对海量数据的存储。
Hadoop MapReduce:一个分布式的资源调度和离线并行计算框架。
Hadoop Yarn:基于HDFS,用于作业调度和集群资源管理的框架。
什么是计算框架?
是指实现某项任务或某项工作从开始到结束的计算过程或流的结构。用于去解决或者处理某个复杂的计算问题。
学习大数据肯定需要学习Hadoop技术,Hadoop在大数据技术体系中的地位至关重要,Hadoop是大数据技术的基础,对Hadoop基础知识的掌握的扎实程度,会决定在大数据技术道路上走多远。
也就是说我们刚开始学习大数据,可能对很多内容否分不清,但是大数据培训班都会把课程分阶段讲解,也就是课程是由浅入深进行的,在刚开始的时候,基础一定要打牢,那么后期对于大数据开发方面的掌握才能得心应手。
分布式并行计算框架
一个大的任务被拆分成多个小任务,每个小任务同时执行。按照执行流程进行计算。
什么是分布式计算?
分布式计算:是一种计算方法,是将该应用分解成许多小的部分,分配给多台计算机进行处理。这样可以节约整体 计算时间,大大提高计算效率。
Hadoop为什么比传统技术方案快?
核心原因一:使用分布式存储。
核心原因二:使用分布式并行计算框架。
大数据培训班:http://www.baizhiedu.com/bigdata2019