抱歉,您的浏览器无法访问本站
本页面需要浏览器支持(启用)JavaScript
了解详情 >


大数据处理技术 - hadoop 的介绍以及发展历史

Hadoop 是什么?

Hadoop: The Definitive Guide

谁说大象不能跳舞?! —— 挑战互联网规模的数据存储与分析!

Hadoop:适合大数据的分布式存储和计算平台.

Hadoop 不是指具体一个框架或者组件,它是 Apache 软件基金会下用 Java 语言开发的一个开源分布式计算平台。实现在大量计算机组成的集群中对海量数据进行分布式计算。适合大数据的分布式存储和计算平台。

Hadoop1.x 中包括两个核心组件:MapReduceHadoop Distributed File System (HDFS).

其中 HDFS 负责将海量数据进行分布式存储,而 MapReduce 负责提供对数据的计算结果的汇总.

Hadoop 的起源

Hadoop 最早起源于 Nutch

Nutch 的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题 —— 如何解决数十亿网页的存储和索引问题。

2003 年、2004 年谷歌发表的两篇论文为该问题提供了可行的解决方案。

  • 分布式文件系统 GFS,可用于处理海量网页的存储
  • 分布式计算框架 MAPREDUCE,可用于处理海量网页的索引计算问题。

Nutch 的开发人员完成了相应的开源实现 HDFSMAPREDUCE,并从 Nutch 中剥离成为独立项目 HADOOP,到 2008 年 1 月,HADOOP 成为 Apache 顶级项目 (同年,cloudera 公司成立),迎来了它的快速发展期。狭义上来说,hadoop 就是单独指代 hadoop 这个软件,广义上来说,hadoop 指代大数据的一个生态圈,包括很多其他的软件.

大数据Hadoop生态圈

2003-2004 年,Google 公布了部分 GFS 和 MapReduce 思想的细节,受此启发的 Doug Cutting 等人用 2 年的业余时间实现了 DFS 和 MapReduce 机制,使 Nutch 性能飙升,然后 Yahoo 招安 Doug Gutting 及其项目。

2005 年,Hadoop 作为 Lucene 的子项目 Nutch 的一部分正式引入 Apache 基金会。

2006 年 2 月被分离出来,成为一套完整独立的软件,起名为 Hadoop

Hadoop 名字不是一个编写,而是一个生造出来的词。是 Hadoop 之父 Doug Cutting 儿子毛线玩具象命名的。

Hadoop 的成长过程

Lucene -> Nutch -> Hadoop

总结起来,Hadoop 起源于 Google 的三大论文

  • GFS:Google 的分布式文件系统 Google File System
  • MapReduce:Google 的 MapReduce 开源分布式并行计算框架
  • BigTable:一个大型的分布式数据库

演变关系

GFS -> HDFS
Google MapReduce —> Hadoop MapReduce
Big Table —> HBase

Hadoop 发展史

2004 年 —— 最初的版本(现在称为 HDFS 和 MapReduce) 由 Doug Cutting 和 Mike Cafarella 开始实施。
2005 年 12 月 —— Nutch 移植到新的框架,Hadoop 在 20 个节点上稳定运行。
2006 年 1 月 —— Doug Cutting 加入雅虎。
2006 年 2 月 —— Apache Hadoop 项目正式启动以支持 MapReduce 和 HDFS 的独立发展。
2006 年 2 月 —— 雅虎的网格计算团队采用 Hadoop。
2006 年 4 月 —— 标准排序(10GB 每个节点)在 188 个节点上运行 47.9 个小时。
2006 年 5 月 —— 雅虎建立了一个 300 个节点的 Hadoop 研究集群。
2006 年 5 月 —— 标准排序在 500 个节点上运行 42 个小时(硬件配置比 4 月的更好)。
2006 年 11 月 —— 研究集群增加到 600 个节点。
2006 年 12 月 —— 标准排序在 20 个节点上运行 1.8 个小时,100 个节点 3.3 小时,500 个节点 5.2 小时,900 个节点 7.8 个小时。
2007 年 1 月 —— 研究集群到达 900 个节点。
2007 年 4 月 —— 研究集群达到两个 1000 个节点的集群。
2008 年 4 月 —— 赢得世界最快 1TB 数据排序在 900 个节点上用时 209 秒。
2008 年 7 月 —— 雅虎测试节点增加到 4000 个
2008 年 9 月 —— Hive 成为 Hadoop 的子项目
2008 年 11 月 —— Google 宣布其 MapReduce 用 68 秒对 1TB 的程序进行排序
2008 年 10 月 —— 研究集群每天装载 10TB 的数据。
2008 年 —— 淘宝开始投入研究基于 Hadoop 的系统 - 云梯。云梯总容量约 9.3PB,共有 1100 台机器,每天处理 18000 道作业,扫描 500TB 数据。
2009 年 3 月 —— 17 个集群总共 24000 台机器。
2009 年 3 月 —— Cloudera 推出 CDH (Cloudera’s Dsitribution Including Apache Hadoop)
2009 年 4 月 —— 赢得每分钟排序,雅虎 59 秒内排序 500GB(在 1400 个节点上)和 173 分钟内排序 100TB 数据(在 3400 个节点上)。
2009 年 5 月 —— Yahoo 的团队使用 Hadoop 对 1 TB 的数据进行排序只花了 62 秒时间。
2009 年 7 月 —— Hadoop Core 项目更名为 Hadoop Common;
2009 年 7 月 —— MapReduce 和 Hadoop Distributed File System (HDFS) 成为 Hadoop 项目的独立子项目
2009 年 7 月 —— Avro 和 Chukwa 成为 Hadoop 新的子项目
2009 年 9 月 —— 亚联 BI 团队开始跟踪研究 Hadoop
2009 年 12 月 —— 亚联提出橘云战略,开始研究 Hadoop
2010 年 5 月 —— Avro 脱离 Hadoop 项目,成为 Apache 顶级项目。
2010 年 5 月 —— HBase 脱离 Hadoop 项目,成为 Apache 顶级项目。
2010 年 5 月 —— IBM 提供了基于 Hadoop 的大数据分析软件 ——InfoSphere Biglnsights,包括基础版和企业版。
2010 年 9 月 —— Hive (Facebook) 脱离 Hadoop,成为 Apache 顶级项目。
2010 年 9 月 —— Pig 脱离 Hadoop,成为 ApacheJ 顶级项目。
2011 年 1 月 —— zooKeeper 脱离 Hadoop,成为 Apache 顶级项目
2011 年 3 月 —— Apache Hadoop 获得 Media Guardian Innovation Awards。
2011 年 3 月 —— Platform Computing 宣布在它的 Symphony 软件中支持 Hadoop MapReduce APl。
2011 年 5 月 —— Mapr Technologies 公司推出分布式文件系统和 MapReduce 引擎 ——MapR Distribution for Apache Hadoop。
2011 年 5 月 —— HCatalog 1.0 发布。该项目由 Hortonworks 在 2010 年 3 月份提出,HCatalog 主要用于解决数据存储、元数据的问题,主要解决 HDFS 的瓶颈,
它提供了一个地方来存储数据的状态信息,这使得数据清理和归档工具可以很容易的进行处理。
2011 年 4 月 —— SGI (Silicon Graphics International) 基于 SGI Rackable 和 CloudRack 服务器产品线提供 Hadoop 优化的解决方案。

Hadoop 的历史版本介绍

0.x 系列版本:hadoop 当中最早的一个开源版本,在此基础上演变而来的 1.x 以及 2.x 的版本

1.x 版本系列:hadoop 版本当中的第二代开源版本,主要修复 0.x 版本的一些 bug 等

2.x 版本系列:架构产生重大变化,引入了 yarn 平台等许多新特性

Hadoop 的历史版本

三大公司发行版本

免费开源版本 Apache

http://hadoop.apache.org/

优点:拥有全世界的开源贡献者,代码更新迭代版本比较快

缺点:版本的升级,版本的维护,版本的兼容性,版本的补丁都可能考虑不太周到,学习可以用,实际生产工作环境尽量不要使用

apache 所有软件的下载地址(包括各种历史版本):

http://archive.apache.org/dist/

免费开源版本 HortonWorks

https://hortonworks.com/

hortonworks 主要是雅虎主导 Hadoop 开发的副总裁,带领二十几个核心成员成立 Hortonworks,核心产品软件 HDP(ambari),HDF 免费开源,并且提供一整套的 web 管理界面,供我们可以通过 web 界面管理我们的集群状态,web 管理界面软件 HDF 网址(http://ambari.apache.org/)

软件收费版本 ClouderaManager

https://www.cloudera.com/

cloudera 主要是美国一家大数据公司在 apache 开源 hadoop 的版本上,通过自己公司内部的各种补丁,实现版本之间的稳定运行,大数据生态圈的各个版本的软件都提供了对应的版本,解决了版本的升级困难,版本兼容性等各种问题,生产环境强烈推荐使用

推荐阅读
大数据处理技术-Hadoop集群初体验 大数据处理技术-Hadoop集群初体验 大数据技术概述 大数据技术概述 大数据处理技术-Hadoop-MapReduce 大数据处理技术-Hadoop-MapReduce 大数据处理技术-HDFS入门介绍 大数据处理技术-HDFS入门介绍 Flink 编程模型 Flink 编程模型 Hadoop Hadoop

留言区

Are You A Robot?