01_hadoop發展簡史


簡介

    Hadoop是一個能夠對大量數據進行分布式處理軟件框架。 Hadoop 以一種可靠、高效、可伸縮的方式進行數據處理。Hadoop來源於於Apach Nutch(一個開源的網絡搜索引擎),是Apach Lucene(文本搜索引擎庫)的一部分。Hadoop的名字不是英文的縮寫,他是一個虛構的名字,來自於創始人Doug Cutting孩子的一個大象玩具的名字。

    Nutch項目開始於2002年,一個可工作的抓取工具和搜索系統很快浮出水面。但是此時他們意識到,他們的架構無法擴展到數十億網頁的網絡。在2003年Google發表的一篇描述分布式文件系統(Google file system 簡稱GFS)的論文給了他們啟發和幫助。論文中稱Google正在使用這個系統。可以解決他們在網絡抓取過程中產生大量數據文件的存儲需求,因此產生了Nutch中的分布式文件系統(NDFS)。在2004年,Google發表了論文,向全世界介紹了MapReduce,MapReduce是一種用於數據處理的編程模型。而Hadoop的另外一個核心模塊MapReduce就是這篇論文的一個具體實現。

    Nutch中的NDFS和MapReduce實現的應用遠不止搜索領域。在2006年2月,他們從Nutch中轉移出來一個Lucene一個獨立的子項目,稱為Hadoop。大約在同一時間,Dong Cutting加入雅虎。雅虎提供了一個專門的團隊和資源將Hadoop發展成為一個可在網絡上運行的系統。2008年2月雅虎宣布其搜索引擎產品可部署在一個1萬個內核的Hadoop集群上。在2008年4月,Hadoop打破世界紀錄,稱為最快排序1T數據的系統(不到三分鍾),擊敗了前一年的297秒冠軍。同年11月Google在報告中稱他的MapReduce在執行1T數據排序只用了68秒。在2009年5月,報告稱雅虎的團隊使用Hadoop對1T數據進行排序只用了62秒。



子項目

   HDFS:Hadoop分布式文件系統(Hadoop Distributed File System)

   MapReduce:並行計算框架

   Hbase:類似於Google BigTable分布式NoSql列數據庫

   Hive:數據倉庫工具,由Facebook貢獻

   Zookeeper:分布式鎖設施,提供類似Google chubby的功能,由Facebook貢獻

   Avro:數據序列化與格式傳輸工具

   Pig:大數據分析工具,為用戶提供多種接口

   Ambari:Hadoop管理工具,可以快捷的監控、部署、管理集群。

   Sqoop:於在HADOOP與傳統的數據庫間進行數據的傳遞。

   





注意!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。



 
粤ICP备14056181号  © 2014-2020 ITdaan.com