October 16,2008
Hadoop - getting start
因為計中和IR lab好像都要用到hadoop這個東西
加上最近yahoo在我生活中整個很有名
所以想說來研究一下hadoop
筆記!
加上最近yahoo在我生活中整個很有名
所以想說來研究一下hadoop
筆記!
Hadoop 簡單的說就是建立一個cluster平台
利用MapReduce的概念將一個工作分到很多個cluster去平行運算
Map就是將一個工作分到多個運算節點(Node)
Reduce就是將各個節點的結果再重新結合成最後的結果
而Hadoop就是提供這樣的環境的平台
Hadoop需要的Java 1.5的環境
以及ssh和sshd的服務
另外再加上rsync的服務
ssh是hadoop用來跟各個節點溝通時的介面
而rsync是溝通時的演算法
rsync其實是一種快速的檔案傳輸方法
用來將local端和remote端的檔案做同步
而同步的方法則是只傳輸檔案之間有差異的部份而已
所以很快速
總之在安裝hadoop時
要記得安裝ssh和rsync兩個套件
在ubuntu上 只需要輸入
安裝後就可以下載hadoop了
到 http://hadoop.apache.org/core/releases.html 下載hadoop
下載後解壓縮
修改conf/hadoop-env.sh檔裡的$JAVA_HOME變數
指到你的j2sdk1.5-sun
(預設似乎是 /usr/lin/j2sdk1.5-sun )
接著在hadoop資料夾下就可以開始測試執行hadoop了
只要輸入
接著會看到很多hadoop的相關指令
接下來就可以開始玩Hadoop囉!!
利用MapReduce的概念將一個工作分到很多個cluster去平行運算
Map就是將一個工作分到多個運算節點(Node)
Reduce就是將各個節點的結果再重新結合成最後的結果
而Hadoop就是提供這樣的環境的平台
Hadoop需要的Java 1.5的環境
以及ssh和sshd的服務
另外再加上rsync的服務
ssh是hadoop用來跟各個節點溝通時的介面
而rsync是溝通時的演算法
rsync其實是一種快速的檔案傳輸方法
用來將local端和remote端的檔案做同步
而同步的方法則是只傳輸檔案之間有差異的部份而已
所以很快速
總之在安裝hadoop時
要記得安裝ssh和rsync兩個套件
在ubuntu上 只需要輸入
sudo apt-get install ssh rsync
安裝後就可以下載hadoop了
到 http://hadoop.apache.org/core/releases.html 下載hadoop
下載後解壓縮
修改conf/hadoop-env.sh檔裡的$JAVA_HOME變數
指到你的j2sdk1.5-sun
(預設似乎是 /usr/lin/j2sdk1.5-sun )
接著在hadoop資料夾下就可以開始測試執行hadoop了
只要輸入
bin/hadoop
接著會看到很多hadoop的相關指令
接下來就可以開始玩Hadoop囉!!
引用URL
http://cgi.blog.roodo.com/trackback/7387321