2012年8月29日 星期三

HDFS簡單操作以及安裝Eclipse Hadoop Plugin

前言

這篇的HDFS簡單操作,簡單到只有"檔案上傳"跟"檢視上傳的檔案",其他的我也不太會。
想要把安裝Eclipse Hadoop Plugin跟這篇放一起是因為上傳檔案完後可以從eclipse裡面看到你的路徑還有檔案,也可以從eclipse裡面刪除,很方便。這篇的指令就不多解釋了,拜神可以查到一堆。這網站也不賴的


工具


https://docs.google.com/folder/d/0B1hKA25bLYJETVdveVItUklFLUE/edit
這裡面有hadoop-eclipse-plugin-1.0.3.jar,apat63_99.zip
hadoop-eclipse-plugin-1.0.3.jar直接丟到eclipse的plugins資料夾裡面。
apat63_99.zip解開後把txt檔找個地方放,我是放在/home/pablo/hadoopbook/apat/input/裡面,隨你放找得到就好。
至於hadoop-eclipse-plugin-1.0.3.jar怎麼complier出來的,我不會,我是google找到的。
apat63_99.txt是hadoop in action書中用的範例檔案,是專利明細檔。以hadoop來說這份拿來分析的檔案不算大,只是用來玩玩罷了。


環境


主戰機是windows7專業版64位元,vmplayer裝ubuntu12.04 桌面板 64位元。
已經照著之前的網誌裝好環境了。
Eclipse是3.6 SR2。


實作

[步驟一]

這裡我假設看到這段文字的人都已經成功啟動Hadoop了,並且把plugin丟進去了,開啟eclipse。

開啟eclipse之後,有些地方要調一下,跟著我做下去吧。

視窗切換到MapReduce。


切換後就畫面會向下圖那像,右下方會出現一隻藍色大象(New hadoop location...),請假裝沒看到最下方的那隻藍色大象,因為我之前已經產生過了。





點進來後出現的視窗,就照著下圖的去修改。(host跟user name要換成自己的)


修改完後,關掉eclipse再重開,我相信各位看官的eclipse左方(全部展開)以及下方會有跟下圖一樣的東西。


恭喜,你們已經踏進八奇的領域了!!



[步驟二]


回到主戰機(UD1204)的terminal,輸入hadoop dfs -ls /

會出現hadoop的檔案目錄,現在只有一個/home,不過我不愛用這個,我喜歡自己建另一個,請再輸入hadoop dfs -mkdir /hduser/apat/input,會看到的東西請見下圖。


see,我又多建了一個系統檔案的目錄了,下個步驟就把apat63_99.txt放到/hduser/apat/input裡面去,請輸入hadoop dfs -put hadoopbook/apat/data/apat63_99.txt /hduser/apat/input。

這樣就放上去囉,至於這檔案放到哪裡去?請下hadoop fsck /hduser/apat/input/apat63_99.txt -files -blocks -locations
預設是64MB切成一個block,且備份3份,從上圖可以看的出來每一個block放在哪一些datanode中。

再回到eclipse看看,把左邊的DFS Locations展開,你會看到你剛剛建立的路徑以及放上去的東西。




以上,OVER。

沒有留言:

張貼留言