2012年9月28日 星期五

自問自答之為什麼有了HIVE還要HBASE?

純紀錄而已不爽看不要看


問:


Hive可以直接用於Hadoop,為什麼還要在Hadoop和Hive之間加上Hbase呢?是因為有啥好處?


答:


1.HIVE可以"直接"讀取HDFS數據資料,但是HDFS"不支援"隨機讀取,但HBASE支援
2.HIVE只是一個簡化MR撰寫程式的一個工具, 只是資料倉儲中的一個DB
3.HBASE是NOSQL資料庫, 可以處理"事務"
4.HBASE提供高性能的key/value查詢

似乎可以處理"事務"比較屌的樣子, 還有很多答案吧, 以後看到再繼續補上去

2 則留言:

  1. 你好, 很高興你的回應
    這篇文是小弟去年剛學hadoop時, 非懂似懂時寫上的, 還好有你的回應, 不然我也沒注意到錯誤, 很感謝你.
    隨機讀取(存取)又稱直接存取, 是指同時間內讀取某一序列中的一個任意元件.  反之就是循序存取.
    白話一點的比喻就是當下的mp跟3早期的錄音帶, 前者可以任意跳到你要聽的地方, 後者則要快轉會倒退.

    hdfs是有隨機存取的功能, 可以透過DFSInputStream這隻api讀取你想要文件, google一下可以得到很多資訊的^_^
    就是因為hbase是建構在hdfs之上, 所以hbase才能號稱是能即時讀寫的big data資料庫. 不過目前我看到的評論, hbase的讀性能似乎沒有寫入的好.
    我自己是看書以及google摸索的, 沒有任何實務經驗, 如果還有問題可以再反應給我, 我會仔細想想的

    回覆刪除