這篇文章主要介紹“大數據Hbase面試題有哪些”,在日常操作中,相信很多人在大數據Hbase面試題有哪些問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”大數據Hbase面試題有哪些”的疑惑有所幫助!接下來,請跟著小編一起來學習吧!
一、簡述 HBASE 中 compact 用途是什么,什么時候觸發,分為哪兩種,有什么區別,有哪些相關配置參數?
在 hbase 中每當有 memstore 數據 flush 到磁盤之后,就形成一個 storefile, 當 storeFile 的數量達到一定程度后,就需要將 storefile 文件來進行 compaction 操作。Compact 的作用:
1、合并文件
2、清除過期,多余版本的數據
3、提高讀寫數據的效率
二、HBase 中實現了兩種 compaction 的方式 : minor and major這兩種compaction 方式的區別是:
1、Minor 操作只用來做部分文件的合并操作以及包括 minVersion=0 并且設置 ttl 的過期版本清理,不做任何刪除數據、多版本數據的清理工作。
2、Major 操作是對 Region 下的 HStore 下的所有 StoreFile 執行合并操作, 最終的結果是整理合并出一個文件。
三、簡述 Hbase filter 的實現原理是什么?結合實際項目經驗,寫出幾個使用filter 的場景。
HBase 為篩選數據提供了一組過濾器,通過這個過濾器可以在 HBase 中的數據的多個維度(行,列,數據版本)上進行對數據的篩選操作,也就是說過濾器最終能夠篩選的數據能夠細化到具體的一個存儲單元格上(由行鍵, 列名,時間戳定位)。RowFilter、PrefixFilter。hbase 的 filter 是通過 scan 設置的,所以是基于 scan 的查詢結果進行過濾. 過濾器的類型很多,但是可以分為兩大類——比較過濾器,專用過濾器。過濾器的作用是在服務端判斷數據是否滿足條件,然后只將滿足條件的數據返回給客戶端;如在進行訂單開發的時候,我們使用 rowkeyfilter 過濾出某個用戶的所有訂單。
四、Hbase 內部是什么機制?
在 HBase 中無論是增加新行還是修改已有的行,其內部流程都是相同的。HBase 接到命令后存下變化信息,或者寫入失敗拋出異常。默認情況下,執行寫入時會寫到兩個地方:預寫式日志(write-ahead log,也稱 HLog)和 MemStore。HBase 的默認方式是把寫入動作記錄在這兩個地方,以保證數據持久化。只有當這兩個地方的變化信息都寫入并確認后,才認為寫動作完成。
MemStore 是內存里的寫入緩沖區,HBase 中數據在永久寫入硬盤之前在這里累積。當MemStore 填滿后,其中的數據會刷寫到硬盤,生成一個HFile。HFile 是HBase 使用的底層存儲格式。HFile 對應于列族,一個列族可以有多個 HFile,但一個 HFile 不能存儲多個列族的數據。在集群的每個節點上,每個列族有一個MemStore。大型分布式系統中硬件故障很常見,HBase 也不例外。
設想一下,如果MemStore 還沒有刷寫,服務器就崩潰了,內存中沒有寫入硬盤的數據就會丟失。HBase 的應對辦法是在寫動作完成之前先寫入 WAL。HBase 集群中每臺服務器維護一個 WAL 來記錄發生的變化。WAL 是底層文件系統上的一個文件。直到WAL 新記錄成功寫入后,寫動作才被認為成功完成。這可以保證 HBase 和支撐它的文件系統滿足持久性。
大多數情況下,HBase 使用Hadoop分布式文件系統(HDFS)來作為底層文件系統。如果 HBase 服務器宕機,沒有從 MemStore 里刷寫到 HFile 的數據將可以通過回放 WAL 來恢復。你不需要手工執行。Hbase 的內部機制中有恢復流程部分來處理。每臺 HBase 服務器有一個 WAL,這臺服務器上的所有表(和它們的列族)共享這個 WAL。你可能想到,寫入時跳過 WAL 應該會提升寫性能。但我們不建議禁用 WAL, 除非你愿意在出問題時丟失數據。如果你想測試一下,如下代碼可以禁用 WAL: 注意:不寫入 WAL 會在 RegionServer 故障時增加丟失數據的風險。關閉 WAL, 出現故障時 HBase 可能無法恢復數據,沒有刷寫到硬盤的所有寫入數據都會丟失。
五、HBase 宕機如何處理?
宕機分為 HMaster 宕機和 HRegisoner 宕機,如果是 HRegisoner 宕機,HMaster 會將其所管理的 region 重新分布到其他活動的 RegionServer 上,由于數據和日志都持久在 HDFS 中,該操作不會導致數據丟失。所以數據的一致性和安全性是有保障的。如果是 HMaster 宕機, HMaster 沒有單點問題, HBase 中可以啟動多個HMaster,通過 Zookeeper 的 Master Election 機制保證總有一個 Master 運行。即ZooKeeper 會保證總會有一個 HMaster 在對外提供服務。
到此,關于“大數據Hbase面試題有哪些”的學習就結束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習,快去試試吧!若想繼續學習更多相關知識,請繼續關注創新互聯成都網站設計公司網站,小編會繼續努力為大家帶來更多實用的文章!
另外有需要云服務器可以了解下創新互聯scvps.cn,海內外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業上云的綜合解決方案,具有“安全穩定、簡單易用、服務可用性高、性價比高”等特點與優勢,專為企業上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。
網站欄目:大數據Hbase面試題有哪些-創新互聯
文章URL:http://vcdvsql.cn/article42/csciec.html
成都網站建設公司_創新互聯,為您提供網站制作、品牌網站制作、定制開發、自適應網站、網頁設計公司、響應式網站
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯