Hadoop與數(shù)據(jù)倉(cāng)庫(kù)的關(guān)系是什么,針對(duì)這個(gè)問(wèn)題,這篇文章詳細(xì)介紹了相對(duì)應(yīng)的分析和解答,希望可以幫助更多想解決這個(gè)問(wèn)題的小伙伴找到更簡(jiǎn)單易行的方法。
成都創(chuàng)新互聯(lián)公司是專業(yè)的富蘊(yùn)網(wǎng)站建設(shè)公司,富蘊(yùn)接單;提供網(wǎng)站制作、成都網(wǎng)站設(shè)計(jì),網(wǎng)頁(yè)設(shè)計(jì),網(wǎng)站設(shè)計(jì),建網(wǎng)站,PHP網(wǎng)站建設(shè)等專業(yè)做網(wǎng)站服務(wù);采用PHP框架,可快速的進(jìn)行富蘊(yùn)網(wǎng)站開(kāi)發(fā)網(wǎng)頁(yè)制作和功能擴(kuò)展;專業(yè)做搜索引擎喜愛(ài)的網(wǎng)站,專業(yè)的做網(wǎng)站團(tuán)隊(duì),希望更多企業(yè)前來(lái)合作!
RDBMS福利包
全球已經(jīng)在基礎(chǔ)設(shè)施上投資了數(shù)十億美元,以運(yùn)行這些數(shù)據(jù)庫(kù),并由人們進(jìn)行操作和完善以適應(yīng)各種垂直市場(chǎng)應(yīng)用。對(duì)于交易處理,他們?nèi)匀皇菬o(wú)可爭(zhēng)議的王者。
RDBMS的其他好處包括:
從故障中恢復(fù)的能力非常好,在大多數(shù)情況下可以恢復(fù)到最新?tīng)顟B(tài)
RDBMS可以輕松地分布在多個(gè)物理位置
RDBMS實(shí)際上保證了高度的數(shù)據(jù)一致性
SQL很容易學(xué)習(xí)
有大量熟悉RDBMS的IT人才已安裝
用戶可以執(zhí)行相當(dāng)復(fù)雜的數(shù)據(jù)查詢
缺點(diǎn)是什么?事實(shí)是,只要所管理的數(shù)據(jù)具有結(jié)構(gòu)性和關(guān)系性,就沒(méi)有什么弊端。可伸縮性是一個(gè)問(wèn)題,因?yàn)榇蠖鄶?shù)這些系統(tǒng)都是專有的,而且核心存儲(chǔ)非常昂貴,尤其是隨著數(shù)據(jù)庫(kù)的增長(zhǎng)。但是,這些古老的數(shù)據(jù)庫(kù)及其隨行的工具和應(yīng)用程序在每家《財(cái)富》 1000強(qiáng)公司中都是顯而易見(jiàn)的,這有充分的理由:它們可以帶來(lái)價(jià)值。
但是隨后出現(xiàn)了大數(shù)據(jù),其中很多來(lái)自非結(jié)構(gòu)化的腹地。它包含來(lái)自點(diǎn)擊流,網(wǎng)站日志,照片,視頻,音頻剪輯,XML文檔,電子郵件,推文等的數(shù)據(jù)。
最初對(duì)IT部門而言,大多數(shù)數(shù)據(jù)類似于從宇宙深處發(fā)出的背景噪聲-只是很多噪聲。但是請(qǐng)記住這一點(diǎn):一個(gè)名叫阿諾·彭齊亞斯(Arno Penzias)的人在1964年破譯了深空背景噪聲,最終將其解釋為已得到驗(yàn)證的宇宙大爆炸理論的證明。他獲得了諾貝爾獎(jiǎng)。
大數(shù)據(jù)也是如此。事實(shí)證明,鎖定在所有這些不同的大數(shù)據(jù)源中的是對(duì)客戶行為,市場(chǎng)趨勢(shì),服務(wù)需求以及許多其他方面的寶貴見(jiàn)解。這是信息技術(shù)的大爆炸。
大數(shù)據(jù)已經(jīng)成為數(shù)據(jù)量整體增長(zhǎng)中最大的組成部分,并且傳統(tǒng)分析平臺(tái)和解決方案相對(duì)無(wú)法有效地處理非結(jié)構(gòu)化數(shù)據(jù),因此分析領(lǐng)域正在發(fā)生深刻的變化。
IT演進(jìn),而非革命
但是這里要牢記重要的事情。大數(shù)據(jù)分析不會(huì)取代傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)分析,當(dāng)然在可預(yù)見(jiàn)的將來(lái)也不會(huì)。
恰恰相反。正如《The Executive’s Guide to Big Data & Apache Hadoop》所述,“當(dāng)您將大數(shù)據(jù)與傳統(tǒng)信息源相結(jié)合以提出可產(chǎn)生巨大業(yè)務(wù)價(jià)值的創(chuàng)新解決方案時(shí),一切都會(huì)令人著迷。”
因此,您可能會(huì)看到制造商將其庫(kù)存系統(tǒng)(在RDBMS中)與基于文檔商店的產(chǎn)品目錄中的圖像和視頻說(shuō)明聯(lián)系在一起。這將幫助客戶幫助自己立即選擇并訂購(gòu)合適的零件。
或者,一家連鎖酒店可以將基于Web的房地產(chǎn)搜索結(jié)果及其自身的歷史入住指標(biāo)加入RDBMS中,以優(yōu)化夜間定價(jià)并通過(guò)更好的收益管理來(lái)增加收入。
共存,而不是替代。這是查看基于Hadoop的大數(shù)據(jù)分析與RDBMS和MPP世界之間關(guān)系的正確方法。因此,組織明智地專注于Hadoop發(fā)行版,以優(yōu)化基于Hadoop的數(shù)據(jù)湖與傳統(tǒng)系統(tǒng)之間的數(shù)據(jù)流。換句話說(shuō),保留舊的,并用新的創(chuàng)新。
使用哪個(gè)平臺(tái)?
共有三種常用的基本數(shù)據(jù)架構(gòu):數(shù)據(jù)倉(cāng)庫(kù),大規(guī)模并行處理系統(tǒng)(MPP)和Hadoop。每個(gè)都以不同的方式容納SQL。
數(shù)據(jù)倉(cāng)庫(kù)本質(zhì)上是大型數(shù)據(jù)庫(kù)管理系統(tǒng),已針對(duì)跨結(jié)構(gòu)化數(shù)據(jù)的只讀查詢進(jìn)行了優(yōu)化。它們是關(guān)系數(shù)據(jù)庫(kù),因此對(duì)SQL非常友好。它們提供了快速的性能和相對(duì)容易的管理,這在很大程度上是因?yàn)樗鼈兊膶?duì)稱多處理(SMP)體系結(jié)構(gòu)共享內(nèi)存和操作系統(tǒng)等資源,并通過(guò)單個(gè)處理節(jié)點(diǎn)路由所有操作。
最大的缺點(diǎn)是成本和靈活性。大多數(shù)數(shù)據(jù)倉(cāng)庫(kù)都建立在專有硬件上,并且比其他方法貴了多個(gè)數(shù)量級(jí)。在Wikibon進(jìn)行的一次財(cái)務(wù)比較中,發(fā)現(xiàn)傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的收支平衡時(shí)間是數(shù)據(jù)湖實(shí)施時(shí)間的六倍以上。
傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)也只能對(duì)他們知道的數(shù)據(jù)進(jìn)行操作。它們具有固定的模式,并且在處理非結(jié)構(gòu)化數(shù)據(jù)時(shí)不太靈活。它們對(duì)于事務(wù)分析很有用,在事務(wù)分析中,必須根據(jù)一組定義的數(shù)據(jù)元素快速做出決策,但在關(guān)系不明確的應(yīng)用程序(例如推薦引擎)中效率較低。
MPP數(shù)據(jù)倉(cāng)庫(kù)是傳統(tǒng)倉(cāng)庫(kù)的發(fā)展,它利用了通過(guò)公共互連捆綁在一起的多個(gè)處理器。SMP架構(gòu)在處理器之間共享所有內(nèi)容,而MPP架構(gòu)則不共享任何內(nèi)容。每個(gè)服務(wù)器都有自己的操作系統(tǒng),處理器,內(nèi)存和存儲(chǔ)。多個(gè)處理器的活動(dòng)由主處理器協(xié)調(diào),該主處理器跨節(jié)點(diǎn)分布數(shù)據(jù)并協(xié)調(diào)動(dòng)作和結(jié)果。
MPP數(shù)據(jù)倉(cāng)庫(kù)具有高度可伸縮性,因?yàn)樘砑犹幚砥鲿?huì)導(dǎo)致性能幾乎呈線性增長(zhǎng),并且其成本通常低于單節(jié)點(diǎn)數(shù)據(jù)倉(cāng)庫(kù)所需的成本。MPP體系結(jié)構(gòu)也非常適合同時(shí)在多個(gè)數(shù)據(jù)庫(kù)上工作。這使它們比傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)更具靈活性。但是,就像數(shù)據(jù)倉(cāng)庫(kù)一樣,它們通常只能處理以模式組織的結(jié)構(gòu)化數(shù)據(jù)。
但是,MPP體系結(jié)構(gòu)具有與SMP數(shù)據(jù)倉(cāng)庫(kù)相同的局限性。因?yàn)樗鼈冃枰獜?fù)雜的工程,所以大多數(shù)都是個(gè)體供應(yīng)商專有的,這使它們成本高昂且相對(duì)缺乏靈活性。它們還受到與傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)相同的ETL要求。
從SQL的角度看,MPP數(shù)據(jù)倉(cāng)庫(kù)具有一個(gè)主要的體系結(jié)構(gòu)差異:為了實(shí)現(xiàn)最大的性能提升,行在處理器之間順序分布。這意味著查詢必須考慮多個(gè)表的存在。幸運(yùn)的是,大多數(shù)MPP供應(yīng)商在其SQL實(shí)例中隱藏了此詳細(xì)信息。
Hadoop在架構(gòu)上與MPP數(shù)據(jù)倉(cāng)庫(kù)相似,但有一些顯著差異。處理器不是由并行架構(gòu)嚴(yán)格定義的,而是跨Hadoop集群松散耦合的,并且每個(gè)處理器都可以在不同的數(shù)據(jù)源上工作。數(shù)據(jù)操作引擎,數(shù)據(jù)目錄和存儲(chǔ)引擎可以彼此獨(dú)立工作,而Hadoop作為收集點(diǎn)。至關(guān)重要的是,Hadoop可以輕松容納結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。這使其成為進(jìn)行迭代查詢的理想環(huán)境。企業(yè)用戶不必嘗試根據(jù)架構(gòu)定義的狹窄結(jié)構(gòu)來(lái)定義分析輸出,而是可以嘗試查找對(duì)他們最重要的查詢。然后可以提取相關(guān)數(shù)據(jù)并將其加載到數(shù)據(jù)倉(cāng)庫(kù)中以進(jìn)行快速查詢。
讓我們看一下數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)(從KDNuggets總結(jié))之間的主要區(qū)別:
數(shù)據(jù):雖然數(shù)據(jù)是在數(shù)據(jù)倉(cāng)庫(kù)中進(jìn)行結(jié)構(gòu)化的,但數(shù)據(jù)湖支持所有數(shù)據(jù)類型:結(jié)構(gòu)化,半結(jié)構(gòu)化或非結(jié)構(gòu)化。
處理:數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中是寫模式,而在數(shù)據(jù)湖中是讀模式。
存儲(chǔ):將大量數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中可能會(huì)很昂貴,而數(shù)據(jù)湖則是為低成本存儲(chǔ)而設(shè)計(jì)的。
敏捷性:在數(shù)據(jù)倉(cāng)庫(kù)中,數(shù)據(jù)采用固定配置,敏捷性低得多,而數(shù)據(jù)湖中的數(shù)據(jù)易于根據(jù)需要進(jìn)行配置。
用戶:數(shù)據(jù)湖方法支持所有用戶(數(shù)據(jù)科學(xué)家,業(yè)務(wù)專業(yè)人員),而數(shù)據(jù)倉(cāng)庫(kù)主要由業(yè)務(wù)專業(yè)人員使用。
Hadoop的最主要用例仍然是“數(shù)據(jù)湖”,因?yàn)樗鎯?chǔ)了許多非結(jié)構(gòu)化數(shù)據(jù)以進(jìn)行提煉和提取到關(guān)系“數(shù)據(jù)集市”或數(shù)據(jù)倉(cāng)庫(kù)中。實(shí)際上,Gartner表示,他們看到客戶對(duì)數(shù)據(jù)湖的查詢大大增加,如下所示:
只是看著數(shù)字。@Gartner_inc從2014年到2015年對(duì)數(shù)據(jù)湖的查詢?cè)黾恿?2%。
— Nick Heudecker(@nheudecker)
為了將SQL的功能帶入Hadoop,需要進(jìn)行許多并行的工作,但是這些項(xiàng)目都面臨著相同的結(jié)構(gòu)性障礙,即Hadoop是無(wú)模式的,數(shù)據(jù)是非結(jié)構(gòu)化的。將“結(jié)構(gòu)化”查詢語(yǔ)言應(yīng)用于非結(jié)構(gòu)化數(shù)據(jù)有點(diǎn)不自然,但是這些項(xiàng)目正在迅速成熟。下面的體系結(jié)構(gòu)圖顯示了這些不同方法中的一些如何在現(xiàn)代數(shù)據(jù)體系結(jié)構(gòu)中融合在一起。
關(guān)于Hadoop與數(shù)據(jù)倉(cāng)庫(kù)的關(guān)系是什么問(wèn)題的解答就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,如果你還有很多疑惑沒(méi)有解開(kāi),可以關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道了解更多相關(guān)知識(shí)。
當(dāng)前標(biāo)題:Hadoop與數(shù)據(jù)倉(cāng)庫(kù)的關(guān)系是什么
網(wǎng)頁(yè)路徑:http://vcdvsql.cn/article46/peeohg.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站營(yíng)銷、網(wǎng)站內(nèi)鏈、Google、用戶體驗(yàn)、靜態(tài)網(wǎng)站、品牌網(wǎng)站建設(shè)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)