bl双性强迫侵犯h_国产在线观看人成激情视频_蜜芽188_被诱拐的少孩全彩啪啪漫画

管理大數據之初探Hadoop發行版

互聯網IDC圈2月22日報道:Hadoop是一項開源技術,它是當今與大數據應用最為息息相關的數據管理平臺。該分布式處理框架主要由Yahoo創建于2006年,部分是基于由Google在一些技術論文中所闡述的思想;很快,諸如Facebook,Linkedln以及Twitter之類的互聯網公司采用該技術并開始對其發展貢獻力量。在過去幾年,Hadoop已經演變成一種有著基礎設施組件和相關工具的復雜生態系統,而且它被各家供應商打包在一起成為商業Hadoop發行版本。

目前創新互聯已為成百上千的企業提供了網站建設、域名、虛擬主機、網站托管、服務器托管、企業網站設計、秀嶼網站維護等服務,公司將堅持客戶導向、應用為本的策略,正道將秉承"和諧、參與、激情"的文化,與客戶和合作伙伴齊心協力一起成長,共同發展。

對于高級分析活動來說,在集群服務器上運行的Hadoop為建立一個高性能,低成本的大數據管理架構提供了途徑。隨著人們逐漸意識到其能力的提升,Hadoop的應用蔓延到了其他行業,包括對混合有傳統結構化數據和新型非結構以及半結構化數據的應用程序的報告和分析。這包括網絡點擊流數據,在線廣告信息,社交媒體數據,醫療記錄,以及來自制造設備的傳感器數據和源自互聯網設備的數據。

Hadoop為何物

Hadoop框架包含了大量開源軟件組件,這些組件擁有用于計算,處理,管理和分析大量數據的核心模型,而這些數據則由各種各樣的支撐技術所包圍。這些核心組件包括: Hadoop Distributed File System(HDFS Hadoop分布式文件系統),它支持傳統的分級目錄和文件系統,而他們則是將文件分布于Hadoop集群中的存儲節點上(例如:DataNodes數據節點)。

MapReduce是可以對批量應用程序進行并行處理的編程模型和執行框架。

YARN(這是對Yet Another Resource Negotiator的簡稱)負責管理任務調度,為運行中的應用程序分配集群資源,并在可用資源出現爭用時進行仲裁。它同時還對正在處理中任務的進展進行追蹤和監控。

Hadoop Common是由不同組件使用的一組庫和工具。

在Hadoop集群中,那些核心部分和其他軟件模型是分層于計算和數據存儲硬件節點集合之上的。這些節點通過高速內網連接以形成高性能并行分布式處理系統。

作為一個開源技術的集合,Hadoop并不受控于任何一個單獨的供應商;相反的是,它的開發是由Apache Software Foundation進行管理的。Apache為用戶提供Hadoop使用許可,基本上可以讓用戶免費,無版稅的使用該軟件。開發人員可以直接從Apache的網站下載并自行構建Hadoop環境。但是,Hadoop供應商提供帶有基本功能的預構建社區版本,該版本同樣是免費下載并能在各種硬件平臺上進行安裝的。同時還有市場商業版和企業版——Hadoop發行版根據維護和支持服務的不同等級來打包軟件。

在某些情況下,供應商也會基于Apache的技術提供性能和功能方面的增強——例如,通過提供附加的軟件工具來簡化集群配置和管理,或是與外部平臺的數據整合。這些商業產品讓各種規模的公司對Hadoop的接納度越來越高。這是非常有價值的,尤其是當商業公司供應商的支持服務團隊可以啟動一家公司Hadoop基礎設施的設計和開發,并且能夠引導工具的選擇和高級功能的集成以快速部署高性能分析解決方案來滿足新興業務需求的時候。

典型Hadoop軟件棧組件

當你拿到一份商業版本的Hadoop時,你能從中真正獲得什么呢?除了核心組件,典型的Hadoop發布版本會包含(但不限于)以下內容:

諸如Tez和Spark之類的替代數據處理和應用程序執行管理器,它們可以在YARN之上運行或是與YARN并行以提供集群管理;緩存數據管理;以及其他改善處理性能的方法。

Apache HBase是一款列式數據庫管理系統,它模仿的是運行在HDFS之上Google的Big Table項目。

諸如Hive,Impala,Stinger,Drill以及Spark SQL之類的SQL-on-Hadoop工具,這些工具為直接查詢存儲在HDFS中的數據提供了與SQL標準不同程度的兼容性。 諸如Pig之類的開發工具可以幫助開發人員構建MapReduce項目。

諸如ZooKeeper或是Ambari之類的配置管理工具可以用來進行監控和管理。

諸如Mahout之類的分析環境可以為機器學習,數據挖掘和預測分析提供分析模型。

由于該軟件是開源的,因此對于Hadoop發行版你無需付費。相反的是,供應商則售賣有不同水平服務協議(SLAs)的年度支持訂閱版本。雖然每家供應商都會對自家的附加組件進行提升,如此一來也作為Hadoop發布版的一部分為Hadoop社區做出了貢獻,所有的供應商都會積極參與到Apache Hadoop社區中來。

誰在管理Hadoop大數據管理環境

在Hadoop系統之外獲得所需性能需要一個熟悉IT專業的協調團隊,該團隊致力于架構計劃,設計,開發,測試,部署,運行中操作和維護方面的工作以確保最佳性能,而意識到這一點是非常重要的。這樣的IT團隊通常會要求:

需求分析師基于運行于Hadoop環境中的應用程序類型來評估系統性能需求。

系統架構師評估性能需求并設計硬件配置。

系統工程師對Hadoop軟件棧進行安裝,配置和調優。

應用程序開發人員設計并實現應用程序。 數據管理專家做數據整合,創建數據布局并執行其他管理任務。

系統管理員進行操作管理和維護。

項目管理人員監督各級棧和應用程序開發工作的實現。

項目經理負責Hadoop環境和優先級,應用程序開發和部署的實現。

Hadoop軟件平臺市場

從本質上講,作為一個可行的大規模數據管理生態系統,Hadoop的演化已經創造了一個新的軟件市場,它正在轉變商業智能和分析行業。這已經從兩方面進行了擴展,即用戶企業可以運行的分析應用程序以及可以作為這些應用程序一部分加以收集并進行分析的數據類型。在Hadoop中,該市場包括三個獨立的專業供應商——Cloudera Inc., Hortonworks Inc. 和MapR Technologies Inc。其他提供Hadoop發行版或功能的公司包括Pivotal Software Inc., IBM,Amazon Web Services和Microsoft。

對那些提供Hadoop發行版本的供應商進行評估需要理解所供產品兩個方面的異同。首先是技術本身:發行版中包含有哪些不同之處;它們支持什么樣的平臺;而且,最為重要的是,個體供應商集成了什么樣的特定組件?其次是服務和支持模型:對于每類訂閱級別都提供什么樣的支持和SLAs,以及不同的訂閱費用如何?

要理解這些方面是如何與你特定的業務產生關聯,需要將那些對于一個供應商關系來說非常重要的特征突出出來。本系列的下一篇文章將研究幾個Hadoop大數據管理平臺的業務用例,如此一來你就可以確定你所在企業的需求了。

文章題目:管理大數據之初探Hadoop發行版
網頁鏈接:http://vcdvsql.cn/article34/sdhhse.html

成都網站建設公司_創新互聯,為您提供App開發網站策劃品牌網站設計網站導航域名注冊網站建設

廣告

聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯

小程序開發