新興的Spark技術有望取代大數據框架中廣泛應用的MapReduce技術。這種替代的速度如何,其范圍和規模又是怎樣的呢?
創新互聯公司主營鹿邑網站建設的網絡公司,主營網站建設方案,重慶APP軟件開發,鹿邑h5微信小程序定制開發搭建,鹿邑網站營銷推廣歡迎鹿邑等地區企業咨詢讓我們先說說MapReduce。它的確好用,但是現在大數據開發人員對速度和簡潔性的需求變得越來越強烈。所以當面臨選擇Hadoop 平臺上運行的處理框架,以應對新的工作負載時,他們越來越傾向于新興的框架技術Spark。
至少這是從大數據廠商那里獲取到的信息,他們在大力支持Apache Spark,稱其為大數據的下一個大事件。
在舊金山6月舉行的Spark峰會上,Cloudera首席戰略官Mike Olson談到了Spark正以“驚人”的速度增長,以及客戶偏好的明顯轉變,該公司作為Hadoop分銷商,親眼見證了這些變化。
“我們覺得不用多久Spark能夠成為占主導地位的Hadoop通用處理框架,”他說。”那時候,如果你想要找到一個好用、通用的引擎,你會選擇Apache Spark,而不是Apache MapReduce。”
Olson的話用詞十分準確,特別是“通用”這個詞的使用。他的觀點是,雖然對于Hadoop專用處理引擎來說發展空間還很大,例如用于搜索的Apache Solr或用于SQL的查詢Cloudera Impala,但是,能夠讓開發者用來創建多樣化的分析工作負載(因此稱為“通用”)的處理框架競爭,好似兩匹賽馬之間的競爭,而Spark勝利在望。
其實Spark能贏原因很簡單,它找到了那些MapReduce框架被開發人員長期詬病的地方,尤其是MapReduce的高延遲及批處理響應的模式。
“人們在很長時間內已經達成了共識--MapReduce在Hadoop的世界中是一個很好的工作工具,”Arun Murthy--Hortonworks公司創始人兼架構師說道。
他指出,該技術是谷歌實驗室創造的,用來解決一個非常具體的用例:web搜索。十年以來,它歷經演變——但或許仍不足以滿足企業對大數據應用程序的要求。
“它的優勢在于其良好的可延展性,能夠應付更多用例,” Murthy補充道。“我們當然知道MapReduce存在可以解決問題的用力,但卻不是以最優的方式。如同當初MapReduce取代其他技術一樣,技術間的更替是完全自然的,新技術的出現也將取代MapReduce。”
Spark的速度與簡潔性
那么Spark的偉大之處在什么地方呢?它對于開發人員來說最主要優點就是速度。據該技術的發明者Mathei Zaharia所述,Spark應用程序比那些基于MapReduce的應用程序快上一個數量級 –最高能快上100倍。Mathei Zaharia現在是Databricks公司的首席技術官,該公司提供基于云的Spark程序,這些程序并沒有運行在Hadoop平臺上,而是運行在Cassandra 數據庫上。
值得注意的是,Spark可以運行在不同的文件系統和數據庫中,其中也包括Hadoop分布式文件系統,(HFDS)。
Spark相對于MapReduce的優勢在于它在內存在完成了大部分操作的處理, 它把數據集從分布式物理存儲復制到更快的邏輯內存中。相比之下,MapReduce是從硬盤寫入和讀取數據的。磁盤訪問1MB數據的速度以毫秒為單位,而內存中訪問同樣大小的數據只需要亞毫秒級的時間。換句話說,Spark可以給企業帶來明顯的時間優勢。
Gartner分析師Nick Heudecker說道:“我最近跟一個使用大規模Hadoop集群的客戶說,嘗試使用一下Spark,它能夠把工作從四個小時(使用MapReduce)降低至90秒(使用Spark)。”
對于許多企業來說,這種改進是極具吸引力的,Heudecker說道。“這意味著,在之前他們只能在一天內完成兩次分析,而用了Spark后,現在要進行多少分析都輕而易舉。”
今年6月的Spark 峰會上,美國豐田汽車銷售公司的數據科學主管Brian Kursar,介紹了他的團隊如何使用Spark運行客戶體驗分析程序后所帶來的改進。這些程序平時要處理大約7億條記錄,這些記錄來自社會媒體,調查數據和呼叫中心業務,運行程序的目的為了找出客戶流失問題的原因以及識別需要關注的領域,以便員工能在必要時進行干預。
使用MapReduce,完成分析需要160小時。也就是幾乎七天時間,Kursar指出。“屆時,再改變就有點太晚了,”他說。相同的處理工作,使用Spark重寫,將會在四小時內完成。
Spark相對于MapReduce的另一個優勢是其具有更優秀的易用性和靈活性。這不足為奇,Spark是Mathei Zaharia在加州大學伯克利分校攻讀博士學位時發明的,目的是為了解決他在MapReduce框架中受到的種種限制,而這些限制是其在MapReduce早期用戶-Facebook實習時發現的。
“我在這些企業中看到,其用戶想要使用大數據做更多事情,而MapReduce所提供的功能遠遠不能滿足他們的需要,”他說。“它有很大的局限性,例如不能做互動查詢,不能處理先進算法,如機器學習等。這些缺陷令人沮喪,所以我的目標是解決這些問題,與此同時,我想讓用戶更容易的使用大數據并從中獲取價值。”
大多數用戶認為Spark對于開發者來說更加友好,包括豐田的Kursar,他說道:“Spark的API比起MapReduce來說,明顯更容易使用。”
Cloudera優秀開發者Justin Kestelyn最近發表了一篇博客,表示Spark具有“豐富,表示清晰的API,和Scala ,Java和Python的API不相上下,相比MapReduce,使用Spark幾乎可以減少兩倍到五倍的代碼量,。
但是這種方便性并不意味著Spark犧牲了靈活性,正如Forrester分析師Mike Gualtieri今年早些時候發表的一份報告中指出。相反的,他寫道,Spark包括專門的工具,可單獨或協同構建應用程序。
這些工具包括Spark SQL,用于結構化關系數據上進行分析查詢,Spark Streaming;通過使用頻繁的micro-batches來進行幾乎實時的數據流處理;MLib工具:用于機器學習;GrapX用于表示,圖表,以及數據在任意方面的聯系,例如網絡社交媒體的用戶。
Spark為時尚早?
然而,使用Spark也面臨著巨大障礙,原因在于Spark是相對不成熟的。金融服務公司Northern Trust首席架構師Len Hardy的團隊是Cloudera Hadoop分布平臺的忠實用戶,他們在其上運用各種工具,包括Hive(數據倉庫),Flume(大規模日志聚合)和Cloudera Impala(運行SQL查詢)。
但現在,Hardy 是在生產環境中沒有使用Spark。“我們現在離Spark還很遠,”他說。“這是一個關于成熟度的問題。這項技術有很大的前景,我們也將使用它,毫無疑問,我們已經準備好在一些已被驗證的領域使用它了。
“但是,對于我們的企業數據平臺來說,應用spark可能還需要很長時間,我們向合作伙伴和客戶提供數據,他們據此做出商業決策,為了保證數據的準確性,我們需要所使用的工具堅如磐石,我只是覺得Spark在成熟度上還差那么一點。”
謹慎是有道理的。所有主要的Hadoop廠商,正在努力提高他們企業支持Spark的能力,但Gartner的Heudecker指出:“Spark的商業支持似乎總是與其他數據管理產品捆綁,但信息經理和業務分析人員必須意識到,Spark的發展速度讓廠商不斷支持最新組件版本的服務面臨著巨大挑戰。”
API和最優化方法在很大程度上仍處于發展中,Heudecker補充道,另外廠商在同樣Spark框架中,可能難以支持所有的可用組件。企業用戶應極其謹慎,不要把關鍵任務部署在不支持或部分支持的功能上,這將得不償失。
Cloudera的Olson承認Spark仍然是一種年輕的技術。“這還為時尚早——仍然有大量的工作需要完成,比如安全需求方面,”他說道。
但在Spark峰會的幾個月后,他堅持他的意見,在不遠的將來,大多數Hadoop上的新的分析應用程序將會構建在Spark而不是MapReduce上。
“使用Spark的Hadoop集群所占的平均市場份額正在提升,超越的臨界點遲早會來,”Olson說。“現在,我不能預測這將在何時發生,但我都會告訴我們的一些客戶,特別是在金融服務和消費品領域,幾乎已經達到臨界點。而這些行業的很多人注定要追隨這一趨勢。”
網頁名稱:Spark與MapReduce之爭:誰更適合于企業級IT?
本文URL:http://vcdvsql.cn/article2/chjpic.html
成都網站建設公司_創新互聯,為您提供網站導航、網站建設、網站改版、網站制作、網站設計、域名注冊
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯