創新互聯建站專注于企業營銷型網站、網站重做改版、羅湖網站定制設計、自適應品牌網站建設、H5場景定制、商城網站建設、集團公司官網建設、外貿營銷網站建設、高端網站制作、響應式網頁設計等建站業務,價格優惠性價比高,為羅湖等各大城市提供網站開發制作服務。
大數據的4個V說法在業界已經盡人皆知,這是指的大數據本身的特征。現在我們來考察一下用于處理大數據的技術應該具有的特性。為方便記憶,類似4個V,我們把這些特性總結成4個E,用戶在選擇大數據技術解決方案時可作為參考。
這個E很容易理解。
要進行大數據處理的場景很多,涉及工作人員也是各種各樣的。如果技術的難度太大,那會導致只有少數人能應用,而且實施復雜度較高,這樣大數據的應用就會大打折扣了。
大數據領域這種例子并不少,Hadoop剛出來時只有MapReduce,相對于完全用Java硬寫,MapReduce已經簡單了很多,所以會積累出一批擁躉。但MapReduce的難度仍然不小,所以逐步被后來封裝出來的HIVE SQL替代。Spark上的Scala也風靡過一陣,但難度仍然不少,目前也逐步歸于平靜,更多的人還是愿意使用更簡單的Spark SQL。
這個E也容易理解。
很多情況下,大數據并不是一下子就很大,而是逐步變大的。即使已經較大的數據,也還會進一步變得更大。因此要求大數據處理技術有一定的彈性擴展能力就是很自然的事情,這一點一般都不會被大數據技術提供商忽略掉。
當然,任何技術都有局限性,面向一般規模和面向超大規模的技術相差是很大的,不大可能有一種技術能夠有效適應數據規模從0到無窮大的各個階段(所謂有效適應是在各個階段該技術都能達到相當優良的性能,而不只是可以處理),用戶在選擇技術時還要對自己的數據規模變化范圍有一個預估。
這個E需要特別指出,常常不被重視。
大數據處理經常并不是一件獨立的事情,它需要和具體的應用配合工作才能發揮其業務價值,這些處理常常在應用執行到某個環節時就需要進行,這樣就要求相應的技術能夠被方便地嵌入集成到應用程序中,隨時隨地被主程序調用。
特別地,大部分應用程序建立在J2EE架構上,因而對Java應用的可集成性就是個特別重要的指標。一般基于Java或SQL體系的大數據技術在集成方面都沒太大問題,而其它技術體系的就難說了。而且,大多數大數據技術常常需要獨立部署,即使其計算能力可以被集成,但必須依賴于外部的獨立進程,不能被應用完全控制,有時會顯得非常累贅。
這個E是很多大數據技術不具有但卻很重要的。
目前的大數據技術,如Hadoop和MPP等,都要求先把數據放進該技術規定的某種存儲體系中。這樣當然有意義,數據事先組織之后會獲得更高的性能。但是,經常的情況是,我們需要處理的大數據事先并不在這些存儲體系中,而且把外部數據搬進這些存儲體系本身也是一種大數據處理,這些場景下都無法利用這些大數據技術了。
更好的大數據技術應當能不挑數據源,隨便什么來源的數據都可以處理,只是有可能因為數據源的限制而一定程度地降低性能,但并不要求必須先做好ETL才能處理。
其實最后那個特性用E并不是很貼切,但為了湊4個E就對付了。這個詞本來是環保的意思,開放的大數據技術可以少復制一些數據,少部署一些硬件,省點電,也算環保吧。
當前名稱:大數據技術的4個E
文章URL:http://vcdvsql.cn/article6/gjiiog.html
成都網站建設公司_創新互聯,為您提供企業網站制作、品牌網站設計、外貿網站建設、定制開發、關鍵詞優化、做網站
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯