9月1日,由工業和信息化部指導,中國信息通信研究院、中國通信標準化協會主辦,數據中心聯盟承辦的“2016可信云大會”在京隆重召開。在9月2日下午的大數據分論壇上,中國信息通信研究院技術與標準研究所大數據產品認證負責人姜春宇發表了題為《第三批大數據產品能力認證情況綜述》的演講。
成都創新互聯公司專注于企業成都全網營銷、網站重做改版、東鄉族網站定制設計、自適應品牌網站建設、H5技術、商城網站制作、集團公司官網建設、外貿網站制作、高端網站制作、響應式網頁設計等建站業務,價格優惠性價比高,為東鄉族等各大城市提供網站開發制作服務。中國信息通信研究院技術與標準研究所大數據產品認證負責人 姜春宇
以下是演講實錄:
今年是第二次站在這里,我們今年測評的節奏比較快一些,三四月份完成了一批,六七八又完成了第三期,今年還會完成第四期。大數據發展的節奏比較快,所以我們的認證和測算也是在不斷的摸索和前進的過程。我是來自中國信息通信研究院的姜春宇,很榮幸給大家介紹第三批大數據產品能力認證的情況。
主要兩個部分,一個是認證情況的介紹,第二部分是我們的總結和下一步的計劃。
首先,我們回顧一下大數據產品能力認證的歷程。去年6到8月份了第一批,是華為,移動,星環,中興,ucloud5家企業,今年Hadoop,,Spark數據基礎能力認證是6家企業,現在是大數據基礎能力和性能專項6家企業,第四批是數據庫基礎能力和性能認證,是今年年底。
這是第三批大數據產品能力認證的評測對象和指標,分為基礎能力,性能專項,基礎能力有七個維度,性能專項有四大任務。6到8月份我們看到了6家廠商參與了,其中國雙科技參與基礎能力認證,華為,華三,騰訊云,星環,百分點等5家參與了商用版。
我們看基礎能力認證體系,三四月份公布過,這樣的變化不是特別大,以七大項,其中黃色的是可選,其它的是必測。第四批的評估體系有稍微的修改,但是不會太大,認證的流程,這邊是認證的流程,這邊是評審的流程。認證的話,首先是報名,其次是我們的審核材料,測試專家去現場審核,給出一個測試的結論,引入企業的互評,最后是對評審通過的一些企業和產品我們頒發通過的證書,具體的評審流程在右邊,基礎能力的審核方法從五個方面,包括軟件的版本。這是這批通過大數據產品能力認證的兩家產品,這是兩個廠商的完成情況,百分點完成了28項預測和10項選側,國雙也是一樣。今年第二批的時候我們會看到一些廠商還沒有完全完成選測,但是現在來看,這兩家的完成度都非常高,這說明我們的標準技術的牽引已經起到了作用。
另外,我們觀察到,根據自己的業務的不同,廠商的產品呈現出一些特點,比如說百分點趨向數據流管理數據。國雙更偏向云計算,可視化數據流降低平臺的管理成本和門檻。數據管理的話,你會用到不同的數據架構,數據的管理非常重要。
非常重要的一點,流計算也是用戶用的比較多的。一些分析平臺,為機器學習,深度學習,分析平臺,這也是未來的方向。包括一些與云計算融合的趨勢,也是在加劇。市還有性能專項,有SQL,NOSQL,機器學習,MR任務。在SQL任務方面,我們選了5個query,是從負載的代表性上,報表任務,交互類任務,我們跟這些標準的廠商是一起選擇的,nosql,我們選擇HBase工具,也是因為測試周期有限,95%的讀,5%的寫,還有50%的讀和50%的寫,還有讀、更改、寫。MR任務,我們選了terasort,我們一直以來堅持的標準是1TB的數據量。機器學習我們選擇了Kmeans和貝葉斯。數據規模,下一步可以承載30TB的能力,是也17個維度表,7個事實表構成的,本次5嗯個語句,涉及了13個表,這是SQL任務。HBase是和去年一樣的,是2億條數據,從十個客戶端,每個客戶端2億條數據,這樣的話,大概一條數據是1KB的大小,十個客戶端接近2TB。terasrot是29TB,機器學習的負載是中科院的數據。
測試環境,去年是22臺戴爾R7300服務器,今年又買了10臺聯想R450服務器。審核方式與步驟,可以看到性能的測試比功能的測試要嚴格很多,因為涉及到的點比較多,也比較敏感。審核方法和步驟,測前檢查輸入檢查,過程檢查和結果檢查,文化留存。非常仔細和詳細的,我們爭取做到了在評審的時候,如果有質疑,我們所有的結果都可以復寫的原則。
具體的審核,可以看到數據大小,表的檢查,表行的最高語句,表和列的內容檢查,包括執行語句要進行一些對比,我們要清空緩存。
參與本皮性能專項認證的產品是五間,新華三,騰訊,北京東方金信,星環和百分點。大家可以看到性能的部分測試結果,這是TPC-DS,執行的時間量都在百秒內,可以看到,上下兩個圖可以看出來,第二個SQL47最優和中位的差別很大,說明這個是比較難的,有的測的特別好,有的測的特別不好。還有一個是SQL71,它的標準差也是比較高的,說明大家在這塊也是差距比較大的。SQL82,53和84的標準方差較小,說明大家在這三個水平是比較接近的,而且這三個任務是相對來說沒那么費時的。
性能測試的YCSB分別模擬了寫入,并發寫,模擬了更新任務比較重的場景,模擬了度曲2數據再更改,再寫回的場景。可以看一下,這塊是誰的操作數越大,誰就越厲害,這不是時間維度來衡量的,剛才的是誰的時間越短越快,這塊美妙的操作數,最優的是175萬美妙的操作數,獨占大比例的是148萬每秒的操作數,讀寫各半的是164萬,最后一個是7萬??梢钥吹阶顑灥耐诎偃f級別的。標準方差也可以看到,厲害的有非常厲害的,不厲害的有特別差的。這塊應該是以后參測廠家應該注意的。這塊可能大家有的不太熟悉,做的不太好。
這塊是YCSB執行的單位,可以看到執行的難以程度,總體來說,寫是最簡單的,因為它的任務是比較單一的,讀的話,還有95%是讀,還有5%的更新。5%的各半稍微難一點,這兩個是相當的,最慢的是read wand wwrite,我對比了一下,它總歸寫了2億條數據,但是modify像寫了2億,下面還有1億,它的操作數比別的多,所以他操作的慢,所以這也解釋通。所以總體來看,寫是最簡單的,最容易的,中間這兩個都差不多,第二個和第三個是差不多50分鐘左右,最后一個是80分鐘??梢钥吹結CSB的耗時也是非常厲害的,在小時級別以上。這是對廠商參加測評的時候負荷是非常大的。
看看機器學習,Kmeans是最優是272,中位是913,標準方差是572,這塊大家的水平差距特別大,貝葉斯最優是46,它的差別相對小一些,因為執行時間是比較少的,標準方差也比較低。這塊我們未來會增加它的難度,因為數據量小的話,大家的差別看不出來。
terasort比較有意思,去年是13.6TB最后執行時間是在8000多秒,2個小時多一點。這邊是32個節點,等于說節點數擴了一倍多一點點,數據規模也是差不多它的兩倍多一點點。發現去年的15臺結點算下來151703,畫到圖上簡單來看,并沒有呈現一個完全線性的擴展,或者是一個線性可比性。而有兩種解釋,一種是本身terasort或者是Hadoop數據擴展就不會出現線性的擴展。另外,最年的最優的測試沒有去年測試好。
terasort最優是10083左右,中位值是3小時,這說明這個測試對大家的考驗還是比較大的,因為準方差差不多是1434,一個周期是十個小時,一個測試是一次就3個小時,一天也沒有多少時間。整個測試的周期,我們七天的時間還是非常的緊張的。
總結和下一步的計劃。
性能方面有一些優化的思路。硬件的調優,操作系統的調優,數據的分布均勻不均勻,代碼的應用調優,核心目標是用盡所有的物理資源,不能讓它閑著。關于Spark,這次SQL和機器學習大部分廠商都采用了Spark,關于Spark,我們調優也有一些總結,就是壓縮和分布數據,包括資源參數,主要是包括CPU,內存比例的關系,這塊需要大家常常去摸索,得出一些經驗值。很重要的是要通過資源的監控不停的反饋這次調優的參數比例是不是合理,這跟算法的調優都很像。
Hadoop也是主要是壓縮任務自數據,還有資源參數的調優。HBase涉及到壓縮,讀寫的優化的策略,還有按選擇合適的線程數。
還有性能的評測總結,跟去年一樣,我們在統一的平臺,統一的測試數據,統一的測試供給,統一的測試周期,統一的測試規則,很多東西你能調,別人也能調,你不能調,別人也不能調,大家的規則是一樣的。在我們這就是統一的規則,大家能調的就都調,不能調的就都不能調。大家看到我們評測的應是統一的思路??疾斓慕Y果一個是產品本身的性能,有穩定性,包括它的易部署性,包括易運維性,還有組建本身的性能。還有是考察參測團隊綜合使用大數據平臺的能力,包括你環境部署與集群規劃,測試工具的使用,多任務調優的能力,包括怎么安排你的測試的進度,先測哪些,后測哪些。最后是集群的故障處理和運行維護。在我們的測試中很多集群出現了宕機,因為你是在測性能的極限值??梢钥闯隹疾斓氖钱a品和調優團隊整個的能力。所以考察上是比較全面,綜合。
我們再總結一下困難和特點,首先是任務重,周期緊,我們看到七天的測試周期里,包括措施系統的安裝,平臺的安裝,數據的生成,包括我們審核其它的舉證,我們看到terasort中位執行時間是3小時,HBase任務中位執行時間是29,54,50,39分鐘,另外是覆蓋性,覆蓋了業務系統里面的典型的一些任務。
第二,我們從來沒在國內或者是國外看到類似的32臺集群規模的配置,使用上BT的數據規模的公開的業界的測試。所以我們處于業界比較領先的認證。我們審核的這些取證的這些圖,測試過程是非常的嚴格,我們寧可多減一些,寧可多省一些。另外,評審也是的嚴格,行業客戶和業界專家傾聽、質疑、答辯。
我們做陳鶴的評測和任何的認證都是存在不足的,我們也承認還有一些局限性的地方,比如說我們現在做的是單向機制,卻說對混合負載的情況。因為你不可能單跑SQL的任務,肯定是多種場景混跑,這些事情我們是缺少的。另外,我們承認現場人員的前期準備,平時的積累和現場的發揮對測試結果有一定的影響,就像高考一樣,肯定是有一些臨場發揮和機會在里面的。
另外也和企業的投入資源有關系,有的企業可能人不多,但是全部砸到這個項目上,有的且可能厲害的人很多,但是沒有派出來,這都是有可能的。
再一個,由于數據生成的限制,我們采用的工具大多數是開源的工具,我們一直以來都想做場景化的,行業化的嘗試,這塊我們未來會逐步跟廠商和客戶再去進一步的推進場景化的。
還有周期的限制,我們無法進一步的對穩定性作出考量,一個系統在一個月高負載下的情況。另外是機器學習的數據量略小。
下一步我們的計劃,我們會引入一些數據流可視化,統一考慮權限管理,還有數據管理功能,流計算。還有性能,支持跟SQL更緊密兼容性。我們一直以來是想以任務為導向,尋找行業的性能評測,我們現在已經在做評測的標準,第四批會加入MPP數據庫的評測。這是下一步的計劃。
認證報名馬上要啟動第四批了,10月8日到12月31日會做第四批基礎能力和性能專項。包括Hadoop與MPP數據庫產品。總之,這是我們一直會堅持做下去的事情,我們也希望成為中國的比較權威,或者是比較領先的大數據技術產品的評測機構。也會以此為我們的愿景,一直踐行這些事情,幫助大家選型也罷,評估不同的開源技術,這是我們的愿景。
未來的規劃,Hadoop和Spark已經做了,MPP下一批也有了,數據管理的功能,我們會慢慢的在這些平臺上見到。還有一些BI和算法。這是我們的愿景規劃圖。今天我的分享就到此結束。謝謝。
當前標題:第三批大數據產品能力認證情況綜述
本文地址:http://vcdvsql.cn/article26/sohsjg.html
成都網站建設公司_創新互聯,為您提供面包屑導航、營銷型網站建設、網站建設、網站設計公司、關鍵詞優化、外貿網站建設
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯