bl双性强迫侵犯h_国产在线观看人成激情视频_蜜芽188_被诱拐的少孩全彩啪啪漫画

星環信息孫元浩:Hadoop推動現代數據倉庫技術的深刻變革

互聯網IDC圈4月27日報道,互聯網的發展使得大數據引起人們廣泛關注。現如今大數據技術早已滲透到金融、通訊等行業以及生物學、物理學等領域。大數據在容量、多樣性和高增速方面的爆炸式增長全面考驗著現代企業的數據處理和分析能力,與此同時也為各個行業帶來了準確洞察市場行為的機會。迄今為止大數據技術與產品有哪些創新,工業大數據應用面臨哪些挑戰,金融行業大數據應用現狀如何等。圍繞這一系列問題,4月27日至28日,由工業和信息化部指導、中國信息通信研究院主辦的"2016大數據產業峰會"在北京國際會議中心盛大召開。在27日大數據技術與產品創新分論壇中星環信息科技的創始人&CTO孫元浩分享了在互聯網+時代,Hadoop推動現代數據倉庫技術的深刻變革。

成都創新互聯公司成立于2013年,先為烏翠等服務建站,烏翠等地企業,進行企業商務咨詢服務。為烏翠企業網站制作PC+手機+微官網三網同步一站式服務解決您的所有建站問題。

500-333文章照片-大數據技術與產品創新-孫元浩

星環信息科技的創始人&CTO孫元浩

以下是孫元浩演講實錄:

孫元浩:Hadoop已經經過了10年的發展,從2006年到今天剛好是10年時間。這10年當中,Hadoop從雅虎一家開源的技術平臺,逐漸的被更多的互聯網公司使用,到今天在很多的企業當中在使用這個新的技術,我們也見證了這個技術的飛速發展。它的應用的廣度也超出了原來Hadoop設計的想像,早期的Hadoop是為了仿造Google的搜索引擎建造的,今天我們看到Hadoop的應用已經開始深入到企業的各個應用領用當中。當時我估計在2016年、2017年是新技術戰略的轉折點,意味著這個技術已經到達了一定程度,在各個領域當中可能會有飛速的應用,可能會比去年和前年有一個數量級的提升。

我今天首先會介紹一下我們公司,技術人員可能對我們公司很了解,很多其他行業的朋友不一定了解我們公司。我們是一家專門做Hadoop技術的公司,我們從2013年成立到現在有3年時間,發展還是比較快的。我們專注在底層開發下面,我們開發的代碼量接近1千萬行,我們的產品加起來將近3千萬行。在去年下半年被Gartner提到我們公司,我們也是全球四大Hadoop廠商之一,我們今天也有幸成為Gartner數據倉模擬象限的一家中國公司。描述了哪些產品具有哪些特點。現在大家可以看到,這邊大部分都是一些大型公司,我們被放在了最右邊的位置,表示國外媒體對于我們技術的領先性和完備性還是有高度認可的,但是我們的規模會比他們低。目前來講,我們客戶的數量還是比較多的。

下面我們來介紹一下Hadoop的應用。剛才講到,我們認為Hadoop未來一段時間會進入戰略整合點,被客戶接受的速度會迅速提升。最左邊是一個報告,是收費報告,統計了美國市場上面Hadoop應用的分類,大部分Hadoop用戶主要是60%的客戶,20%的客戶是交互式BI的,用于報表式工具跟Hadoop對接,還有國內的可視化公司也在跟Hadoop對接。在美國有幾十家這樣的公司專注做數據分析和可視化,所以這個應用場景大概有25%。還有6%的客戶是做輕量級的應用,主要是使用了Hbase分布式系統來做數據的查詢,這個比例不是太高,有6%。還有4%的客戶是用來做文檔數據庫,5%的客戶是用來做流處理。

右邊這場圖是我們星環從幾百個客戶當中統計出來的分類,有一定的代表性,但是不是全部的數據。從中可以看到中國市場和美國市場有比較大的不同,這個數據我們提交上去,他們已經把我們的數據放到他們的報告當中去了。我們看到有56%的客戶做數據倉庫,我們做數據倉庫有一定的優勢,我們非常完整,支持分布式處理,支持這個存儲過程,所以有一部分客戶已經從數據庫直接牽引到我們的上面來。這種新的業務模式在用到國內的時候還不是這么快,有一類是比較特殊的,就是我們做OITP用的,做簡單快速查詢的應用比較多,這其實反應了我們國家的數據量比美國的客戶大很多,我們中國一個省的用戶就是美國AT&T全國的用戶,這一塊反而有一批客戶在用這種簡單的數據庫,2%的客戶在做文檔數據庫,這也反映了在美國NoSQL有4%的使用率。有一個不同的地方,流處理這一塊在中國的應用場景比較多,有10%的客戶,解決我們有10%在做流處理,主要是分布在實時的金融交易、傳感器網絡和工業4.0里面,2008年、2009年我們國家建立了大量的傳感器,包括物聯網,這一塊使得我們在客戶當中有比較多的在用這種做數據處理,這也反映了我們國家的工業4.0其實已經具備一定的條件了,可能比美國還要更領先一些。

大家可以看到,大部分的Hadoop用戶都在用這個技術來做數據倉庫,我們后面講一下為什么是這種場景。數據倉庫是一個比較全的概念,通常不是指一類技術,是所有數據的組合,會是所有數據的集散地,企業會把所有的數據放在數據倉庫里面對外提供服務。過去這么多年數據庫面臨一些挑戰,數據增加比較快,傳統的數據庫已經不能處理,效率提升得比較慢,我們碰到一個很大的客戶,是一個著名的廠商,這是一個顯著的瓶頸。原來的關鍵數據庫只處理結構化處理,現在需要一些新的技術處理半結構化、非結構化的數據。隨著數據倉庫越來越多,用戶也越來越多,通常用戶有上百個數據源,上面支撐幾十個業務部門,甚至是幾十個分支機構,一個銀行可能有30幾家分行,這些分支機構訪問數據的時候都通過這個數據倉庫,對數據的隔離、訪問資源的管理就變成了一個迫切要解決的問題。

傳統數據倉庫是T+1的,在當天分析前一天的數據,但是更多的企業希望能夠對數據進行實時分析,希望能夠做到T+0,這一塊也是對數據倉庫構成的一個挑戰。這一塊就是有一些國外的咨詢機構和公司提出的,希望能夠做實時的數據處理。剛才我們看到有一個概念是幾年前提出來的邏輯數據倉庫,能夠處理多種數據源,做數據管理。還有一個特點也是現在大家在使用新技術的時候一個驅動力,原來是對于過去歷史的統計。今天大家發現,以前做數據模型,比如說像銀行里的十大主題模型,或者八大主題模型,他們有幾千張表,中間的表可能有上萬張,關系相對來說是固定的。一旦你的業務發生變化,你可能要對整個層面做修改。今天大家希望有一個自助的方法,能夠用機器學習的方法發現數據的管理,而不是發現統計的結果,甚至是統計報告對于他們不夠。所以這一塊現在有的提出來一個設計模式,就是我不需要知道這些數據它們之間的關聯關系,我是通過機器學習的方法,機器自動來學習發現他們的規律。這實際上也對應了大數據的4V,數據量、數據變化、數據實時性以及數據挖掘,剛好是4V。其實在數據倉庫里面,其實也是沿著這個方向演變出來的四個不同的設計模式。

在解決數量大的問題上面大家已經形成了共識,需要用分布式的方法,用橫向的方式。從早期的單機到90年代的并行數據庫,是把數據庫的引擎并行化了,把計算并行化了,但是存儲仍然是集中化的,集中化的存儲仍然是一個瓶頸。后來把計算分離了,但是計算的引擎不具有可擴展性,容錯性比較差。到了Hadoop的時候,大家發現可以有一種因的模式,同時對數據和計算進行分布式計算,對于數據進行分布式存儲,同時兼顧擴展性和容錯性。這一塊基本上大家發現,這個計算模式是處理大規模數據的一個最佳模式,這個擴展性和容錯性都有很大的問題。所以很多的Hadoop引擎都回歸到這個計算模式上來。我們在SQL這一塊做的比較突出,能夠跑完整個過程。現在我們最新發布的4.0版本性能又比這個有兩倍的提升,所以現在除了100TB的用三臺機器,其他的都可以用兩臺機器完成。

分布式計算是解決了性能的問題,那么怎么解決數據源的問題,怎么解決這個問題,我們提出了邏輯數據倉庫的概念。邏輯數據倉庫要滿足三個特性,首先需要有一個集中化的存儲,把所有的數據全部集中起來,而不是分散在不同的地方。另外需要有一個數據聯邦的概念,能夠跨多種數據源,能夠有統一的接口。通過統一的SQL層,或者是一個界面能夠來訪問到所有的數據源,中間有結構化數據,還有非結構化數據。另外必然是需要一個分布式計算,同時上面有多租戶管理,還有原數據管理,整個形成了一個邏輯數據倉庫的概念。邏輯數據倉庫其中一個非常重要的特性就是要做數據聯邦,能夠訪問多種不同的數據源。這一塊我們有一個比較好的產品,可以跨多種數據源進行交叉。 

在邏輯數據倉庫當中需要用資源管理,要實現兩層,數據保護通過不同的訪問規則來控制對數據的不同訪問,其次我們需要對資源進行一個比較好的隔離。這一塊我們現在也采用了一些嘗試,我們現在發布了一個產品是TOS,我們的調動引擎是完全自己開發的。另外一個題外話,我們在明年的產品當中有自己的存儲引擎,所以在未來的一段時間之內,大家看不到Hadoop的影子了,我們已經幾乎把這個東西全部實現了。

在這一塊,上層我們會借助這個容器把這個東西所有的標準化容器放在一個里面,所有的服務都可以自動通過組裝方式來構建這個應用。整個實現了兩個特點,一個是解決了應用標準化的問題,通過容器來實現,另外是實現了運維自動化的問題,整個平臺我們通過調度器來進行管理,自動擴容、自動收縮,出故障會自動修復,在運維上極大的減輕了IT部門的壓力。這一塊因為采用容器,隔離性非常好,可以使得不同部門之間共享一套平臺。

這個設計模式是借助流處理,我們在這里不詳細講了。現在隨著工業4.0的發展,物聯網越來越多,大家需要通過新的技術對數據進行實時處理。過去能夠完成數據的實時存儲,但是不能做實時分析。應用的需求總是希望越來越復雜,需要對這個計算平臺的能力越來越高,這一塊我們需要在流上面支持復雜的SQL,比如說存儲過程,甚至是機器學習。目前這一款產品也是我們比較有特色的,要遠遠超過國外友商的產品,我們可以在流的產品上面支持非常復雜的SQL,也能夠在流上做機器學習。這也是我們用流數據來實現的一個重要手段。

這個設計架構基本上要從原來對于歷史數據的分析轉變成對于數據規律的探索以及未來的預測上面。這一塊我們采用的方式,其實是分成幾個階段,首先是數據清洗,選取特征,再就是建模,還有就是把一個計算模型能夠應用或者是展現,作為決策支持。我們在這一塊我們是通過SQL引擎來做加工,對外完整的提供接口,所有的對表的措施都是用原生操作來實現的,內部我們會自動的定義。另外我們也是現在的算法,分類、聚類、反樣回歸的神經網絡,做時序的關聯分析,都已經整個用分布式方法重新實現了一遍,也提供了二元的接口,用戶可以直接來做這個數據建模。這一塊我們現在看到在國內應用不是特別多,大概只有8%的客戶在用機器學習。當然趨勢是非常快的,有一些客戶建好這個Hadoop平臺以后,在想怎么從數據當中發掘價值,就需要這種產品。其實有很多咨詢機構,包括大數據應用的第一個難點是沒有一個好的工具來做數據挖掘,不能從數據當中發揮價值,妨礙大家去應用這種新的技術。我們的目標是希望提供一個非常易用的,但是非常強大的一個工具,讓大家能夠非常容易的發掘數據的價值。

綜合起來我們看到,在整個數據倉庫建設當中,我們可以借助新的平臺,就可以把原來的架構重新設計一下,整個數據源通過實時和半實時的方式,可以進入一個邏輯數據倉庫,甚至可以跨多個數據源進行訪問。同時底下是容器化的平臺來對外提供數據的隔離和訪問控制。

我再介紹一下工信部電信研究院最近在做的性能測試,這個其實是結合了國內20多家大數據的企業共同制定的一個標準,是比較公平客觀的標準,也是能反映大數據的行業應用的一些需求的特點,同時包括今天上午我們也給其他大數據廠商做了一個證書的頒發,我們希望有更多的廠商能夠參與到這個測試當中,也給客戶提供一個客觀公正的標準。

我今天的演講就到這里,謝謝大家!

網站題目:星環信息孫元浩:Hadoop推動現代數據倉庫技術的深刻變革
網頁網址:http://vcdvsql.cn/article42/soephc.html

成都網站建設公司_創新互聯,為您提供移動網站建設微信公眾號商城網站網頁設計公司Google動態網站

廣告

聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯

網站優化排名