互聯(lián)網(wǎng)IDC圈4月28日報道,互聯(lián)網(wǎng)的發(fā)展使得大數(shù)據(jù)引起人們廣泛關注。現(xiàn)如今大數(shù)據(jù)技術早已滲透到金融、通訊等行業(yè)以及生物學、物理學等領域。大數(shù)據(jù)在容量、多樣性和高增速方面的爆炸式增長全面考驗著現(xiàn)代企業(yè)的數(shù)據(jù)處理和分析能力,與此同時也為各個行業(yè)帶來了準確洞察市場行為的機會。迄今為止大數(shù)據(jù)技術與產(chǎn)品有哪些創(chuàng)新,工業(yè)大數(shù)據(jù)應用面臨哪些挑戰(zhàn),金融行業(yè)大數(shù)據(jù)應用現(xiàn)狀如何等。圍繞這一系列問題,4月27日至28日,由工業(yè)和信息化部指導、中國信息通信研究院主辦的"2016大數(shù)據(jù)產(chǎn)業(yè)峰會"在北京國際會議中心盛大召開。28日上午大數(shù)據(jù)推動金融創(chuàng)新分論壇北京大學信息管理系研究員、助理教授化柏林做了主題演講。
成都創(chuàng)新互聯(lián)是專業(yè)的惠安網(wǎng)站建設公司,惠安接單;提供網(wǎng)站設計、成都網(wǎng)站設計,網(wǎng)頁設計,網(wǎng)站設計,建網(wǎng)站,PHP網(wǎng)站建設等專業(yè)做網(wǎng)站服務;采用PHP框架,可快速的進行惠安網(wǎng)站開發(fā)網(wǎng)頁制作和功能擴展;專業(yè)做搜索引擎喜愛的網(wǎng)站,專業(yè)的做網(wǎng)站團隊,希望更多企業(yè)前來合作!北京大學信息管理系研究員、助理教授化柏林
以下是化柏林演講實錄:
化柏林:很高興有這樣一個機會對多源數(shù)據(jù)融合的研究跟大家做一個交流,剛才聽了工行和建行兩位老總的介紹,我感覺心里特別踏實,為什么說踏實?因為我的工資在工行里,我的公積金在建行里,我的主要收入都在這兩個銀行里。大家通過這兩個PPT可以發(fā)現(xiàn)一些共性,這個共性就是他們是在文地中談創(chuàng)新,這是銀行特別是國有銀行的風格。我們談互聯(lián)網(wǎng)談大數(shù)據(jù)創(chuàng)新的新型企業(yè)不是這樣的思維模式,上來就是講顛覆,就是拋棄一切。前面那種技術平臺的架構都是從過去的技術開始逐步演進過來,錢放在這兩個銀行里我是放心的。
他們的差異性和信息安全的問題。我先舉一個例子,前年斯諾登事件爆出來之后,很多新聞媒體都在說個人隱私信息泄露的問題,一個國家一個組織花這么多錢關注數(shù)據(jù)和媒體,他會關注一個普通網(wǎng)民的個人信息嗎?我覺得是不會的。除非作為用戶的群體去分析這個群體的特征。棱鏡計劃主要關注什么,第一是恐怖,第二宗教文化變遷的戰(zhàn)略影響。第三,中國與發(fā)展中國家的科學技術與軍事轉型,我們國家每年的863計劃、973計劃、十一五重大專項等等項目,每當我們公布出名單,國外就會迅速地跟蹤和分析。國內(nèi)搞科技情報,我們也是一樣,美國每年出來一些新項目,他們的大飛機、航空航天領域的技術也會迅速地被我們跟蹤。還有能源和環(huán)境的目標任務。要實現(xiàn)一些目標的基礎,像谷歌、Facebook的數(shù)據(jù),基于這樣的數(shù)據(jù)類型,我們在想僅僅有這樣的數(shù)據(jù)無法實現(xiàn)剛才的目標,要實現(xiàn)這樣的目標就得把這些信息融合起來,通過谷歌的檢索日志可以看出關注信息點的興趣及變化,根據(jù)Facebook、paltalk可以看出社交。把所有信息融合到一起,對一個用戶的畫像,對恐怖分子的頭會有更加清晰的認識。這對于我們金融大數(shù)據(jù)也有一定的借鑒和參考意義。
再來看一個例子,這是在網(wǎng)上廣泛流傳的例子,根據(jù)丹麥的統(tǒng)計數(shù)據(jù),截止到2002年42萬人中有14249人被確診患癌癥,按照流行病的預測有1.5萬例,預測使用手機和癌癥的發(fā)生并無直接關聯(lián)。只看這個案例好像沒什么問題,根據(jù)WHO的統(tǒng)計,全球前十名癌癥發(fā)病率的國家分別為丹麥、愛爾蘭、澳大利亞等,看這個指標,發(fā)病率是一個好的指標,排在前邊幾位的都是非常發(fā)達國家的國家或者是國民福利比較好的國家。但是我們把這兩個數(shù)據(jù)放在一起,第一個數(shù)據(jù)42萬人里有14249,概率是3.4%。第二個數(shù)據(jù)10萬人里有326,數(shù)據(jù)僅為0.33%,這兩個數(shù)據(jù)放在一起我們可以斷定肯定有一個數(shù)據(jù)是錯的,因為差了一個數(shù)據(jù)級。我們查了原文,第一個例子是錯的,這個例子在網(wǎng)上流傳得很多,單看單個數(shù)據(jù)沒有問題,但是在不同數(shù)據(jù)放在一起做交叉驗證和融合,可能會有一些問題和發(fā)現(xiàn),對于金融大數(shù)據(jù)也有借鑒和參考意義。我把不同類型的數(shù)據(jù)放在一起去做融合、交叉和比對就會發(fā)生一些新的問題,對于風險的防控會有更好的監(jiān)測。
大數(shù)據(jù)特點與分析理念,三年前談還有人聽,現(xiàn)在再談已經(jīng)沒有人聽了。除了這三個理念的轉變,數(shù)據(jù)的基礎、過程、目標上還有一點很重要的,過去我們注重單一的數(shù)據(jù),現(xiàn)在我們需要多元的數(shù)據(jù),我們用單一的數(shù)據(jù)去寫數(shù)字報告已經(jīng)很難吸引人,去得到領導的肯定和關注了。不同的企業(yè)在尋求跨界和融合,去打通數(shù)據(jù),使數(shù)據(jù)的價值有倍增的效應。為什么這么說?一方面是單一的數(shù)據(jù)有失全面性,無法全面刻畫事物及事物運動的變化。單一數(shù)據(jù)的可靠性和真實性有時候難以判定,通過多源數(shù)據(jù)的交叉引證有助于對數(shù)據(jù)的真?zhèn)涡员鎰e,數(shù)據(jù)越來越大,我們辨別數(shù)據(jù)真?zhèn)蔚哪芰τ写谔岣摺膯我粩?shù)據(jù)里發(fā)現(xiàn)的洞察是非常單一的。多元數(shù)據(jù)可以有更多的發(fā)現(xiàn)。
多元數(shù)據(jù)的理論。融合過去起源于軍事領域,在傳感器、地理空間就是我們所說的硬數(shù)據(jù)里得到了應用和發(fā)展,但是隨著社會網(wǎng)絡的發(fā)展,隨著人際交際數(shù)據(jù)獲取的越來越容易,所以注重軟數(shù)據(jù)的融合也開始走向了新的應用和發(fā)展。我們通過形式表現(xiàn)方面,多元表示,工行叫機構建行叫單位,指的同樣的事物,不同的數(shù)據(jù)融合的時候涉及到表示的問題,語法結構層次做相關的分析和揭示。邏輯語義層,意義建構理論解釋它的內(nèi)容。
現(xiàn)在的多源數(shù)據(jù)融合,包括三方面,多源、異構、多語種,多語種現(xiàn)在說得比較少,真正做多源數(shù)據(jù)融合,我是搞科技情報的,所以我們經(jīng)常關注國外的文獻。昨天有人講到一帶一路,一帶一路一定會涉及到多源數(shù)據(jù),獲取土庫曼斯坦的數(shù)據(jù),無論是中文還是英文的數(shù)據(jù)非常少,像這些國家一定要把多語種的數(shù)據(jù)融合到一起,這里面帶來很多技術的問題。同型異源,比如都是消費的數(shù)據(jù)、存款的數(shù)據(jù)。還有異質(zhì)異構,比如理財產(chǎn)品。
科技情報里經(jīng)常用期刊論文、會議項目、著作專利、學術論文,電子商務文獻的發(fā)現(xiàn),發(fā)現(xiàn)電子商務最高的高峰是2000年,電子商務產(chǎn)業(yè)是2010年后才有爆發(fā)式的增長,通過文獻和產(chǎn)業(yè)有十年之久,通過學術論文的文獻來預測專利,通過專利來預測一些技術的市場,根據(jù)不同類型的信息的時間差的規(guī)律,去尋找這種規(guī)律,利用這種規(guī)律來進行預測。我用產(chǎn)業(yè)的數(shù)據(jù)去預測產(chǎn)業(yè)是預測不出來的,用同一個數(shù)據(jù)去預測同一個數(shù)據(jù)是很難的。數(shù)據(jù)的融合涉及到線上與線下,歷史的數(shù)據(jù)和實時的數(shù)據(jù),金融行業(yè)積累了大量的歷史數(shù)據(jù),和實時數(shù)據(jù)的融合也非常關鍵。
現(xiàn)在大家強調(diào)大數(shù)據(jù)的實時性,我突然感覺有時候歷史的數(shù)據(jù)特別重要,比如今天早上開車過來開會,我并不關心今天早上的路況,我更關心上一周今天早上的路況,因為我需要決定我?guī)c出發(fā)比較合適,6點多出門肯定是不堵的,但是來的太早了,8點出門有可能晚了,所以我需要關注上一周的今天的數(shù)據(jù)規(guī)律,從7點到8點半的時間段的路況如何,來換算時間的關系,計算出行需要花多少時間。我經(jīng)常看下周五要去哪兒,這個周五去看一下路況,決定要花半小時還是四十五分鐘,歷史數(shù)據(jù)是非常重要的。實時數(shù)據(jù)比較容易獲取,但是歷史的數(shù)據(jù),看交通局的網(wǎng)站、百度、搜狗都是看不到的。外部和內(nèi)部的數(shù)據(jù)融合。
融合的層次,數(shù)據(jù)級、特征級、決策級,要看面向的應用場景。融合問題,字段映射、字段拆分,有些地址分析,有區(qū)有路有門牌號,這樣的東西我們要做拆分,做分級管理,然后才能做一些融合。不同的數(shù)據(jù)庫里,不同的系統(tǒng)里,我們對于同一個地址的描述有時候是不一樣的。還有數(shù)據(jù)率重的問題,不同的數(shù)據(jù)融合到一起,有些數(shù)據(jù)是互補的,有些數(shù)據(jù)是重復的,重復的會涉及到這樣一些問題。異構加權的問題,VIP數(shù)據(jù)跟普通用戶數(shù)據(jù)融合到一起需要加權的問題,這樣做產(chǎn)品的時候才會有更好的效果性。
融合清洗的時候會涉及到很多問題,數(shù)據(jù)統(tǒng)一標識、數(shù)據(jù)脫敏處理、數(shù)據(jù)更新與同步、數(shù)據(jù)交換與共享、數(shù)據(jù)清洗與比對、數(shù)據(jù)記錄濾重、字段映射與互補。基于這些多源數(shù)據(jù)可以做哪些分析?基于關聯(lián)關系的融合是空間的維度,基于時間關系的融合、基于關聯(lián)關系的融合。基于關聯(lián)關系主要是通過相關性的分析,物與物的關聯(lián)、人與物的關聯(lián)、產(chǎn)品與需求的關聯(lián),現(xiàn)在是可以計算的,可以算出需求,產(chǎn)學研的分析、上下游的分析。
我們常用的企業(yè)有時候想找競爭對手的核心技術,A企業(yè)和某個學校的教授合作,你不太方便再跟他合作,那我們招聘這個教授畢業(yè)帶的博士來工作,因為這個博士對博導的工作方式非常了解。通過這樣的非直接的方式,這個在大數(shù)據(jù)時代是可以的。通過論文預測專利,通過專利來預測市場。基于空間關系的融合,聚類分析,看用戶聚類與畫像、產(chǎn)品聚類、人員聚類。社會網(wǎng)絡分析,看合作網(wǎng)絡、關系網(wǎng)絡、引文網(wǎng)絡、鏈接網(wǎng)絡。異常分析,孤立點分析、突然消失分析。
就國家二胎的政策,這個經(jīng)過很多的計算,通過公安統(tǒng)計、民政、衛(wèi)生、財稅、教育、勞動與社會保障,把所有數(shù)據(jù)融合在一起,當然現(xiàn)在這個政策的推出有一些詬病,本來是做社會的承受力壓力、教育、保障、人口老齡口等等一系列問題,我覺得這個系統(tǒng)做得沒有問題,但是少了一個因素,只是從行政者管理的角度,沒有考慮老百姓生孩子的意義,特別是在北上廣的城市很多人不想要那么多孩子,因為壓力太大了,所以沒有考慮用戶的需求。如果把這樣的數(shù)據(jù)融合在一起,我覺得政策推出得會更合適、更受歡迎,因為這個政策推出稍微晚了一些。
提到政策,大數(shù)據(jù)可以做的事情就更多了,比如反腐,我們有金融大數(shù)據(jù),現(xiàn)在打虎的成本蠻高的,現(xiàn)在的反腐都是主動的。很多腐敗的事件和案例,貪污受賄不會放在自己的名下,如果我們把人口的數(shù)據(jù)融合上,把行政的數(shù)據(jù),通過家人或者秘書會發(fā)現(xiàn),把工程項目的數(shù)據(jù)跟他融合在一起,可能會有更好的監(jiān)測。前段時間我們給一個政府去做多源數(shù)據(jù)的融合,他是綜合治理部門,他的數(shù)據(jù)融合的渠道有很多,和垂直系統(tǒng)的交換,還有網(wǎng)絡信息采集、共享平臺的交換,現(xiàn)在的系統(tǒng)越來越多,不同的系統(tǒng)中數(shù)據(jù)如何來共享和對接,還有空間的數(shù)據(jù),有些社區(qū)的臺賬,社區(qū)的基層工作人員報的數(shù)據(jù)可能不是網(wǎng)絡的,就像我們在銀行填申請單一樣紙版的數(shù)據(jù),包括移動終端采集的數(shù)據(jù)。對這些數(shù)據(jù)驅做建模和整理。
對于一個企業(yè)來講,我們的數(shù)據(jù)包括三方面,我們自有的數(shù)據(jù)、我們購買合作的數(shù)據(jù)和交易的數(shù)據(jù)、公開信息來源的數(shù)據(jù),把這些不同類型的數(shù)據(jù)融合在一起,這是電子商務里的一些交易數(shù)據(jù)的融合,歷史的信息、檢索日志的信息、上網(wǎng)行為的信息、地址的信息。現(xiàn)在大部分電子商務公司還是不去搜集你的收貨信息,如果搜集這種信息的話用戶畫像就更清楚了,現(xiàn)在可以知道你什么時候在單位什么時候在家,這些數(shù)據(jù)是可以分析的。整個的多源數(shù)據(jù)融合,從理論方面有這樣一些。D-S證據(jù)和深度學習的算法,去處理一些重名的情況,對技術的問題實現(xiàn)歷史數(shù)據(jù)和外部數(shù)據(jù)的融合,線上線下的融合、傳感器硬數(shù)據(jù)與軟數(shù)據(jù)的結合,實現(xiàn)這樣一些應用,這是整個的體系。
多源數(shù)據(jù)融合整體上是實踐驅動的領域,和大數(shù)據(jù)一樣。社會人文的數(shù)據(jù)和物理信號的數(shù)據(jù)同樣重要,商務領域更加重視多源信息進行交叉印證與關聯(lián)分析。我的演講就到這里,謝謝!
本文題目:北京大學化柏林:多源數(shù)據(jù)融合方法與應用
文章源于:http://vcdvsql.cn/article18/sojedp.html
成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供云服務器、網(wǎng)站收錄、App開發(fā)、網(wǎng)站排名、品牌網(wǎng)站設計、微信小程序
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)