2021-02-06 分類: 網站建設
MapReduce執行流程圖
概述
MapReduce是一種分布式計算模型,由Google提出,主要用于搜索領域,解決海量數據的計算問題。
MapReduce是分布式運行的,由兩個階段組成:Map和Reduce,Map階段是一個獨立的程序,有很多個節點同時運行,每個節點處理一部分數據。
Reduce階段是一個獨立的程序,有很多個節點同時運行,每個節點處理一部分數據。
使用
MapReduce框架都有默認實現,用戶只需要覆蓋map()和reduce()兩個函數,即可實現分布式計算,非常簡單。
這兩個函數的形參和返回值都是,使用的時候一定要注意構造。
- 一個文本(在HDFS上面保存,兩個block)中每一個單詞的出現的次數:
- hello you hello marry
- hello me really
- ----->block-1
- hello kate ready
- xiao wang hello tomcat
- ----->block-2
1.獲取每一個block塊中的文本,遍歷所有,回去其中的一行str
因為要統計的是每一個單詞i的次數,所以還需要直到文本中有哪些單詞,可以根據字符串的特點,使用split()進行切割。
- String[] words=str.split("");
根據要求,需將每一個單詞i轉換為的形式,k為單詞本身,v為單詞出現的次數。
2.因為mr的計算是分布式的 ,每一個map(稱之為一個mapper task)計算其中的一個block塊數據。
- map階段:
- 輸入<K1,V1>
- k1,偏移量,v1,當前行文本內容
- map()函數操作
- 輸出<K2,V2>
- k2,具體單詞,v2,單詞對應的統計項,比如次數
- 輸出<K2,V2>
- shuffle階段
- 研究后發現,如果按照<key,1>這種方式向reduce輸出數據的時候,會有
- 大量的冗余數據。
- 比如map階段之后有5個hello,則輸出<hello,1>,<hello,1>,<hello,1>,
- <hello,1>,<hello,1>5次,實際上會對網絡造成一定的壓力,能不能對
- 這5個<hello,1>進行一個進入reduce之前的本地組合?比如成為
- <hello,5>或者<hello,[1,1,1,1,1]>.
- 這個過程成為shuffle,洗牌重組階段,達到上述的結果,稱之為規約。
- >>>shuffle階段,也就是對map的輸出進行重新洗牌:
- 分區、分組、排序
- <K2,V2>...===><K2,V2s>
- reduce階段
- 接收map的輸出結果<key,values>
- 對這個結果進行匯總統計,針對values,進行簡單的累加,計算得出key
- 對應的次數
- reduce針對一個key調用一次reduce()函數
- =====>reduce 階段
- 輸入<K2,V2>
- K2,就是map的輸出的K2,V2s是map經過shuffle之后的結果集
- reduce()函數操作
- 轉化為<K3,V3>
經過上述操作之后,系統會將計算結果輸出給用戶,一般會先存儲(落地)到hdfs,然后反饋給用戶。
到此為止,MapReduce執行完畢,接下來就可以進行大數據的其他一系列操作了。
網頁名稱:簡單的介紹一下大數據中最重要的MapReduce
標題網址:http://vcdvsql.cn/news39/99489.html
成都網站建設公司_創新互聯,為您提供App設計、靜態網站、電子商務、網站導航、移動網站建設、企業網站制作
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯
猜你還喜歡下面的內容