這篇文章給大家分享的是有關(guān)如何使用hadoop archive合并小文件并進(jìn)行mapreduce來減少map的數(shù)量的內(nèi)容。小編覺得挺實用的,因此分享給大家做個參考,一起跟隨小編過來看看吧。
成都創(chuàng)新互聯(lián)專注于太谷網(wǎng)站建設(shè)服務(wù)及定制,我們擁有豐富的企業(yè)做網(wǎng)站經(jīng)驗。 熱誠為您提供太谷營銷型網(wǎng)站建設(shè),太谷網(wǎng)站制作、太谷網(wǎng)頁設(shè)計、太谷網(wǎng)站官網(wǎng)定制、成都小程序開發(fā)服務(wù),打造太谷網(wǎng)絡(luò)公司原創(chuàng)品牌,更為您提供太谷網(wǎng)站排名全網(wǎng)營銷落地服務(wù)。
如下:原始文件 四個文件
經(jīng)過hadoop archive之后:
執(zhí)行的命令是:hadoop archive -archiveName words.har -p /words -r 1 /wordhar
生成的文件在/wordhar/words.har
其中part-0是數(shù)據(jù)文件
在mapreduce中,會忽略以下劃線開頭的文件,也就是說上圖的_SUCCESS,_index,_masterindex是不會處理的
那么這樣一來就只會處理數(shù)據(jù)文件part-0
job設(shè)置的輸入路徑是
運行mapreduce中執(zhí)行的map數(shù)量是1
分片為一個
map數(shù)量為一個
課件通過hadoop archive的文件也可以進(jìn)行mapreduce
感謝各位的閱讀!關(guān)于“如何使用hadoop archive合并小文件并進(jìn)行mapreduce來減少map的數(shù)量”這篇文章就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,讓大家可以學(xué)到更多知識,如果覺得文章不錯,可以把它分享出去讓更多的人看到吧!
網(wǎng)站欄目:如何使用hadooparchive合并小文件并進(jìn)行mapreduce來減少map的數(shù)量
鏈接分享:http://vcdvsql.cn/article6/pephig.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供商城網(wǎng)站、移動網(wǎng)站建設(shè)、小程序開發(fā)、品牌網(wǎng)站制作、品牌網(wǎng)站建設(shè)、用戶體驗
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)