大數據計算BUG處理:
成都創新互聯專注于靖安網站建設服務及定制,我們擁有豐富的企業做網站經驗。 熱誠為您提供靖安營銷型網站建設,靖安網站制作、靖安網頁設計、靖安網站官網定制、成都微信小程序服務,打造靖安網絡公司原創品牌,更為您提供靖安網站排名全網營銷落地服務。程序修改前資源情況:
Driver : 1臺
Worker : 2臺
程序提交申請內存資源 : 1G內存
內存分配情況 :
1. 20%用于程序運行
2. 20%用于Shuffle
3. 60%用于RDD緩存
單條TweetBean大小 : 3k
1. 內存溢出
原因:因為程序會把所有的TweetBean查詢出來并且合并(union),該操作在內存中進行。則某個campaign數據量較大時,如500W數據,則500W*10k=50G,超出內存限制。
解決方法: 先按數據量切分task,避免單個task有很多數據造成內存溢出。把所有的task切分完成放到task列表中。循環task列表,當取出的task的數據量大于200000時,合并所有的數據并拆分成16個RDD分片。循環取task列表直至結束。
批量取200000數據的原因:200000*3k=600M,兩臺機器可用于程序運行的內存=2(機器數)* 2G(程序申請的內存大小) * 0.2(用于程序運行的內存比例) = 800M,可以滿足存儲200000數據,避免內存溢出。
2. 運行緩慢
原因:因為兩臺機器,每臺機器可用于shuffle的內存大小 = 2(機器數)* 1G(程序申請的內存大小)* 0.2(用于程序運行的內存比例)= 400M。
200000(批量處理的數據量)* 3k(單條TweetBean大小)= 600M,批量Shuffle的數據量大于機器可用內存,所以數據會Flush到硬盤,導致讀取數據緩慢。
解決方法:調整程序Shuffle可用內存,如下:
程序申請內存資源:2G
內存分配情況 :
1. 20%用于程序運行
2. 60%用于Shuffle
3. 20%用于RDD緩存
另外有需要云服務器可以了解下創新互聯scvps.cn,海內外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業上云的綜合解決方案,具有“安全穩定、簡單易用、服務可用性高、性價比高”等特點與優勢,專為企業上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。
文章標題:SPARK大數據計算BUG處理:-創新互聯
本文URL:http://vcdvsql.cn/article26/dsopcg.html
成都網站建設公司_創新互聯,為您提供定制網站、網站內鏈、靜態網站、自適應網站、網站排名、標簽優化
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯