本期主要介紹下spark的內(nèi)核架構(gòu)。spark的應(yīng)用程序總體來說,主要包括兩部分,一部分是Driver,其包括了SparkConf和SparkContext,另一部分就是Executor,運(yùn)行具體的業(yè)務(wù)邏輯。
創(chuàng)新互聯(lián)是一家以成都網(wǎng)站建設(shè)、網(wǎng)頁設(shè)計(jì)、品牌設(shè)計(jì)、軟件運(yùn)維、seo優(yōu)化、小程序App開發(fā)等移動開發(fā)為一體互聯(lián)網(wǎng)公司。已累計(jì)為活動板房等眾行業(yè)中小客戶提供優(yōu)質(zhì)的互聯(lián)網(wǎng)建站和軟件開發(fā)服務(wù)。應(yīng)用程序的提交有兩種方式,
1、Driver進(jìn)程運(yùn)行在客戶端,對應(yīng)用程序進(jìn)行監(jiān)控。
2、主節(jié)點(diǎn)指定某個worker節(jié)點(diǎn)啟動Driver,負(fù)責(zé)整個應(yīng)用的監(jiān)控。
Driver一般運(yùn)行在一臺專門用來提交spark程序的機(jī)器上,這臺機(jī)器一般一定和spark cluster在同樣的網(wǎng)絡(luò)環(huán)境中(因?yàn)镈river要頻繁的和Execuotr進(jìn)行通信,實(shí)質(zhì)上是CorarseGrainExecutorBackend),并且配置和普通的Worker節(jié)點(diǎn)一致。可以通過spark-submit去運(yùn)行程序,與此同時可以指定運(yùn)行的各種參數(shù),例如memory、cores...。實(shí)際生產(chǎn)環(huán)境寫shell腳本自動化配置和提交程序,當(dāng)然當(dāng)前的機(jī)器一定安裝了Spark,只不過當(dāng)前機(jī)器不屬于集群罷了。
Driver的核心是SparkContext,而SparkContext依賴于SparkConf。SparkContext在初始化的時候會創(chuàng)建DAGScheduler、TaskScheduler、SchedulerBackend。
在實(shí)例化的過程中回向Master注冊應(yīng)用程序,Master接受注冊,如果沒有問題,Master會為當(dāng)前的應(yīng)用程序分配AppId并分配計(jì)算資源。Master接受用戶提交的程序并給Worker發(fā)送指令為當(dāng)前的應(yīng)用程序分配計(jì)算資源。每個Worker節(jié)點(diǎn)默認(rèn)情況下為當(dāng)前的程序分配一個Executor,在Executor中通過線程池并發(fā)執(zhí)行。Worker節(jié)點(diǎn)收到Master發(fā)送的LaunchExecutor指令后,會創(chuàng)建ExecutorRunner實(shí)例,并調(diào)用start方法,來啟動CoarseGrainExecutorBackend進(jìn)程。CoarseGrainExecutorBackend進(jìn)程里有Executor,并且CoarseGrainExecutorBackend和Executor是一一對應(yīng)的。Executor內(nèi)部會維護(hù)一個線程池,實(shí)際工作的時候,通過TaskRunner來封裝task,然后從ThreadPool獲取一條線程執(zhí)行task,執(zhí)行完后,線程會被回收復(fù)用。
在spark中,Transformation操作是延遲計(jì)算的,當(dāng)有action算子時才會觸發(fā)job。SparkContext會通過DAGScheduler把job中的RDD構(gòu)成的DAG劃分成不同的stage,每個stage內(nèi)部都是一系列業(yè)務(wù)邏輯完全相同但是處理數(shù)據(jù)不同的Tasks,構(gòu)成TaskSet。
TaskScheduler和SchedulerBackend負(fù)責(zé)具體的task的執(zhí)行(遵循數(shù)據(jù)本地性)。
一個應(yīng)用程序有可能包含多個stage,最后一個Stage中的Task稱為ResultTask,產(chǎn)生job結(jié)果。其他前面的Stage中的Task都稱為ShuffleMapTask,作為下一個Stage的數(shù)據(jù)輸入,相當(dāng)與MapReduce中的Mapper。
整個Spark程序的運(yùn)行,就是DAGScheduler把job劃分成不同的Stage,提交TaskSet給TaskScheduler,進(jìn)而提交給Executor執(zhí)行(符合數(shù)據(jù)本地性),每個Task會計(jì)算RDD中的一個Partition,基于該P(yáng)artition來具體執(zhí)行我們定義的一系列同一個Stage內(nèi)部的函數(shù),以此輪推...直到整個程序運(yùn)行完成。
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點(diǎn)與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。
名稱欄目:spark內(nèi)核架構(gòu)解密(13)-創(chuàng)新互聯(lián)
當(dāng)前網(wǎng)址:http://vcdvsql.cn/article40/egceo.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站建設(shè)、網(wǎng)站導(dǎo)航、ChatGPT、外貿(mào)建站、營銷型網(wǎng)站建設(shè)、網(wǎng)站排名
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容