Hadoop
Hadoop是分布式計算引擎,含有四大模塊,common、hdfs、mapreduce和yarn。
并發和并行
并發通常指針對單個節點的應對多個請求的能力,是單一節點上計算能力的衡量,并行通常針對集群來講,是利用多個節點進行分布式協同作業,我們稱之為并行計算。
Spark
快如閃電集群計算引擎,應用于大規模數據處理快速通用引擎,使用內存計算。
1.Speed
內存計算速度是hadoop的100倍以上,硬盤計算是Hadoop是10倍以上,Spark使用高級DAG(Direct acycle graph)執行引擎。
2.易于使用
提供了80+高級算子,能夠輕松構建并行應用,也可以使用scala,python,r的shell進行交互式操作。
3.通用性
對SQL、流計算、復雜分析可進行組合應用。spark提供了類庫棧,包括SQL、MLlib、graphx和Spark streaming。
4.架構
包括: Spark core、 Spark SQL、 Spark streaming、 Spark mllib和 Spark graphx
5. 到處運行
Spark可以運行在hadoop、mesos、standalone和clound上,同時可以訪問多種數據源,如hdfs、hbase、hive、Cassandra、 S3等。
spark集群部署模式
1.local
不需要啟動任何Spark進程,使用一個JVM運行Spark所有組件,主要用于調試和測試。
2.standalone
獨立模式,需要安裝Spark集群,分別啟動master節點和worker節點,master是管理節點,worker是task的執行節點。
3.yarn
不需要單獨部署Spark集群,可以說根本沒有Spark集群的概念。
該模式下,使用的完全是Hadoop的Job執行流程,只是到末端啟動任務時使用Spark的Task執行發生,相當于Spark是一個Hadoop的Job,將Spark的所有jar包打入job運行的依賴包中,流程按照hadoop的執行流程來進行。
安裝spark
1.下載spark-2.1.0-bin-hadoop2.7.tgz
以下是Spark的官方下載地址:
https://www.apache.org/dyn/closer.lua/spark/spark-2.3.0/spark-2.3.0-bin-hadoop2.7.tgz
2.解壓文件到/soft目錄下
$>tar -xzvf spark-2.3.0-bin-hadoop2.7.tgz -C /soft
3.創建軟連接
創建軟連接后,編譯各種文件配置以及后期進行版本升級和替換非常方便。
$>cd /soft
$>ln -s spark-2.3.0-bin-hadoop2.7 spark
4.配置環境變量
編輯/etc/profile環境變量文件:
$>sudo nano /etc/profile
在文件末尾添加如下內容:
...
SPARK_HOME=/soft/spark
PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
注意:將Spark的bin目錄和sbin目錄都添加到環境變量path中,而且Linux使用“:”作為分隔符。
5.環境變量生效
$>source /etc/profile
6.進入Spark-shell命令行
$>/soft/spark/spark-shell
#進入scala命令提示符
$scala>
7.體驗Spark-shell
因為Spark使用的scala語言,因此同Scala的使用完全一致。
$scala>1 + 1
#輸出結果
另外有需要云服務器可以了解下創新互聯scvps.cn,海內外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業上云的綜合解決方案,具有“安全穩定、簡單易用、服務可用性高、性價比高”等特點與優勢,專為企業上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。
本文題目:Spark入門及安裝與配置-創新互聯
文章URL:http://vcdvsql.cn/article46/cccjhg.html
成都網站建設公司_創新互聯,為您提供商城網站、外貿網站建設、App設計、標簽優化、品牌網站制作、動態網站
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯