一、大數(shù)據(jù)相關(guān)的工作介紹
二、大數(shù)據(jù)工程師的技能要求
三、大數(shù)據(jù)學(xué)習(xí)規(guī)劃
大數(shù)據(jù)介紹
針對(duì)以上主要的4個(gè)特征我們需要考慮以下問(wèn)題:
數(shù)據(jù)來(lái)源廣,該如何采集匯總?,對(duì)應(yīng)出現(xiàn)了Sqoop,Cammel,Datax等工具。
數(shù)據(jù)采集之后,該如何存儲(chǔ)?,對(duì)應(yīng)出現(xiàn)了GFS,HDFS,TFS等分布式文件存儲(chǔ)系統(tǒng)。
由于數(shù)據(jù)增長(zhǎng)速度快,數(shù)據(jù)存儲(chǔ)就必須可以水平擴(kuò)展。
數(shù)據(jù)存儲(chǔ)之后,該如何通過(guò)運(yùn)算快速轉(zhuǎn)化成一致的格式,該如何快速運(yùn)算出自己想要的結(jié)果?
對(duì)應(yīng)的MapReduce這樣的分布式運(yùn)算框架解決了這個(gè)問(wèn)題;但是寫(xiě)MapReduce需要Java代碼量很大,所以出現(xiàn)了Hive,Pig等將SQL轉(zhuǎn)化成MapReduce的解析引擎;
普通的MapReduce處理數(shù)據(jù)只能一批一批地處理,時(shí)間延遲太長(zhǎng),為了實(shí)現(xiàn)每輸入一條數(shù)據(jù)就能得到結(jié)果,于是出現(xiàn)了Storm/JStorm這樣的低時(shí)延的流式計(jì)算框架;
但是如果同時(shí)需要批處理和流處理,按照如上就得搭兩個(gè)集群,Hadoop集群(包括HDFS+MapReduce+Yarn)和Storm集群,不易于管理,所以出現(xiàn)了Spark這樣的一站式的計(jì)算框架,既可以進(jìn)行批處理,又可以進(jìn)行流處理(實(shí)質(zhì)上是微批處理)。
而后Lambda架構(gòu),Kappa架構(gòu)的出現(xiàn),又提供了一種業(yè)務(wù)處理的通用架構(gòu)。
為了提高工作效率,加快運(yùn)速度,出現(xiàn)了一些輔助工具:
Ozzie,azkaban:定時(shí)任務(wù)調(diào)度的工具。
Hue,Zepplin:圖形化任務(wù)執(zhí)行管理,結(jié)果查看工具。
Scala語(yǔ)言:編寫(xiě)Spark程序的最佳語(yǔ)言,當(dāng)然也可以選擇用Python。
Python語(yǔ)言:編寫(xiě)一些腳本時(shí)會(huì)用到。
Allluxio,Kylin等:通過(guò)對(duì)存儲(chǔ)的數(shù)據(jù)進(jìn)行預(yù)處理,加快運(yùn)算速度的工具。
以上大致就把整個(gè)大數(shù)據(jù)生態(tài)里面用到的工具所解決的問(wèn)題列舉了一遍,知道了他們?yōu)槭裁炊霈F(xiàn)或者說(shuō)出現(xiàn)是為了解決什么問(wèn)題,進(jìn)行學(xué)習(xí)的時(shí)候就有的放矢了。
正文
一、大數(shù)據(jù)相關(guān)工作介紹
大數(shù)據(jù)方向的工作目前主要分為三個(gè)主要方向:
大數(shù)據(jù)工程師
數(shù)據(jù)分析師
大數(shù)據(jù)科學(xué)家
其他(數(shù)據(jù)挖掘等)
二、大數(shù)據(jù)工程師的技能要求
附上大數(shù)據(jù)工程師技能圖:
必須掌握的技能11條
Java高級(jí)(虛擬機(jī)、并發(fā))
Linux 基本操作
Hadoop(HDFS+MapReduce+Yarn )
HBase(JavaAPI操作+Phoenix )
Hive(Hql基本操作和原理理解)
Kafka
Storm/JStorm
Scala
Python
Spark (Core+sparksql+Spark streaming )
輔助小工具(Sqoop/Flume/Oozie/Hue等)
高階技能6條
機(jī)器學(xué)習(xí)算法以及mahout庫(kù)加MLlib
R語(yǔ)言
Lambda 架構(gòu)
Kappa架構(gòu)
Kylin
Alluxio
三、學(xué)習(xí)路徑
假設(shè)每天可以抽出3個(gè)小時(shí)的有效學(xué)習(xí)時(shí)間,加上周末每天保證10個(gè)小時(shí)的有效學(xué)習(xí)時(shí)間;
3個(gè)月會(huì)有(213+4210)3=423小時(shí)的學(xué)習(xí)時(shí)間。
第一階段(基礎(chǔ)階段)
1)Linux學(xué)習(xí)(跟鳥(niǎo)哥學(xué)就ok了)—–20小時(shí)
Linux操作系統(tǒng)介紹與安裝。
Linux常用命令。
Linux常用軟件安裝。
Linux網(wǎng)絡(luò)。
防火墻。
Shell編程等。
2)Java 高級(jí)學(xué)習(xí)(《深入理解Java虛擬機(jī)》、《Java高并發(fā)實(shí)戰(zhàn)》)—30小時(shí)
掌握多線程。
掌握并發(fā)包下的隊(duì)列。
了解JMS。
掌握J(rèn)VM技術(shù)。
掌握反射和動(dòng)態(tài)代理。
3)Zookeeper學(xué)習(xí)
Zookeeper分布式協(xié)調(diào)服務(wù)介紹。
Zookeeper集群的安裝部署。
Zookeeper數(shù)據(jù)結(jié)構(gòu)、命令。
Zookeeper的原理以及選舉機(jī)制。
第二階段(攻堅(jiān)階段)
4)Hadoop (《Hadoop 權(quán)威指南》)—80小時(shí)
HDFS
HDFS的概念和特性。
HDFS的shell操作。
HDFS的工作機(jī)制。
HDFS的Java應(yīng)用開(kāi)發(fā)。
MapReduce
運(yùn)行WordCount示例程序。
了解MapReduce內(nèi)部的運(yùn)行機(jī)制。
MapReduce程序運(yùn)行流程解析。
MapTask并發(fā)數(shù)的決定機(jī)制。
MapReduce中的combiner組件應(yīng)用。
MapReduce中的序列化框架及應(yīng)用。
MapReduce中的排序。
MapReduce中的自定義分區(qū)實(shí)現(xiàn)。
MapReduce的shuffle機(jī)制。
MapReduce利用數(shù)據(jù)壓縮進(jìn)行優(yōu)化。
MapReduce程序與YARN之間的關(guān)系。
MapReduce參數(shù)優(yōu)化。
MapReduce的Java應(yīng)用開(kāi)發(fā)
5)Hive(《Hive開(kāi)發(fā)指南》)–20小時(shí)
Hive 基本概念
Hive 應(yīng)用場(chǎng)景。
Hive 與hadoop的關(guān)系。
Hive 與傳統(tǒng)數(shù)據(jù)庫(kù)對(duì)比。
Hive 的數(shù)據(jù)存儲(chǔ)機(jī)制。
Hive 基本操作
Hive 中的DDL操作。
在Hive 中如何實(shí)現(xiàn)高效的JOIN查詢。
Hive 的內(nèi)置函數(shù)應(yīng)用。
Hive shell的高級(jí)使用方式。
Hive 常用參數(shù)配置。
Hive 自定義函數(shù)和Transform的使用技巧。
Hive UDF/UDAF開(kāi)發(fā)實(shí)例。
Hive 執(zhí)行過(guò)程分析及優(yōu)化策略
6)HBase(《HBase權(quán)威指南》)—20小時(shí)
hbase簡(jiǎn)介。
habse安裝。
hbase數(shù)據(jù)模型。
hbase命令。
hbase開(kāi)發(fā)。
hbase原理。
7)Scala(《快學(xué)Scala》)–20小時(shí)
Scala概述。
Scala編譯器安裝。
Scala基礎(chǔ)。
數(shù)組、映射、元組、集合。
類、對(duì)象、繼承、特質(zhì)。
模式匹配和樣例類。
了解Scala Actor并發(fā)編程。
理解Akka。
理解Scala高階函數(shù)。
理解Scala隱式轉(zhuǎn)換。
8)Spark (《Spark 權(quán)威指南》)—60小時(shí)
enter image description here
Spark core
Spark概述。
Spark集群安裝。
執(zhí)行第一個(gè)Spark案例程序(求PI)。
RDD
enter image description here
RDD概述。
創(chuàng)建RDD。
RDD編程API(Transformation 和 Action Operations)。
RDD的依賴關(guān)系
RDD的緩存
DAG(有向無(wú)環(huán)圖)
Spark SQL and DataFrame/DataSet
enter image description here
Spark SQL概述。
DataFrames。
DataFrame常用操作。
編寫(xiě)Spark SQL查詢程序。
Spark Streaming
enter image description here
enter image description here
park Streaming概述。
理解DStream。
DStream相關(guān)操作(Transformations 和 Output Operations)。
Structured Streaming
其他(MLlib and GraphX )
這個(gè)部分一般工作中如果不是數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí)一般用不到,可以等到需要用到的時(shí)候再深入學(xué)習(xí)。
9)Python
10)自己用虛擬機(jī)搭建一個(gè)集群,把所有工具都裝上,自己開(kāi)發(fā)一個(gè)小demo —30小時(shí)
可以自己用VMware搭建4臺(tái)虛擬機(jī),然后安裝以上軟件,搭建一個(gè)小集群(本人親測(cè),I7,64位,16G內(nèi)存,完全可以運(yùn)行起來(lái))
大數(shù)據(jù)的未來(lái)前景可期,入行的人也非常的多,而如何快速的完成轉(zhuǎn)型,如何快速的進(jìn)入大數(shù)據(jù)領(lǐng)域,就需要轉(zhuǎn)型者、小白去進(jìn)行深刻的思考。
對(duì)于小白學(xué)習(xí)大數(shù)據(jù)需要注意的點(diǎn)有很多,但無(wú)論如何,既然你選擇了進(jìn)入大數(shù)據(jù)行業(yè),那么便只顧風(fēng)雨兼程。正所謂不忘初心、方得始終,學(xué)習(xí)大數(shù)據(jù)你最需要的還是一顆持之以恒的心。
在這里還是要推薦下我自己建的大數(shù)據(jù)學(xué)習(xí)交流群:529867072,群里都是學(xué)大數(shù)據(jù)開(kāi)發(fā)的,如果你正在學(xué)習(xí)大數(shù)據(jù) ,小編歡迎你加入,大家都是軟件開(kāi)發(fā)黨,不定期分享干貨(只有大數(shù)據(jù)軟件開(kāi)發(fā)相關(guān)的),包括我自己整理的一份最新的大數(shù)據(jù)進(jìn)階資料和高級(jí)開(kāi)發(fā)教程,歡迎進(jìn)階中和進(jìn)想深入大數(shù)據(jù)的小伙伴加入。
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無(wú)理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。
網(wǎng)頁(yè)名稱:java轉(zhuǎn)大數(shù)據(jù)的學(xué)習(xí)路線-創(chuàng)新互聯(lián)
路徑分享:http://vcdvsql.cn/article42/egohc.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供服務(wù)器托管、建站公司、關(guān)鍵詞優(yōu)化、定制網(wǎng)站、搜索引擎優(yōu)化、網(wǎng)站營(yíng)銷(xiāo)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)