bl双性强迫侵犯h_国产在线观看人成激情视频_蜜芽188_被诱拐的少孩全彩啪啪漫画

從底層到應(yīng)用,那些數(shù)據(jù)人的必備技能

根據(jù)數(shù)據(jù)應(yīng)用的不同階段,我將從數(shù)據(jù)底層到最后應(yīng)用,來談?wù)勀切?shù)據(jù)人的必備技能。

創(chuàng)新互聯(lián)建站是專業(yè)的南崗網(wǎng)站建設(shè)公司,南崗接單;提供網(wǎng)站設(shè)計制作、成都網(wǎng)站制作,網(wǎng)頁設(shè)計,網(wǎng)站設(shè)計,建網(wǎng)站,PHP網(wǎng)站建設(shè)等專業(yè)做網(wǎng)站服務(wù);采用PHP框架,可快速的進行南崗網(wǎng)站開發(fā)網(wǎng)頁制作和功能擴展;專業(yè)做搜索引擎喜愛的網(wǎng)站,專業(yè)的做網(wǎng)站團隊,希望更多企業(yè)前來合作!

1、大數(shù)據(jù)平臺

目前很火,數(shù)據(jù)源頭,各種炫酷新技術(shù),搭建Hadoop、Hive、Spark、Kylin、Druid、Beam~,前提是你要懂Java,很多平臺都是用Java開發(fā)的。

目前很多企業(yè)都把數(shù)據(jù)采集下來了,對于傳統(tǒng)的業(yè)務(wù)數(shù)據(jù),用傳統(tǒng)的數(shù)據(jù)是完全夠用的,可是對于用戶行為和點擊行為這些數(shù)據(jù)或者很多非結(jié)構(gòu)化的數(shù)據(jù),文本、圖像和文本類的,由于數(shù)據(jù)量太大,很多公司都不知道怎么進行存儲。

這里面要解決的是實時、近實時和離線的大數(shù)據(jù)框架如何搭建,各數(shù)據(jù)流之間如何耦合和解耦,如何進行容災(zāi)、平臺穩(wěn)定、可用是需要重點考慮的。

我的感覺是:最近兩三年中,這塊人才還是很稀缺的,因為大數(shù)據(jù)概念炒作的這么厲害,很多企業(yè)都被忽悠說,我們也來開始進入大數(shù)據(jù)行業(yè)吧。進入的前提之一就是需要把數(shù)據(jù)存儲下來,特別是很多用戶行為方面的數(shù)據(jù),對于業(yè)務(wù)的提升比較明顯的,如果你能很好的刻畫用戶,那么對你的產(chǎn)品設(shè)計、市場營銷、開發(fā)市場都是有幫助的。現(xiàn)階段,很多公司都要做第一步:存儲更多的數(shù)據(jù)。這也是這塊人員流動性比較高的原因,都被高薪挖走了。

和傳統(tǒng)的SQL不同的是,針對大數(shù)據(jù)量的非結(jié)構(gòu)式數(shù)據(jù),我們所想的就是:用最廉價的成本存儲數(shù)據(jù)同時能夠達到容災(zāi)、擴展性高、高性能、跨域,從目前來看,分布式已經(jīng)被證明是個很好的一個方式。

另外,云端會是個很好的方向,不是每個公司都養(yǎng)得起這么多這么貴的大數(shù)據(jù)平臺開發(fā)人員和運維人員OPS,從事這個行業(yè)的我們要有很好的危機意識,及時貢獻出自己的價值,積極主動的學(xué)習(xí)新技術(shù)、否則就可能被淘汰了。

此外,花點錢把數(shù)據(jù)托管給云服務(wù)提供商是對于創(chuàng)業(yè)公司或者一些傳統(tǒng)的企業(yè)來說是個很好的思路,這樣能夠最快速的確定數(shù)據(jù)對你的價值是什么,而不用采購這么多的服務(wù)器、雇傭這么多的運維人員和網(wǎng)站開發(fā)人員。

說了以上這些,主要是想給未來會從事這塊的人或者想存儲數(shù)據(jù)的公司一點方向。我自己不做這塊,體會不深,大家看看就行。

這塊工作最被吐槽的一點就是:Hive速度好慢,SQL查詢好慢,集群怎么又掛掉了,hadoop版本升級后,怎么數(shù)據(jù)跑出來不對了等等。

因此,在這個領(lǐng)域內(nèi)工作,需要有強大的攻堅能力,并且還需要有快速定位和解決bug的能力,因為有很多工具都是開源的。因為是開源的,所以你們懂得,各種坑爹,甚至出現(xiàn)無法向下兼容的情況,所以需要強大的Java開發(fā)能力。

如果想在這塊做的很好,還需要有整個系統(tǒng)架構(gòu)的設(shè)計能力、比較的強的抗壓能力和解決問題的能力、資源收集的能力,可以打入開源社區(qū),這樣就可以隨時follow最新的潮流和技術(shù)。

2、數(shù)據(jù)倉庫-ETL

確實做倉庫的人很辛苦,單單Oncall就會讓人望而卻步。有很多數(shù)據(jù)庫工程師,晚上睡覺的時候經(jīng)常被Oncall電話吵醒,因為數(shù)據(jù)流程出問題,需要第一時間去排查,是哪個數(shù)據(jù)源出問題,并且要立即解決,否則整個數(shù)據(jù)流程都會受到影響。

如果數(shù)據(jù)流程受到了影響,你就可能會被大領(lǐng)導(dǎo)一言不合叫到辦公室說:我要的數(shù)據(jù)怎么還沒有準(zhǔn)備好,我的業(yè)務(wù)報表今天怎么沒有發(fā)出來。

通過上面這個情景,我們可以知道:這是個很重要的崗位,因為數(shù)據(jù)流程很重要,決定了數(shù)據(jù)從源頭雜亂無章的狀況,通過ETL之后變成了整齊的數(shù)據(jù),這些整齊一致性的數(shù)據(jù)可以讓你很方便地把各業(yè)務(wù)的統(tǒng)計結(jié)果計算出來,并且能夠統(tǒng)一口徑。要不然就會變成有幾個部門,就有幾種統(tǒng)計結(jié)果,到時候A部門說業(yè)務(wù)增長了5%,B部門說業(yè)務(wù)漲了10%,OMG,到底信誰。

至少在以下幾點上,我覺得數(shù)據(jù)倉庫人員應(yīng)該要做好:

a、數(shù)據(jù)字典的完整性,用的人都希望能夠清晰的知道這個字段的邏輯是什么。字段要保持很好的一致性,不要同樣一個字段在不同表里有不同的定義。

b、核心流程的穩(wěn)定性,不要讓每天訂單主表能夠使用的時間很不穩(wěn)定,有的時候很早,有的時候要中午才出來,如果不穩(wěn)定就會導(dǎo)致使用數(shù)據(jù)的人對你很沒有信心。

c、倉庫版本迭代不要過于頻繁,要保持不同版本之間的兼容性。不要做好了倉庫1.0,很快就把原來的推倒重來,變成了2.0。在數(shù)據(jù)倉庫中需要考慮到延續(xù)性,主表的變動不要太頻繁,否則使用的人會非常痛苦,好不容易才用習(xí)慣了1.0的表結(jié)構(gòu),沒辦法這么快進行切換。簡單地說,要能向下兼容。

d、保持各業(yè)務(wù)邏輯的統(tǒng)一性,不要出現(xiàn)同樣的業(yè)務(wù)邏輯,同一個組別的人統(tǒng)計出來的結(jié)果不同。原因在于共同的邏輯沒有落地成通用的東西,所以導(dǎo)致每個人寫法不同。這點其實需要特別注意。

針對以上,這個崗位的技能要求是:不要成為僅僅會寫SQL的人,現(xiàn)在工具都很發(fā)達,如果你的技能很單一的話,那么可替代指數(shù)是非常高的,并且你自身也沒有什么成就感。這里并不是說會寫SQL的人很low,只是說應(yīng)該多學(xué)一些技能,否則會很危險。

倉庫人員應(yīng)該要常常思考,如何進行架構(gòu)設(shè)計是最合理的,你要考慮是否需要字段冗余、行存儲還是列存儲、字段如何擴展最有效,熱數(shù)據(jù)和冷數(shù)據(jù)如何拆分等,所以需要有架構(gòu)思維。

技能上,除了SQL熟練之外,還需要知道如何寫Transform,MapReduce,因為有很多業(yè)務(wù)邏輯用SQL實現(xiàn)起來非常復(fù)雜,但是如果你會其他腳本語言,那么就能給你提供便利,讓你的效率提升很多。另外好的倉庫人員需要寫Java或者Scala,通過寫UDTF或者UDAF來提升你的效率是很有必要的。

數(shù)據(jù)倉庫人員也應(yīng)該常常考慮自動化和工具化方面的事情,需要很好的工具或者模塊的抽象能力,動手實現(xiàn)自動化的工具來提高整個組織效能。針對經(jīng)常碰到的數(shù)據(jù)傾斜問題,需要很快定位問題并進行優(yōu)化。

說完了數(shù)據(jù)存儲這塊,接下來是數(shù)據(jù)應(yīng)用的幾個關(guān)鍵職位,在此之前,我想說數(shù)據(jù)應(yīng)用的一個最關(guān)鍵的前提是:數(shù)據(jù)質(zhì)量、數(shù)據(jù)質(zhì)量、數(shù)據(jù)質(zhì)量!!在每次闡述你的觀點、分析結(jié)論或者用算法的時候,都需要先檢查,源頭數(shù)據(jù)正確性,否則任何結(jié)論都是偽命題。

3、數(shù)據(jù)可視化

這是個很炫的工作,最好是能懂點前端,比如js。數(shù)據(jù)可視化人員需要有很好的分析思維,不能為了炫技而忽視對業(yè)務(wù)的幫助程度。因為我對這個崗位客串的不多,所以沒有特別深入的感悟,不過我覺得這個崗位需要有分析的能力,才能把可視化做好。

另外一方面來說,做數(shù)據(jù)應(yīng)用的人都應(yīng)該懂點數(shù)據(jù)可視化,要知道觀點表達的素材順序是:圖片>表格>文字,一個能夠用圖片來闡述的機會千萬別用文字來描述,因為這樣更易于讓別人理解。要知道,給大領(lǐng)導(dǎo)講解事情的時候,需要把大領(lǐng)導(dǎo)設(shè)想成是個“數(shù)據(jù)白癡”,這樣才能把一件事情說的比較生動。

4、數(shù)據(jù)分析師

現(xiàn)在對數(shù)據(jù)分析的需求是很大的,因為大家都想著說:數(shù)據(jù)有了,但是能做些什么呢?這就需要有數(shù)據(jù)分析師,對數(shù)據(jù)進行分析和挖掘,然后做數(shù)據(jù)應(yīng)用。

對數(shù)據(jù)分析師吐槽最多的是:你分析出來的不就是正常的業(yè)務(wù)邏輯嗎,還需要你分析什么?或者是你分析的結(jié)論不對,跟我們的業(yè)務(wù)邏輯不符合。特別是:ABTest的結(jié)果和當(dāng)初設(shè)定的預(yù)期不相符合的時候,分析師會常常被拉過去說:分析一下,為什么我的AB實驗結(jié)果不顯著,里面肯定有原因的。

很多時候,寶寶的心里苦啊,你說這個轉(zhuǎn)化率下降了,從數(shù)據(jù)上可以看出哪個細分渠道下降了,至于為什么客戶不下單,我們得去用戶去,很多時候,數(shù)據(jù)上也體現(xiàn)不出來為什么,只能告訴你現(xiàn)狀是什么。

如果你一直在寫分析報告,給結(jié)論中,持續(xù)周而復(fù)始,沒有直接在業(yè)務(wù)中體現(xiàn)成績的時候,數(shù)據(jù)分析師們該醒醒了,你該想想這個是你要的崗位嗎?

對于數(shù)據(jù)分析師的定位:個人認為,成為優(yōu)秀的數(shù)據(jù)分析師是非常難的,現(xiàn)在市面上也沒有多少優(yōu)秀的分析師。數(shù)據(jù)分析師的技能要求,除了會數(shù)據(jù)分析、提煉結(jié)論、洞察數(shù)據(jù)背后的原因之外,還需要了解業(yè)務(wù),懂算法。

只有這樣,當(dāng)面對一個業(yè)務(wù)問題時,數(shù)據(jù)分析師們才可以針對問題抽絲剝繭,層層遞進去解決問題,再根據(jù)定位的問題進行策略的應(yīng)對,比如是先做上策略進行測試還是應(yīng)用算法進行優(yōu)化,用算法用在哪個場景上,能不能用算法來解決問題。

一個優(yōu)秀的數(shù)據(jù)分析師,是個精通業(yè)務(wù)和算法的全能數(shù)據(jù)科學(xué)家,不是那個只會聽從業(yè)務(wù)的需求而進行拉數(shù)據(jù)、做報表、只做分析的閑雜人等。我們都說分析要給出結(jié)論,優(yōu)秀分析師的結(jié)論就是一個能解決問題的一攬子策略和應(yīng)對措施,同時很多需求是分析師去主動發(fā)現(xiàn)并通過數(shù)據(jù)來挖掘出來的。

從上述描述中,可以看到對數(shù)據(jù)分析師的要求是:會寫sql拉數(shù)據(jù),精通業(yè)務(wù)、會數(shù)據(jù)洞察、精通算法,主動性強,要求還是很高的。

如果你一直只是忙于應(yīng)付日常分析需求,熱衷于寫華麗的報告,那么你要記得,你很危險,因為會有一堆人在那里質(zhì)疑你存在的價值,特別是小公司。因為數(shù)據(jù)人員的薪資是個不小的支出。

大部分不落地的分析都是偽分析,有一些探索性的可行性研究可以不考慮落地,但是其他的特定業(yè)務(wù)需求的分析都需要考慮落地,然后通過實踐來反推你的作用,如此反復(fù),才能慢慢的給你價值的肯定,同時提升你的分析技能,也只有這樣才能證明你作為分析師、數(shù)據(jù)落地者的價值。

5、數(shù)據(jù)挖掘/算法

這塊的話,經(jīng)過這三年的摸爬滾打,感觸蠻多的。體會比較深的吐槽主要有以下幾點:

一個規(guī)則搞定了,還用什么算法。

·你的準(zhǔn)確率怎么這么低?!

·你的準(zhǔn)確率可以到99%嗎?

·你的推薦有價值嗎?你不推薦客人也會下那個產(chǎn)品的訂單的。

·幫我做個大數(shù)據(jù)預(yù)測他想要什么?

很多時候,不同的場景對準(zhǔn)確率的要求是不同的,所以在一定合理的場景下和業(yè)務(wù)進行據(jù)理力爭是必要,不要害怕讓業(yè)務(wù)吐槽,更多的時候管理好他們的預(yù)期。

有些場景下,推薦的價值在于『長期復(fù)購率』,所以不要每次都盯著ABTest的轉(zhuǎn)化率來說事,讓客人的費力度降低也是很有前途和前景的。一個智能的產(chǎn)品會讓客人用起來愛不釋手,雖然在這一次的轉(zhuǎn)化中沒有明顯的差別,但是觀察長期復(fù)購率才能體現(xiàn)價值。特別是要區(qū)分:高頻和低頻產(chǎn)品。頻次比較低的產(chǎn)品就特別難體現(xiàn)出短期價值。

對于這個崗位的技能要求來說,沒有要求你一定要從零開始實現(xiàn)所有的算法,現(xiàn)在有很多現(xiàn)成的算法包進行調(diào)用。最基本的要求是,你要知道每個場景會用到哪個算法,比如分類場景,常用的分類算法就有LR/RF/Xgboost/ET等等,此外,你還要知道每個算法的有效優(yōu)化參數(shù)是什么、模型效果不好的時候怎么優(yōu)化。還需要有算法的實現(xiàn)能力,語言方面可以用Scala/python/R/Java等。我們常說:工具不重要,重要的是你玩工具,不是工具玩你。

另外針對有監(jiān)督式學(xué)習(xí)算法,算法工程師最好有很好的業(yè)務(wù)sense,這樣在feature設(shè)計的時候才能更有針對性,設(shè)計的feature才有可能有很好的先驗性。

6、深度學(xué)習(xí)(NLP,CNN,語音識別)

這塊我沒具體商用過,只是動手實踐過。個人感覺商業(yè)化是重點吧,特別是大家都在觀望說你的chatbot很有用啊,可是siri做了這么久,最后反響也一般。

現(xiàn)在客服機器人又很火,大家又在一通吐槽說,這個上下文理解的太差了,機器人的語義識別做的怎么這么差。誰做誰知道,對于中文的語義識別,難度比國外的難多了,因為中文的一種否定說法有太多種變體,你不知道我們會說哪種。

另外,常常有人吐槽說,你這個CNN這么復(fù)雜,我線上需要滿足100ms內(nèi)返回,搞的這么復(fù)雜,實時調(diào)用怎么整,肯定來不及了,最后只能考慮offline預(yù)測了。常常說這話的人,是不會自己寫底層代碼的,很多時候我覺得:不是你沒有解決問題的辦法,而是你沒有去思考怎么解決問題,心智決定了你的產(chǎn)出。

整體來說,這塊對個人的綜合素質(zhì)要求是很高的。如果你只是想簡單利用現(xiàn)成的Model,提取中間層的特征,然后再套用其他的機器學(xué)習(xí)模型進行預(yù)測的話,倒也能很好的解決一些現(xiàn)實中的公司應(yīng)用,比如yelp的圖片分類。

不過,嚴(yán)格來說,這個不算是做深度學(xué)習(xí)的人,因為真正玩DL的人,是需要自己動手建模型,調(diào)參數(shù),改symbol的,所以他們的編程能力是很強的,這點上,我一直都高山仰止。特別是一些創(chuàng)業(yè)公司,對于這個崗位的編程能力要求很高。如果你面試創(chuàng)業(yè)公司后沒有下文了那就表示:你很優(yōu)秀,但是不一定適合我們公司,因為我們要找的編程能力很強的人。

這塊我不專業(yè),所以就點到為止,不說太多。個人認為,在這塊上需要有比較強的算法改造和優(yōu)化能力,盡量的提高算法預(yù)測的速度,同時不斷的提高算法的外延性提高精度,目前整個行業(yè)也都是朝著好的方向在發(fā)展。如果有很多人看到這塊行業(yè)開出來的高工資,記得和招聘上的要求核對一下,自己哪塊技能需要補充。這樣你才能成為人中之鳳。

對于未來,一片光明,對于未來,甚是期待,對于未來,一切可能。

做個總結(jié):

以上說了這么多,嘮叨了這么多,其實核心就是:如何用數(shù)據(jù)創(chuàng)造價值,如果你沒有用數(shù)據(jù)創(chuàng)造價值的能力,那么就只能等著被數(shù)據(jù)淹沒,被數(shù)據(jù)拍死在職場上,早早到達職業(yè)的天花板。

體現(xiàn)數(shù)據(jù)價值的層面上,越往數(shù)據(jù)應(yīng)用層靠攏,對數(shù)據(jù)產(chǎn)生價值的要求就越高,從事這塊領(lǐng)域的人要常常自省是否有好的商業(yè)Sense,畢竟在工業(yè)界,沒人關(guān)心你是否比傳統(tǒng)的baseline提高了一個百分點,他們關(guān)心的是你提高了一個百分點之后,對公司的價值是什么。

而越往底層那塊,倒也沒有強制要求和業(yè)績綁定在一起,更多的是從流程上進行約定,對于這塊的價值體現(xiàn),主要從技術(shù)層面上的創(chuàng)新為主,你如果解決了現(xiàn)存架構(gòu)的問題,那么你就可以成為一個大牛,所以多學(xué)學(xué)編程吧,別太約束自己,故步自封。

網(wǎng)站題目:從底層到應(yīng)用,那些數(shù)據(jù)人的必備技能
網(wǎng)站URL:http://vcdvsql.cn/article6/sopdog.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站營銷云服務(wù)器網(wǎng)頁設(shè)計公司手機網(wǎng)站建設(shè)網(wǎng)站收錄虛擬主機

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都seo排名網(wǎng)站優(yōu)化