數據科學家使用統計分析工具深度挖掘數據潛在的內容時經常會遭遇到大數據挖的坑,實際上這些坑并不是只有大數據才有,大自然本身就存在很多虛假的相關性,大數據只是更加劇了這種虛假的相關性。
成都創新互聯公司是一家專業提供平涼企業網站建設,專注與成都網站建設、網站設計、H5高端網站建設、小程序制作等業務。10年已為平涼眾多企業、政府機構等服務。創新互聯專業網站建設公司優惠進行中。隨著數據來源的增多和預測類型的多樣化,數據建模關系的數量開始接近無窮大。正如David G. Young指出的那樣,在預測分析的時候,我們要看到相互作用,變化的曲率、意義,有時甚至要看到變化的標志。
在做數據建模的相關性分析時,最關鍵的是找對數據范圍,尤其是設置合適的變量和算法。一旦你找到了變量和算法的正確組合,那么你就掌握了正確打開相關性分析的密鑰。
有時候,我們會發現數據建模的相關性可能和實際情況并不相符,它只是你自以為正確的數據模型。即使你本身并沒有欺騙的意圖,也是按照科學的方法來建模的,但是你的數據模型并不一定能幫助你獲得數據背后的真正洞察力。
認知偏差是每一個人都會犯的錯誤,即使你是一個非常優秀的數據科學家也不能百分百確保不犯數學和邏輯上的錯誤、正確的挖掘出數據背后的價值。
諾貝爾經濟學獎獲得者丹尼爾·卡納曼在他的著作《思維說,快與慢》中表示:人類如果沒有接受教育,那么每個人都是生而不同的。我們可能無法看透數據統計的深層次內容,但是現實世界確實存在著某種規律,這種規律有時難以捉摸,但有時我們只憑直覺就可以找到。
如果你是一個正在探索數據驅動的數據科學家,那么你就要注意虛假相關性,它將會是一個非常危險的陷阱。這種虛假相關性產生的原因可能是數據科學家太想要驗證某個假設,也可能是迫于企業的商業模式的要求。利用這種虛假相關性建立的數據模型也許能夠解決一時的問題,但是它本質還是一個劣質的模型,經不起時間的考驗,說不定會在哪個瞬間給你致命的一擊。
那么數據科學家如何才能減少在數據挖掘時無意中做出虛假統計相關性的概率。
集成學習
集成學習是使用一系列學習器進行學習,并使用某種規則把各個學習結果進行整合從而獲得比單個學習器更好的學習效果的一種機器學習方法。這種方法的難點在于要在不同的樣本中進行訓練,采用不同的算法,但是這種方法能夠有效的揭示一些相關性。集成學習的算法是通過獨立模型的結果集的訓練、取平均、bagging、boosting等多種方法得到的,能夠有效減少各層模型之間的差異。
A/B測試
A/B測試其實是一種“先驗”的實驗體系,屬于預測型結論,與“后驗”的歸納性結論差別巨大。A/B測試顧名思義就是為同一個目標設計A、B兩套方案,其中一個為守擂者,一個為攻擊者,通過科學的實驗設計、真實的數據監測來選出最具預測價值的方案。
穩健模型
這種方法涉及到數據建模的方方面面,為了確保預測是穩定的,我們要多方考慮,比如數據源、采樣技術、算法方法、時間等等。此外,離散點分析也是非常重要的,Vincent Granville前幾年就已經表示數據集的異常有可能掩蓋數據的真正模式,增加虛假相關性的發生率。
“數據驅動決策”已經成為這個時代的潮流,好的決策應該是數據驅動的,所以數據模型的建立就顯得尤為重要。如果你是一個數據科學家,希望以上的方法能夠對你建模有所幫助。
分享名稱:大數據會撒謊?如何戳破大數據的謊言
分享地址:http://vcdvsql.cn/article24/sdehje.html
成都網站建設公司_創新互聯,為您提供企業建站、外貿建站、App設計、網站導航、自適應網站、網站維護
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯