這期內容當中小編將會給大家帶來有關數據挖掘的意思是什么,文章內容豐富且以專業的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。
站在用戶的角度思考問題,與客戶深入溝通,找到惠民網站設計與惠民網站推廣的解決方案,憑借多年的經驗,讓設計與互聯網技術結合,創造個性化、用戶體驗好的作品,建站類型包括:網站制作、做網站、企業官網、英文網站、手機端網站、網站推廣、空間域名、網頁空間、企業郵箱。業務覆蓋惠民地區。
數據挖掘(Data Mining)就是從大量的數據中,提取隱藏在其中的,事先不知道的、但潛在有用的信息的過程。數據挖掘的目標是建立一個決策模型,根據過去的行動數據來預測未來的行為。
數據挖掘是指從大量的數據中通過算法搜索隱藏于其中信息的過程。
數據挖掘通常與計算機科學有關,并通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。
數據挖掘是數據庫中知識發現(knowledge discovery in database, KDD)不可缺少的一部分,而KDD是將未加工的數據轉換為有用信息的整個過程,該過程包括一系列轉換步驟, 從數據的預處理到數據挖掘結果的后處理。
數據挖掘的起源
來自不同學科的研究者匯集到一起,開始著手開發可以處理不同數據 類型的更有效的、可伸縮的工具。這些工作都是建立在研究者先前使用的方法學和算法之上,而在數據挖掘領域達到高潮。
特別地,數據挖掘利用了來自如下一些領域的思想:(1)來自統計學的抽樣、估計和假設檢驗;(2)人工智能、模式識別和機器學習的搜索算法建模技術和學習理論。
數據挖掘也迅速地接納了來自其他領域的思想,這些領域包括最優化、進化計算、信息論、信號處理、可視化和信息檢索。
一些其他領域也起到重要的支撐作用。數據庫系統提供有效的存儲、索引和查詢處理支持。源于高性能(并行)計算的技術在處理海量數據集方面常常是重要的。分布式技術也能幫助處理海量數據,并且當數據不能集中到一起處理時更是至關重要。
KDD(Knowledge Discovery from Database)
數據清理
消除噪聲和不一致的數據;
數據集成
多種數據源可以組合在一起;
數據選擇
從數據庫中提取與分析任務相關的數據;
數據變換
通過匯總或聚集操作,把數據變換和統一成適合挖掘的形式;
數據挖掘
基本步驟,使用智能方法提取數據模式;
模式評估
根據某種興趣度,識別代表知識的真正有趣的模式;
知識表示
使用可視化和知識表示技術,向用戶提供挖掘的知識。
數據挖掘方法論
業務理解(business understanding)
從商業角度理解項目的目標和要求,接著把這些理解知識通過理論分析轉化為數據挖掘可操作的問題,制定實現目標的初步規劃;
數據理解(data understanding)
數據理解階段開始于原始數據的收集,然后是熟悉數據、甄別數據質量問題、探索對數據的初步理解、發覺令人感興趣的子集以形成對探索信息的假設;
數據準備(data preparation)
數據準備階段指從最初原始數據中未加工的數據構造數據挖掘所需信息的活動。數據準備任務可能被實施多次,而且沒有任何規定的順序。這些任務的主要目的是從源系統根據維度分析的要求,獲取所需要的信息,需要對數據進行轉換、清洗、構造、整合等數據預處理工作;
建模(modeling)
在此階段,主要是選擇和應用各種建模技術。同時對它們的參數進行調優,以達到最優值。通常對同一個數據挖掘問題類型,會有多種建模技術。一些技術對數據形式有特殊的要求,常常需要重新返回到數據準備階段;
模型評估(evaluation)
在模型部署發布前,需要從技術層面判斷模型效果和檢查建立模型的各個步驟,以及根據商業目標評估模型在實際商業場景中的實用性。此階段關鍵目的是判斷是否存在一些重要的商業問題仍未得到充分考慮;
模型部署(deployment)
模型完成后,由模型使用者(客戶)根據當時背景和目標完成情況,封裝滿足業務系統使用需求。
數據挖掘任務
通常,數據挖掘任務分為下面兩大類。
預測任務。這些任務的目標是根據其他屬性的值,預測特定屬性的值。被預測的屬性一 般稱目標變量(targetvariable)或因變量(dependentvariable), 而用來做預測的屬性稱說明變量(explanatoryvariable)或自變量(independentvariable)。
描述任務。其目標是導出概括數據中潛在聯系的模式(相關、趨勢、聚類、軌跡和異常)。本質上,描述性數據挖掘任務通常是探查性的,并且常常需要后處理技術驗證和解釋結果。
預測建模(predictivemodeling)涉及以說明變量函數的方式為目標變量建立模型。
有兩類預測建模任務:分類(classification),用于預測離散的目標變量;回歸(regression),用于預測連續的目標變量。
例如,預測一個Web用戶是否會在網上書店買書是分類任務,因為該目標變量是二值的,而預測某股票的未來價格則是回歸任務,因為價格具有連續值屬性。
兩項任務目標都是訓練一個模型,使目標變量預測值與實際值之間的誤差達到最小。預測建模可以用來確定顧客對產品促銷活動的反應,預測地球生態系統的擾動,或根據檢查結果判斷病人是否患有某種疾病。
關聯分析(association analysis)用來發現描述數據中強關聯特征的模式。
所發現的模式通常用蘊涵規則或特征子集的形式表示。由于搜索空間是指數規模的,關聯分析的目標是以有效的方式提取最有趣的模式。關聯分析的應用包括找出具有相關功能的基因組、識別用戶一起訪問的Web頁面、 理解地球氣候系統不同元素之間的聯系等。
聚類分析(cluster analysis)旨在發現緊密相關的觀測值組群,使得與屬于不同簇的觀測值相比, 屬于同一簇的觀測值相互之間盡可能類似。聚類可用來對相關的顧客分組、找出顯著影響 地球氣候的海洋區域以及壓縮數據等。
異常檢測(anomaly detection)的任務是識別其特征顯著不同于其他數據的觀測值。
這樣的觀測值稱為異常點(anomaly)或離群點(outlier)。異常檢測算法的目標是發現真正的異常點,而避免錯誤地將正常的對象標注為異常點換言之,一個好的異常檢測器必須具有高檢測率和低誤報率。
異常檢測的應用包括檢測欺詐、網絡攻擊、疾病的不尋常模式、生態系統擾動等。
上述就是小編為大家分享的數據挖掘的意思是什么了,如果剛好有類似的疑惑,不妨參照上述分析進行理解。如果想知道更多相關知識,歡迎關注創新互聯行業資訊頻道。
名稱欄目:數據挖掘的意思是什么
本文網址:http://vcdvsql.cn/article42/phohec.html
成都網站建設公司_創新互聯,為您提供移動網站建設、品牌網站設計、服務器托管、電子商務、靜態網站、網站建設
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯