創(chuàng)新互聯(lián)www.cdcxhl.cn八線動態(tài)BGP香港云服務(wù)器提供商,新人活動買多久送多久,劃算不套路!
成都創(chuàng)新互聯(lián)公司長期為1000+客戶提供的網(wǎng)站建設(shè)服務(wù),團(tuán)隊從業(yè)經(jīng)驗10年,關(guān)注不同地域、不同群體,并針對不同對象提供差異化的產(chǎn)品和服務(wù);打造開放共贏平臺,與合作伙伴共同營造健康的互聯(lián)網(wǎng)生態(tài)環(huán)境。為布爾津企業(yè)提供專業(yè)的成都做網(wǎng)站、網(wǎng)站設(shè)計、外貿(mào)營銷網(wǎng)站建設(shè),布爾津網(wǎng)站改版等技術(shù)服務(wù)。擁有10余年豐富建站經(jīng)驗和眾多成功案例,為您定制開發(fā)。本篇文章給大家分享的是有關(guān)數(shù)據(jù)挖掘是什么,小編覺得挺實用的,因此分享給大家學(xué)習(xí),希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。
數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機(jī)科學(xué)有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)在大量數(shù)據(jù)中搜索隱藏信息的目標(biāo)。
數(shù)據(jù)挖掘是人工智能和數(shù)據(jù)庫領(lǐng)域研究的熱點問題,所謂數(shù)據(jù)挖掘是指從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程。
數(shù)據(jù)挖掘是一種決策支持過程,它主要基于人工智能、機(jī)器學(xué)習(xí)、模式識別、統(tǒng)計學(xué)、數(shù)據(jù)庫、可視化技術(shù)等,高度自動化地分析企業(yè)的數(shù)據(jù),作出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場策略,減少風(fēng)險,作出正確的決策。
知識發(fā)現(xiàn)過程由以下三個階段組成:①數(shù)據(jù)準(zhǔn)備;②數(shù)據(jù)挖掘;③結(jié)果表達(dá)和解釋。數(shù)據(jù)挖掘可以與用戶或知識庫交互。
數(shù)據(jù)挖掘?qū)ο?/strong>
數(shù)據(jù)的類型可以是結(jié)構(gòu)化的、半結(jié)構(gòu)化的,甚至是異構(gòu)型的。發(fā)現(xiàn)知識的方法可以是數(shù)學(xué)的、非數(shù)學(xué)的,也可以是歸納的。最終被發(fā)現(xiàn)了的知識可以用于信息管理、查詢優(yōu)化、決策支持及數(shù)據(jù)自身的維護(hù)等。 [4]
數(shù)據(jù)挖掘的對象可以是任何類型的數(shù)據(jù)源。可以是關(guān)系數(shù)據(jù)庫,此類包含結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)源;也可以是數(shù)據(jù)倉庫、文本、多媒體數(shù)據(jù)、空間數(shù)據(jù)、時序數(shù)據(jù)、Web數(shù)據(jù),此類包含半結(jié)構(gòu)化數(shù)據(jù)甚至異構(gòu)性數(shù)據(jù)的數(shù)據(jù)源。 [4]
發(fā)現(xiàn)知識的方法可以是數(shù)字的、非數(shù)字的,也可以是歸納的。最終被發(fā)現(xiàn)的知識可以用于信息管理、查詢優(yōu)化、決策支持及數(shù)據(jù)自身的維護(hù)等。
數(shù)據(jù)挖掘步驟
在實施數(shù)據(jù)挖掘之前,先制定采取什么樣的步驟,每一步都做什么,達(dá)到什么樣的目標(biāo)是必要的,有了好的計劃才能保證數(shù)據(jù)挖掘有條不紊地實施并取得成功。很多軟件供應(yīng)商和數(shù)據(jù)挖掘顧問公司投提供了一些數(shù)據(jù)挖掘過程模型,來指導(dǎo)他們的用戶一步步地進(jìn)行數(shù)據(jù)挖掘工作。比如,SPSS公司的5A和SAS公司的SEMMA。
數(shù)據(jù)挖掘過程模型步驟主要包括定義問題、建立數(shù)據(jù)挖掘庫、分析數(shù)據(jù)、準(zhǔn)備數(shù)據(jù)、建立模型、評價模型和實施。下面讓我們來具體看一下每個步驟的具體內(nèi)容:
(1)定義問題。在開始知識發(fā)現(xiàn)之前最先的也是最重要的要求就是了解數(shù)據(jù)和業(yè)務(wù)問題。必須要對目標(biāo)有一個清晰明確的定義,即決定到底想干什么。比如,想提高電子信箱的利用率時,想做的可能是“提高用戶使用率”,也可能是“提高一次用戶使用的價值”,要解決這兩個問題而建立的模型幾乎是完全不同的,必須做出決定。
(2)建立數(shù)據(jù)挖掘庫。建立數(shù)據(jù)挖掘庫包括以下幾個步驟:數(shù)據(jù)收集,數(shù)據(jù)描述,選擇,數(shù)據(jù)質(zhì)量評估和數(shù)據(jù)清理,合并與整合,構(gòu)建元數(shù)據(jù),加載數(shù)據(jù)挖掘庫,維護(hù)數(shù)據(jù)挖掘庫。
(3)分析數(shù)據(jù)。分析的目的是找到對預(yù)測輸出影響大的數(shù)據(jù)字段,和決定是否需要定義導(dǎo)出字段。如果數(shù)據(jù)集包含成百上千的字段,那么瀏覽分析這些數(shù)據(jù)將是一件非常耗時和累人的事情,這時需要選擇一個具有好的界面和功能強(qiáng)大的工具軟件來協(xié)助你完成這些事情。
(4)準(zhǔn)備數(shù)據(jù)。這是建立模型之前的最后一步數(shù)據(jù)準(zhǔn)備工作。可以把此步驟分為四個部分:選擇變量,選擇記錄,創(chuàng)建新變量,轉(zhuǎn)換變量。
(5)建立模型。建立模型是一個反復(fù)的過程。需要仔細(xì)考察不同的模型以判斷哪個模型對面對的商業(yè)問題最有用。先用一部分?jǐn)?shù)據(jù)建立模型,然后再用剩下的數(shù)據(jù)來測試和驗證這個得到的模型。有時還有第三個數(shù)據(jù)集,稱為驗證集,因為測試集可能受模型的特性的影響,這時需要一個獨立的數(shù)據(jù)集來驗證模型的準(zhǔn)確性。訓(xùn)練和測試數(shù)據(jù)挖掘模型需要把數(shù)據(jù)至少分成兩個部分,一個用于模型訓(xùn)練,另一個用于模型測試。
(6)評價模型。模型建立好之后,必須評價得到的結(jié)果、解釋模型的價值。從測試集中得到的準(zhǔn)確率只對用于建立模型的數(shù)據(jù)有意義。在實際應(yīng)用中,需要進(jìn)一步了解錯誤的類型和由此帶來的相關(guān)費用的多少。經(jīng)驗證明,有效的模型并不一定是正確的模型。造成這一點的直接原因就是模型建立中隱含的各種假定,因此,直接在現(xiàn)實世界中測試模型很重要。先在小范圍內(nèi)應(yīng)用,取得測試數(shù)據(jù),覺得滿意之后再向大范圍推廣。
(7)實施。模型建立并經(jīng)驗證之后,可以有兩種主要的使用方法。第一種是提供給分析人員做參考;另一種是把此模型應(yīng)用到不同的數(shù)據(jù)集上。
以上就是數(shù)據(jù)挖掘是什么,小編相信有部分知識點可能是我們?nèi)粘9ぷ鲿姷交蛴玫降摹OM隳芡ㄟ^這篇文章學(xué)到更多知識。更多詳情敬請關(guān)注創(chuàng)新互聯(lián)-成都網(wǎng)站建設(shè)公司行業(yè)資訊頻道。
新聞名稱:數(shù)據(jù)挖掘是什么-創(chuàng)新互聯(lián)
本文路徑:http://vcdvsql.cn/article2/dcoooc.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供用戶體驗、外貿(mào)網(wǎng)站建設(shè)、App設(shè)計、網(wǎng)頁設(shè)計公司、品牌網(wǎng)站設(shè)計、動態(tài)網(wǎng)站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)