互聯(lián)網(wǎng)IDC圈1月4日報道:對于機器學(xué)習(xí)技術(shù)中信息檢索和自然語言處理的應(yīng)用而言,文本挖掘已經(jīng)成為一個重要的研究領(lǐng)域。在某種意義上,它被定義為在無處不在的文本中發(fā)現(xiàn)知識的方式,而這些文本可以在網(wǎng)絡(luò)上輕易獲取。
文本挖掘是一個包含幾個步驟的過程,如上圖所示。
機器學(xué)習(xí)在電商文本挖掘中的應(yīng)用淺析
第一步:適合應(yīng)用的文檔一般是確定的大量文本數(shù)據(jù)。文檔聚類方法經(jīng)常用語解決“大量”這個問題。這些方法是非監(jiān)督的學(xué)習(xí)方法,最受歡迎的文檔聚類方法是K-means聚類和凝聚層次聚類。
第二步:文本是被清洗了的——它從網(wǎng)頁上的廣告中拆離出來;標(biāo)準(zhǔn)化文本從二進(jìn)制格式轉(zhuǎn)換而來;表、數(shù)字等式都是經(jīng)過處理的;還有其它的等等。然后,將文本中的詞語與對應(yīng)的詞類標(biāo)記的步驟開始進(jìn)行。有兩種方法標(biāo)出詞語:一個是基于規(guī)則方法,依賴于語法規(guī)則;一個是基于統(tǒng)計的方法,它依賴于不同的詞序概率,并且需要一個用來機器學(xué)習(xí)的手工且有針對性的語料庫。之后,一個詞語在依據(jù)給定的話句子中所含有的擁有的許多不同的含義確定了。最后,語義結(jié)構(gòu)明確下來。有兩種方式來確定語義結(jié)構(gòu):完全語法分析,它會對一個句子會產(chǎn)生一個分析樹,是部分語法分析的組合,部分語法分析會產(chǎn)生一個句子的語法結(jié)構(gòu),比如名詞短語和動詞組。產(chǎn)生一個完整分析樹經(jīng)常失敗,因為語法不準(zhǔn)確、異常詞匯、糟糕的符號化、不正確的句子拆分、詞性的標(biāo)準(zhǔn)錯誤和其它等等原因。因此,分塊和部分分析更為常用。
第三步:這些詞語(特征)決定了文本表示。最基本的文檔表示方法有詞袋法和向量空間。這些方法的目標(biāo)在于確定哪些特征可以最好的描述一個文檔。
第四步:特征的維度被降低。為此,無關(guān)的屬性將被移除。
第五步:文本挖掘過程與傳統(tǒng)的數(shù)據(jù)挖掘過程結(jié)合。經(jīng)典的數(shù)據(jù)挖掘技術(shù)如聚類,分類,決策樹,回歸分析,神經(jīng)網(wǎng)絡(luò)和近鄰取樣將被用在之前的階段所得到的結(jié)構(gòu)化數(shù)據(jù)庫上。
在最后的步驟中,如果結(jié)果不令人滿意,它們將會用做文本挖掘一個或多個早期階段所投入的一部分。
機器學(xué)習(xí)是計算機科學(xué)的一個分支,它來源于模式識別研究好人工智能中計算學(xué)習(xí)理論。它探索了算法的研究和建立,認(rèn)為可以從數(shù)據(jù)中進(jìn)行學(xué)習(xí)并對數(shù)據(jù)進(jìn)行預(yù)測。這樣的算法運行是通過樣例的輸入來建立模型,從它成為以數(shù)據(jù)作為驅(qū)動的預(yù)測或者決策,而不是遵循嚴(yán)格的靜態(tài)程序指令。
機器學(xué)習(xí)與計算統(tǒng)計學(xué)非常相關(guān),并且經(jīng)常有所重疊——也是一個專門研究預(yù)測制定的學(xué)科。它和數(shù)學(xué)最優(yōu)化法有很強的關(guān)系,提供了方法、理論和應(yīng)用領(lǐng)域。它是使用一系列的計算任務(wù),其中顯示算法設(shè)計和編程都不可用。示例應(yīng)用程序包含垃圾郵件過濾,光學(xué)字符識別(OCR),搜索引擎和計算機視覺。文本挖掘利用機器學(xué)習(xí)在決定功能,降低維數(shù)和刪除不相關(guān)的屬性上的特別優(yōu)勢。例如,文本挖掘?qū)C器學(xué)習(xí)用于情緒分析,它廣泛的應(yīng)用于評論到社交媒體,涵蓋了從營銷到客戶服務(wù)各種不同的而應(yīng)用程序。它的目的是確定一個說話者或?qū)懽髡邔σ恍┰掝}的態(tài)度,或者是一個文檔整體語境的極性判定。這個態(tài)度可能是他或者她的判斷或評價,情感狀態(tài)或情感交流。文本挖掘中機器學(xué)習(xí)算法包括決策樹學(xué)習(xí),關(guān)聯(lián)規(guī)則學(xué)習(xí),人工神經(jīng)學(xué)習(xí),歸納邏輯編程,支持向量機,貝葉斯網(wǎng)絡(luò)、遺傳算法和稀疏字典的學(xué)習(xí)。
網(wǎng)頁標(biāo)題:用文本挖掘和機器學(xué)習(xí)洞悉數(shù)據(jù)
標(biāo)題網(wǎng)址:http://vcdvsql.cn/article44/sdgihe.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供App開發(fā)、自適應(yīng)網(wǎng)站、定制開發(fā)、ChatGPT、面包屑導(dǎo)航、網(wǎng)站收錄
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)