多智能自然語言處理

背景——前所未有的創新時代

成都創新互聯于2013年開始，先為寶清等服務建站，寶清等地企業，進行企業商務咨詢服務。為寶清企業網站制作PC+手機+微官網三網同步一站式服務解決您的所有建站問題。

我們生活在一個創新的時代。在這個時代，互聯網顛覆了人們的生活和工作方式。社交網絡與移動終端的普及、大數據的產生與匯聚，催生出越來越多的新需求。這些需求必將推動更多創新應用(如微博、微信、語音助手、網絡購物、手機打車、PM2.5指數、手機錢包、互聯網理財、交友、移動學習、在線課程等)的問世。由于創新所依賴的基礎設施日趨完善，多種云計算服務及開源平臺前所未有地降低了創新的成本，使得人們可以將精力集中到創新本身。

得益于網絡和云計算所支持的令人驚嘆的計算能力，以及從大數據洞察到的良機，還有機器學習所帶來的算法進步，人工智能獲得了新生。人工智能，是指計算機系統具備從聽說讀寫到搜索、推理、決策、回答問題等類人智能的能力。

最近，很多互聯網公司提出了“大腦”計劃，就是試圖在大數據和互聯網的背景下，提升各種應用的智能水平。在大數據的支持下，新一代人工智能與自然語言處理技術的大規模應用將成為科技創新的重大機遇。

數據智能、知識智能與社會智能

數據智能、知識智能和社會智能是智能應用的三種典型模式。

數據智能是在大規模、多樣化、新鮮的數據支持下，在云計算的支撐下，采用機器學習的方法進行分類、聚類和排序，進而基于各類數據驅動實現的智能應用系統。這里的數據是指存在于萬維網(Web)或者企業內部的海量、無結構或者半結構的數據集合。這類數據具有重復性、冗余性和多樣性等特點，對搜索系統、問答系統、推理系統和預測系統具有重要意義。為了利用數據智能，我們須經過數據獲取、去噪、抽取信息、建立索引等若干步驟形成可檢索的數據集合。我們也可以利用搜索引擎的返回結果進行實時信息抽取，以避免存儲和索引全網而付出的代價。

知識智能是指利用知識庫、詞典和規則進行推理的智能系統。目前很多搜索公司都建立了大型知識庫。Freebase, Yago2和DEPEDIA等知識庫可供免費研究和使用。結構化、半結構化和無結構化的數據經過信息抽取技術可獲取實體、實體的屬性和實體之間的關系來構成一個知識圖譜。知識圖譜隨著數據的更新而演進，帶動知識智能不斷提升。

社會智能是指利用網友在互聯網上直接貢獻的內容(包括網頁錨文本、用戶標簽、用戶日志、用戶反饋、社區問答、社會關系網絡等)實現用戶參與的智能應用。在社區問答中，用戶提出問題，其他網友回答問題。久而久之形成的問答對庫可以用來回答新的問題。這些問題和答案蘊含著豐富的社會智能。

值得注意的是，在企業里也存在著這樣三種形態的智能信息。企業的網頁、文檔、電子郵箱、新聞、交易數據等可以看作是數據智能;企業的知識庫、本體、產品目錄、地址簿、客戶關系等可以看作是知識智能;企業內部的QQ, LINC, YAMMER, Wiki的數據可以視作社會智能。利用這三種類型的智能信息，可以很好地支持商業活動，提高企業的運行效率。

以搜索引擎為例，給定一個查詢表達式，搜索引擎進行排序時，會用到TF-IDF1，體現關鍵詞和文檔的匹配(數據智能)，會用到page rank2(社會智能)，也會用到實體、實體之間的關系(知識智能)。而且很多搜索引擎在展示結果的時候，會提供網頁搜索、知識圖譜以及社會關系網絡等的結果。

多智能自然語言處理系統

自然語言處理研究的基本任務是理解句子和文章的要點，推斷其意圖，進行人機自然交互，實現搜索、文摘、自動問答、聊天機器人、機器翻譯等多種應用。

搜索引擎的成功啟發我們在創新的時候，要綜合考慮數據智能、知識智能和社會智能。本專題以自然語言處理為例，邀請多位專家對相關科學研究方法與應用創新進行具體闡述。

在數據智能方面，建立安全可靠的云計算平臺，實現對互聯網和授權企業數據的及時獲取、更新。根據應用的需要，對數據進行聚類、分類和主題抽取。利用數據的特點獲取有標注信息的數據，比如有翻譯標注的雙語對照數據、有分詞標注信息的數據、有地理位置信息的數據。同時，對數據的可靠性進行有效估計，對數據的質量進行自動評定。然后，利用數據建立適合于特定應用問題的模型，比如機器翻譯和輸入法中使用的語言模型。利用深度學習獲得詞匯的向量化表示，來計算詞匯之間的語義距離，并訓練更加強大的語言模型。

微軟亞洲研究院劉樹杰博士等人撰寫了《深度學習在自然語言處理中的應用》一文，介紹了一系列在人工智能方面取得突破的深度學習方法，并在分析自然語言數據與語音圖像信息差異的基礎上，重點介紹了自然語言處理應用深度學習的三種基本方法，包括詞匯向量化表示、語言模型和句法分析，并具體闡述了深度學習如何幫助機器翻譯和情感分析來提升性能。

在知識智能方面，需要設計大規模知識獲取系統，掃描互聯網和授權企業數據，抽取實體、實體類型和實體關系，獲得知識條目。自動檢查知識庫的不一致性，提高人工編輯的修正效率。判斷知識庫缺失的知識，并自動補充。對通過多種途徑獲得的知識庫進行合并，去除冗余條目，合并相同知識條目，并消除不一致條目。利用機器翻譯把一種語言的知識庫翻譯成其他語言，加快其他語言知識庫的建設。通過多語言的知識庫支持機器翻譯和在線詞典。研究進行知識庫的快速查找和推理的圖數據庫系統。在知識庫基礎上，實現自然語言分析和合成、問答系統支持搜索和語音助手，建立通用或企業/專業領域知識管理系統。

中國科學院自動化研究所研究員趙軍撰寫的《從問答系統看知識智能》一文，以圖靈測試為引子，回顧了問答系統的發展歷程，分析了實現智能問答的主要局限和智能問答突破瓶頸的關鍵問題——大型開放域知識庫，闡述了當前智能問答的研究重點，如實體消歧、關系語義分類、問句語義解析和知識推理等，并指出了未來的研究方向。

在社會智能方面，從社會關系網絡的實時海量數據中抽取社會智能信息(包括問答對、主題、熱點話題、用戶觀點、用戶特征)，來過濾灌水、軟文等帖子，評定發帖和回復的質量與權威性，確定帖子的情感(正面、負面或者中性)，評定發帖人的權威性和影響力，提供觀點、摘要和對比摘要，改善新問題到問題-答案庫的語義匹配問題，對用戶關心的事件(比如競選結果、比賽結果、票房收入、產品銷量)做出預測，設計新型眾包，鼓勵網友貢獻知識和答案。

清華大學教授李涓子等人撰寫的文章《擁抱社會智能》，以社交網絡的社會關系為背景，介紹了社交網絡關系和社會影響力分析等微觀分析理論，重點闡述了社區發現、代表用戶預測、社區信息傳播分析等宏觀分析方法，并結合具體案例給出利用眾包實現社會智能的途徑。文章指出，應利用我國社交網絡用戶多、研究水平高的優勢發展社會智能應用，擁抱社會智能。

哈爾濱工業大學教授劉挺等人撰寫《基于社會媒體的預測技術》的文章，從社會媒體與社會活動的關聯關系出發，系統闡述了利用社交網絡進行消費意圖挖掘的方法，即結合深度學習分析社交網絡的短文本數據，挖掘顯式及隱式消費意圖;指出基于消費意圖挖掘的電影票房預測模型，是利用社交網絡實現社會智能的典型案例。文章還介紹了基于事件抽取和因果關系等預測方法的研究進展，認為社會媒體的智能預測具有重要的研究和應用價值。

為了實現多智能自然語言處理系統，應采用NLP2.0框架——把互聯網當成一個研究平臺，在其上進行數據獲取、模型訓練、實施，并與用戶互動。因此，首先要建立強大的數據處理平臺以支持網絡挖掘、信息抽取、模型訓練和系統實施，支持大數據的處理和分析;同時，把自然語言研究和用戶需求、市場因素適度地聯系在一起，使之實現互動;此外，需要同時考慮多智能協調，利用多種智能研究類人智能任務、開發互聯網智能應用。

腳注：

1 TF-IDF(term frequency-inverse document frequency，詞頻-反文檔頻率)是一種用于資訊檢索與資訊探勘的常用加權技術，用以評估一個字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。

2 又稱佩奇排名。Page rank取自谷歌的創始人Larry Page。它是谷歌排名運算法則的一部分，是谷歌對網頁重要性的評估，是衡量一個網站好壞的唯一標準。

本文名稱：多智能自然語言處理
標題鏈接：http://vcdvsql.cn/article46/soephg.html

成都網站建設公司_創新互聯，為您提供動態網站、手機網站建設、網站內鏈、云服務器、標簽優化、品牌網站制作

聲明：本網站發布的內容（圖片、視頻和文字）以用戶投稿、用戶轉載內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網站立場，如需處理請聯系客服。電話：028-86922220；郵箱：631063699@qq.com。內容未經允許不得轉載，或轉載時需注明來源：創新互聯

猜你還喜歡下面的內容

bl双性强迫侵犯h_国产在线观看人成激情视频_蜜芽188_被诱拐的少孩全彩啪啪漫画

多智能自然語言處理