bl双性强迫侵犯h_国产在线观看人成激情视频_蜜芽188_被诱拐的少孩全彩啪啪漫画

序列標(biāo)注的BIO標(biāo)注體系-創(chuàng)新互聯(lián)

1、什么是序列標(biāo)注
  • 輸入和輸出都是序列
  • 輸入和輸出序列是一一對應(yīng)的
  • 是一種結(jié)構(gòu)化的分類,分類問題的一種推廣
  • 輸出序列用的是BIO標(biāo)注體系

序列標(biāo)注是NLP中最基礎(chǔ)的任務(wù),應(yīng)用十分廣泛,如分詞、詞性標(biāo)注、命名實體識別、關(guān)鍵詞抽取、語義角色標(biāo)注、槽位抽取等實質(zhì)上都屬于序列標(biāo)注的范疇

創(chuàng)新互聯(lián)專注于企業(yè)營銷型網(wǎng)站、網(wǎng)站重做改版、定興網(wǎng)站定制設(shè)計、自適應(yīng)品牌網(wǎng)站建設(shè)、HTML5建站成都商城網(wǎng)站開發(fā)、集團(tuán)公司官網(wǎng)建設(shè)、外貿(mào)網(wǎng)站建設(shè)、高端網(wǎng)站制作、響應(yīng)式網(wǎng)頁設(shè)計等建站業(yè)務(wù),價格優(yōu)惠性價比高,為定興等各大城市提供網(wǎng)站開發(fā)制作服務(wù)。2、標(biāo)注體系
  • BIO 三位標(biāo)注(B-begin, I-inside,O-outside)
    B-X表示實體X的開頭
    I-X表示實體的結(jié)尾
    O表示不屬于任何類型
輸入序列達(dá)/SATA91511數(shù)標(biāo)
輸出序列B-brandI-brandOB-brandI-brandI-brandI-brandOOOOOOOOB-productI-productI-productI-product
  • BIOES (B-begin, I-inside,O-outside,E-end,S-single)
    B表示實體開頭
    I表示實體內(nèi)部
    O表示非實體
    E表示實體結(jié)尾
    S表示單個字符,其本身就是一個實體
輸入序列達(dá)/SATA91511數(shù)標(biāo)
輸出序列B-brandE-brandOB-brandI-brandI-brandE-brandOOOOOOOOB-productI-productI-productE-product
  • BMES 四位序列標(biāo)注法 (B-begin,M-middle,E-end,S-single)
    B表示實體開頭
    M表示實體中間
    E表示實體結(jié)尾
    S表示單個字符,其本身就是一個實體
輸入序列達(dá)/SATA91511數(shù)標(biāo)
輸出序列BESBMMESSSSSSSSBMME
3、常見的序列標(biāo)注任務(wù)
  • 中文分詞
  • 詞性標(biāo)注
  • 命名實體識別
3.1 中文分詞

分詞基本上是所有自然語言處理任務(wù)的基礎(chǔ),目的是讓文本的內(nèi)容變成一個個的單詞或詞組,便于轉(zhuǎn)換為詞向量。

中文分詞與英文分詞的不同:

  1. 中文不像英文那樣有空格作為詞語的界限標(biāo)志,而且“詞”在中文里本來就是一個很模糊的概念,中文也不具備英文中的字母大小寫等形態(tài)指示
  2. 中文的用字靈活多變,有些詞語在脫離上下文語境的情況下無法判斷是否是命名實體,而且就算是命名實體,當(dāng)其處在不同的上下文語境下也可能是不同的實體類型
  3. 命名實體存在大量的嵌套現(xiàn)象,如“北京大學(xué)第三醫(yī)院”這一組織機(jī)構(gòu)名中還嵌套著同樣可以作為組織機(jī)構(gòu)名的“北京大學(xué)”,這種現(xiàn)象在組織機(jī)構(gòu)名中尤其嚴(yán)重
  4. 中文里廣泛存在簡化表達(dá)現(xiàn)象,如”北醫(yī)三院”、”國科大”,乃至簡化表達(dá)構(gòu)成的命名實體,如“國科大橋‘
3.2 詞性標(biāo)注

對已經(jīng)分詞完成的句子,將句子中的所有詞標(biāo)記詞性。這里的“詞”對應(yīng)的就是已分詞的詞序列中的詞,節(jié)點的標(biāo)簽空間為詞性標(biāo)記空間如{名詞,動詞,形容詞,… .} 。每個詞最終都會打上詞性標(biāo)簽

詞性標(biāo)注的難點:

  1. 相對于英文,中文缺少詞語形態(tài)變化,不能從詞的形態(tài)來識別詞性
  2. 一詞多詞性很常見。統(tǒng)計發(fā)現(xiàn),一詞多詞性的概率高達(dá)22.5%。而且越常用的詞,多詞性線性越嚴(yán)重,比如“研究”既可以是名字也可以是動詞。
  3. 詞性劃分標(biāo)準(zhǔn)不統(tǒng)一。詞類劃分粒度和標(biāo)記符號等,目前還沒有一個廣泛認(rèn)可的統(tǒng)一標(biāo)準(zhǔn)。比如LDC詞性標(biāo)注預(yù)料中,將漢語一級詞性分為33類,而北京大學(xué)語料庫則將其劃分為26類。詞類劃分標(biāo)準(zhǔn)和標(biāo)記符號的不統(tǒng)一,以及分詞規(guī)范的含糊,都給詞性標(biāo)注帶來了很大的困難。jieba分詞采用了使用較為廣泛的ICTCLAS 漢語詞性標(biāo)注集規(guī)范。
  4. 未登錄詞問題。和分詞一樣,未登錄詞的詞性也是一個比較大的課題。未登錄詞不能通過查找字典的方式獲取詞性,可以采用HMM隱馬爾科夫模型等基于統(tǒng)計的算法## 命名實體識別
3.3 命名實體識別

NER又稱作專名識別,是自然語言處理中的一項基礎(chǔ)任務(wù),應(yīng)用范圍非常廣泛。命名實體一般指的是文本中具有特定意義或者指代性強(qiáng)的實體,通常包括人名、地名、組織機(jī)構(gòu)名、日期時間、專有名詞等。

NER系統(tǒng)就是從非結(jié)構(gòu)化的輸入文本中抽取出上述實體,并且可以按照業(yè)務(wù)需求識別出更多類別的實體,比如產(chǎn)品名稱、型號、價格等。因此實體這個概念可以很廣,只要是業(yè)務(wù)需要的特殊文本片段都可以稱為實體。

你是否還在尋找穩(wěn)定的海外服務(wù)器提供商?創(chuàng)新互聯(lián)www.cdcxhl.cn海外機(jī)房具備T級流量清洗系統(tǒng)配攻擊溯源,準(zhǔn)確流量調(diào)度確保服務(wù)器高可用性,企業(yè)級服務(wù)器適合批量采購,新人活動首月15元起,快前往官網(wǎng)查看詳情吧

新聞名稱:序列標(biāo)注的BIO標(biāo)注體系-創(chuàng)新互聯(lián)
瀏覽地址:http://vcdvsql.cn/article6/ccsgig.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供動態(tài)網(wǎng)站App開發(fā)定制開發(fā)營銷型網(wǎng)站建設(shè)品牌網(wǎng)站制作ChatGPT

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都app開發(fā)公司