免费高清特黄a大片,九一h片在线免费看,a免费国产一级特黄aa大,国产精品国产主播在线观看,成人精品一区久久久久,一级特黄aa大片,俄罗斯无遮挡一级毛片

分享

【NLP】一文簡要了解詞義消歧與實體消歧

 520jefferson 2022-08-18 發(fā)布于北京
寫在前面

最近剛開始調(diào)研實體消歧方面的相關(guān)工作,這里先開一個頭吧。希望大家可以通過這篇簡要的文章對實體消歧任務(wù)本身有一個基本的認識。

1. 背景:詞義消歧與實體消歧

1.1 詞義消歧

自然語言文本中存在著大量的多義詞,而多義詞的存在也會影響人對文本的語義理解,讓人對文本的意思產(chǎn)生混淆。

詞義消岐(Word Sense Disambiguation,簡稱WSD) 是NLP中一個非?;镜娜蝿?wù),旨在確定多義詞在具體語境中的確切意義。

詞義消歧中,同一詞語的不同義項會作為候選詞。我們需要在所有候選詞中找到與文本中目標詞語最接近的那個義項。這里“義項”指的是詞是詞典中的某個具體表示。

Image

如上圖所示,「蘋果」在百度百科中共有25個義項,單說「蘋果」我們可能并不知道說的是「蘋果公司」還是「水果里的蘋果」。但結(jié)合具體的上下文語境,我們就可以很好地對「蘋果」消歧,從而明確「蘋果」的具體含義:

Image

1.2 實體消歧

實體鏈指/實體鏈接(Entity Linking,簡稱 EL) 在知識圖譜構(gòu)建、信息檢索和問答系統(tǒng)等領(lǐng)域具有廣泛的應(yīng)用價值。

實體鏈指的主要目標是識別上下文中的實體指稱具體指代現(xiàn)實世界中的哪一個實體,也就是將實體指稱項映射到知識庫中的相應(yīng)實體上去。

具體而言,實體鏈指一般包括實體識別、候選實體獲取、實體消歧這三個主要環(huán)節(jié)。之所以需要實體消歧,而不是直接將實體識別的結(jié)果放入知識圖譜的原因主要有兩方面:

  • 多樣性(即多詞同義):同一實體在文本中會有不同的指稱。比如:甜瓜、安東尼、和瓜哥都指美國職業(yè)籃球運動員卡梅隆·凱恩·安東尼。
  • 歧義性(即一詞多義):相同的實體指稱在不同的上下文中可以指不同的實體。比如:邁克爾·喬丹可能指美國籃球運動員,也可能指愛爾蘭政治家等。

1.3 總結(jié)

從以上說明來看,其實詞義消歧與實體消歧具有一定相似性, 二者的目的都是處理文本中詞匯歧義的問題. 主要區(qū)別在于:

  • 在詞義消歧中的詞義通常是固定的, 可根據(jù)目標詞在詞典中的義項來列舉;
  • 在實體消歧中, 實體詞義無法列舉,所以需要前序步驟候選實體獲?。?/section>
  • 此外,實體詞的詞義數(shù)目大于普通詞,這個主要還是跟知識庫的量級相關(guān)。

2. 相關(guān)論文

這里我們主要給大家推薦兩篇近期發(fā)表的論文:

  • 詞義消歧:《ESC: Redesigning WSD with Extractive Sense Comprehension》
  • 實體消歧:《ExtEnD: Extractive Entity Disambiguation》

兩篇論文的模型都非常簡單,個人覺得關(guān)鍵或者說亮點主要在于他們對問題的轉(zhuǎn)換。其實,從這兩篇論文的名字就能看出端倪:都是將消歧問題轉(zhuǎn)換成了抽取式問題。

2.1 EXTENE 實體消歧

論文名稱:《ExtEnD: Extractive Entity Disambiguation》

論文鏈接:https:///2022.acl-long.177.pdf

代碼地址:https://github.com/SapienzaNLP/extend.

Image

如上圖所示,EXTEND 將實體消歧任務(wù)轉(zhuǎn)換為了抽取式任務(wù),或者說MRC類任務(wù)。具體地:

  • 將含有目標實體指稱項的文本當作Query;
  • 將知識庫中對應(yīng)的所有候選實體及其描述當作Context;
  • 二者拼接然后預測Answer的Span(start\end prediction,start-end matching),這里的Answer就是在知識庫中目標實體指稱實際關(guān)聯(lián)的實體。

好了,這就是 EXTEND 論文的核心思想。是不是感覺模型已經(jīng)躍然紙上了,整體上應(yīng)該和我們之前在 一文詳解關(guān)系抽取模型 CasRel、實體識別LEAR論文閱讀筆記 實體識別BERT-MRC論文閱讀筆記中介紹過的模型類似。

2.2 ESC 詞義消歧

論文名稱:《ESC: Redesigning WSD with Extractive Sense Comprehension》

論文鏈接:https:///2021.naacl-main.371.pdf

代碼地址:https://github.com/SapienzaNLP/esc

Image

ESC 的模型架構(gòu)和 EXTEND 是相似的。整體上首先將輸入的上下文和目標詞的所有義項拼接,模型的輸出則是目標詞真正義項的起始和終止位置。

2.3 總結(jié)

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多