【NLP】一文簡要了解詞義消歧與實體消歧

520jefferson 2022-08-18 發(fā)布于北京

展開全文

寫在前面

最近剛開始調(diào)研實體消歧方面的相關(guān)工作，這里先開一個頭吧。希望大家可以通過這篇簡要的文章對實體消歧任務(wù)本身有一個基本的認識。

1. 背景：詞義消歧與實體消歧

自然語言文本中存在著大量的多義詞，而多義詞的存在也會影響人對文本的語義理解，讓人對文本的意思產(chǎn)生混淆。

詞義消岐(Word Sense Disambiguation，簡稱WSD) 是NLP中一個非?；镜娜蝿?wù)，旨在確定多義詞在具體語境中的確切意義。

在詞義消歧中，同一詞語的不同義項會作為候選詞。我們需要在所有候選詞中找到與文本中目標詞語最接近的那個義項。這里“義項”指的是詞是詞典中的某個具體表示。

如上圖所示，「蘋果」在百度百科中共有25個義項，單說「蘋果」我們可能并不知道說的是「蘋果公司」還是「水果里的蘋果」。但結(jié)合具體的上下文語境，我們就可以很好地對「蘋果」消歧，從而明確「蘋果」的具體含義：

實體鏈指/實體鏈接(Entity Linking，簡稱 EL) 在知識圖譜構(gòu)建、信息檢索和問答系統(tǒng)等領(lǐng)域具有廣泛的應(yīng)用價值。

實體鏈指的主要目標是識別上下文中的實體指稱具體指代現(xiàn)實世界中的哪一個實體，也就是將實體指稱項映射到知識庫中的相應(yīng)實體上去。

具體而言，實體鏈指一般包括實體識別、候選實體獲取、實體消歧這三個主要環(huán)節(jié)。之所以需要實體消歧，而不是直接將實體識別的結(jié)果放入知識圖譜的原因主要有兩方面：

從以上說明來看，其實詞義消歧與實體消歧具有一定相似性, 二者的目的都是處理文本中詞匯歧義的問題. 主要區(qū)別在于：

這里我們主要給大家推薦兩篇近期發(fā)表的論文：

兩篇論文的模型都非常簡單，個人覺得關(guān)鍵或者說亮點主要在于他們對問題的轉(zhuǎn)換。其實，從這兩篇論文的名字就能看出端倪：都是將消歧問題轉(zhuǎn)換成了抽取式問題。

論文名稱：《ExtEnD: Extractive Entity Disambiguation》
論文鏈接：https:///2022.acl-long.177.pdf
代碼地址：https://github.com/SapienzaNLP/extend.

如上圖所示，EXTEND 將實體消歧任務(wù)轉(zhuǎn)換為了抽取式任務(wù)，或者說MRC類任務(wù)。具體地：

將含有目標實體指稱項的文本當作Query；
將知識庫中對應(yīng)的所有候選實體及其描述當作Context；
二者拼接然后預測Answer的Span（start\end prediction，start-end matching），這里的Answer就是在知識庫中目標實體指稱實際關(guān)聯(lián)的實體。

好了，這就是 EXTEND 論文的核心思想。是不是感覺模型已經(jīng)躍然紙上了，整體上應(yīng)該和我們之前在一文詳解關(guān)系抽取模型 CasRel、實體識別LEAR論文閱讀筆記、實體識別BERT-MRC論文閱讀筆記中介紹過的模型類似。