RM新时代新项目,RM新时代是什么平台

知識嵌入（Knowledge Embedding）將知識圖譜中的關(guān)系和實(shí)體嵌入向量空間進(jìn)行表示。現(xiàn)有工作主要分為兩類：傳統(tǒng)的基于結(jié)構(gòu)的方法（如TransE）在向量空間建模KG的結(jié)構(gòu)信息，此類方法無法良好地表示真實(shí)知識圖譜中大量結(jié)構(gòu)信息匱乏的長尾實(shí)體；新興的基于文本的方法（如Kepler）引入額外的文本信息和語言模型，但該方向的現(xiàn)有工作相較于基于結(jié)構(gòu)的方法存在以下不足，包括效率較低、表現(xiàn)不佳、限制性文本依賴等問題。

知識工場實(shí)驗(yàn)室提出了一個將語言模型用作知識嵌入的方法 LMKE，以期在提升長尾實(shí)體表示的同時解決現(xiàn)存基于文本方法的以上問題。LMKE 首次提出將基于文本的知識嵌入學(xué)習(xí)建模在對比學(xué)習(xí)框架下，顯著提升了模型在訓(xùn)練和下游應(yīng)用中的效率。實(shí)驗(yàn)結(jié)果表明，LMKE在多個知識嵌入評價基準(zhǔn)上取得了超越現(xiàn)有方法的表現(xiàn)，尤其是針對長尾實(shí)體。研究成果《Language Models as Knowledge Embeddings》已被IJCAI 2022錄用。

一、背景

知識圖譜（Knowledge Graphs）以三元組的形式儲存了大量的知識。其中，三元組（h，r，t）表示，頭實(shí)體h與尾實(shí)體t間存在關(guān)系 r，如（法國，包含，盧浮宮）。

知識嵌入（Knowledge Embeddings, KEs）將知識圖譜上的實(shí)體和關(guān)系嵌入到向量空間中進(jìn)行表示，以便在向量空間中推理，用于三元組分類、鏈接預(yù)測等任務(wù)。比如說，TransE 將實(shí)體“法國”、“盧浮宮”和關(guān)系“包含”分別表示為向量“法國”、“盧浮宮”、“包含”，而如果“法國”+“包含”≈“盧浮宮”，則認(rèn)為該三元組為真。近年來，知識嵌入也越來越多地被用于與預(yù)訓(xùn)練語言模型相結(jié)合，以賦予語言模型更多的知識。

現(xiàn)有的知識嵌入方法可以被大致分為兩類：傳統(tǒng)的基于結(jié)構(gòu)的方法（Structure-based Methods）和近期興起的基于文本的方法（Description-based Methods）。

基于結(jié)構(gòu)的方法在向量空間中表達(dá)知識圖譜的結(jié)構(gòu)信息，包括 TransE、RotatE 等。這類方法可以建模多種特殊的關(guān)系模式，如對稱模式、逆模式、組合模式等。比如，已知“A 的父親是 B”，“B 的父親是 C”，且“父親的父親是爺爺”，則這類方法可以推理出“A 的爺爺是 C”，如下圖所示。

圖1 知識圖譜中的組合模式

然而，這類方法單純依賴知識圖譜的結(jié)構(gòu)信息，因此自然難以良好地表示結(jié)構(gòu)信息匱乏的長尾實(shí)體。在真實(shí)世界的知識圖譜中，實(shí)體的度數(shù)分布服從power-law定律，形成一條長長的尾巴，意味著大量實(shí)體缺乏充足的結(jié)構(gòu)信息。比如，下方左圖展示了知識圖譜數(shù)據(jù)集WN18RR中的實(shí)體度數(shù)分布，其中14.1%的實(shí)體度數(shù)為1，60.7%的實(shí)體度數(shù)不超過3，這意味著這些實(shí)體在知識圖譜上連邊極少。下方右圖的結(jié)果則表明，以RotatE為代表的典型基于結(jié)構(gòu)的方法在長尾實(shí)體上表現(xiàn)不佳。

圖2 WN18RR上的節(jié)點(diǎn)度數(shù)分布及基于結(jié)構(gòu)的方法在該數(shù)據(jù)集上的表現(xiàn)

基于文本的方法引入了文本信息和語言模型進(jìn)行知識的嵌入與推理，如 DKRL、KEPLER 等。許多知識圖譜提供了實(shí)體和關(guān)系的文本描述，而這些豐富的文本信息可以良好地用于實(shí)體和關(guān)系的表示，并彌補(bǔ)結(jié)構(gòu)信息的不足。同時，近期關(guān)于語言模型的相關(guān)研究表明：

①語言模型在預(yù)訓(xùn)練時不僅掌握了語言知識，還學(xué)會了大量事實(shí)知識

②語言模型可以同基于結(jié)構(gòu)的知識嵌入方法一樣，掌握對稱模式、逆模式、隱含模式等部分關(guān)系模式[2]。

因此，我們認(rèn)為語言模型非常適合作為知識嵌入使用。

此前已有工作嘗試將語言模型用于知識嵌入的三元組分類、鏈接預(yù)測任務(wù)上。然而，現(xiàn)存的基于文本的方法存在以下缺陷：

①效率較低。語言模型規(guī)模龐大，因此現(xiàn)有工作在訓(xùn)練及下游任務(wù)中或是時間復(fù)雜度過高，或進(jìn)行了大量的 trade-off。一方面，它們在訓(xùn)練時限制負(fù)采樣率。比如基于文本的 KEPLER 中正樣本和負(fù)樣本的數(shù)量是 1：1 的，而基于結(jié)構(gòu)的 TransE 中一個正樣本會搭配上千個負(fù)樣本。另一方面，現(xiàn)有方法的模型結(jié)構(gòu)在鏈接預(yù)測等下游任務(wù)上復(fù)雜度也過高。

②表現(xiàn)不佳。盡管引入了更多的信息與更大的模型，現(xiàn)存的基于文本的方法在許多數(shù)據(jù)集和指標(biāo)上并未超越基于結(jié)構(gòu)的方法，其中效率問題帶來的負(fù)采樣率不足等 trade-off 一定程度上造成了負(fù)面影響。

③限制性文本依賴。現(xiàn)存方法只適用于有文本描述的實(shí)體，而往往舍棄掉大量沒有文本信息（但有結(jié)構(gòu)信息）的實(shí)體?，F(xiàn)存方法對數(shù)據(jù)的嚴(yán)苛要求限制了他們在下游任務(wù)中的使用。

二、方法

在本文中，我們提出了一個更好地將語言模型用作知識嵌入的方法LMKE（Language Models as Knowledge Embeddings），同時利用結(jié)構(gòu)信息和文本信息，在提升長尾實(shí)體表示的同時解決基于文本方法的上述問題。在 LMKE 中，實(shí)體和關(guān)系被視作額外的詞（token），并從相關(guān)實(shí)體、關(guān)系和文本描述中學(xué)習(xí)表示。本文進(jìn)一步提出將基于文本的知識嵌入學(xué)習(xí)建模在對比學(xué)習(xí)框架下，使得一個三元組里的實(shí)體表示可以作為同 batch 中其他三元組的負(fù)樣本，從而避免了編碼負(fù)樣本帶來的額外開銷。LMKE 也是一種將知識圖譜與語言模型結(jié)合的具體方式。

圖3 LMKE的模型結(jié)構(gòu)（用于三元組分類）

LMKE 用語言模型作為知識嵌入，即用語言模型獲得實(shí)體和關(guān)系的嵌入向量表示，從而對三元組或?qū)嶓w進(jìn)行預(yù)測。在 LMKE 中，實(shí)體和關(guān)系的嵌入向量與文本中的詞被表示在同一個向量空間中。如圖3所示，給定一個特定的三元組u=（h，r，t），LMKE 利用相應(yīng)的文本描述信息，將它們拼為一個序列。將該序列作為語言模型的輸入，h，r，t的相應(yīng)輸出向量 h，r，t，即是相應(yīng)的實(shí)體和關(guān)系的嵌入向量。一個實(shí)體（或關(guān)系）的嵌入向量同時依賴于其自身、其自身的文本描述、其相關(guān)實(shí)體和關(guān)系、以及相關(guān)實(shí)體和關(guān)系的文本描述，對文本信息進(jìn)行了最大程度的利用。

因此，長尾實(shí)體可以利用文本信息而被良好表示，而缺乏文本信息的實(shí)體則可以利用相關(guān)實(shí)體和關(guān)系（結(jié)構(gòu)信息）以及它們的文本描述被良好表示。語言模型中的CLS token（或 BOS token）對應(yīng)的向量聚合了整個序列的信息，因此我們將其視作代表整個三元組u的向量u。

與KG-BERT相似，LMKE 將向量u輸入一個線性層，來計(jì)算三元組為真的概率p(u)：知識嵌入的主要應(yīng)用是預(yù)測缺失的鏈接（鏈接預(yù)測）和對可能的三元組進(jìn)行分類（三元組分類）。其中，三元組分類基于上述p(u)即可進(jìn)行。鏈接預(yù)測則需要預(yù)測出不完整三元組（？，r，t）或（h，r，？）的缺失實(shí)體。具體來說，模型需要將候選實(shí)體（一般為所有實(shí)體）填入不完整三元組，并將相應(yīng)的三元組進(jìn)行打分，從而對候選實(shí)體按照得分進(jìn)行排序。然而，對于上述 LMKE 模型，以及大部分現(xiàn)有的基于文本的方法，這一流程的計(jì)算時間復(fù)雜度都過高，如表1所示。

表1 部分基于文本的方法在訓(xùn)練和鏈接預(yù)測上的時間復(fù)雜度

為了將語言模型高效地用于鏈接預(yù)測任務(wù)，一個簡單的方法是不完整地編碼三元組，而僅編碼部分三元組。實(shí)體遮蓋模型（MEM-KGC）可以視為 LMKE 的 masked變體，將待預(yù)測的缺失實(shí)體和其文本描述 mask，并將相應(yīng)的向量表示q輸入一個線性層來預(yù)測缺失實(shí)體。因?yàn)閮H需要編碼一個不完整的三元組，MEM-KGC顯著降低了時間復(fù)雜度。然而，MEM-KGC 忽視了待預(yù)測實(shí)體的文本信息，降低了文本信息的利用率。

我們提出了一個對比學(xué)習(xí)框架來更充分地利用文本信息。在我們的對比學(xué)習(xí)框架中，給定的實(shí)體關(guān)系對被視作查詢q，而目標(biāo)實(shí)體被視作鍵k，我們通過匹配q和k進(jìn)行對比學(xué)習(xí)。在這一框架的視角下，MEM-KGC 中的向量q即為查詢的向量表示，而MEM-KGC的線性層權(quán)重的每一行則是每一個實(shí)體作為鍵的向量表示。因此，將q輸入到線性層即為查詢q匹配鍵。差別在于，MEM-KGC的鍵是用可學(xué)習(xí)的向量表示，而非像查詢一樣是文本信息的語言模型編碼。我們提出的對比學(xué)習(xí)框架也使得語言模型能夠被高效地用于鏈接預(yù)測。

C-LMKE是對比學(xué)習(xí)框架下的LMKE變體，將MEM-KGC中的可學(xué)習(xí)實(shí)體權(quán)重改進(jìn)為目標(biāo)實(shí)體的文本描述編碼，如圖4所示。C-LMKE進(jìn)行批次內(nèi)的對比匹配，從而避免了編碼負(fù)樣本帶來的額外開銷。具體來說，對于 batch 中的第i個三元組，它的給定實(shí)體關(guān)系對q和目標(biāo)實(shí)體k構(gòu)成一個正樣本，而同batch內(nèi)其他三元組的目標(biāo)實(shí)體k’與q構(gòu)成負(fù)樣本。由表1可見，C-LMKE在訓(xùn)練和鏈接預(yù)測時的時間復(fù)雜度均顯著優(yōu)于現(xiàn)有基于文本的方法。

圖4 C-LMKE的模型結(jié)構(gòu)（用于鏈接預(yù)測）

不同于一般的對比學(xué)習(xí)方法，C-LMKE采用一個雙層MLP而非余弦相似度來計(jì)算q和k的匹配度。假設(shè)查詢q=（法國，包含）同時與=（盧浮宮）和=（巴黎）匹配，則基于相似度的得分會迫使和的表示相似，這在知識嵌入的場合是不被期望的。同時，我們還發(fā)現(xiàn)，引入度數(shù)信息和（相應(yīng)實(shí)體在訓(xùn)練集中的三元組個數(shù)）對于鏈接預(yù)測任務(wù)相當(dāng)有幫助。

基于得分 p(q, k)，我們使用二元交叉熵作為損失函數(shù)進(jìn)行訓(xùn)練，并參考RotatE 中提出的自對抗負(fù)采樣來提高難負(fù)樣本的損失權(quán)重。

三、實(shí)驗(yàn)結(jié)果

表2 FB15k-237及WN18RR上的鏈接預(yù)測結(jié)果

我們在鏈接預(yù)測和三元組分類兩個任務(wù)上對我們的方法進(jìn)行了實(shí)驗(yàn)，以BERT-tiny和BERT-base作為基本模型。在鏈接預(yù)測上，我們的模型顯著超越了現(xiàn)有模型。使用BERT-BASE的C-LMKE在WN18RR上取得了80.6%的 Hits@10，而此前最好的結(jié)果僅為70.4%。即使我們使用 BERT-tiny 作為語言模型，我們的方法取得的表現(xiàn)也優(yōu)于或相當(dāng)于使用更大模型的現(xiàn)有方法。同時，使用BERT-tiny的C-LMKE在FB15k-237上取得了57.1%的Hits@10，是首個超越基于結(jié)構(gòu)方法的基于文本方法。

一個有趣的現(xiàn)象是，基于文本的方法在WN18RR上顯著超越基于結(jié)構(gòu)的方法，但在FB15k-237上卻不然。我們認(rèn)為背后的原因是數(shù)據(jù)集的差異。WN18RR來源于字典知識圖譜WordNet，其中的實(shí)體是詞而文本描述是詞的定義，而從詞的定義中可以很容易推出詞之間的關(guān)系。相對地，F(xiàn)B15k-237來源于真實(shí)知識圖譜Freebase，其中的文本僅部分地描述了一個實(shí)體最廣為人知的知識，比如（愛因斯坦，是，和平主義者）這一知識就不被它們的文本描述所涵蓋。因此，過度依賴于文本而非結(jié)構(gòu)信息可能導(dǎo)致模型表現(xiàn)不佳。這也解釋了在該數(shù)據(jù)集上使用BERT-tiny替換 BERT-base后表現(xiàn)沒有下降。

表3 FB13和UMLS上的三元組分類結(jié)

LMKE 在三元組分類任務(wù)上也取得了最優(yōu)的表現(xiàn)。其中，LMKE和KG-BERT的差距代表了引入實(shí)體和關(guān)系作為特殊詞的有效性。

圖5 不同模型對于FB15k-237中包含不同度數(shù)實(shí)體的三元組的平均表現(xiàn)

為了展示我們的方法在長尾實(shí)體表示上的有效性，我們將實(shí)體按度數(shù)的對數(shù)進(jìn)行分組，統(tǒng)計(jì)包含不同度數(shù)實(shí)體的三元組，并研究包含不同度數(shù)實(shí)體的三元組上的表現(xiàn)。實(shí)驗(yàn)結(jié)果表明，基于文本的方法在低度數(shù)組 0，1，2（即包含度數(shù)低于 4 的實(shí)體的三元組）上的表現(xiàn)顯著優(yōu)于基于結(jié)構(gòu)的方法，而C-LMKE又顯著優(yōu)于其他的基于文本的方法。同時，在加入了度數(shù)信息后，C-LMKE在中高度數(shù)組上的表現(xiàn)有了顯著提升。

圖6 不同負(fù)采樣率下C-LMKE在FB15k-237上的表現(xiàn)

我們進(jìn)一步研究了負(fù)采樣率對基于文本的知識嵌入學(xué)習(xí)的影響。我們將batch size 設(shè)為32，因此 1 個正樣本最多配有31個負(fù)樣本，而我們進(jìn)一步限制可見負(fù)樣本數(shù)為｛1, 2, 4, 8, 16｝。實(shí)驗(yàn)結(jié)果表明，更大的負(fù)采樣率能顯著提升模型的表現(xiàn)，證明了負(fù)采樣率對基于文本的方法的重要性。然而，現(xiàn)有基于文本方法受限于負(fù)樣本編碼代價，一般僅使用1個或5個負(fù)樣本。

總結(jié)起來，我們的貢獻(xiàn)主要有以下三點(diǎn)：

①我們注意到基于結(jié)構(gòu)的知識嵌入在表示長尾實(shí)體上的不足，并首次提出利用文本信息和語言模型來提升長尾實(shí)體的表示。

②我們提出了一個基于文本的新模型LMKE，解決了現(xiàn)有基于文本方法的三個不足之處。同時，我們也首次提出將基于文本的知識嵌入學(xué)習(xí)建模為對比學(xué)習(xí)問題。

③我們在多個知識嵌入數(shù)據(jù)集上進(jìn)行了廣泛實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果表明LMKE 在三元組分類和鏈接預(yù)測任務(wù)上取得了state-of-the-art 的表現(xiàn)，顯著超越現(xiàn)有知識嵌入方法，使得基于文本的方法首次在數(shù)據(jù)集FB15K-237 上超越基于結(jié)構(gòu)的方法。

筆者認(rèn)為，LMKE提出的對比學(xué)習(xí)框架將是基于文本的知識嵌入的發(fā)展方向。在這一方向上，我們?nèi)钥蓞⒖紝Ρ葘W(xué)習(xí)領(lǐng)域的優(yōu)秀方法來取得進(jìn)一步提升。同時，信息檢索、實(shí)體鏈接在本質(zhì)上也是鏈接預(yù)測任務(wù)，近年來也越來越多地采用了對比學(xué)習(xí)，我們也可以從這些領(lǐng)域的工作中吸取經(jīng)驗(yàn)。

最后，我們注意到被 ACL 2022 接收的同期工作SimKGC同樣提出了基于文本的知識嵌入的對比學(xué)習(xí)框架，在 WN18RR 上取得了與我們相當(dāng)?shù)谋憩F(xiàn)，并研究了負(fù)采樣對于基于文本方法的重要性。這進(jìn)一步說明了對比學(xué)習(xí)框架在基于文本的知識嵌入的發(fā)展上的必然性。SimKGC相較于LMKE，使用了更龐大的算力（32 倍的 batch size）、余弦相似度度量、InfoNCE損失以及基于圖的Reranking策略，產(chǎn)出了值得我們借鑒的結(jié)果，不過他們在事實(shí)知識圖譜FB15k-237上的表現(xiàn)仍未超越基于結(jié)構(gòu)的方法。LMKE相較于SimKGC，則還關(guān)注了長尾實(shí)體表示、三元組分類任務(wù)以及度信息的重要性。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴