網(wǎng)上有很多關(guān)于pos機標注,基于細粒度知識融合的序列標注領(lǐng)域適應的知識,也有很多人為大家解答關(guān)于pos機標注的問題,今天pos機之家(www.shineka.com)為大家整理了關(guān)于這方面的知識,讓我們一起來看下吧!
本文目錄一覽:
1、pos機標注
pos機標注
作者 | 南大NLP編輯 | 唐里
本文來自公眾號南大NLP,AI科技評論獲授權(quán)轉(zhuǎn)載,如需轉(zhuǎn)載請聯(lián)系原公眾號。
背景介紹
序列標注任務,例如中文分詞(CWS),詞性標注(POS),命名實體識別(NER)等是自然語言處理中的基礎(chǔ)任務。最近,隨著深度學習的發(fā)展,神經(jīng)序列標注方案已經(jīng)達到了很好的性能,同時也依賴于大規(guī)模的標注數(shù)據(jù)。然而大部分的規(guī)范標注數(shù)據(jù)來自于新聞領(lǐng)域,將在這些數(shù)據(jù)集上訓練的模型應用到其他領(lǐng)域時,模型的性能往往會大幅下降。領(lǐng)域適應(domain adaptation)利用源領(lǐng)域(source domain)的豐富知識來提升目標領(lǐng)域(target domain)的性能,適合用來解決這一問題。我們關(guān)注于有監(jiān)督的領(lǐng)域適應,利用大規(guī)模的有標注的源領(lǐng)域數(shù)據(jù)來幫助僅有少量標注數(shù)據(jù)的目標領(lǐng)域的學習。
對于序列標注任務,我們觀察到一個有趣的現(xiàn)象:不同的目標域句子傾向于和源領(lǐng)域有不同的領(lǐng)域相關(guān)性(domain relevance),表1中展示了幾個twitter的句子,它們和源領(lǐng)域(新聞)的相關(guān)程度不同,同時,句子內(nèi)部不同的單元(中英文詞)也有不同的領(lǐng)域相關(guān)性。
表1 來自于社交媒體領(lǐng)域的推特和源領(lǐng)域(新聞領(lǐng)域)有不同的領(lǐng)域相關(guān)性。在每個例子中,加粗的部分與源領(lǐng)域強相關(guān),斜體的部分與源領(lǐng)域弱相關(guān)。
傳統(tǒng)的神經(jīng)序列標注領(lǐng)域適應方案關(guān)注于減少源域和目標域集合層面的差異,忽略了樣本和元素層級的領(lǐng)域相關(guān)性。如圖1中,(左) 展示了之前的方案,對于目標域中具有不同領(lǐng)域相關(guān)性的樣本進行了相同的知識遷移,然而,理想的知識遷移過程如圖(右),對于和源領(lǐng)域強相關(guān)的樣本和元素應該遷移更多的知識,反之應該保持其目標域特性,從源領(lǐng)域?qū)W習更少的知識。
圖 1 知識遷移方法比較。(左) 之前的方法,(右)我們的方法
在本文中,我們提出了一個細粒度的知識融合方案來控制學習源領(lǐng)域和保持目標領(lǐng)域之間的平衡,通過建模樣本層面和元素層面的領(lǐng)域相關(guān)性,以及將其引入到領(lǐng)域適應過程中,有效的減少了負遷移(negative transfer),同時增強了領(lǐng)域適應的效果。
解決方案
相關(guān)性建模
圖2 相關(guān)性建模過程
(1)元素級的領(lǐng)域相關(guān)性
為了獲得元素級的相關(guān)性,我們引入了領(lǐng)域表示q,我們使用了兩種方式來獲得q:
(a)domain-q:q是可訓練的領(lǐng)域向量,領(lǐng)域內(nèi)所有的元素共享q;(b)sample-q:q是從每個樣本抽出的領(lǐng)域相關(guān)的特征,每個樣本內(nèi)部的元素共享q,這里我們使用膠囊網(wǎng)絡(capsule network)來抽取這個特征。通過計算隱層與領(lǐng)域表示的相似性得到元素級的領(lǐng)域相關(guān)性。
(2)樣本級的領(lǐng)域相關(guān)性
為了獲得樣本級的相關(guān)性,我們進行了樣本級別的領(lǐng)域分類,基于元素級的相關(guān)性對隱層加權(quán)求和得到樣本表示,對樣本進行領(lǐng)域分類得到樣本級的領(lǐng)域相關(guān)性。
細粒度的知識融合
圖3 知識蒸餾與細粒度的知識融合
知識蒸餾(knowledge distillation)為學生模型(student model)的每個樣本和元素提供了從老師模型(teacher model)學習的目標,在這里我們將源域模型作為老師模型,目標域模型作為學生模型。目標域模型的損失函數(shù)由兩部分組成:序列標注損失和知識蒸餾損失,其中序列標注損失可以看作從目標域數(shù)據(jù)學習的知識,知識蒸餾損失可以看作從源域模型學習到的知識,超參alpha用來平衡二者。
通過引入前面學習到的各層級的領(lǐng)域相關(guān)性,實現(xiàn)細粒度的知識融合,從而實現(xiàn)考慮到領(lǐng)域相關(guān)性的領(lǐng)域適應。
樣本級別的知識融合:根據(jù)每個目標域樣本不同的領(lǐng)域相關(guān)性得到其相應的alpha,從而實現(xiàn)樣本級別的知識融合。
元素級別的知識融合:根據(jù)每個目標域元素不同的領(lǐng)域相關(guān)性得到其相應的alpha,從而實現(xiàn)元素級別的知識融合。
多層級的知識融合:同時考慮樣本級別和元素級別的領(lǐng)域相關(guān)性,可以得到多層級的alpha,從而實現(xiàn)多層級的知識融合。
訓練過程
訓練過程主要分為四步:
(1)(可選)用源域數(shù)據(jù)預訓練源域模型和目標域模型;
(2)訓練源域模型,預測目標域數(shù)據(jù)的概率分布;
(3)計算各層次的領(lǐng)域相關(guān)性權(quán)重;
(4)按照細粒度知識融合的方案訓練目標域模型;
重復(2)(3)(4)步直到目標域模型收斂。
實驗分析
數(shù)據(jù)集
我們在兩種語言(中文和英文)和三個序列標注任務(中文分詞,詞性標注,命名實體識別)上進行了實驗,使用的數(shù)據(jù)集見表2。
表2 實驗中用到的數(shù)據(jù)集
實驗結(jié)果
我們使用F1-score和OOV recall來評價在中文分詞領(lǐng)域適應上的表現(xiàn),我們比較了不同的領(lǐng)域表示方案和不同層次的知識融合方案,結(jié)果見表3??梢园l(fā)現(xiàn)在領(lǐng)域表示的層面上,樣本級別的領(lǐng)域表示(Sample-q)好于領(lǐng)域級別的領(lǐng)域表示(Domain-q),在知識融合的層面上,多層級的方式好于元素層面的融合,也好于樣本層面的融合。我們最終的方案為基于樣本級別領(lǐng)域表示的多層次知識融合方法(FGKF)。
表3 細粒度知識融合在中文分詞任務上的結(jié)果
我們在兩種語言,三個任務上復現(xiàn)了序列標注領(lǐng)域適應的相關(guān)工作,我們的方案均獲得了最好的結(jié)果。
表4 在三個任務上領(lǐng)域適應的結(jié)果,其中zh表示微博數(shù)據(jù)集,en表示推特數(shù)據(jù)集。
結(jié)果分析
(1)不同領(lǐng)域相關(guān)性的結(jié)果
將目標域元素根據(jù)訓練集中的相關(guān)權(quán)重均值劃分為領(lǐng)域強相關(guān)和領(lǐng)域弱相關(guān)兩類,結(jié)果見表5。從表中可以看出,相比于基本的知識蒸餾方案(BasicKD),通過引入了領(lǐng)域相關(guān)性,F(xiàn)GKF提升了領(lǐng)域強相關(guān)元素的性能,同時有效緩解了負遷移現(xiàn)象。
表5 推特測試集強/弱領(lǐng)域相關(guān)部分分別的結(jié)果
(2)相關(guān)性權(quán)重可視化
我們對兩種領(lǐng)域表示方案得到的元素級別的相關(guān)性權(quán)重進行了可視化,如圖4,樣本級別的領(lǐng)域表示(下方)相較于領(lǐng)域級別的領(lǐng)域表示(上方)能更好地提取出各樣本的領(lǐng)域特征,從而得到更好的元素級別的相關(guān)性權(quán)重。
圖4 元素級別領(lǐng)域相關(guān)性可視化
(3)消融實驗
我們在Twitter數(shù)據(jù)集上進行了消融實驗(見表6),發(fā)現(xiàn)在訓練目標域模型時固定源域模型的參數(shù)是十分重要的,同時共享embedding層,預訓練也對結(jié)果產(chǎn)生了一定影響。
表6 推特測試集消融實驗結(jié)果
(4)目標域數(shù)據(jù)規(guī)模的影響
我們也研究了不同的目標域數(shù)據(jù)規(guī)模對領(lǐng)域適應結(jié)果的影響(見圖5),當目標域數(shù)據(jù)較少時(20%),BasicKD與FGKF有較大的差距,說明此時領(lǐng)域相關(guān)性是十分重要的,隨著目標域數(shù)據(jù)規(guī)模的增加,BasicKD與FGKF仍然存在的一定的差距。
圖5 不同的目標域數(shù)據(jù)規(guī)模對領(lǐng)域適應結(jié)果的影響
總結(jié)
本文提出了細粒度的知識融合方案,將目標域數(shù)據(jù)的領(lǐng)域相關(guān)性引入到序列標注領(lǐng)域適應過程中,有效的增強了領(lǐng)域強相關(guān)部分的遷移,同時減少了負遷移。實驗結(jié)果表明我們的方案能有效的提升序列標注領(lǐng)域適應的效果,同時也展現(xiàn)出了其在其他領(lǐng)域適應任務上的潛力。
南大NLP研究組介紹
南京大學自然語言處理研究組從事自然語言處理領(lǐng)域的研究工作始于20世紀80年代。曾先后承擔過該領(lǐng)域的18項國家科技攻關(guān)項目、863項目、國家自然科學基金和江蘇省自然科學基金以及多項對外合作項目的研制。其中,承擔的國家七五科技攻關(guān)項目“日漢機譯系統(tǒng)研究”獲七五國家科技攻關(guān)重大成果獎、教委科技進步二等獎以及江蘇省科技進步三等獎。
分析理解人類語言是人工智能的重要問題之一,本研究組在自然語言處理的多個方向上做了大量、深入的工作。近年來集中關(guān)注文本分析、機器翻譯、社交媒體分析推薦、知識問答等多個熱點問題,結(jié)合統(tǒng)計方法和深度學習方法進行問題建模和求解,取得了豐富的成果。本研究組在自然語言處理頂級國際會議ACL上連續(xù)三年發(fā)表多篇論文,也在人工智能頂級國際會議IJCAI和AAAI上發(fā)表論文多篇,相關(guān)系統(tǒng)在機器翻譯、中文分詞、命名實體識別、情感計算等多個國際國內(nèi)評測中名列前茅。
本實驗室立志于研究和解決在傳統(tǒng)文本和互聯(lián)網(wǎng)資源的分析處理中面臨的各項問題和挑戰(zhàn),并積極探索自然語言處理的各種應用。如果你也和我們有共同興趣或目標,歡迎加入我們!
以上就是關(guān)于pos機標注,基于細粒度知識融合的序列標注領(lǐng)域適應的知識,后面我們會繼續(xù)為大家整理關(guān)于pos機標注的知識,希望能夠幫助到大家!
