網(wǎng)上有很多關(guān)于pos機(jī)命名,外部知識(shí)在命名實(shí)體識(shí)別任務(wù)中的重要性研究的知識(shí),也有很多人為大家解答關(guān)于pos機(jī)命名的問(wèn)題,今天pos機(jī)之家(www.shineka.com)為大家整理了關(guān)于這方面的知識(shí),讓我們一起來(lái)看下吧!
本文目錄一覽:
pos機(jī)命名
ACL 2018 Short Papers
外部知識(shí)在命名實(shí)體識(shí)別任務(wù)中的重要性研究
A Study of the Importance of External Knowledge in the Named Entity Recognition Task
伊利諾伊大學(xué)
University of Illinois
本文是伊利諾伊大學(xué)發(fā)表于 ACL 2018 的工作,討論了外部知識(shí)對(duì)于執(zhí)行命名實(shí)體識(shí)別(NER)任務(wù)的重要性,提出了一個(gè)新穎的模塊化框架,根據(jù)知識(shí)傳遞的深度將知識(shí)分成四類。每個(gè)類別由一組從不同的信息源自動(dòng)生成的特征組成,如知識(shí)庫(kù)、名稱列表或文檔特定的語(yǔ)義注釋。此外,我們展示當(dāng)逐步增加更深的知識(shí)時(shí)對(duì)性能的影響,并討論了其有效性及效率間的關(guān)系。
命名實(shí)體識(shí)別(Named Entity Recognition,NER)的任務(wù)是檢測(cè)文本中的命名實(shí)體引用,并給它們分配相應(yīng)的類型。它是自然語(yǔ)言理解任務(wù)的重要組成部分,如命名實(shí)體消歧(NED)、問(wèn)答等。
以前的工作認(rèn)為NER是知識(shí)密集型任務(wù),并且使用具有突出結(jié)果的先驗(yàn)知識(shí)。在這項(xiàng)工作中,我們?cè)噲D量化外部知識(shí)對(duì)NER性能影響到了何種程度。盡管最近在端到端神經(jīng)網(wǎng)絡(luò)方法上已經(jīng)取得了卓越的成績(jī),但是本文的目的是提供透明度和用戶可理解的可解釋性。
我們通過(guò)設(shè)計(jì)一個(gè)簡(jiǎn)單的模塊化框架來(lái)開(kāi)發(fā)不同的外部知識(shí)源。根據(jù)信息源所傳達(dá)的知識(shí)深度,我們將信息源分為四個(gè)不同的類別,每個(gè)類別攜帶的信息都比前一個(gè)類別多。每個(gè)類別由一組反映每個(gè)源中包含的知識(shí)程度的特征組成。然后,我們使用線性CRF,一種透明的、廣泛使用的方法用于NER。
我們通過(guò)測(cè)試知識(shí)類別的各種組合,在兩個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上執(zhí)行實(shí)驗(yàn)。結(jié)果表明,知識(shí)量與NER性能高度相關(guān)。具有更多外部知識(shí)的配置系統(tǒng)勝過(guò)更多不可知論的系統(tǒng)。
接下來(lái)我們?cè)敿?xì)描述了四個(gè)知識(shí)類別。下表給出了使用外部知識(shí)類別特征的概述,特征用于訓(xùn)練線性鏈CRF,這一種簡(jiǎn)單易懂、對(duì)NER十分有效的方法。
知識(shí)不可知論(A):這個(gè)類別包含“l(fā)ocal”特征,可以在沒(méi)有任何外部知識(shí)的情況下直接從文本中提取。它們大多具有詞匯、句法或語(yǔ)言學(xué)性質(zhì),在文學(xué)界已有大量研究。我們實(shí)現(xiàn)了Finkel中描述的大部分特征:
(1)當(dāng)前詞和大小為2的窗口中的詞;(2)當(dāng)前詞的詞形和大小為2的窗口中的詞;(3)大小為2的窗口中詞的POS標(biāo)記;(4)前綴(長(zhǎng)度3和4)和后綴(長(zhǎng)度1至4);(5)當(dāng)前詞在大小為4的窗口中存在的次數(shù);(6)句子的開(kāi)始部分。
基于名字的知識(shí)(名稱):我們從命名實(shí)體名稱列表中提取知識(shí)。這些特征試圖識(shí)別名稱中的模式,并利用不同名稱集有限的事實(shí)。我們從YAGO中提取了總計(jì)超過(guò)2000萬(wàn)個(gè)名稱,并導(dǎo)出了以下特征:
經(jīng)常提及的tokens。反映給定token在實(shí)體名稱列表中的頻率。我們標(biāo)記了列表并計(jì)算了頻率。該特征賦予對(duì)應(yīng)于它們的歸一化頻率的文本中的每個(gè)token的權(quán)重。高權(quán)重應(yīng)該被分配給指示命名實(shí)體的token。例如,我們?cè)谟⒄Z(yǔ)中找到的前5位的符號(hào)是“county”, “john”, “school”, “station” 和 “district”。沒(méi)有出現(xiàn)的所有tokens的權(quán)重被分配0。
頻繁P(pán)OS標(biāo)簽序列。識(shí)別命名實(shí)體常見(jiàn)的POS序列。例如,人名往往被描述為一系列專有名詞,而組織可能具有更豐富的模式?!癘rganization of American States” 和 “Union for Ethical Biotrade” 都具有NNP-IN-NNP-NNP模式。我們排序名稱POS標(biāo)簽序列,保留前100名。通過(guò)查找輸入文本中最長(zhǎng)的匹配序列并標(biāo)記當(dāng)前token是否屬于頻繁序列來(lái)實(shí)現(xiàn)該特征。
基于知識(shí)庫(kù)的知識(shí)(KB):該類別組特征從KB或?qū)嶓w注釋語(yǔ)料庫(kù)中提取。他們編碼關(guān)于命名實(shí)體本身或用法的知識(shí)。我們采用了三個(gè)特征:
類型注入地名匹配。查找在特定類型的地名詞典中最長(zhǎng)出現(xiàn)的token序列。根據(jù)token是序列的一部分,它向每個(gè)token添加二進(jìn)制指示符。我們使用由Ratinov和Roth發(fā)布的30本字典,其中包含英文的類型名稱信息。還可以通過(guò)將每個(gè)字典映射到一組KB類型,并提取相應(yīng)的名稱來(lái)自動(dòng)創(chuàng)建這些字典。這種自動(dòng)生成在多語(yǔ)言設(shè)置中是有用的。
維基百科鏈接概率。此特征測(cè)量token鏈接到命名實(shí)體維基百科頁(yè)面的可能性。從直覺(jué)上說(shuō),鏈接到命名實(shí)體頁(yè)面的標(biāo)記更傾向于指示命名實(shí)體。例如,token“Obama”通常是鏈接的,而“box”不是。引用命名實(shí)體的頁(yè)面列表是從YAGO中提取的。給定文本中的token,如果文檔d中的tokent鏈接到另一個(gè)Wikipedia文檔,則根據(jù)等式1為其分配鏈接概率,其中l(wèi)inkd(t)等于1。若t在d中出現(xiàn),則presentd等于1。
類型概率。對(duì)屬于給定類型的token的可能性進(jìn)行編碼。它抓住了這樣一個(gè)概念,例如,“Obama”這個(gè)符號(hào)更像是一個(gè)人而不是一個(gè)地點(diǎn)。給定YAGO中的一組實(shí)體E,其中提到Me和tokenTem,我們計(jì)算給定token t的c ∈ C類的概率,如下式所示,其中如果實(shí)體e屬于c類,則c(e)=1,否則c(e)=0。對(duì)于文本中的每個(gè)token,我們?yōu)槊糠N類型創(chuàng)建一個(gè)特征,以各自的概率作為其值。
token類型位置。反映token可以根據(jù)實(shí)體類型出現(xiàn)在不同的位置。例如,“Supreme Court of the United States”是一個(gè)組織,“United”出現(xiàn)在最后。在“United States”中,一個(gè)地點(diǎn),它出現(xiàn)在開(kāi)始。這有助于命名實(shí)體嵌套。
這是使用BILOU(Begin, Inside, Last, Outside, Unit)編碼實(shí)現(xiàn)的,它針對(duì)每個(gè)token出現(xiàn)的位置標(biāo)記每個(gè)token。特征的數(shù)量取決于數(shù)據(jù)集中類型的數(shù)量(4個(gè)BILU位置乘以n個(gè)類+O位置)。對(duì)于每個(gè)token,每個(gè)特征接收給定token和位置的類概率。利用上式計(jì)算類概率,還包括標(biāo)記位置。
因此,對(duì)于每個(gè)token,我們現(xiàn)在有超過(guò)4n+1類別的概率分布。以token“Obama”為例。我們希望,對(duì)于“B-Person”(即,姓氏與姓氏的組合)和“UPerson”(即,沒(méi)有姓氏的姓氏)類,它具有高的概率。所有其他類的概率將接近于零。相比之下,單詞“box”對(duì)于類“O”應(yīng)該有很高的概率,對(duì)于所有其他類,它應(yīng)該接近于零,因?yàn)槲覀儾幌M谠S多命名實(shí)體中發(fā)生這種情況。
基于實(shí)體的知識(shí)(實(shí)體):這個(gè)類別對(duì)在文本中發(fā)現(xiàn)的實(shí)體的文檔特定知識(shí)進(jìn)行編碼,以利用NER和NED之間的關(guān)聯(lián)。以前的工作表明,這些系統(tǒng)之間的信息流動(dòng)產(chǎn)生了顯著的性能改進(jìn)。
相對(duì)而言,該模塊需要更多的計(jì)算資源。它需要首先運(yùn)行NED,來(lái)基于已消除歧義的命名實(shí)體生成文檔特定特征。這些特征在NER的第二次運(yùn)行中使用。
隨后,在NED首次運(yùn)行之后,我們創(chuàng)建了一組源自消除歧義的實(shí)體的文檔專用地名錄。此信息有助于第二輪查找先前丟失的新命名實(shí)體。比如“Some citizens of the European Union working in the United Kingdom do not meet visa requirements for non-EU workers after the uk leaves the bloc”。我們可以想象,在第一輪NED中,European Union 和United Kingdom很容易被識(shí)別,但“EU”或大小寫(xiě)不當(dāng)?shù)摹皍k”也可能被忽略。在消除歧義之后,我們知道這兩個(gè)實(shí)體都是組織,并且分別具有別名EU和UK。然后,在第二輪中,更容易發(fā)現(xiàn)“EU”和“uk”。
在第一次運(yùn)行NER+NED之后,我們從YAGO中提取所有被識(shí)別的實(shí)體的表面形式。這些被標(biāo)記并分配了相應(yīng)實(shí)體的類型,加上它的BILOU位置。例如,“Barack Obama”導(dǎo)致“Barack”和“Obama”,分別指定為“B-Person”和“L-Person”。有17個(gè)二進(jìn)制特征(BILU標(biāo)記乘以4個(gè)粗粒度類型+O標(biāo)記),當(dāng)token是包含從token到類型-BILOU對(duì)的映射列表的一部分時(shí)觸發(fā)。
實(shí)驗(yàn)使用線性鏈CRF。CRF是透明的,廣泛用于NER任務(wù)。基于實(shí)體的組件使用AIDA實(shí)體消歧系統(tǒng)實(shí)現(xiàn)。我們?cè)趦蓚€(gè)標(biāo)準(zhǔn)的NER數(shù)據(jù)集上進(jìn)行評(píng)估:COLL2003,一個(gè)英文通訊社的集合,包括四種類型的實(shí)體(PER、ORG、LOC、MISC);MUC-7,紐約時(shí)報(bào)的一組文章,其中注釋了三種類型的實(shí)體(PER、ORG、LOC)。
我們分析逐步增加外部知識(shí)的影響。下圖示出了四種變體。每個(gè)都包含對(duì)應(yīng)于給定類別的特征。在所有情況下,增加知識(shí)可以提高F1性能。對(duì)于MUC-7測(cè)試來(lái)說(shuō),效果尤其明顯,總體上增加了近10點(diǎn)。在兩個(gè)數(shù)據(jù)集中,當(dāng)添加基于KB的特征時(shí),效果明顯提升。作為參考,迄今為止最好的系統(tǒng)之一(基于神經(jīng)網(wǎng)絡(luò)的)在CoNLL2013測(cè)試中F1達(dá)到91.62,而我們的全知CRF的F1達(dá)到91.12。
下表顯示了知識(shí)類別的不同組合。從KB到Entity的改進(jìn)表明KB特征被后面的特征所包含。這在某種程度上是預(yù)期的,因?yàn)閷?shí)體特定信息是從相同的KB中提取的,并且都依賴于實(shí)體類型。然而,正如我們所看到的,這是有代價(jià)的。
我們分別針對(duì)基于A、Name、KB和Entity的特征測(cè)量314ms、494ms、693ms和4139ms(如下圖)。由于基于KB的特征在性能上與基于實(shí)體的特征相當(dāng),但是后者昂貴得多,因此這些發(fā)現(xiàn)允許從業(yè)人員仔細(xì)地決定附加的計(jì)算成本是否值得相對(duì)小的性能改進(jìn)。我們特征類的模塊化允許在有效性/效率方面進(jìn)行權(quán)衡,對(duì)系統(tǒng)進(jìn)行最優(yōu)調(diào)整。
為了證明我們方法的普遍適用性,我們?yōu)榱硗鈨煞N語(yǔ)言,即德語(yǔ)和西班牙語(yǔ),實(shí)現(xiàn)了NER系統(tǒng)。Name、KB和Entity知識(shí)類的所有特征都源自相應(yīng)語(yǔ)言的Wikipedia。在CoNLL2003g上為德文進(jìn)行性能評(píng)估,在CoNLL2002上為西班牙語(yǔ)進(jìn)行性能評(píng)估。結(jié)果如下圖。與英語(yǔ)數(shù)據(jù)的性能類似,我們可以看到添加更多的外部知識(shí)可以提高性能。作為參考,我們發(fā)現(xiàn),性能接近于最先進(jìn)的兩種語(yǔ)言。我們的系統(tǒng)在德語(yǔ)中僅落后1.56 F1得分,在西班牙語(yǔ)中落后1.98 F1得分。
本文通過(guò)定義四個(gè)特征類別,研究了外部知識(shí)對(duì)于執(zhí)行命名實(shí)體識(shí)別任務(wù)的重要性。除了現(xiàn)有文獻(xiàn)中常用的特征外,我們還定義了四個(gè)新特征,并將它們合并到我們的分類方案中。實(shí)驗(yàn)結(jié)果表明,盡管更多的外部知識(shí)導(dǎo)致性能提高,但它在性能上取得了相當(dāng)大的折衷。
onq系統(tǒng)全稱是什么?
OnQ系統(tǒng)是希爾頓酒店集團(tuán)自行開(kāi)發(fā)的系統(tǒng),可以說(shuō)是開(kāi)創(chuàng)了酒店業(yè)自主研發(fā)的先河。
OnQ的功能自然是按照希爾頓所需兒工作的,也就是最適合希爾頓使用的唯一系統(tǒng)。其核心是System 21酒店管理系統(tǒng),目前已經(jīng)發(fā)展到2.11版本,將會(huì)被重新命名為OnQ V2系統(tǒng),它作為一個(gè)統(tǒng)一的前端系統(tǒng),除了完成日常的酒店業(yè)務(wù)外,還可以透明地訪問(wèn)到由其他后臺(tái)系統(tǒng)提供的數(shù)據(jù),這些系統(tǒng)包括Focus收益管理系統(tǒng)、Group 1客戶聯(lián)絡(luò)管理系統(tǒng)、E.piphany客戶關(guān)系數(shù)據(jù)分析系統(tǒng)等,同時(shí)具有與各種電話計(jì)費(fèi)系統(tǒng)、程控交換機(jī)系統(tǒng)、語(yǔ)音信箱系統(tǒng)、高速互聯(lián)網(wǎng)系統(tǒng)、迷你吧系統(tǒng)、門(mén)鎖系統(tǒng)、POS系統(tǒng)、收費(fèi)電影系統(tǒng)、能源管理系統(tǒng)、客房?jī)?nèi)傳真系統(tǒng)的接口。
以上就是關(guān)于pos機(jī)命名,外部知識(shí)在命名實(shí)體識(shí)別任務(wù)中的重要性研究的知識(shí),后面我們會(huì)繼續(xù)為大家整理關(guān)于pos機(jī)命名的知識(shí),希望能夠幫助到大家!
