一種具有多層防護(hù)結(jié)構(gòu)的pos機

新聞資訊2 | 2023-08-02 21:12 | 投稿人：pos機之家

網(wǎng)上有很多關(guān)于一種具有多層防護(hù)結(jié)構(gòu)的pos機,第一批在 SQUAD 2.0 上刷榜的 U的知識，也有很多人為大家解答關(guān)于一種具有多層防護(hù)結(jié)構(gòu)的pos機的問題，今天pos機之家(www.shineka.com)為大家整理了關(guān)于這方面的知識，讓我們一起來看下吧!

本文目錄一覽：

1、一種具有多層防護(hù)結(jié)構(gòu)的pos機

一種具有多層防護(hù)結(jié)構(gòu)的pos機

AI 科技評論按：今年下半年，SQuAD 2.0 橫空出世?；?U-net 的一眾模型紛紛獲得了優(yōu)異的成績（截至到 BERT 屠榜之前）。一篇來自 betterlearningforlife.com 的文章對 SQuAD 2.0 進(jìn)行簡要的介紹，并以問答的形式介紹了計算語言學(xué)與 U-net 模型相關(guān)的一些問題。 AI 科技評論全文編譯如下。

「在 SQUAD 上取得好成績的網(wǎng)絡(luò)架構(gòu)是什么樣的呢？」

在我開始撰寫本文的時候，排名前三位的模型在谷歌上沒有任何鏈接。微軟亞洲研究院的團(tuán)隊（Microsoft Research Asia team）是這三者其中之一，它們甚至還沒有在網(wǎng)站上發(fā)布它們最新的成果。我似乎有一個理論來解釋為什么，但這多少有些推測性。

幸運的是，前四名的表現(xiàn)并沒有太大的不同，所以我們可以看看一些高性能的想法。最佳方案采用了基于 U-net 的架構(gòu)，相關(guān)的論文鏈接如下：https://arxiv.org/abs/1810.06638 。本文也將從這里展開。

「U-net 背后的思想是什么？」

在目前的機器學(xué)習(xí)架構(gòu)開發(fā)過程中，開發(fā)者往往都會針對數(shù)據(jù)集構(gòu)建特定的算法架構(gòu)。U-net 也不例外，采用 U-net 架構(gòu)是為了針對 Standford 提出 SQuAD 2.0 的目的。Standford 之所以會創(chuàng)建 SQuAD 2.0 是為了修復(fù)1.0中的一些缺陷。

「SQuAD 1.0 存在什么問題呢？」

這就涉及到一些「無法回答的問題」的難題。當(dāng)人們閱讀一段東西時（如新聞），他們可能會問一些簡單的問題，這些問題的答案可以直接在文本中找到。然而，他們更有可能問一些不能直接回答的相關(guān)問題。一個強大的數(shù)據(jù)集需要很好地同時對這兩者建模。如果數(shù)據(jù)集中只有已經(jīng)被回答的問題，那么模型將學(xué)會總是給出一些在文本中能夠找到的答案。當(dāng)有人提出一個沒有直接出現(xiàn)在文本中的問題時，它自然而然地會給出錯誤的答案。

SQuAD 1.0 中也有一些無法回答的問題，但它們是由機器生成的，而且對神經(jīng)網(wǎng)絡(luò)來說，不需要更深層的理解就很容易識別它們。許多參賽模型的性能已經(jīng)在 SQuAD 1.0 數(shù)據(jù)集上超越了人類的水平，然而它們在現(xiàn)實世界中的實際應(yīng)用卻沒有取得有意義的進(jìn)展。

「Stanford 是如何改進(jìn)這個數(shù)據(jù)集的呢？」

他們增加了5萬個由眾包員工撰寫的無法回答的問題。這些問題被設(shè)計得與可回答的問題相類似。

下面的例子向大家展示了一段文字以及兩個無法回答的問題，材料來自論文「Know What You Don’t Know: Unanswerable Questions for SQuAD」（https://arxiv.org/abs/1806.03822）：

文章：瀕危物種法案

摘選段落：「...其他立法緊隨其后，包括1929年的候鳥保護(hù)法案，1937年的禁止捕殺露脊鯨和灰鯨的條約，1940年的禿鷹保護(hù)法案。這些隨后制定的法律的社會成本很低，畢竟這些物種相對稀有，很少有人會反對這樣的法案?！?/p>

問題 1：「哪項法律被極力反對？」

機器可能給出的回答：隨后制定的法律。

問題 2：「1937 年通過的條約的名字是什么？」

機器可能給出的回答：禿鷹保護(hù)法案

「U-net 模型是如何處理這些改進(jìn)的數(shù)據(jù)集的？」

U-net 模型包含一個結(jié)合了許多最新研究進(jìn)展的有趣方法。這是一個很好的例子，告訴我們可以如何用神經(jīng)架構(gòu)創(chuàng)造性地進(jìn)行設(shè)計。

他們的模型基本上包含以下四個部分：

嵌入

融合

多層注意力機制

預(yù)測

接下來讓我們仔細(xì)看看這個模型，在我們的腦海中，讓我們從廣義概念上對模型推斷進(jìn)行思考，并想想這個系統(tǒng)是如何作為一個不同的整體的一部分與其組合在一起的。

現(xiàn)在，讓我們從頭開始細(xì)細(xì)研究 U-net 模型。

「什么是嵌入技術(shù)？」

嵌入是降維的一種形式。例如，對使用通用網(wǎng)絡(luò)爬蟲技術(shù)抓取到的「Glove」（Global Vectors for Word Representation，用于詞語表示的全局向量）的嵌入技術(shù)可以將大小為 1.9M 的詞匯表縮減為一個 300 維的向量。

然而，我們可以進(jìn)一步把這個 300 維的向量縮減到2維。我們可以看到，這些詞在大致相同的「方向」上會根據(jù)其意義被區(qū)分開。

Glove 的降維結(jié)果

「在人類的思維存儲一些概念時，會將其存儲為嵌入、圖模型、二者的結(jié)合還是其它形式呢?」

嵌入技術(shù)缺乏人類大腦所擁有的一種關(guān)鍵能力。像所有的神經(jīng)網(wǎng)絡(luò)一樣，嵌入式是「分組的」近似。更改任何網(wǎng)絡(luò)權(quán)重都會更改其它輸入的輸出。

我們可以猜測，人類的大腦能夠有選擇地對某些詞匯做出一些改變。相信大家都有過和別人辯論一個詞的意思的經(jīng)歷。然后在查了字典之后，我們發(fā)現(xiàn)我們對這個詞的理解并不是通常被人們所接受的定義。從那時起，我們可以在腦海中更新對這個詞的理解，這樣的過程會一直持續(xù)下去。不可否認(rèn)，「連詞」肯定會對理解有一些影響，但總的來說，我們的準(zhǔn)確率并不會下降。（讓我們大膽地想象一下。）

下面這張最近發(fā)布的大腦圖像顯示了「不同的單詞被存儲在大腦的各個地方」的設(shè)想。這是個有趣的想法。那么，大腦是如何防止對同一個單詞進(jìn)行重復(fù)多次的表示呢?

進(jìn)行這項研究的團(tuán)隊發(fā)布了一個在線交互模型，鏈接如下：http://gallantlab.org/huth2016/。

「在未來的通用人工智能（AGI）系統(tǒng)中，嵌入技術(shù)會成為語言翻譯的模型嗎？」

它們確實感覺很相似，因為它們本質(zhì)上都是降維，或壓縮信息。我們可以想象大腦也在做類似的事情。我們的語言中個存在很多同義詞，我們經(jīng)常會說「...和...意思相同」。通常情況下，當(dāng)同義詞之間的細(xì)微差別非常小時，我們必須將其弄清楚，探究這些詞在這個語境下究竟代表什么意思。

「什么是詞與詞之間結(jié)構(gòu)的理論？」

我們先不談這個！

「嵌入技術(shù)是如何實現(xiàn)的？」

它們基本上是降維的一種形式。經(jīng)過對模型的訓(xùn)練，隱層會被提取出來，它們的「潛在空間」會被用于另一個架構(gòu)中。近年來，研究者們提出了許多不同的嵌入方法，所以在這里我們僅僅以兩個嵌入方法為例。（1）FastText，這是一個簡單而強大的對比基線，（2）ELMO，這是 2018年最先進(jìn)的方法。

FastText 與 CBOW 算法類似。

「什么是 CBOW？」

CBOW 是 skip-gram 方法的「鏡像」。

「那什么是 skip-gram 呢？」

在 skip-gram 方法中，句子中的每一個單詞都會被用來預(yù)測鄰近的單詞。

「Gram」指的是我們要處理的單詞/單詞串/字符串有多長。

我們還可以加大「窗口大小」來預(yù)測距離當(dāng)前單詞更遠(yuǎn)的單詞。我們在這里使用大小為 1 的窗口。

「但是語言并不僅僅是以概率形式存在。它作為人類的意圖和可以改變的事實而存在。一個大的概率模型對我們來說意味著什么?」

正如我們在上面看到的，它為我們提供了詞語之間的「關(guān)系」，或者說將那些在某種程度上相似的詞語以「相近」的形式表征了出來。

使用 skip-gram 或 cbow 方法的 word2vec（https://code.google.com/archive/p/word2vec/ ）模型能夠執(zhí)行一些有一定規(guī)律可循的向量操作。例如（以下均為嵌入向量的計算）：「國王」 - 「男人」+ 「女人」得到的向量與代表「女王」的向量非常相近。

我們可以通過以下鏈接看到一個使用 word2vec 的在線演示樣例：http://bionlp-www.utu.fi/wv_demo/ 。

這個單詞類比工具很有趣。你可以給它三個單詞，A, B, C，它會嘗試找到第四個單詞 D。相信你還記得 9 年級英語課上最煩人的練習(xí)「A 之于 B，就像 C 之于 D」（A is to B as C is to D）。

當(dāng)我們向這個模型輸入「女王」、「女人」和「公主」，模型會輸出「女孩」。然而，當(dāng)我們輸入「國王」、「男人」和「王子」則并沒有得到同樣令人滿意的結(jié)果，模型給出的答案是「女人和男孩」。

「這似乎是一個良好的開端。我們是否能繼續(xù)進(jìn)行研究，并且通過更改單詞來得到特定的關(guān)系呢？」

就像其他稠密的神經(jīng)網(wǎng)絡(luò)一樣，這只是一種近似。我們不能手動改變單詞來得到特定的關(guān)系，我們需要一個更好的訓(xùn)練方法/模型/數(shù)據(jù)來使用這個概念得到更好的結(jié)果

「嵌入技術(shù)似乎就是對于通用詞語模式的一種粗略的近似。它們有什么作用呢？」

FastText 已經(jīng)能夠在一些情感分析數(shù)據(jù)集上獲得至少 90% 的準(zhǔn)確率。

「上述方法的鏡像是什么？」

對于詞袋來說，與其讓一個單詞映射到周圍的單詞，不如讓它周圍的單詞映射到那個單詞。更多細(xì)節(jié)請參閱：https://iksinc.online/tag/continuous-bag-of-words-cbow 。這項工作不是用循環(huán)神經(jīng)網(wǎng)絡(luò)完成的，所以單詞的順序并不重要。

「FastText 的工作機制有何與眾不同之處？」

FastText 利用上面得到的這些嵌入創(chuàng)建了一個「平均嵌入」的隱層。

FastText 技術(shù)還使用了層次 softmax 技術(shù)，在哈弗曼編碼的基礎(chǔ)上，對標(biāo)簽進(jìn)行編碼，極大地縮小了模型預(yù)測目標(biāo)的數(shù)量，從而在數(shù)據(jù)中存在很多類時提升了計算效率。

「ELMo（Embedding from Language Models，語言模型生成的嵌入）的工作機制有何與眾不同之處？」

ELMo 試圖使用某個單詞的上下文信息。Skip-gram 和 CBOW 使用的是一個大小為 2 的窗口，所以我們很難將它稱之為「上下文」，下面的例子可以很好地說明這一點：

我們在緬因州找到的商店 (store) 非常棒。

在緬因州，我們發(fā)現(xiàn)了被動物刨過的食物貯藏 (store) 。

這個例子看起來很能說明問題，由于 FastText在統(tǒng)計上是基于單詞之間的距離工作的，它無法捕獲單詞在句子中的用法。

「E 代表嵌入，ELMo 中的語言模型部分是什么呢？」

在這個「上下文」中，語言模型是一個 LSTM 模型，我們用它來預(yù)測句子中的下一個單詞是什么。這不是什么新鮮事，自從 Karpathy 發(fā)表關(guān)于 RNN 的博客文章（http://karpathy.github.io/2015/05/21/rnn-effectiveness/ ）以來，已經(jīng)過去三年了，這是第一篇創(chuàng)建了文本生成模型的文章。

研究人員不久前發(fā)現(xiàn)，將信息輸入給一個前后向傳播的 LSTM 可以改進(jìn)各種語音/聲音/文本任務(wù)。ELMo 也是這么做的。

「所以我們在這里將嵌入用到了 LSTM 中？」

在 ELMo 方法中，嵌入是LSTM隱層的每個輸出的權(quán)重。

保存下來的隱層狀態(tài)被添加到了一個大的長向量中。我們還可以從單詞本身獲得一個額外的嵌入。這個詞本身可以是一個單詞（token）嵌入，也可以是在字符串上進(jìn)行卷積運算得到的結(jié)果。每個單詞總共有 2L（層數(shù)）+ 1 個嵌入。

但是 Elmo 的工作還沒有完成。我們?nèi)匀恍枰獙@些嵌入作進(jìn)一步的研究工作，模型的其余部分將決定哪些嵌入是有用的。Elmo 實際上在很多任務(wù)上都取得了很好的效果。要實現(xiàn)這樣的效果在某種程度上需要針對于特定任務(wù)的權(quán)重。Elmo很好地封裝了上面的向量

（http://mlexplained.com/2018/06/15/paper-dissected-deep-contextualized-word-representations-explained/ ）。

「現(xiàn)在我們對這些嵌入相關(guān)的技術(shù)已經(jīng)有了一個初步的模糊概念，Unet 模型使用了那些技術(shù)呢？」

它們使用了Glove（用于單詞表示的全局向量）、ELMo（語言模型生成的嵌入）、POS（詞性標(biāo)注）、NER（命名實體識別）以及特征嵌入等技術(shù)。這里使用到的嵌入技術(shù)很多。

「什么是特征嵌入？」

在原論文中，作者們對特征嵌入的定義是:「精確匹配、小寫匹配、論點匹配和TF-IDF特征?！筎F-IDF（https://en.wikipedia.org/wiki/Tf–idf ）是一種測量一個單詞在語料庫中出現(xiàn)多少次的方法。因此，他們創(chuàng)造了對那些人們可能很容易注意到，但是如果不對數(shù)據(jù)集進(jìn)行大量的排列，網(wǎng)絡(luò)就可能無法注意到的語言特征的嵌入。例如大寫字母和小寫字母。

「這會生成大量的嵌入，這些模型會如何處理這些嵌入呢？」

在這里，這些模型會得到所有這些巨大的嵌入的堆棧，它們將為文章中的每一個單詞計算一次這樣的嵌入，再為問題中的單詞也計算一次。它們最后會通過另一個隨機向量u的簡單連接將這些嵌入結(jié)合在一起。從而得到：V=[Q,u,P]

他們希望這個被稱為「通用節(jié)點」的 u 向量將包含文章和問題中的抽象信息。

「向量 u 很重要嗎？」

原文作者展示的第一個模型簡化測試的結(jié)果就是「刪除向量 u 之后， F1 值下降了 2.6%」。

「向量 u 是如何同時從問題和文章中抽取出信息的？」

為了模糊化問題、向量 u、文章之間的信息，他們將向量 V 作為一系列雙向 LSTM 的輸入。

當(dāng)然，他們更喜歡將這個過程稱為「融合相關(guān)的信息」。

「為什么還要在 H 向量中保留 H^L，H^H 呢？H^F 的信息不夠嗎？」

這篇論文的主題，以及最近的一些成功案例的做法都是將前面的層的隱藏狀態(tài)傳遞給所有更深的后面的層。

「為什么將隱藏狀態(tài)傳遞給后面更深的層是有效的？」

這個問題還有待探索！

「我們已經(jīng)做好了充分的準(zhǔn)備去做一些事情，U-net 模型的核心是什么？」

U-Net 模型將多層注意力機制（https://arxiv.org/pdf/1803.02353 ）和答案指針（https://arxiv.org/pdf/1608.07905.pdf ）技術(shù)融合在了一起，這兩種方法都能得到很好的效果。

「注意力機制在區(qū)分向量中的問題和答案部分的過程會不會很困難？」

確實如此！為了解決這個問題，作者首先將隱層分割成了單獨的的段落/問題塊，分別對應(yīng)文章或問題中的每一個單詞p1、p2。

「答案指針究竟做了些什么？」

答案指針是 PointerNet（https://arxiv.org/abs/1506.03134）的具體應(yīng)用，它允許根據(jù)輸入序列而不是詞匯表預(yù)測單詞。它通過注意力機制來做到這一點。

在 U-net 中，答案指針被用于檢測文章中的「答案邊界」。如果這個問題是可以回答的，那要找到答案就很簡單了。

「如果答案在原文中找不到怎么辦呢？」

對于無法回答的問題，u-net 在原文表示之前將 u 向量設(shè)置為真實數(shù)據(jù)邊界。對于無法回答的問題，「答案邊界」應(yīng)該位于文章本身之外。由于想要使用一些 SQuAD 2.0 提供的信號信息，他們在這里使用了一個不同的損失函數(shù)。從人類生成的「合理的答案文本」中可以獲得更多信息。模型簡化實驗表明，將這種合理的文本損失考慮在內(nèi)時可以將 F1 score提高1%。

答案指針本身不會對答案是否存在做出最后的判斷。

「最終如何確定一個問題的可回答性？」

這就需要用到答案「驗證器」模塊。它將前面的項（例如多層注意力機制的輸出）和答案指針轉(zhuǎn)換為固定維度的向量。然后對它們進(jìn)行合并，并將合并后的結(jié)果傳遞給一個帶交叉熵?fù)p失的「線性+sigmoid」層，最終決定這個問題是否可回答。

「我們還需要注意哪些細(xì)節(jié)呢？」

我們已經(jīng)了解了這種方法的本質(zhì)，看到了它的模塊設(shè)計思路很棒。它直接保留所有的信息，并在模型的下游重用這些信息以獲得更高的性能，這種能力似乎給我們上了重要的一課。現(xiàn)在讓我們回顧一下這個模型并看看其他的推理方法。

V-net 模型有四個主要的模塊

嵌入

融合

注意力機制

預(yù)測邊界

對我來說，這篇論文最有趣的結(jié)論是，「我們可以把許多不同的概念組合在一起，得到比使用單個部分更好的結(jié)果」。

「還有其他在模型的下游層中使用隱藏狀態(tài)的例子嗎？」

DenseNet（https://arxiv.org/abs/1608.06993）就是一個很好地例子。它將前面的卷積層的隱藏狀態(tài)傳遞下去。實際上，U-net 論文的作者甚至在參考文獻(xiàn)中也提到了 DenseNet。

「我們還應(yīng)該研究研究其它性能良好的模型架構(gòu)嗎？」

與其研究另外的性能良好的模型架構(gòu)，我們不如看一看其他的創(chuàng)建推理系統(tǒng)的方法。嵌入技術(shù)、LSTM 以及注意力機制都是很實用的工具。讓我們來看看一些范式轉(zhuǎn)換的方法，以獲得更多不同的創(chuàng)建推理系統(tǒng)視角。比如 Sigma， Soar 或 SPAUN。

目前我們還無法回答的問題有：

「什么是詞語之間的結(jié)構(gòu)理論？」

「為什么將隱藏狀態(tài)傳遞到更下游的層會有幫助？」

via Better Learning For Life，雷鋒網(wǎng) AI 科技評論編譯

點擊閱讀原文，查看 SQuAD 2.0 的更多內(nèi)容

以上就是關(guān)于一種具有多層防護(hù)結(jié)構(gòu)的pos機,第一批在 SQUAD 2.0 上刷榜的 U的知識，后面我們會繼續(xù)為大家整理關(guān)于一種具有多層防護(hù)結(jié)構(gòu)的pos機的知識，希望能夠幫助到大家！