99在线观看亚洲,国内性爱网页91久在线,超碰人人操人人干111

本文最初發(fā)表于 Medium 博客，經(jīng)原作者 Walid Saba 博士授權(quán)，InfoQ 中文站翻譯并分享。

背景

基于三個(gè)技術(shù)（理論上的、科學(xué)上的）原因，由數(shù)據(jù)驅(qū)動(dòng) / 定量 / 統(tǒng)計(jì) / 機(jī)器學(xué)習(xí)的方法（我統(tǒng)稱為 BERT 學(xué)（BERTology）），是完全毫無希望的、徒勞的努力，至少在語言理解方面是如此。我明白，這是個(gè)很大的主張，特別是鑒于當(dāng)前的趨勢(shì)、媒體的誤導(dǎo)性宣傳，以及科技巨頭們?cè)谶@一完全有缺陷的范式上花費(fèi)了巨額資金。正如我在自己的出版物、研討會(huì)和帖子中所反復(fù)提到的那樣，人們常常跟我說：“但是，所有那些人真的都錯(cuò)了嗎？”好吧，現(xiàn)在我要統(tǒng)一地回答：“是的，他們確實(shí)可能都錯(cuò)了?！蔽沂且詡ゴ蟮臄?shù)學(xué)家 / 邏輯學(xué)家波特蘭·羅素（Bertrand Russell）的智慧說出這番話的。羅素曾經(jīng)這樣說過：

一個(gè)觀點(diǎn)已被廣泛持有的事實(shí)并不能證明它不是荒謬絕倫的。（The fact that an opinion has been widely held is no evidence whatsoever that it is not utterly absurd.）

然而，在開始之前，我們必須強(qiáng)調(diào)，我們的討論是針對(duì) BERT 學(xué)在 NLU（自然語言理解，Natural Language Understanding）的使用，這里的“U”（Understanding，理解）是至關(guān)重要的，也就是說，正如下面將要闡述的那樣，BERT 學(xué)可能在某些自然語言處理任務(wù)中很有用（如文本摘要、搜索、關(guān)鍵短語提取、文本相似性和 / 或聚類等），因?yàn)檫@些任務(wù)都是以某種形式“壓縮”的，而機(jī)器學(xué)習(xí)能夠成功地應(yīng)用于這些任務(wù)。但是，我們認(rèn)為自然語言處理（本質(zhì)上只是文本處理）和自然語言理解是截然不同的兩個(gè)問題?；蛟S就人類的思想理解而言，自然語言理解應(yīng)該被人類思想理解（Human Thought Understanding，HuTU）所取代，因?yàn)樽匀徽Z言理解涉及理解我們語言語句背后的思想（你可能也想閱讀這篇討論這一具體問題的短文《NLU 并非 NLP++》（NLU is not NLP++）。

因此，總結(jié)一下我們的介紹：我們?cè)谶@里要辯護(hù)的主張是，BERT 學(xué)對(duì)自然語言理解來說是徒勞的（事實(shí)上，它是無關(guān)緊要的），而且這一主張并不涉及自然語言處理的某些任務(wù)，而只涉及到對(duì)特定于普通口語的真正理解，這種理解就像我們每天與甚至不認(rèn)識(shí)的人、或者與沒有任何領(lǐng)域特定知識(shí)的年幼兒童進(jìn)行交談時(shí)所做的那樣！

現(xiàn)在，我們可以開始談?wù)铝恕?/p>

MTP：文字缺失現(xiàn)象

讓我們首先從描述一種現(xiàn)象開始，這種現(xiàn)象是自然語言理解中所有挑戰(zhàn)的核心，我們稱之為“文字缺失現(xiàn)象”（Missing Text Phenomenon。MTP）。

語言交流：講者將思想“編碼”成某種語言的語句（使用某種語言），然后聽者將這個(gè)語言“解碼”成（希望）講者想要傳達(dá)的思想！這一過程就是自然語言理解中的“理解”，也就是說，理解語言語句背后的思想正是在解碼過程中所發(fā)生的事情。而這些恰恰是自然語言理解困難的原因。讓我來詳述。

在這種復(fù)雜的交流中，有兩種可能的優(yōu)化或有效交流的方法：（i）講者可以壓縮（并最小化）在思想編碼中發(fā)送的信息量，并希望聽者在解碼（解壓縮）過程中做一些額外的工作；或者（ii）講者將做艱苦的工作并發(fā)送所有需要的信息來傳達(dá)思想，這將使聽者幾乎無事可做（有關(guān)此過程的完整描述，請(qǐng)參見此文《語言結(jié)構(gòu)文化演變中的壓縮與交流》（Compression and communication in the cultural evolution of linguistic structure）。這一過程的自然演變，似乎已經(jīng)形成了適當(dāng)?shù)钠胶猓怪v者和聽者的總工作量都得到了優(yōu)化。這種優(yōu)化導(dǎo)致講者只需最少的可能信息進(jìn)行編碼，而忽略了可以安全地假定為聽者可用的所有其他信息。我們往往忽略的信息通常是我們可以放心地認(rèn)為講者和聽者都可用的信息，而這正是我們通常所說的共同背景知識(shí)的信息。

為了理解這一過程的復(fù)雜性，請(qǐng)考慮以下（未經(jīng)優(yōu)化）的交流：

顯然，我們肯定不會(huì)這樣交流。事實(shí)上，上述思想通常是這樣表達(dá)的：

這條短得多的信息，也就是我們通常說話的方式，傳達(dá)了與那條長信息相同的思想。因?yàn)槲覀兌贾懒?，所以我們沒有明確地陳述所有其他的東西。

也就是說，為了有效地交流，我們不能假定我們都知道的東西！正因?yàn)槿绱?，我們都?huì)傾向于忽略同樣的信息——因?yàn)槲覀兌贾烂總€(gè)人都知道什么，這就是“共同”背景知識(shí)。這種天才的優(yōu)化過程，人類在大約 20 萬年的進(jìn)化過程中發(fā)展起來的，并且非常有效，而這恰恰是因?yàn)槲覀兌贾牢覀兯赖囊磺?。?a href="http://www.makelele.cn/v/tag/150/" target="_blank">人工智能 / 自然語言理解領(lǐng)域中，問題就出在這里。機(jī)器并不知道我們遺漏了什么，因?yàn)樗鼈儾恢牢覀兯赖囊磺?。那最終結(jié)果是什么？自然語言理解是非常困難的，因?yàn)橐粋€(gè)軟件程序要想完全理解我們語言表達(dá)背后的意思，就必須能夠以某種方式“發(fā)現(xiàn)”人們?cè)谡Z言交流中假定和忽略的一切。實(shí)際上，這是自然語言理解面臨的挑戰(zhàn)（而不是解析、詞干分析、詞性標(biāo)注等等）。事實(shí)上，自然語言理解面臨著一些眾所周知的挑戰(zhàn)——而這些問題在計(jì)算語言學(xué)中經(jīng)常被提及。我在這里展示（只是其中的一部分）用紅色高亮顯示的缺失文字：

在自然語言理解中，所有上述眾所周知的挑戰(zhàn)都是源于這樣一個(gè)事實(shí)：即挑戰(zhàn)就是發(fā)現(xiàn)（或揭示）那些缺失的信息，并隱式地假定這些信息是共享的、共同的背景知識(shí)。

既然我們（希望如此）確信，由于文字缺失現(xiàn)象，自然語言理解是困難的，也就是說，因?yàn)槲覀內(nèi)粘Ｔ捳Z中的普通口語被高度（如果不是最佳的話）壓縮，因此在“理解”方面的挑戰(zhàn)在于將缺失的文字進(jìn)行解壓縮（或揭示），我可以說出第一個(gè)技術(shù)原因：為什么 BERT 學(xué)與自然語言理解不相關(guān)。

（機(jī)器）可學(xué)習(xí)性（ML）和可壓縮性（COMP）之間的等價(jià)性已經(jīng)在數(shù)學(xué)上建立起來了。也就是說，已經(jīng)確定了只有當(dāng)數(shù)據(jù)是高度可壓縮的（即數(shù)據(jù)有大量冗余）時(shí)，才能從數(shù)據(jù)集中實(shí)現(xiàn)可學(xué)習(xí)性，反之亦然（參見這篇文章《從壓縮的角度談統(tǒng)計(jì)學(xué)習(xí)》（On statistical learning via the lens of compression）和 2019 年發(fā)表在《自然》（Nature）雜志上的重要文章《可學(xué)習(xí)性不可判定》（Learnability can be Undecidable）），但是文字缺失現(xiàn)象告訴我們，自然語言理解是一個(gè)關(guān)于解壓縮的問題。以下是我們所掌握的情況：

原因 1 證畢。

內(nèi)涵（帶有“s”）

內(nèi)涵（Intension）是我要討論的另一個(gè)現(xiàn)象，在我討論第二個(gè)證據(jù)之前，即 BERT 學(xué)甚至與自然語言理解不相關(guān)。我將從所謂的內(nèi)涵三角形說起，如下面的例子所示：

所以，每一個(gè)“事物”（或者說每一個(gè)認(rèn)知對(duì)象）都有三個(gè)部分：一個(gè)指代某一概念的符號(hào)，而這個(gè)概念（有時(shí)）有實(shí)例。有時(shí)候我會(huì)說，因?yàn)椤蔼?dú)角獸”這個(gè)概念并沒有“實(shí)際的”例子，至少在我們生活的世界里是如此！這個(gè)概念本身就是它所有潛在實(shí)例的理想化模板（因此它接近柏拉圖的理想化形式?。┠憧梢韵胂螅軐W(xué)家、邏輯學(xué)家和認(rèn)知科學(xué)家如何在幾個(gè)世紀(jì)以來一直在爭論概念的本質(zhì)及其定義方式。不管爭議有多大，我們都可以達(dá)成一個(gè)共識(shí)：一個(gè)概念（通常由某個(gè)符號(hào) / 標(biāo)簽所指代），是由一組屬性定義的，或許還包括公理和既定事實(shí)等。然而，概念并不同于實(shí)際（不完美的）實(shí)例。這同樣適用于完美的數(shù)學(xué)世界。因此，舉例來說，雖然下面的算術(shù)表達(dá)式都有同樣的擴(kuò)展，但是它們的內(nèi)涵卻不相同：

所以，雖然所有表達(dá)式的結(jié)果都為 16，因此在某種意義上是相等的（它們的VALUE），但這只是它們的一個(gè)屬性而已。事實(shí)上，上面的表達(dá)式還有其他一些屬性，比如其句法結(jié)構(gòu)（這就是為什么 (a) 和 (d) 不同），運(yùn)算符的數(shù)量，操作數(shù)的數(shù)量等等。VALUE（只是一個(gè)屬性）被稱為擴(kuò)展，而所有屬性的集合就是內(nèi)涵。而在應(yīng)用科學(xué)（工程學(xué)、經(jīng)濟(jì)學(xué)等等）中，如果它們的VALUE相等，我們就可以放心地認(rèn)為它們是相等的，但在認(rèn)知（尤其是語言理解）中，這種相等就失效了！下面是一個(gè)簡單的例子：

假定 (1) 為真，也就是說，假設(shè) (1) 確實(shí)發(fā)生了，而且我們也親眼目睹了這一事實(shí)。不過，這并不意味著我們就可以假設(shè) (2) 為真。盡管我們所做的只是將 (1) 中的“16”替換為（假定）等于它的值。那么發(fā)生了什么事兒？我們用一個(gè)假定與之相等的對(duì)象替換了一個(gè)真實(shí)語句中的一個(gè)對(duì)象，然后我們從真實(shí)的對(duì)象中推斷出了一些不真實(shí)的對(duì)象！事實(shí)是這樣的：盡管在自然科學(xué)中，我們可以輕易地用一個(gè)等于它的屬性來替換一個(gè)對(duì)象，但這在認(rèn)知中卻是行不通的！下面是另一個(gè)示例：

通過簡單地將“the tutor of Alexander the Great”替換為閾值相等的值，即“Aristotle”，我們就得到了 (2)，這顯然是荒謬的。同樣，雖然“the tutor of Alexander the Great”和“Aristotle”在某種意義上是等同的，但這兩個(gè)思想對(duì)象在許多其他方面卻是不同的。

我不再贅述對(duì)于什么是“內(nèi)涵”，以及它在高級(jí)推理，尤其是在自然語言理解中的重要性。有興趣的讀者可以看看這篇短文《在自然語言理解中，忽視內(nèi)涵，自負(fù)風(fēng)險(xiǎn)》（In NLU, you ignore intenSion at your peril），我在這篇文章曾引用過其他參考資料。

那么，從這場(chǎng)關(guān)于“內(nèi)涵”的討論中，有哪些觀點(diǎn)呢？在自然語言中，內(nèi)涵現(xiàn)象是非常普遍的，這是因?yàn)檎Z言所傳達(dá)的思想對(duì)象具有不可忽視的內(nèi)涵性。但是，在所有的變體中，語料庫都是一個(gè)純粹的外延擴(kuò)展，只能處理擴(kuò)展（數(shù)值），因此它不能對(duì)內(nèi)涵進(jìn)行建模或解釋，也就不能對(duì)語言中的各種現(xiàn)象進(jìn)行建模。

原因 2 證畢。

順帶一提，BERT 學(xué)是一種純粹的可擴(kuò)展范式，它并不能解釋“內(nèi)涵”，這是深度學(xué)習(xí)中所謂的“對(duì)抗性樣本”的來源。這個(gè)問題與這樣一個(gè)事實(shí)有關(guān)：一旦張量（高維向量）合稱為一個(gè)張量，結(jié)果張量現(xiàn)在可以用無限多種方式分解為分量（這意味著分解是不可判定的），也就是說，一旦輸入張量合成，我們就失去了原始結(jié)構(gòu)（簡單地說：10 可以是 2×5 的值，但也可以是 8+1+1 的結(jié)果，9+1+0 的結(jié)果等等）。神經(jīng)網(wǎng)絡(luò) 總是會(huì)受到對(duì)抗性樣本的攻擊，因?yàn)橥ㄟ^反向優(yōu)化，我們總是可以在任何層上獲得預(yù)期的輸出，而不是從預(yù)期的組件獲得預(yù)期的輸出。但這是另外一個(gè)討論了，不在本文范疇之內(nèi)。

統(tǒng)計(jì)學(xué)意義

虛詞是語料庫中最主要的統(tǒng)計(jì)學(xué)意義的問題之一，在語料庫中，虛詞只能被忽略，而被稱為“停用詞”。這些詞在每個(gè)上下文中都具有相同的概率，因此必須將其刪除，因?yàn)樗鼈儠?huì)擾亂整個(gè)概率空間。但是，不管 BERT 學(xué)家喜歡與否，虛詞都是那些最終將最終意義粘合在一起的詞?？纯聪旅孢@對(duì)句子的區(qū)別就知道了。

在 (2a) 中，我們指的是 50 個(gè)組，而在 (2b) 中只有 1 個(gè)。我們?nèi)绾卫斫饬吭~、介詞、情態(tài)動(dòng)詞等，會(huì)極大改變目標(biāo)語（和意圖）的意義，因此，如果不考慮虛詞的話，就不可能有任何真正的語言理解。而且，在 BERT 學(xué)中，這些虛詞也不能（適當(dāng)?shù)兀┻M(jìn)行建模。

我們本可以到此為止，那就是原因 3 證畢，我們證明了 BERT 學(xué)甚至與自然語言理解不相關(guān)。但是還有很多……

從本質(zhì)上說，BERT 學(xué)是一種基于在數(shù)據(jù)中發(fā)現(xiàn)某種模式（相關(guān)性）的范式。因此，這種范式要求自然語言中的各種現(xiàn)象在統(tǒng)計(jì)學(xué)上存在顯著的差異，否則它們將被視為本質(zhì)上是相同的。但是，要考慮以下幾點(diǎn) [ 有關(guān)這些例子的討論，請(qǐng)參見《Winograd 模式挑戰(zhàn)》（The Winograd Schema Challenge）和《論 Winograd 模式：將語言理解置于數(shù)據(jù) - 信息 - 知識(shí)連續(xù)體中》（On the Winograd Schema: Situating Language Understanding in the Data-Information-Knowledge Continuum），因?yàn)樗c Winograd 模式挑戰(zhàn)相關(guān)] ：

請(qǐng)注意，像“small”和“big”（或“open”和“close”等）的反義詞 / 對(duì)立詞在相同的上下文中具有相等的概率。因此，(1a) 和 (1b) 在統(tǒng)計(jì)學(xué)上是等效的，但即使對(duì)于一個(gè) 4 歲的孩子 (1a) 和 (1b) 來說也有很大的不同：(1a) 中的“it”指的是“the suitcase”，而 (1b) 中的“it”指的是“the trophy”。基本上，在簡單的語言中，(1a) 和 (1b) 在統(tǒng)計(jì)學(xué)上的等價(jià)的，盡管在語義上相距甚遠(yuǎn)。因此，統(tǒng)計(jì)學(xué)分析并不能對(duì)語義進(jìn)行建模（甚至近似也不能）——就這么簡單！

但是，讓我們看看，如果堅(jiān)持使用 BERT 學(xué)來學(xué)習(xí)正確解析這類結(jié)構(gòu)中的“it”，我們需要多少個(gè)樣本。首先，在 BERT 學(xué)中，并沒有類型的概念（也沒有任何符號(hào)知識(shí)）。因此，下面的情況都是不同的。

也就是說，在 BERT 學(xué)中，沒有類型層次結(jié)構(gòu)允許我們將“big”、“suitcase”、“briefcase”等概括為“container”的所有子類型。因此，在純數(shù)據(jù)驅(qū)動(dòng)的范式中，上述每一個(gè)都是不同的，必須分開來看。如果我們將上述模式的所有輕微句法差異加上語義差異（比如將“because”更改為“thought”，這也將正確的指稱項(xiàng)更改為“it”），那么粗略的計(jì)算就會(huì)告訴我們，BERT 學(xué)系統(tǒng)將需要類似上述的 4 千萬個(gè)變體，而所有這些僅僅是為了在 (1) 中的結(jié)構(gòu)中解析類似“it”的指稱項(xiàng)。假如有的話，這在計(jì)算上是不可信的。正如 Fodor 和 Pylyshyn 曾經(jīng)引用著名的認(rèn)知科學(xué)家 George Miller 的名言：為了捕捉自然語言理解系統(tǒng)所需要的所有句法和語義變化，神經(jīng)網(wǎng)絡(luò)可能需要的特征數(shù)量比宇宙中的原子數(shù)量還要多！[我會(huì)向任何對(duì)認(rèn)知科學(xué)感興趣的讀者推薦這篇經(jīng)典而精彩的論文：《聯(lián)結(jié)主義與認(rèn)知架構(gòu)：批判性分析》（Connectionism and Cognitive Architecture: A: Critical Analysis）]。

為總結(jié)本節(jié)，自然語言中通常沒有統(tǒng)計(jì)學(xué)意義上可以解釋不通的解釋，而這正是因?yàn)樽C明統(tǒng)計(jì)顯著性所需的信息并不在數(shù)據(jù)中，而是在其他地方可以獲得的信息，在上面的例子中，所需的信息是這樣的：not(FIT(x,y))，則 LARGER(y,x) 比 LARGER(x,y) 更有可能。簡而言之，BERT 學(xué)中唯一的信息來源必須是可以從數(shù)據(jù)中獲得的信息，但通常正確解釋所需的信息并不在數(shù)據(jù)中，你甚至都找不到數(shù)據(jù)中不存在的信息。

至此，原因 3 證畢。

結(jié) 語

我已經(jīng)討論了三個(gè)原因，證明了 BERT 學(xué)甚至與自然語言理解不相關(guān)（盡管它可能在本質(zhì)上是壓縮任務(wù)的文本處理任務(wù)）。以上三個(gè)原因中的每一個(gè)都足以讓這列名為 BERT 學(xué)的失控列車停下來。
自然語言可不僅僅是數(shù)據(jù)！

本文轉(zhuǎn)自公眾號(hào)：AI前線，作者Walid Saba

審核編輯黃昊宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1819

文章
50177

瀏覽量
266182
自然語言

自然語言

+關(guān)注

關(guān)注
1

文章
292

瀏覽量
14017

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

是時(shí)候結(jié)束BERT學(xué)了

評(píng)論