本文最初發(fā)表于 Medium 博客,經(jīng)原作者 Walid Saba 博士授權(quán),InfoQ 中文站翻譯并分享。
背 景
基于三個(gè)技術(shù)(理論上的、科學(xué)上的)原因,由數(shù)據(jù)驅(qū)動(dòng) / 定量 / 統(tǒng)計(jì) / 機(jī)器學(xué)習(xí)的方法(我統(tǒng)稱為 BERT 學(xué)(BERTology)),是完全毫無希望的、徒勞的努力,至少在語言理解方面是如此。我明白,這是個(gè)很大的主張,特別是鑒于當(dāng)前的趨勢(shì)、媒體的誤導(dǎo)性宣傳,以及科技巨頭們?cè)谶@一完全有缺陷的范式上花費(fèi)了巨額資金。正如我在自己的出版物、研討會(huì)和帖子中所反復(fù)提到的那樣,人們常常跟我說:“但是,所有那些人真的都錯(cuò)了嗎?”好吧,現(xiàn)在我要統(tǒng)一地回答:“是的,他們確實(shí)可能都錯(cuò)了?!蔽沂且詡ゴ蟮臄?shù)學(xué)家 / 邏輯學(xué)家波特蘭·羅素(Bertrand Russell)的智慧說出這番話的。羅素曾經(jīng)這樣說過:
一個(gè)觀點(diǎn)已被廣泛持有的事實(shí)并不能證明它不是荒謬絕倫的。(The fact that an opinion has been widely held is no evidence whatsoever that it is not utterly absurd.)
然而,在開始之前,我們必須強(qiáng)調(diào),我們的討論是針對(duì) BERT 學(xué)在 NLU(自然語言理解,Natural Language Understanding)的使用,這里的“U”(Understanding,理解)是至關(guān)重要的,也就是說,正如下面將要闡述的那樣,BERT 學(xué)可能在某些自然語言處理任務(wù)中很有用(如文本摘要、搜索、關(guān)鍵短語提取、文本相似性和 / 或聚類等),因?yàn)檫@些任務(wù)都是以某種形式“壓縮”的,而機(jī)器學(xué)習(xí)能夠成功地應(yīng)用于這些任務(wù)。但是,我們認(rèn)為自然語言處理(本質(zhì)上只是文本處理)和自然語言理解是截然不同的兩個(gè)問題?;蛟S就人類的思想理解而言,自然語言理解應(yīng)該被人類思想理解(Human Thought Understanding,HuTU)所取代,因?yàn)樽匀徽Z言理解涉及理解我們語言語句背后的思想(你可能也想閱讀這篇討論這一具體問題的短文《NLU 并非 NLP++》(NLU is not NLP++)。
因此,總結(jié)一下我們的介紹:我們?cè)谶@里要辯護(hù)的主張是,BERT 學(xué)對(duì)自然語言理解來說是徒勞的(事實(shí)上,它是無關(guān)緊要的),而且這一主張并不涉及自然語言處理的某些任務(wù),而只涉及到對(duì)特定于普通口語的真正理解,這種理解就像我們每天與甚至不認(rèn)識(shí)的人、或者與沒有任何領(lǐng)域特定知識(shí)的年幼兒童進(jìn)行交談時(shí)所做的那樣!
現(xiàn)在,我們可以開始談?wù)铝恕?/p>
MTP:文字缺失現(xiàn)象
讓我們首先從描述一種現(xiàn)象開始,這種現(xiàn)象是自然語言理解中所有挑戰(zhàn)的核心,我們稱之為“文字缺失現(xiàn)象”(Missing Text Phenomenon。MTP)。
語言交流:講者將思想“編碼”成某種語言的語句(使用某種語言),然后聽者將這個(gè)語言“解碼”成(希望)講者想要傳達(dá)的思想!這一過程就是自然語言理解中的“理解”,也就是說,理解語言語句背后的思想正是在解碼過程中所發(fā)生的事情。而這些恰恰是自然語言理解困難的原因。讓我來詳述。
在這種復(fù)雜的交流中,有兩種可能的優(yōu)化或有效交流的方法:(i)講者可以壓縮(并最小化)在思想編碼中發(fā)送的信息量,并希望聽者在解碼(解壓縮)過程中做一些額外的工作;或者(ii)講者將做艱苦的工作并發(fā)送所有需要的信息來傳達(dá)思想,這將使聽者幾乎無事可做(有關(guān)此過程的完整描述,請(qǐng)參見此文《語言結(jié)構(gòu)文化演變中的壓縮與交流》(Compression and communication in the cultural evolution of linguistic structure)。這一過程的自然演變,似乎已經(jīng)形成了適當(dāng)?shù)钠胶猓怪v者和聽者的總工作量都得到了優(yōu)化。這種優(yōu)化導(dǎo)致講者只需最少的可能信息進(jìn)行編碼,而忽略了可以安全地假定為聽者可用的所有其他信息。我們往往忽略的信息通常是我們可以放心地認(rèn)為講者和聽者都可用的信息,而這正是我們通常所說的共同背景知識(shí)的信息。
為了理解這一過程的復(fù)雜性,請(qǐng)考慮以下(未經(jīng)優(yōu)化)的交流:
顯然,我們肯定不會(huì)這樣交流。事實(shí)上,上述思想通常是這樣表達(dá)的:
這條短得多的信息,也就是我們通常說話的方式,傳達(dá)了與那條長信息相同的思想。因?yàn)槲覀兌贾懒?,所以我們沒有明確地陳述所有其他的東西。
也就是說,為了有效地交流,我們不能假定我們都知道的東西!正因?yàn)槿绱?,我們都?huì)傾向于忽略同樣的信息——因?yàn)槲覀兌贾烂總€(gè)人都知道什么,這就是“共同”背景知識(shí)。這種天才的優(yōu)化過程,人類在大約 20 萬年的進(jìn)化過程中發(fā)展起來的,并且非常有效,而這恰恰是因?yàn)槲覀兌贾牢覀兯赖囊磺?。?a href="http://www.makelele.cn/v/tag/150/" target="_blank">人工智能 / 自然語言理解領(lǐng)域中,問題就出在這里。機(jī)器并不知道我們遺漏了什么,因?yàn)樗鼈儾恢牢覀兯赖囊磺?。那最終結(jié)果是什么?自然語言理解是非常困難的,因?yàn)橐粋€(gè)軟件程序要想完全理解我們語言表達(dá)背后的意思,就必須能夠以某種方式“發(fā)現(xiàn)”人們?cè)谡Z言交流中假定和忽略的一切。實(shí)際上,這是自然語言理解面臨的挑戰(zhàn)(而不是解析、詞干分析、詞性標(biāo)注等等)。事實(shí)上,自然語言理解面臨著一些眾所周知的挑戰(zhàn)——而這些問題在計(jì)算語言學(xué)中經(jīng)常被提及。我在這里展示(只是其中的一部分)用紅色高亮顯示的缺失文字:
在自然語言理解中,所有上述眾所周知的挑戰(zhàn)都是源于這樣一個(gè)事實(shí):即挑戰(zhàn)就是發(fā)現(xiàn)(或揭示)那些缺失的信息,并隱式地假定這些信息是共享的、共同的背景知識(shí)。
既然我們(希望如此)確信,由于文字缺失現(xiàn)象,自然語言理解是困難的,也就是說,因?yàn)槲覀內(nèi)粘T捳Z中的普通口語被高度(如果不是最佳的話)壓縮,因此在“理解”方面的挑戰(zhàn)在于將缺失的文字進(jìn)行解壓縮(或揭示),我可以說出第一個(gè)技術(shù)原因:為什么 BERT 學(xué)與自然語言理解不相關(guān)。
(機(jī)器)可學(xué)習(xí)性(ML)和可壓縮性(COMP)之間的等價(jià)性已經(jīng)在數(shù)學(xué)上建立起來了。也就是說,已經(jīng)確定了只有當(dāng)數(shù)據(jù)是高度可壓縮的(即數(shù)據(jù)有大量冗余)時(shí),才能從數(shù)據(jù)集中實(shí)現(xiàn)可學(xué)習(xí)性,反之亦然(參見這篇文章《從壓縮的角度談統(tǒng)計(jì)學(xué)習(xí)》(On statistical learning via the lens of compression)和 2019 年發(fā)表在《自然》(Nature)雜志上的重要文章《可學(xué)習(xí)性不可判定》(Learnability can be Undecidable)),但是文字缺失現(xiàn)象告訴我們,自然語言理解是一個(gè)關(guān)于解壓縮的問題。以下是我們所掌握的情況:
原因 1 證畢。
內(nèi)涵(帶有“s”)
內(nèi)涵(Intension)是我要討論的另一個(gè)現(xiàn)象,在我討論第二個(gè)證據(jù)之前,即 BERT 學(xué)甚至與自然語言理解不相關(guān)。我將從所謂的內(nèi)涵三角形說起,如下面的例子所示:
所以,每一個(gè)“事物”(或者說每一個(gè)認(rèn)知對(duì)象)都有三個(gè)部分:一個(gè)指代某一概念的符號(hào),而這個(gè)概念(有時(shí))有實(shí)例。有時(shí)候我會(huì)說,因?yàn)椤蔼?dú)角獸”這個(gè)概念并沒有“實(shí)際的”例子,至少在我們生活的世界里是如此!這個(gè)概念本身就是它所有潛在實(shí)例的理想化模板(因此它接近柏拉圖的理想化形式?。┠憧梢韵胂螅軐W(xué)家、邏輯學(xué)家和認(rèn)知科學(xué)家如何在幾個(gè)世紀(jì)以來一直在爭論概念的本質(zhì)及其定義方式。不管爭議有多大,我們都可以達(dá)成一個(gè)共識(shí):一個(gè)概念(通常由某個(gè)符號(hào) / 標(biāo)簽所指代),是由一組屬性定義的,或許還包括公理和既定事實(shí)等。然而,概念并不同于實(shí)際(不完美的)實(shí)例。這同樣適用于完美的數(shù)學(xué)世界。因此,舉例來說,雖然下面的算術(shù)表達(dá)式都有同樣的擴(kuò)展,但是它們的內(nèi)涵卻不相同:
所以,雖然所有表達(dá)式的結(jié)果都為 16,因此在某種意義上是相等的(它們的VALUE),但這只是它們的一個(gè)屬性而已。事實(shí)上,上面的表達(dá)式還有其他一些屬性,比如其句法結(jié)構(gòu)(這就是為什么 (a) 和 (d) 不同),運(yùn)算符的數(shù)量,操作數(shù)的數(shù)量等等。VALUE(只是一個(gè)屬性)被稱為擴(kuò)展,而所有屬性的集合就是內(nèi)涵。而在應(yīng)用科學(xué)(工程學(xué)、經(jīng)濟(jì)學(xué)等等)中,如果它們的VALUE相等,我們就可以放心地認(rèn)為它們是相等的,但在認(rèn)知(尤其是語言理解)中,這種相等就失效了!下面是一個(gè)簡單的例子:
假定 (1) 為真,也就是說,假設(shè) (1) 確實(shí)發(fā)生了,而且我們也親眼目睹了這一事實(shí)。不過,這并不意味著我們就可以假設(shè) (2) 為真。盡管我們所做的只是將 (1) 中的“16”替換為(假定)等于它的值。那么發(fā)生了什么事兒?我們用一個(gè)假定與之相等的對(duì)象替換了一個(gè)真實(shí)語句中的一個(gè)對(duì)象,然后我們從真實(shí)的對(duì)象中推斷出了一些不真實(shí)的對(duì)象!事實(shí)是這樣的:盡管在自然科學(xué)中,我們可以輕易地用一個(gè)等于它的屬性來替換一個(gè)對(duì)象,但這在認(rèn)知中卻是行不通的!下面是另一個(gè)示例:
通過簡單地將“the tutor of Alexander the Great”替換為閾值相等的值,即“Aristotle”,我們就得到了 (2),這顯然是荒謬的。同樣,雖然“the tutor of Alexander the Great”和“Aristotle”在某種意義上是等同的,但這兩個(gè)思想對(duì)象在許多其他方面卻是不同的。
我不再贅述對(duì)于什么是“內(nèi)涵”,以及它在高級(jí)推理,尤其是在自然語言理解中的重要性。有興趣的讀者可以看看這篇短文《在自然語言理解中,忽視內(nèi)涵,自負(fù)風(fēng)險(xiǎn)》(In NLU, you ignore intenSion at your peril),我在這篇文章曾引用過其他參考資料。
那么,從這場(chǎng)關(guān)于“內(nèi)涵”的討論中,有哪些觀點(diǎn)呢?在自然語言中,內(nèi)涵現(xiàn)象是非常普遍的,這是因?yàn)檎Z言所傳達(dá)的思想對(duì)象具有不可忽視的內(nèi)涵性。但是,在所有的變體中,語料庫都是一個(gè)純粹的外延擴(kuò)展,只能處理擴(kuò)展(數(shù)值),因此它不能對(duì)內(nèi)涵進(jìn)行建模或解釋,也就不能對(duì)語言中的各種現(xiàn)象進(jìn)行建模。
原因 2 證畢。
順帶一提,BERT 學(xué)是一種純粹的可擴(kuò)展范式,它并不能解釋“內(nèi)涵”,這是深度學(xué)習(xí)中所謂的“對(duì)抗性樣本”的來源。這個(gè)問題與這樣一個(gè)事實(shí)有關(guān):一旦張量(高維向量)合稱為一個(gè)張量,結(jié)果張量現(xiàn)在可以用無限多種方式分解為分量(這意味著分解是不可判定的),也就是說,一旦輸入張量合成,我們就失去了原始結(jié)構(gòu)(簡單地說:10 可以是 2×5 的值,但也可以是 8+1+1 的結(jié)果,9+1+0 的結(jié)果等等)。神經(jīng)網(wǎng)絡(luò) 總是 會(huì)受到對(duì)抗性樣本的攻擊,因?yàn)橥ㄟ^反向優(yōu)化,我們總是可以在任何層上獲得預(yù)期的輸出,而不是從預(yù)期的組件獲得預(yù)期的輸出。但這是另外一個(gè)討論了,不在本文范疇之內(nèi)。
統(tǒng)計(jì)學(xué)意義
虛詞是語料庫中最主要的統(tǒng)計(jì)學(xué)意義的問題之一,在語料庫中,虛詞只能被忽略,而被稱為“停用詞”。這些詞在每個(gè)上下文中都具有相同的概率,因此必須將其刪除,因?yàn)樗鼈儠?huì)擾亂整個(gè)概率空間。但是,不管 BERT 學(xué)家喜歡與否,虛詞都是那些最終將最終意義粘合在一起的詞??纯聪旅孢@對(duì)句子的區(qū)別就知道了。
在 (2a) 中,我們指的是 50 個(gè)組,而在 (2b) 中只有 1 個(gè)。我們?nèi)绾卫斫饬吭~、介詞、情態(tài)動(dòng)詞等,會(huì)極大改變目標(biāo)語(和意圖)的意義,因此,如果不考慮虛詞的話,就不可能有任何真正的語言理解。而且,在 BERT 學(xué)中,這些虛詞也不能(適當(dāng)?shù)兀┻M(jìn)行建模。
我們本可以到此為止,那就是原因 3 證畢,我們證明了 BERT 學(xué)甚至與自然語言理解不相關(guān)。但是還有很多……
從本質(zhì)上說,BERT 學(xué)是一種基于在數(shù)據(jù)中發(fā)現(xiàn)某種模式(相關(guān)性)的范式。因此,這種范式要求自然語言中的各種現(xiàn)象在統(tǒng)計(jì)學(xué)上存在顯著的差異,否則它們將被視為本質(zhì)上是相同的。但是,要考慮以下幾點(diǎn) [ 有關(guān)這些例子的討論,請(qǐng)參見《Winograd 模式挑戰(zhàn)》(The Winograd Schema Challenge)和《論 Winograd 模式:將語言理解置于數(shù)據(jù) - 信息 - 知識(shí)連續(xù)體中》(On the Winograd Schema: Situating Language Understanding in the Data-Information-Knowledge Continuum),因?yàn)樗c Winograd 模式挑戰(zhàn)相關(guān)] :
請(qǐng)注意,像“small”和“big”(或“open”和“close”等)的反義詞 / 對(duì)立詞在相同的上下文中具有相等的概率。因此,(1a) 和 (1b) 在統(tǒng)計(jì)學(xué)上是等效的,但即使對(duì)于一個(gè) 4 歲的孩子 (1a) 和 (1b) 來說也有很大的不同:(1a) 中的“it”指的是“the suitcase”,而 (1b) 中的“it”指的是“the trophy”。基本上,在簡單的語言中,(1a) 和 (1b) 在統(tǒng)計(jì)學(xué)上的等價(jià)的,盡管在語義上相距甚遠(yuǎn)。因此,統(tǒng)計(jì)學(xué)分析并不能對(duì)語義進(jìn)行建模(甚至近似也不能)——就這么簡單!
但是,讓我們看看,如果堅(jiān)持使用 BERT 學(xué)來學(xué)習(xí)正確解析這類結(jié)構(gòu)中的“it”,我們需要多少個(gè)樣本。首先,在 BERT 學(xué)中,并沒有類型的概念(也沒有任何符號(hào)知識(shí))。因此,下面的情況都是不同的。
也就是說,在 BERT 學(xué)中,沒有類型層次結(jié)構(gòu)允許我們將“big”、“suitcase”、“briefcase”等概括為“container”的所有子類型。因此,在純數(shù)據(jù)驅(qū)動(dòng)的范式中,上述每一個(gè)都是不同的,必須分開來看。如果我們將上述模式的所有輕微句法差異加上語義差異(比如將“because”更改為“thought”,這也將正確的指稱項(xiàng)更改為“it”),那么粗略的計(jì)算就會(huì)告訴我們,BERT 學(xué)系統(tǒng)將需要類似上述的 4 千萬個(gè)變體,而所有這些僅僅是為了在 (1) 中的結(jié)構(gòu)中解析類似“it”的指稱項(xiàng)。假如有的話,這在計(jì)算上是不可信的。正如 Fodor 和 Pylyshyn 曾經(jīng)引用著名的認(rèn)知科學(xué)家 George Miller 的名言:為了捕捉自然語言理解系統(tǒng)所需要的所有句法和語義變化,神經(jīng)網(wǎng)絡(luò)可能需要的特征數(shù)量比宇宙中的原子數(shù)量還要多![我會(huì)向任何對(duì)認(rèn)知科學(xué)感興趣的讀者推薦這篇經(jīng)典而精彩的論文:《聯(lián)結(jié)主義與認(rèn)知架構(gòu):批判性分析》(Connectionism and Cognitive Architecture: A: Critical Analysis)]。
為總結(jié)本節(jié),自然語言中通常沒有統(tǒng)計(jì)學(xué)意義上可以解釋不通的解釋,而這正是因?yàn)樽C明統(tǒng)計(jì)顯著性所需的信息并不在數(shù)據(jù)中,而是在其他地方可以獲得的信息,在上面的例子中,所需的信息是這樣的:not(FIT(x,y)),則 LARGER(y,x) 比 LARGER(x,y) 更有可能。簡而言之,BERT 學(xué)中唯一的信息來源必須是可以從數(shù)據(jù)中獲得的信息,但通常正確解釋所需的信息并不在數(shù)據(jù)中,你甚至都找不到數(shù)據(jù)中不存在的信息。
至此,原因 3 證畢。
結(jié) 語
我已經(jīng)討論了三個(gè)原因,證明了 BERT 學(xué)甚至與自然語言理解不相關(guān)(盡管它可能在本質(zhì)上是壓縮任務(wù)的文本處理任務(wù))。以上三個(gè)原因中的每一個(gè)都足以讓這列名為 BERT 學(xué)的失控列車停下來。
自然語言可不僅僅是數(shù)據(jù)!
本文轉(zhuǎn)自 公眾號(hào):AI前線 ,作者Walid Saba
審核編輯 黃昊宇
-
人工智能
+關(guān)注
關(guān)注
1819文章
50177瀏覽量
266182 -
自然語言
+關(guān)注
關(guān)注
1文章
292瀏覽量
14017
發(fā)布評(píng)論請(qǐng)先 登錄
工作流節(jié)點(diǎn)說明結(jié)束節(jié)點(diǎn)
今日看點(diǎn):逐際動(dòng)力完成B輪融資;雷軍:新一代小米 SU7 已結(jié)束研發(fā)、準(zhǔn)備量產(chǎn)
今日看點(diǎn):鎧俠:300元1TB SSD時(shí)代結(jié)束;蘇大維格:常州維普產(chǎn)品已進(jìn)入頭部晶圓廠和掩膜版廠商量產(chǎn)線
NVIDIA Omniverse USD插件開發(fā)中的UI卡頓問題復(fù)現(xiàn)及分析
在移植的時(shí)候發(fā)現(xiàn)卡死,為什么?
景嘉微JM1100生態(tài)合作推介會(huì)長沙站圓滿結(jié)束
鴻利大講堂首期游學(xué)活動(dòng)在佛達(dá)信號(hào)研發(fā)中心圓滿結(jié)束
中軟國際AI產(chǎn)業(yè)生態(tài)論壇香港站圓滿結(jié)束
中軟國際AI產(chǎn)業(yè)生態(tài)論壇南京站圓滿結(jié)束
中軟國際AI產(chǎn)業(yè)生態(tài)論壇深圳站圓滿結(jié)束
618結(jié)束,安防攝像頭市場(chǎng)戰(zhàn)況何如?
微小泄漏零容忍:結(jié)束線連接器氣密性檢測(cè)的挑戰(zhàn)與對(duì)策
將DMACB寄存器中的RC位設(shè)置為1來在DMA傳輸結(jié)束時(shí)重新加載計(jì)數(shù)器,什么時(shí)候將需要重新加載的值存儲(chǔ)在FM3中?
大會(huì)回顧 | 龍芯工業(yè)數(shù)字化生態(tài)交流會(huì)圓滿結(jié)束
是時(shí)候結(jié)束BERT學(xué)了
評(píng)論