來源:科學網(wǎng)
得益于神經(jīng)網(wǎng)絡(luò)——從人腦獲得靈感的計算機算式——的發(fā)展,自動化的語言翻譯已經(jīng)存在了相當長一段時間。但訓(xùn)練這些網(wǎng)絡(luò)需要海量數(shù)據(jù):數(shù)以千萬計的逐句翻譯,以展示人類如何做這項工作。現(xiàn)在,兩篇新論文表明神經(jīng)網(wǎng)絡(luò)可以在無需平行文本的情況下學習翻譯——這一令人震驚的進展或讓人們獲得許多不同語言的文獻記錄。
“想象一下,你給一個人很多中文書籍和阿拉伯書籍,而且它們沒有任何重疊性,然后一個人需要學習將其從中文翻譯為阿拉伯語。這聽起來似乎不可能,對吧?”其中一項研究的第一作者、西班牙圣西巴提巴斯克國家大學(UPV)計算機專家Mikel Artetxe說,“但我們證明計算機可以做到這一點?!?/p>
大多數(shù)機器學習——神經(jīng)網(wǎng)絡(luò)和其他從經(jīng)驗中學習的計算機算式會受到“監(jiān)督”。計算機會進行推測,然后接收到正確答案,并據(jù)此調(diào)整相應(yīng)的過程。在教一臺計算機如何在諸如英語和法語之間進行翻譯時,這種模式會非常有效,因為很多文獻在這兩種語言中同時存在。但它對于罕見的語言,或者是那些沒有很多平行文本的通用語言并不奏效。
這兩篇尚未經(jīng)過同行評議的新文章均已被提交給明年的國際學習表征會議,它們聚焦了另一種方法:不監(jiān)督機器學習。一開始,計算機在沒有人類老師告訴它們其推測是否正確的情況下建設(shè)雙語詞典。這是因為語言在詞匯結(jié)合方面有著很強的相似性。例如,在各種語言中,桌子和椅子的詞匯經(jīng)常會一起使用。因此,如果計算機將這些共現(xiàn)性像一個城市巨大的公路地圖那樣描繪出來,那么不同語言的地圖就會彼此相似,只不過它們擁有不同的名字。如此一來,計算機就能找出將一個地圖集覆蓋在另一個地圖集上的最佳方法。瞧!一本雙語詞典出現(xiàn)了。
這兩篇文章運用了非常類似的方法,均能在語句層面進行翻譯。它們均使用兩種訓(xùn)練策略,即回譯和去噪。在回譯中,一種語言中的一句話被粗略地翻譯成另一種語言,然后再被轉(zhuǎn)譯回最初的語言。如果回譯的語句與最初語句并不相同,那么將對神經(jīng)網(wǎng)絡(luò)進行調(diào)整,從而使它們在下一次翻譯得更加準確。去噪類似于回譯,但它不是從一種語言翻譯為另一種語言,然后再轉(zhuǎn)換為原語言,而是在一個句子中加入噪音(重新編排或是刪除詞匯),并嘗試將其翻譯到原語言中去。這兩種方法相結(jié)合教會了網(wǎng)絡(luò)更深層次的語言結(jié)構(gòu)。
不過,這兩種技術(shù)之間也有些微差異。UPV的系統(tǒng)在訓(xùn)練過程中進行了更多的回譯。而另一個由位于法國巴黎的臉譜網(wǎng)計算機科學家與其合作者研發(fā)的系統(tǒng),則在翻譯過程中加入了額外的步驟。在將其“解碼”為另一種語言之前,兩套系統(tǒng)都會將一種語言的一個句子編碼為一種更加抽象的表征,但臉譜網(wǎng)的系統(tǒng)驗證了中間的“語言”是真正抽象的。Artetxe和Artetxe均表示,他們可以通過應(yīng)用對方論文中的技術(shù)來改善自己的結(jié)果。
在兩篇文章之間進行的唯一直接對比結(jié)果中——對摘自同一組約3000萬個語句在英語和法語文本之間進行翻譯,兩套系統(tǒng)在雙向翻譯中均獲得了15分的雙語評估分數(shù)(用來衡量翻譯準確性)。這個分值沒有谷歌翻譯高(該系統(tǒng)所用的受監(jiān)督的方法得分為40分),也不如人類翻譯得分高(超過50分),但卻比逐字翻譯要好得多。作者表示,兩套系統(tǒng)可以很容易地通過變?yōu)椤鞍氡O(jiān)督性”得到改善,即把數(shù)千個平行的語句加入到它們的訓(xùn)練中。
除了不需要平行文本進行跨語言翻譯之外,Artetxe和Lample均表示,他們的系統(tǒng)有助于進行諸如英語和法語之間的常用翻譯匹配,特別是如果平行文本是同一類的話,如新聞報道。但除此之外,人們還希望將其翻譯為不同類型的文本,如街頭俚語或是醫(yī)學術(shù)語。“但這一切尚處于新生階段?!盇rtetxe的共同作者Eneko Agirre說,“我們剛剛開始了一個新的研究大道,現(xiàn)在我們還不知道它會通向哪里?!?/p>
中國北京計算機學家、其工作對上述兩項研究產(chǎn)生影響的Di He說:“在沒有人類監(jiān)督的情況下,計算機能夠?qū)W習翻譯,這令人吃驚?!盇rtetxe說,他的方法和Lample的方法被上傳到arXiv預(yù)印本服務(wù)平臺的時間前后僅相隔1天,這樣的時間巧合令人吃驚?!巴瑫r,它意味著這種方法的確是正確的方向?!?/p>
-
人工智能
+關(guān)注
關(guān)注
1819文章
50229瀏覽量
266568
原文標題:人工智能“自學”做翻譯
文章出處:【微信號:aiangelclub,微信公眾號:人工智能天使會】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
京東多語言質(zhì)量解決方案
工控機與普通計算機的核心差異解析
阿里巴巴國際站關(guān)鍵字搜索 API 實戰(zhàn):3 步搞定多語言適配 + 限流破局,詢盤量提升 40%
速賣通全球運營利器:商品詳情接口多語言 + 合規(guī) + 物流適配技術(shù)全解析
【作品合集】賽昉科技VisionFive 2單板計算機開發(fā)板測評
聲智科技出席2025年北京市多語種AI語音翻譯大賽
工業(yè)計算機的重要性
自動化計算機經(jīng)過加固后有什么好處?
自動化計算機的功能與用途
工業(yè)計算機與商用計算機的區(qū)別有哪些
NVIDIA驅(qū)動的現(xiàn)代超級計算機如何突破速度極限并推動科學發(fā)展
工業(yè)計算機如何設(shè)計用于沖擊和振動
如何選擇合適的外形尺寸的工業(yè)計算機
一文帶你了解工業(yè)計算機尺寸
計算機網(wǎng)絡(luò)入門指南
計算機很快或能翻譯更多語言
評論