AAA在线免费视频,五月婷中文字幕在线观看

幾個(gè)月前，OpenAI推出了一種自然語言處理模型，能夠從維基百科以及亞馬遜的產(chǎn)品評(píng)價(jià)中生產(chǎn)連貫的文本段落。

最近，其開放的OpenAI Five 人工智能系統(tǒng)在全網(wǎng)公開賽中放出了驕人戰(zhàn)績——擊敗了99.4%的玩家。在和3萬多名人類玩家的對(duì)壘中，只輸了42場(chǎng)。

OpenAI的大招還不止如此。今日凌晨，OpenAI發(fā)博文表示，在這些和其他研究的基礎(chǔ)上，他們開發(fā)了一種深度神經(jīng)網(wǎng)絡(luò)稀疏 Transformer（Sparse Transformer），可以實(shí)現(xiàn)生成式模型，在文本、圖像、聲音等序列預(yù)測(cè)上都創(chuàng)造了新紀(jì)錄。并且可預(yù)測(cè)的序列長度比之前可能的長度長了30倍。

“人工智能研究的一個(gè)現(xiàn)有挑戰(zhàn)是如何對(duì)復(fù)雜數(shù)據(jù)中遠(yuǎn)距離，且較精細(xì)的相互依賴性進(jìn)行建模，”O(jiān)penAI技術(shù)人員Rewon Child和軟件工程師Scott Gray在博客文章中寫道。“過去，在這些數(shù)據(jù)上使用的模型往往只是針對(duì)一個(gè)域?qū)ｉT設(shè)計(jì)的，或者是很難擴(kuò)展到超過幾千個(gè)元素的序列。相比之下，我們的模型可以使用上百層對(duì)有上萬元素的序列進(jìn)行建模，并且在多個(gè)域中實(shí)現(xiàn)最先進(jìn)的性能。

這次稀疏 Transformer 研究的基礎(chǔ)源于17年Google Brain設(shè)計(jì)的一種新型的網(wǎng)絡(luò)結(jié)構(gòu)，即《Attention Is All You Need》中提出的Transformer。不使用 RNN、CNN 模型，只使用 attention 機(jī)制構(gòu)成的解碼編碼結(jié)構(gòu)就達(dá)到了很好的效果。為谷歌團(tuán)隊(duì)于前年 6 月所提出的 NLP 經(jīng)典之作，同時(shí)被 2017 NIPS 接收(2017 錄取率約 20 %)，引用次數(shù)已達(dá)1566次，并還在持續(xù)增加中。

與所有深度神經(jīng)網(wǎng)絡(luò)一樣， Transformer包含排列在互連層中的神經(jīng)元（本質(zhì)用數(shù)學(xué)函數(shù)模擬生物神經(jīng)元），這些層從輸入數(shù)據(jù)傳入“信號(hào)”，并緩慢調(diào)整每個(gè)連接的權(quán)重。這是模型如何提取特征并學(xué)習(xí)以及如何進(jìn)行預(yù)測(cè)的關(guān)鍵點(diǎn)。在 Transformer 中，每個(gè)輸出元素與每個(gè)輸入元素都相連，它們之間的權(quán)重是動(dòng)態(tài)計(jì)算出來的，而過程稱為注意力。

上圖：用稀疏 Tansformer 重計(jì)算(recomputaing)注意力矩陣前后的內(nèi)存使用情況。

注意力機(jī)制通常需要為每個(gè)層和每個(gè)所謂的注意頭創(chuàng)建一個(gè)注意力矩陣，從計(jì)算的角度來看這不是特別有效。例如，包含24,000個(gè)樣本的2秒音頻片段或64低分辨率圖像的語料庫可能分別占用590GB和154GB內(nèi)存，而這遠(yuǎn)遠(yuǎn)高于用于訓(xùn)練AI模型的GPU的負(fù)載。

OpenAI的方法通過重新計(jì)算矩陣來最小化內(nèi)存使用量，上面描述的590GB的內(nèi)存需求在重新計(jì)算后僅需9.2GB；154GB可壓縮到2.4GB。于是，實(shí)際上最大的內(nèi)存開銷就變得與層數(shù)無關(guān)了，因此就允許所述模型進(jìn)行“非常深”的深度來進(jìn)行訓(xùn)練。

由于單個(gè)注意力矩陣對(duì)于龐大的數(shù)據(jù)量輸入并不是特別實(shí)用，因此本文提出的深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了稀疏注意力模式，其中每個(gè)輸出僅從輸入子集計(jì)算權(quán)重，對(duì)于跨越較大子集的神經(jīng)元層，通過矩陣因子分解來轉(zhuǎn)換矩陣，他們認(rèn)為這是保持神經(jīng)網(wǎng)絡(luò)層學(xué)習(xí)數(shù)據(jù)模式能力所必需的一步。

上圖：使用稀疏Transformer生成圖像

通常，實(shí)現(xiàn)稀疏注意力需要將查詢和關(guān)鍵矩陣進(jìn)行“切片”，因此為了簡化實(shí)驗(yàn)，OpenAI 實(shí)現(xiàn)了一組塊稀疏核，這些核在 GPU 上高效地執(zhí)行這些操作。另外，OpenAI開源了這些內(nèi)核，并在Github上提供示例稀疏注意函數(shù)。

https://github.com/openai/sparse_attention

根據(jù)OpenAI的博客介紹到，即使經(jīng)過改進(jìn)，自回歸序列生成對(duì)于非常高分辨率的圖像或視頻來說仍然是不切實(shí)際的。不過，提出的優(yōu)化注意力操作可能是一次有益的探索，可以和其他（如多尺度方法）方法相結(jié)合來對(duì)高維數(shù)據(jù)進(jìn)行建模。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴