91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OpenAI推出了一種自然語言處理模型

電子工程師 ? 來源:lq ? 2019-04-29 18:16 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

幾個(gè)月前,OpenAI推出了一種自然語言處理模型,能夠從維基百科以及亞馬遜的產(chǎn)品評(píng)價(jià)中生產(chǎn)連貫的文本段落。

最近,其開放的OpenAI Five 人工智能系統(tǒng)在全網(wǎng)公開賽中放出了驕人戰(zhàn)績——擊敗了99.4%的玩家。在和3萬多名人類玩家的對(duì)壘中,只輸了42場(chǎng)。

OpenAI的大招還不止如此。今日凌晨,OpenAI發(fā)博文表示,在這些和其他研究的基礎(chǔ)上,他們開發(fā)了一種深度神經(jīng)網(wǎng)絡(luò)稀疏 Transformer(Sparse Transformer),可以實(shí)現(xiàn)生成式模型,在文本、圖像、聲音等序列預(yù)測(cè)上都創(chuàng)造了新紀(jì)錄。并且可預(yù)測(cè)的序列長度比之前可能的長度長了30倍。

“人工智能研究的一個(gè)現(xiàn)有挑戰(zhàn)是如何對(duì)復(fù)雜數(shù)據(jù)中遠(yuǎn)距離,且較精細(xì)的相互依賴性進(jìn)行建模,”O(jiān)penAI技術(shù)人員Rewon Child和軟件工程師Scott Gray在博客文章中寫道。“過去,在這些數(shù)據(jù)上使用的模型往往只是針對(duì)一個(gè)域?qū)iT設(shè)計(jì)的,或者是很難擴(kuò)展到超過幾千個(gè)元素的序列。相比之下,我們的模型可以使用上百層對(duì)有上萬元素的序列進(jìn)行建模,并且在多個(gè)域中實(shí)現(xiàn)最先進(jìn)的性能。

這次稀疏 Transformer 研究的基礎(chǔ)源于17年Google Brain設(shè)計(jì)的一種新型的網(wǎng)絡(luò)結(jié)構(gòu),即《Attention Is All You Need》中提出的Transformer。不使用 RNN、CNN 模型,只使用 attention 機(jī)制構(gòu)成的解碼編碼結(jié)構(gòu)就達(dá)到了很好的效果。為谷歌團(tuán)隊(duì)于前年 6 月所提出的 NLP 經(jīng)典之作,同時(shí)被 2017 NIPS 接收(2017 錄取率約 20 %),引用次數(shù)已達(dá)1566次,并還在持續(xù)增加中。

與所有深度神經(jīng)網(wǎng)絡(luò)一樣, Transformer包含排列在互連層中的神經(jīng)元(本質(zhì)用數(shù)學(xué)函數(shù)模擬生物神經(jīng)元),這些層從輸入數(shù)據(jù)傳入“信號(hào)”,并緩慢調(diào)整每個(gè)連接的權(quán)重。這是模型如何提取特征并學(xué)習(xí)以及如何進(jìn)行預(yù)測(cè)的關(guān)鍵點(diǎn)。在 Transformer 中,每個(gè)輸出元素與每個(gè)輸入元素都相連,它們之間的權(quán)重是動(dòng)態(tài)計(jì)算出來的,而過程稱為注意力。

上圖:用稀疏 Tansformer 重計(jì)算(recomputaing)注意力矩陣前后的內(nèi)存使用情況。

注意力機(jī)制通常需要為每個(gè)層和每個(gè)所謂的注意頭創(chuàng)建一個(gè)注意力矩陣,從計(jì)算的角度來看這不是特別有效。例如,包含24,000個(gè)樣本的2秒音頻片段或64低分辨率圖像的語料庫可能分別占用590GB和154GB內(nèi)存,而這遠(yuǎn)遠(yuǎn)高于用于訓(xùn)練AI模型的GPU的負(fù)載。

OpenAI的方法通過重新計(jì)算矩陣來最小化內(nèi)存使用量,上面描述的590GB的內(nèi)存需求在重新計(jì)算后僅需9.2GB;154GB可壓縮到2.4GB。于是,實(shí)際上最大的內(nèi)存開銷就變得與層數(shù)無關(guān)了,因此就允許所述模型進(jìn)行“非常深”的深度來進(jìn)行訓(xùn)練。

由于單個(gè)注意力矩陣對(duì)于龐大的數(shù)據(jù)量輸入并不是特別實(shí)用,因此本文提出的深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了稀疏注意力模式,其中每個(gè)輸出僅從輸入子集計(jì)算權(quán)重,對(duì)于跨越較大子集的神經(jīng)元層,通過矩陣因子分解來轉(zhuǎn)換矩陣,他們認(rèn)為這是保持神經(jīng)網(wǎng)絡(luò)層學(xué)習(xí)數(shù)據(jù)模式能力所必需的一步。

上圖:使用稀疏Transformer生成圖像

通常,實(shí)現(xiàn)稀疏注意力需要將查詢和關(guān)鍵矩陣進(jìn)行“切片”,因此為了簡化實(shí)驗(yàn),OpenAI 實(shí)現(xiàn)了一組塊稀疏核,這些核在 GPU 上高效地執(zhí)行這些操作。另外,OpenAI開源了這些內(nèi)核,并在Github上提供示例稀疏注意函數(shù)。

https://github.com/openai/sparse_attention

根據(jù)OpenAI的博客介紹到,即使經(jīng)過改進(jìn),自回歸序列生成對(duì)于非常高分辨率的圖像或視頻來說仍然是不切實(shí)際的。不過,提出的優(yōu)化注意力操作可能是一次有益的探索,可以和其他(如多尺度方法)方法相結(jié)合來對(duì)高維數(shù)據(jù)進(jìn)行建模。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 建模
    +關(guān)注

    關(guān)注

    1

    文章

    322

    瀏覽量

    63379
  • 人工智能
    +關(guān)注

    關(guān)注

    1819

    文章

    50158

    瀏覽量

    265980
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    630

    瀏覽量

    14687

原文標(biāo)題:OpenAI提出稀疏Transformer模型:文本、圖像、聲音一網(wǎng)打盡,將可預(yù)測(cè)序列長度提高30倍

文章出處:【微信號(hào):BigDataDigest,微信公眾號(hào):大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    一種可跨不同領(lǐng)域的異常檢測(cè)通用模型UniOD介紹

    本研究提出了一種可跨不同領(lǐng)域、適用于特征維度各異且特征空間異構(gòu)的數(shù)據(jù)集的異常檢測(cè)通用模型。
    的頭像 發(fā)表于 03-18 09:09 ?393次閱讀
    <b class='flag-5'>一種</b>可跨不同領(lǐng)域的異常檢測(cè)通用<b class='flag-5'>模型</b>UniOD介紹

    解鎖谷歌FunctionGemma模型的無限潛力

    在智能體 AI 領(lǐng)域,工具調(diào)用能力是將自然語言轉(zhuǎn)化為可執(zhí)行軟件操作的關(guān)鍵。此前,我們發(fā)布了專門針對(duì)函數(shù)調(diào)用而特別優(yōu)化的 Gemma 3 270M 模型版本 FunctionGemma。該模型旨在協(xié)助開發(fā)者構(gòu)建響應(yīng)快速且具高性價(jià)比
    的頭像 發(fā)表于 02-04 11:30 ?367次閱讀
    解鎖谷歌FunctionGemma<b class='flag-5'>模型</b>的無限潛力

    自然語言處理NLP的概念和工作原理

    自然語言處理 (NLP) 是人工智能 (AI) 的個(gè)分支,它會(huì)教計(jì)算機(jī)如何理解口頭和書面形式的人類語言。自然語言
    的頭像 發(fā)表于 01-29 14:01 ?467次閱讀
    <b class='flag-5'>自然語言</b><b class='flag-5'>處理</b>NLP的概念和工作原理

    喜報(bào)|華微軟件AI研發(fā)持續(xù)推進(jìn),再添項(xiàng)核心專利

    。 在實(shí)際使用中,許多智能系統(tǒng)仍依賴用戶輸入固定指令(如“開燈”“查詢訂單”)才能執(zhí)行操作,定程度上限制了交互的靈活性,增加了使用負(fù)擔(dān)。而本項(xiàng)專利提出了一種基于大語言
    的頭像 發(fā)表于 11-27 15:02 ?165次閱讀
    喜報(bào)|華微軟件AI研發(fā)持續(xù)推進(jìn),再添<b class='flag-5'>一</b>項(xiàng)核心專利

    云知聲論文入選自然語言處理頂會(huì)EMNLP 2025

    近日,自然語言處理(NLP)領(lǐng)域國際權(quán)威會(huì)議 ——2025 年計(jì)算語言學(xué)與自然語言處理國際會(huì)議(EMNLP 2025)公布論文錄用結(jié)果,云知
    的頭像 發(fā)表于 11-10 17:30 ?838次閱讀
    云知聲論文入選<b class='flag-5'>自然語言</b><b class='flag-5'>處理</b>頂會(huì)EMNLP 2025

    小白學(xué)大模型:國外主流大模型匯總

    )領(lǐng)域。論文的核心是提出了一種名為Transformer的全新模型架構(gòu),它完全舍棄了以往序列模型(如循環(huán)神經(jīng)網(wǎng)絡(luò)RNNs和卷積神經(jīng)網(wǎng)絡(luò)CNNs)中常用的循環(huán)和卷積結(jié)構(gòu)
    的頭像 發(fā)表于 08-27 14:06 ?1029次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:國外主流大<b class='flag-5'>模型</b>匯總

    【HZ-T536開發(fā)板免費(fèi)體驗(yàn)】5- 無需死記 Linux 命令!用 CangjieMagic 在 HZ-T536 開發(fā)板上搭建 MCP 服務(wù)器,自然語言輕松控板

    ifconfig、gpio write 1 1)。 工作流程 : MCP客戶端發(fā)送自然語言指令到 HZ-T536 的 MCP 服務(wù)器; MCP 服務(wù)器利用DeepSeek的大語言模型能力,生成
    發(fā)表于 08-23 13:10

    OpenAI或在周五凌晨發(fā)布GPT-5 OpenAI以低價(jià)向美國政府提供ChatGPT

    外界直在期待的OpenAI代大語言模型GPT-5或?qū)l(fā)布。據(jù)外媒的報(bào)道,GPT-5很可能在周五凌晨發(fā)布。這是
    的頭像 發(fā)表于 08-07 14:13 ?1.3w次閱讀

    亞馬遜云科技現(xiàn)已上線OpenAI開放權(quán)重模型

    客戶現(xiàn)可通過Amazon Bedrock和Amazon SageMaker AI使用OpenAI開放權(quán)重模型,實(shí)現(xiàn)將先進(jìn)的開放權(quán)重模型與全球最廣泛云服務(wù)的深度集成。 亞馬遜云科技首次上線Ope
    的頭像 發(fā)表于 08-06 19:29 ?880次閱讀

    OpenAI發(fā)布2款開源模型

    OpenAI開源了兩款高性能權(quán)重語言模型gpt-oss-120b和gpt-oss-20b,OpenAI CEO Sam Altman表示:「gpt-oss 發(fā)布了!我們做了
    的頭像 發(fā)表于 08-06 14:25 ?1057次閱讀

    高德與阿里云起,開啟智慧出行新范式

    ,加速智能化場(chǎng)景落地。 技術(shù)融合:大模型賦能地圖交互升級(jí) 基于阿里云通義千問系列大模型領(lǐng)先的自然語言處理與多模態(tài)交互能力,MCP Server實(shí)現(xiàn)從文本指令到可視化地圖的精準(zhǔn)轉(zhuǎn)化。用戶
    的頭像 發(fā)表于 07-18 10:29 ?608次閱讀

    各大廠商與新興企業(yè)推出的 EDA Copilot 工具

    動(dòng)態(tài)的深度盤點(diǎn): 、頭部EDA廠商的AI Copilot布局 Synopsys.ai Copilot 技術(shù)亮點(diǎn) :與微軟合作整合Azure OpenAI服務(wù),提供全流程自然語言交互支持,覆蓋從系統(tǒng)架構(gòu)探索到制造的所有環(huán)節(jié)。通過
    的頭像 發(fā)表于 06-06 09:34 ?2984次閱讀

    云知聲四篇論文入選自然語言處理頂會(huì)ACL 2025

    結(jié)果正式公布。云知聲在此次國際學(xué)術(shù)盛會(huì)中表現(xiàn)卓越,共有4篇論文被接收,其中包括2篇主會(huì)論文(Main Paper)和2篇Findings。入選的4篇論文聚焦大語言模型知識(shí)溯源、圖文音多模態(tài)大模型、大
    的頭像 發(fā)表于 05-26 14:15 ?1356次閱讀
    云知聲四篇論文入選<b class='flag-5'>自然語言</b><b class='flag-5'>處理</b>頂會(huì)ACL 2025

    小白學(xué)大模型:從零實(shí)現(xiàn) LLM語言模型

    在當(dāng)今人工智能領(lǐng)域,大型語言模型(LLM)的開發(fā)已經(jīng)成為個(gè)熱門話題。這些模型通過學(xué)習(xí)大量的文本數(shù)據(jù),能夠生成自然語言文本,完成各種復(fù)雜的任
    的頭像 發(fā)表于 04-30 18:34 ?1373次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:從零實(shí)現(xiàn) LLM<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    自然語言提示原型在英特爾Vision大會(huì)上首次亮相

    在英特爾Vision大會(huì)上,Network Optix首次展示了自然語言提示原型,該方案將重新定義視頻管理,為各行各業(yè)由AI驅(qū)動(dòng)的洞察和效率提速。
    的頭像 發(fā)表于 04-09 09:30 ?1007次閱讀