91精品在线国产,精品免费国产一二三四区

(電子發(fā)燒友報(bào)道文/章鷹）2月18日，在馬斯克的xAI公司發(fā)布了Grok3大模型后，中國公司深度探索公司推出了用于超快速長文本訓(xùn)練訓(xùn)練與推理的“原生稀疏注意力”（Native Sparse Attention，簡(jiǎn)稱 NSA）。

DeepSeek在arXiv上上傳了一篇介紹 NSA 的論文。根據(jù) arXiv 網(wǎng)站上發(fā)布的論文摘要顯示，“我們提出了NSA，這是一種原生可訓(xùn)練的稀疏注意力機(jī)制，它將算法創(chuàng)新與硬件對(duì)齊的優(yōu)化相結(jié)合，以實(shí)現(xiàn)高效的長上下文建模?！?/p>

論文稱，NSA 在通用基準(zhǔn)檢驗(yàn)、長文本任務(wù)和基于指令的推理中均能達(dá)到或超越全注意力模型的表現(xiàn)。稀疏注意力為提高效率同時(shí)保持模型能力提供了一個(gè)有前景的方向。

實(shí)驗(yàn)顯示，NSA 不僅在通用任務(wù)和長上下文任務(wù)中表現(xiàn)出色，還在例如鏈?zhǔn)酵评淼葟?fù)雜任務(wù)中展現(xiàn)強(qiáng)大的潛力，且推理速度加快。

在通用基準(zhǔn)檢驗(yàn)、長文本處理以及基于指令的推理任務(wù)中，NSA 的表現(xiàn)均能達(dá)到甚至超越傳統(tǒng)全注意力（Full Attention）模型的水平，以性價(jià)比極高的方式，罕見地在訓(xùn)練階段應(yīng)用稀疏性，在訓(xùn)練推理場(chǎng)景中顯著提升速度，特別是在譯碼階段實(shí)現(xiàn)高達(dá) 11.6 倍的提升。

透過高效的長序列處理能力，NSA 使模型能夠直接處理整本書、代碼庫或多輪對(duì)話（如千輪客服場(chǎng)景），擴(kuò)展大語言模型在文文件分析、代碼生成、復(fù)雜推理等領(lǐng)域的應(yīng)用邊界。例如，Gemini 1.5 Pro 已展示長上下文的潛力，NSA 能進(jìn)一步降低這類模型的訓(xùn)練與推理成本。

在這篇名題為「原生稀疏注意力：硬件對(duì)齊且可原生訓(xùn)練的稀疏注意力機(jī)制」（Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention）的論文署名中，DeepSeek 創(chuàng)始人梁文鋒也是共同作者。

中國人工智能軟件巨頭商湯科技智能產(chǎn)業(yè)研究院前院長田鋒表示，隨著全球人工智能競(jìng)爭(zhēng)持續(xù)升溫，不同的公司在不同領(lǐng)域展示了競(jìng)爭(zhēng)優(yōu)勢(shì)。據(jù)田鋒介紹，DeepSeek 開發(fā)的資源高效的開源模型在數(shù)學(xué)推理和軟件工程任務(wù)方面表現(xiàn)出色，而 OpenAI 的 o1 在一般知識(shí)和解決問題方面表現(xiàn)更佳。

我們看到，來自中國人工智能公司還展示了各種優(yōu)勢(shì)，包括競(jìng)爭(zhēng)性能和成本效益。田鋒強(qiáng)調(diào)：“通過利用替代數(shù)據(jù)源、開發(fā)自主技術(shù)以及促進(jìn)國內(nèi)技術(shù)生態(tài)系統(tǒng)內(nèi)的合作，DeepSeek 和其他中國人工智能公司能夠創(chuàng)造出不僅滿足國內(nèi)需求而且能夠提高全球競(jìng)爭(zhēng)力的解決方案，”

這是自1月20日DeepSeek發(fā)布R1模型震撼AI圈以來，DeepSeek首次發(fā)布的技術(shù)動(dòng)態(tài)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

AI大模型

AI大模型

+關(guān)注

關(guān)注
0

文章
398

瀏覽量
1005
DeepSeek

DeepSeek

+關(guān)注

關(guān)注
2

文章
836

瀏覽量
3287

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

DeepSeek發(fā)表重磅論文！推出NSA技術(shù)，讓AI模型降本增效

評(píng)論

搜索歷史

DeepSeek發(fā)表重磅論文！推出NSA技術(shù)，讓AI模型降本增效

評(píng)論

DeepSeek發(fā)表重磅論文！推出NSA技術(shù)，讓AI模型降本增效