91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

對標OpenAI GPT-4,MiniMax國內(nèi)首個MoE大語言模型全量上線

jf_WZTOguxH ? 來源:AI前線 ? 2024-01-16 15:34 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1 月 16 日,InfoQ 獲悉,經(jīng)過了半個月的部分客戶的內(nèi)測和反饋,MiniMax 全量發(fā)布大語言模型 abab6,該模型為國內(nèi)首個 MoE(Mixture-of-Experts)大語言模型。

早在上個月舉辦的數(shù)字中國論壇成立大會暨數(shù)字化發(fā)展論壇的一場分論壇上,MiniMax 副總裁魏偉就曾透露將于近期發(fā)布國內(nèi)首個基于 MoE 架構(gòu)的大模型,對標 OpenAI GPT-4。

在 MoE 結(jié)構(gòu)下,abab6 擁有大參數(shù)帶來的處理復(fù)雜任務(wù)的能力,同時模型在單位時間內(nèi)能夠訓練足夠多的數(shù)據(jù),計算效率也可以得到大幅提升。改進了 abab5.5 在處理更復(fù)雜、對模型輸出有更精細要求場景中出現(xiàn)的問題。 為什么選擇 MoE 架構(gòu)?

那么,MoE 到底是什么?MiniMax 的大模型為何要使用使用 MoE 架構(gòu)?

MoE 架構(gòu)全稱專家混合(Mixture-of-Experts),是一種集成方法,其中整個問題被分為多個子任務(wù),并將針對每個子任務(wù)訓練一組專家。MoE 模型將覆蓋不同學習者(專家)的不同輸入數(shù)據(jù)。

621db644-b431-11ee-8b88-92fbcf53809c.png

圖片來源:https ://arxiv.org/pdf/1701.06538.pdf

有傳聞稱,GPT-4 也采用了相同的架構(gòu)方案。

2023 年 4 月,MiniMax 發(fā)布了開放平臺。過去半年多,MiniMax 陸續(xù)服務(wù)了近千家客戶,包括金山辦公、小紅書、騰訊、小米和閱文在內(nèi)的多家頭部互聯(lián)網(wǎng)公司,MiniMax 開放平臺平均單日的 token 處理量達到了數(shù)百億。

MiniMax 在官微中發(fā)文稱:“這半年多來,客戶給我們提供了很多有價值的反饋和建議。例如,大家認為我們做得比較好的地方有:在寫作、聊天、問答等場景中,abab5.5 的表現(xiàn)不錯,達到了 GPT-3.5 的水平。”

但是和最先進的模型 GPT-4 相比,仍有明顯差距。這主要體現(xiàn)在處理更復(fù)雜的、對模型輸出有精細要求的場景時,存在一定概率違反用戶要求的輸出格式,或是在推理過程中發(fā)生錯誤。當然,這不僅是 abab5.5 的問題,也是目前除 GPT-4 以外,幾乎所有大語言模型存在的缺陷。

為了解決這個問題,進一步提升模型在復(fù)雜任務(wù)下的效果,MiniMax 技術(shù)團隊從去年 6 月份起開始研發(fā) MoE 模型——abab6 是 MiniMax 的第二版 MoE 大模型(第一版 MoE 大模型已應(yīng)用于其 C 端產(chǎn)品中)。

雖然MiniMax 并未透露Abab6 的具體參數(shù),但據(jù)MiniMax 透露,Abab6 比上一個版本大了一個量級。更大的模型意味著 abab6 可以更好的從訓練語料中學到更精細的規(guī)律,完成更復(fù)雜的任務(wù)。

但僅擴大參數(shù)量會帶來新的問題:降低模型的推理速度以及更慢的訓練時間。在很多應(yīng)用場景中,訓練推理速度和模型效果同樣重要。為了保證 abab6 的運算速度,MiniMax 技術(shù)團隊使用了 MoE (Mixture of Experts 混合專家模型)結(jié)構(gòu)。在該結(jié)構(gòu)下,模型參數(shù)被劃分為多組“專家”,每次推理時只有一部分專家參與計算?;?MoE 結(jié)構(gòu),abab6 可以具備大參數(shù)帶來的處理復(fù)雜任務(wù)的能力;計算效率也會得到提升,模型在單位時間內(nèi)能夠訓練足夠多的數(shù)據(jù)。

目前大部分大語言模型開源和學術(shù)工作都沒有使用 MoE 架構(gòu)。為了訓練 abab6,MiniMax 還自研了高效的 MoE 訓練和推理框架,也發(fā)明了一些 MoE 模型的訓練技巧。到目前為止,abab6 是國內(nèi)第一個千億參數(shù)量以上的基于 MoE 架構(gòu)的大語言模型。

測評結(jié)果

為了對比各模型在復(fù)雜場景下的表現(xiàn),MiniMax 對 abab6、abab5.5、GPT-3.5、GPT-4、Claude 2.1 和 Mistral-Medium 商用進行了自動評測。在簡單的任務(wù)上,abab5.5 已經(jīng)做得比較好,因此 MiniMax 選擇了三種涵蓋了較復(fù)雜的問題的評測方法:

IFEval:這個評測主要測試模型遵守用戶指令的能力。在測試時,提問者會問模型一些帶有約束條件的問題,例如“以 XX 為標題,列出三個具體對方法,每個方法的描述不超過兩句話”,然后統(tǒng)計有多少回答嚴格滿足了約束條件。

MT-Bench:這個評測衡量模型的英文綜合能力。提問者會問模型多個類別的問題,包括角色扮演、寫作、信息提取、推理、數(shù)學、代碼、知識問答。MiniMax 技術(shù)團隊會用另一個大模型(GPT-4)對模型的回答打分,并統(tǒng)計平均分。

AlignBench:該評測反映了模型的中文綜合能力測試,測試形式與 MT-Bench 類似。

測評及對比結(jié)果如下:

6221c5d6-b431-11ee-8b88-92fbcf53809c.png

注:對比模型均選擇各自最新、效果最好的版本,分別為 Claude-2.1、Mistral-Medium 商用、GPT-3.5-Turbo-0613、GPT-4-1106-preview;GPT-3.5-Turbo-0613 略好于 GPT-3.5-Turbo-1106 。abab6 是 1 月 15 號的版本。

可以看出,abab6 在三個測試集中均明顯好于前一代模型 abab5.5。在指令遵從、中文綜合能力和英文綜合能力上,abab6 大幅超過了 GPT-3.5。和 Claude 2.1 相比,abab6 也在指令遵從、中文綜合能力和英文綜合能力上略勝一籌。相較于 Mistral 的商用版本 Mistral-Medium,abab6 在指令遵從和中文綜合能力上都優(yōu)于 Mistral-Medium,在英文綜合能力上與 Mistral- Medium 旗鼓相當。

如果想體驗 MiniMax MoE 大模型,可訪問 MiniMax 開放平臺官網(wǎng):api.minimax.chat

ps:MiniMax 方面稱,模型還在持續(xù)訓練中,遠沒有收斂,歡迎大家反饋。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    571

    瀏覽量

    11322
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    1245

    瀏覽量

    10103
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3653

    瀏覽量

    5195

原文標題:對標OpenAI GPT-4,MiniMax 國內(nèi)首個 MoE 大語言模型全量上線

文章出處:【微信號:AI前線,微信公眾號:AI前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    GPT-5震撼發(fā)布:AI領(lǐng)域的重大飛躍

    躍升重新定義了人工智能的能力邊界。OpenAI首席執(zhí)行官山姆·奧特曼在發(fā)布會上直言:“這不僅是模型的升級,更是通往通用人工智能(AGI)的關(guān)鍵里程碑?!?? ? GPT-5:集成模型
    的頭像 發(fā)表于 08-09 07:44 ?1w次閱讀
    <b class='flag-5'>GPT</b>-5震撼發(fā)布:AI領(lǐng)域的重大飛躍

    登臨科技KS系列GPU產(chǎn)品全面適配MiniMax M2.5模型

    近日,蘇州登臨科技股份有限公司(以下簡稱“登臨科技”)自主研發(fā)的KS系列高性能通用GPU已全面完成對最新一代大模型MiniMax M2.5的深度適配與優(yōu)化。通過創(chuàng)新的GPU+架構(gòu),登臨科技不僅實現(xiàn)了
    的頭像 發(fā)表于 03-04 17:49 ?1297次閱讀
    登臨科技KS系列GPU產(chǎn)品全面適配<b class='flag-5'>MiniMax</b> M2.5<b class='flag-5'>模型</b>

    沐曦曦云C500/C550 GPU產(chǎn)品深度適配MiniMax M2.5模型

    2月13日晚間,MiniMax正式開源MiniMax M2.5模型。沐曦技術(shù)團隊依托MXMACA軟件棧,在24小時內(nèi)完成曦云C500/C550 對該模型的深度適配。
    的頭像 發(fā)表于 02-26 14:19 ?706次閱讀

    NVIDIA Grace Blackwell平臺實現(xiàn)MoE模型性能十倍提升

    如今,幾乎任一前沿模型的內(nèi)部結(jié)構(gòu)都采用混合專家 (MoE) 模型架構(gòu),這種架構(gòu)旨在模擬人腦的高效運作機制。
    的頭像 發(fā)表于 12-13 09:23 ?895次閱讀
    NVIDIA Grace Blackwell平臺實現(xiàn)<b class='flag-5'>MoE</b><b class='flag-5'>模型</b>性能十倍提升

    GPT-5.1發(fā)布 OpenAI開始拼情商

    OpenAI正式上線GPT-5.1 Instant 以及 GPT-5.1 Thinking 模型;有網(wǎng)友實測發(fā)現(xiàn)
    的頭像 發(fā)表于 11-13 15:49 ?709次閱讀

    OpenAI Sora 2模型上線微軟Azure AI Foundry國際版

    我們非常激動地宣布,OpenAI 的新一代多模態(tài)視頻生成模型 Sora 2 現(xiàn)已在 Azure AI Foundry(國際版)上線,進入公共預(yù)覽階段。
    的頭像 發(fā)表于 10-22 09:44 ?783次閱讀
    <b class='flag-5'>OpenAI</b> Sora 2<b class='flag-5'>模型</b><b class='flag-5'>上線</b>微軟Azure AI Foundry國際版

    中科曙光助力首個地質(zhì)大模型“坤樞”上線

    近日,首個地質(zhì)領(lǐng)域?qū)S么?b class='flag-5'>語言模型“坤樞”在河南鄭州正式上線,該大模型的部署將有助于夯實地質(zhì)產(chǎn)業(yè)數(shù)字化基礎(chǔ),在保障國家能源資源信息安全前提下,
    的頭像 發(fā)表于 10-14 16:12 ?807次閱讀

    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實現(xiàn)150萬TPS推理

    Token (TPS)。 這兩個 gpt-oss 模型是具有鏈式思維和工具調(diào)用能力的文本推理大語言模型 (LLM),采用了廣受歡迎的混合專家模型
    的頭像 發(fā)表于 08-15 20:34 ?2317次閱讀
    NVIDIA從云到邊緣加速<b class='flag-5'>OpenAI</b> <b class='flag-5'>gpt</b>-oss<b class='flag-5'>模型</b>部署,實現(xiàn)150萬TPS推理

    澎峰科技完成OpenAI最新開源推理模型適配

    澎峰科技現(xiàn)已完成 OpenAI 最新開源推理模型 gpt-oss-20b 在 DeepFusion 大模型一體機上的原生適配與優(yōu)化,用戶可一鍵啟用這顆“小而強悍”的新引擎,在本地享受企
    的頭像 發(fā)表于 08-14 11:34 ?1414次閱讀

    訊飛星辰MaaS平臺率先上線OpenAI最新開源模型

    8月6日凌晨,OpenAI 時隔六年再次回歸開源,發(fā)布兩款全新的大語言模型gpt-oss-120b和gpt-oss-20b,性能與o
    的頭像 發(fā)表于 08-13 16:43 ?1579次閱讀

    SuperX全新發(fā)布多種規(guī)格的多模型一體機:全新定義企業(yè)級智能生產(chǎn)力

    該一體機將預(yù)搭載OpenAI最新發(fā)布的GPT-OSS-120B 和 GPT-OSS-20B性能卓越的大語言模型(LLM),也可選擇下載全球其
    的頭像 發(fā)表于 08-08 08:52 ?614次閱讀
    SuperX全新發(fā)布多種規(guī)格的多<b class='flag-5'>模型</b>一體機:全新定義企業(yè)級智能生產(chǎn)力

    OpenAI或在周五凌晨發(fā)布GPT-5 OpenAI以低價向美國政府提供ChatGPT

    外界一直在期待的OpenAI新一代大語言模型GPT-5或?qū)l(fā)布。據(jù)外媒的報道,GPT-5很可能在周五凌晨發(fā)布。這是
    的頭像 發(fā)表于 08-07 14:13 ?1.3w次閱讀

    亞馬遜云科技現(xiàn)已上線OpenAI開放權(quán)重模型

    客戶現(xiàn)可通過Amazon Bedrock和Amazon SageMaker AI使用OpenAI開放權(quán)重模型,實現(xiàn)將先進的開放權(quán)重模型與全球最廣泛云服務(wù)的深度集成。 亞馬遜云科技首次上線
    的頭像 發(fā)表于 08-06 19:29 ?854次閱讀

    OpenAI發(fā)布2款開源模型

    OpenAI開源了兩款高性能權(quán)重語言模型gpt-oss-120b和gpt-oss-20b,OpenAI
    的頭像 發(fā)表于 08-06 14:25 ?1033次閱讀

    上新:小米首個推理大模型開源 馬斯克:下周推出Grok 3.5

    開源新一代通義千問模型Qwen3。據(jù)悉,Qwen3模型參數(shù)量僅為DeepSeek - R1的1/3,能夠大幅降低成本,而且性能全面超越R1、OpenAI - o1等全球頂尖模型,登頂全
    的頭像 發(fā)表于 04-30 16:08 ?1342次閱讀