亚洲AV无码成人精品,色久在线无码免费,无码视频网址五在线观看

1 月 16 日，InfoQ 獲悉，經(jīng)過了半個月的部分客戶的內(nèi)測和反饋，MiniMax 全量發(fā)布大語言模型 abab6，該模型為國內(nèi)首個 MoE（Mixture-of-Experts）大語言模型。

早在上個月舉辦的數(shù)字中國論壇成立大會暨數(shù)字化發(fā)展論壇的一場分論壇上，MiniMax 副總裁魏偉就曾透露將于近期發(fā)布國內(nèi)首個基于 MoE 架構(gòu)的大模型，對標 OpenAI GPT-4。

在 MoE 結(jié)構(gòu)下，abab6 擁有大參數(shù)帶來的處理復(fù)雜任務(wù)的能力，同時模型在單位時間內(nèi)能夠訓練足夠多的數(shù)據(jù)，計算效率也可以得到大幅提升。改進了 abab5.5 在處理更復(fù)雜、對模型輸出有更精細要求場景中出現(xiàn)的問題。為什么選擇 MoE 架構(gòu)？

那么，MoE 到底是什么？MiniMax 的大模型為何要使用使用 MoE 架構(gòu)？

MoE 架構(gòu)全稱專家混合（Mixture-of-Experts），是一種集成方法，其中整個問題被分為多個子任務(wù)，并將針對每個子任務(wù)訓練一組專家。MoE 模型將覆蓋不同學習者（專家）的不同輸入數(shù)據(jù)。

圖片來源：https ://arxiv.org/pdf/1701.06538.pdf

有傳聞稱，GPT-4 也采用了相同的架構(gòu)方案。

2023 年 4 月，MiniMax 發(fā)布了開放平臺。過去半年多，MiniMax 陸續(xù)服務(wù)了近千家客戶，包括金山辦公、小紅書、騰訊、小米和閱文在內(nèi)的多家頭部互聯(lián)網(wǎng)公司，MiniMax 開放平臺平均單日的 token 處理量達到了數(shù)百億。

MiniMax 在官微中發(fā)文稱：“這半年多來，客戶給我們提供了很多有價值的反饋和建議。例如，大家認為我們做得比較好的地方有：在寫作、聊天、問答等場景中，abab5.5 的表現(xiàn)不錯，達到了 GPT-3.5 的水平。”

但是和最先進的模型 GPT-4 相比，仍有明顯差距。這主要體現(xiàn)在處理更復(fù)雜的、對模型輸出有精細要求的場景時，存在一定概率違反用戶要求的輸出格式，或是在推理過程中發(fā)生錯誤。當然，這不僅是 abab5.5 的問題，也是目前除 GPT-4 以外，幾乎所有大語言模型存在的缺陷。

為了解決這個問題，進一步提升模型在復(fù)雜任務(wù)下的效果，MiniMax 技術(shù)團隊從去年 6 月份起開始研發(fā) MoE 模型——abab6 是 MiniMax 的第二版 MoE 大模型（第一版 MoE 大模型已應(yīng)用于其 C 端產(chǎn)品中）。

雖然MiniMax 并未透露Abab6 的具體參數(shù)，但據(jù)MiniMax 透露，Abab6 比上一個版本大了一個量級。更大的模型意味著 abab6 可以更好的從訓練語料中學到更精細的規(guī)律，完成更復(fù)雜的任務(wù)。

但僅擴大參數(shù)量會帶來新的問題：降低模型的推理速度以及更慢的訓練時間。在很多應(yīng)用場景中，訓練推理速度和模型效果同樣重要。為了保證 abab6 的運算速度，MiniMax 技術(shù)團隊使用了 MoE (Mixture of Experts 混合專家模型）結(jié)構(gòu)。在該結(jié)構(gòu)下，模型參數(shù)被劃分為多組“專家”，每次推理時只有一部分專家參與計算?；?MoE 結(jié)構(gòu)，abab6 可以具備大參數(shù)帶來的處理復(fù)雜任務(wù)的能力；計算效率也會得到提升，模型在單位時間內(nèi)能夠訓練足夠多的數(shù)據(jù)。

目前大部分大語言模型開源和學術(shù)工作都沒有使用 MoE 架構(gòu)。為了訓練 abab6，MiniMax 還自研了高效的 MoE 訓練和推理框架，也發(fā)明了一些 MoE 模型的訓練技巧。到目前為止，abab6 是國內(nèi)第一個千億參數(shù)量以上的基于 MoE 架構(gòu)的大語言模型。

測評結(jié)果

為了對比各模型在復(fù)雜場景下的表現(xiàn)，MiniMax 對 abab6、abab5.5、GPT-3.5、GPT-4、Claude 2.1 和 Mistral-Medium 商用進行了自動評測。在簡單的任務(wù)上，abab5.5 已經(jīng)做得比較好，因此 MiniMax 選擇了三種涵蓋了較復(fù)雜的問題的評測方法：

IFEval：這個評測主要測試模型遵守用戶指令的能力。在測試時，提問者會問模型一些帶有約束條件的問題，例如“以 XX 為標題，列出三個具體對方法，每個方法的描述不超過兩句話”，然后統(tǒng)計有多少回答嚴格滿足了約束條件。

MT-Bench：這個評測衡量模型的英文綜合能力。提問者會問模型多個類別的問題，包括角色扮演、寫作、信息提取、推理、數(shù)學、代碼、知識問答。MiniMax 技術(shù)團隊會用另一個大模型（GPT-4）對模型的回答打分，并統(tǒng)計平均分。

AlignBench：該評測反映了模型的中文綜合能力測試，測試形式與 MT-Bench 類似。

測評及對比結(jié)果如下：

注：對比模型均選擇各自最新、效果最好的版本，分別為 Claude-2.1、Mistral-Medium 商用、GPT-3.5-Turbo-0613、GPT-4-1106-preview；GPT-3.5-Turbo-0613 略好于 GPT-3.5-Turbo-1106 。abab6 是 1 月 15 號的版本。

可以看出，abab6 在三個測試集中均明顯好于前一代模型 abab5.5。在指令遵從、中文綜合能力和英文綜合能力上，abab6 大幅超過了 GPT-3.5。和 Claude 2.1 相比，abab6 也在指令遵從、中文綜合能力和英文綜合能力上略勝一籌。相較于 Mistral 的商用版本 Mistral-Medium，abab6 在指令遵從和中文綜合能力上都優(yōu)于 Mistral-Medium，在英文綜合能力上與 Mistral- Medium 旗鼓相當。

如果想體驗 MiniMax MoE 大模型，可訪問 MiniMax 開放平臺官網(wǎng)：api.minimax.chat

ps：MiniMax 方面稱，模型還在持續(xù)訓練中，遠沒有收斂，歡迎大家反饋。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴