91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

“伶荔”(Linly) 開源大規(guī)模中文語言模型

OSC開源社區(qū) ? 來源:OSC開源社區(qū) ? 2023-05-04 10:29 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

為了開發(fā)高性能中文基礎模型,填補中文基礎模型百億到千億級預訓練參數(shù)的空白,大數(shù)據(jù)系統(tǒng)計算技術國家工程實驗室團隊在人工智能項目伶荔(Linly)框架下,推出了伶荔說系列中文語言大模型,目前包含中文基礎模型和對話模型。

其中,中文基礎模型以 LLaMA 為底座,利用中文和中英平行增量預訓練,將它在英文上強大語言能力遷移到中文上。更進一步,匯總了目前公開的多語言指令數(shù)據(jù),對中文模型進行了大規(guī)模指令跟隨訓練,實現(xiàn)了 Linly-ChatFlow 對話模型。

0cbaa256-e89f-11ed-ab56-dac502259ad0.png

根據(jù)介紹,相比已有的中文開源模型,伶荔模型具有以下優(yōu)勢:

在 32*A100 GPU 上訓練了不同量級和功能的中文模型,對模型充分訓練并提供強大的 baseline。據(jù)知,33B 的 Linly-Chinese-LLAMA 是目前最大的中文 LLaMA 模型。

公開所有訓練數(shù)據(jù)、代碼、參數(shù)細節(jié)以及實驗結果,確保項目的可復現(xiàn)性,用戶可以選擇合適的資源直接用于自己的流程中。

項目具有高兼容性和易用性,提供可用于 CUDA 和 CPU 的量化推理框架,并支持 Huggingface 格式。

目前公開可用的模型有:

Linly-Chinese-LLaMA:中文基礎模型,基于 LLaMA 在高質量中文語料上增量訓練強化中文語言能力,現(xiàn)已開放 7B、13B 和 33B 量級,65B 正在訓練中。

Linly-ChatFlow:中文對話模型,在 400 萬指令數(shù)據(jù)集合上對中文基礎模型指令精調,現(xiàn)已開放 7B、13B 對話模型。

Linly-ChatFlow-int4 :ChatFlow 4-bit 量化版本,用于在 CPU 上部署模型推理。

進行中的項目:

Linly-Chinese-BLOOM:基于 BLOOM 中文增量訓練的中文基礎模型,包含 7B 和 175B 模型量級,可用于商業(yè)場景。

項目特點

Linly 項目具有以下特點:

1. 大規(guī)模中文增量訓練,利用翻譯數(shù)據(jù)提速中文模型收斂

在訓練數(shù)據(jù)方面,項目盡可能全面的收集了各類中文語料和指令數(shù)據(jù)。無監(jiān)督訓練使用了上億條高質量的公開中文數(shù)據(jù),包括新聞、百科、文學、科學文獻等類型。和通常的無監(jiān)督預訓練不同,項目在訓練初期加入了大量中英文平行語料,幫助模型將英文能力快速遷移到中文上。

在指令精調階段,項目匯總了開源社區(qū)的指令數(shù)據(jù)資源,包括多輪對話、多語言指令、GPT4/ChatGPT 問答、思維鏈數(shù)據(jù)等等,經(jīng)過篩選后使用 500 萬條數(shù)據(jù)進行指令精調得到 Linly-ChatFlow 模型。訓練使用的數(shù)據(jù)集也在項目里提供。

訓練流程如圖所示:

0cc77404-e89f-11ed-ab56-dac502259ad0.png

2. 全參數(shù)訓練,覆蓋多個模型量級

目前基于 LLaMA 的中文模型通常使用 LoRA 方法進行訓練,LoRA 凍結預訓練的模型參數(shù),通過往模型中加入額外的網(wǎng)絡層,并只訓練這些新增的網(wǎng)絡層參數(shù),來實現(xiàn)快速適配。雖然 LoRA 能夠提升訓練速度且降低設備要求,但性能上限低于全參數(shù)訓練。為了使模型獲得盡可能強的中文語言能力,該項目對所有參數(shù)量級都采用全參數(shù)訓練,開銷大約是 LoRA 的 3-5 倍。

伶荔語言模型利用 TencentPretrain 多模態(tài)預訓練框架,集成 DeepSpeed ZeRO3 以 FP16 流水線并行訓練。目前已開放 7B、13B、33B 模型權重,65B 模型正在訓練中。模型仍在持續(xù)迭代,將定期更新,損失收斂情況如圖所示:

0cd69cea-e89f-11ed-ab56-dac502259ad0.png

3. 可支持本地 CPU int4 推理、消費級 GPU 推理

大模型通常具有數(shù)百億參數(shù)量,提高了使用門檻。為了讓更多用戶使用 Linly-ChatFlow 模型,開發(fā)團隊在項目中集成了高可用模型量化推理方案,支持 int4 量化 CPU 推理可以在手機或者筆記本電腦上使用,int8 量化使用 CUDA 加速可以在消費級 GPU 推理 13B 模型。此外,項目中還集成了微服務部署,用戶能夠一鍵將模型部署成服務,方便二次開發(fā)。

未來工作

據(jù)透露,伶荔說系列模型目前仍處于欠擬合,正在持續(xù)訓練中,未來 33B 和 65B 的版本或將帶來更驚艷的性能。在另一方面,項目團隊不僅公開了對話模型,還公開了中文基礎模型和相應的訓練代碼與數(shù)據(jù)集,向社區(qū)提供了一套可復現(xiàn)的對話模型方案,目前也有團隊基于其工作實現(xiàn)了金融、醫(yī)學等領域的垂直領域對話模型。

在之后的工作,項目團隊將繼續(xù)對伶荔說系列模型進行改進,包括嘗試人類反饋的強化學習(RLHF)、適用于中文的字詞結合 tokenizer、更高效的 GPU int3/int4 量化推理方法等等。伶荔項目還將針對虛擬人、醫(yī)療以及智能體場景陸續(xù)推出伶荔系列大模型。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • cpu
    cpu
    +關注

    關注

    68

    文章

    11281

    瀏覽量

    225082
  • 人工智能
    +關注

    關注

    1817

    文章

    50102

    瀏覽量

    265514
  • 開源
    +關注

    關注

    3

    文章

    4209

    瀏覽量

    46169
  • 語言模型
    +關注

    關注

    0

    文章

    571

    瀏覽量

    11322

原文標題:“伶荔”(Linly) 開源大規(guī)模中文語言模型

文章出處:【微信號:OSC開源社區(qū),微信公眾號:OSC開源社區(qū)】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    NVIDIA推動面向數(shù)字與物理AI的開源模型發(fā)展

    NVIDIA 發(fā)布一系列涵蓋語音、安全與輔助駕駛領域的全新 AI 工具,其中包括面向移動出行領域的行業(yè)級開源視覺-語言-動作推理模型(Reasoning VLA) NVIDIA DRIVE Alpamayo-R1。此外,一項新的
    的頭像 發(fā)表于 12-13 09:50 ?1344次閱讀

    openDACS 2025 開源EDA與芯片賽項 賽題七:基于大模型的生成式原理圖設計

    智能生成。 4. 賽題內容 4.1賽題描述 本賽題要求參賽隊伍構建合理規(guī)模的知識庫,運用提示詞工程,構建一個完整的生成式原理圖設計系統(tǒng)。 參賽系統(tǒng)需充分發(fā)揮大模型在自然語言理解、上下文推理和內容生成
    發(fā)表于 11-13 11:49

    NVIDIA ACE現(xiàn)已支持開源Qwen3-8B小語言模型

    為助力打造實時、動態(tài)的 NPC 游戲角色,NVIDIA ACE 現(xiàn)已支持開源 Qwen3-8B 小語言模型(SLM),可實現(xiàn) PC 游戲中的本地部署。
    的頭像 發(fā)表于 10-29 16:59 ?1237次閱讀

    NVIDIA 利用全新開源模型與仿真庫加速機器人研發(fā)進程

    。 ? 借助全新的 NVIDIA Cosmos 世界基礎模型,開發(fā)者可以生成多樣化數(shù)據(jù),從而大規(guī)模加速物理 AI 模型的訓練。 ? 來自斯 坦福大學、蘇黎世
    的頭像 發(fā)表于 09-30 09:52 ?3078次閱讀
    NVIDIA 利用全新<b class='flag-5'>開源</b><b class='flag-5'>模型</b>與仿真庫加速機器人研發(fā)進程

    TensorRT-LLM的大規(guī)模專家并行架構設計

    之前文章已介紹引入大規(guī)模 EP 的初衷,本篇將繼續(xù)深入介紹 TensorRT-LLM 的大規(guī)模專家并行架構設計與創(chuàng)新實現(xiàn)。
    的頭像 發(fā)表于 09-23 14:42 ?1114次閱讀
    TensorRT-LLM的<b class='flag-5'>大規(guī)模</b>專家并行架構設計

    大規(guī)模專家并行模型在TensorRT-LLM的設計

    DeepSeek-V3 / R1 等模型采用大規(guī)模細粒度混合專家模型 (MoE) 架構,大幅提升了開源模型的質量。Llama 4 和 Qwe
    的頭像 發(fā)表于 09-06 15:21 ?1237次閱讀
    <b class='flag-5'>大規(guī)模</b>專家并行<b class='flag-5'>模型</b>在TensorRT-LLM的設計

    【VisionFive 2單板計算機試用體驗】3、開源語言模型部署

    1、ollama平臺搭建 ollama可以快速地部署開源模型,網(wǎng)址為https://ollama.com, 試用該平臺,可以在多平臺上部署 Deepseek-R1, Qwen3, Llama
    發(fā)表于 07-19 15:45

    華為宣布開源盤古7B稠密和72B混合專家模型

    關鍵一步,為全球開發(fā)者、企業(yè)及研究人員提供了強大的技術支撐。 ? 華為此次開源行動涵蓋三大核心板塊:盤古Pro MoE 72B模型權重與基礎推理代碼已率先上線開源平臺;基于昇騰的超大規(guī)模
    的頭像 發(fā)表于 07-06 05:51 ?7421次閱讀

    華為正式開源盤古7B稠密和72B混合專家模型

    關鍵舉措,推動大模型技術的研究與創(chuàng)新發(fā)展,加速推進人工智能在千行百業(yè)的應用與價值創(chuàng)造。 盤古Pro MoE 72B模型權重、基礎推理代碼,已正式上線開源平臺。 基于昇騰的超大規(guī)模MoE
    的頭像 發(fā)表于 06-30 11:19 ?1342次閱讀

    探索在Arm平臺運行的Llama 4 Scout模型

    人工智能 (AI) 正在加速發(fā)展,也越來越智能化。當今的開源語言模型不僅功能強大,而且在設計時充分考慮了實際部署的需求,因而具有輕量化和經(jīng)濟高效的特點,可大規(guī)模部署到數(shù)十億臺設備上。
    的頭像 發(fā)表于 05-20 09:54 ?757次閱讀

    薄型、多頻段、大規(guī)模物聯(lián)網(wǎng)前端模塊 skyworksinc

    電子發(fā)燒友網(wǎng)為你提供()薄型、多頻段、大規(guī)模物聯(lián)網(wǎng)前端模塊相關產(chǎn)品參數(shù)、數(shù)據(jù)手冊,更有薄型、多頻段、大規(guī)模物聯(lián)網(wǎng)前端模塊的引腳圖、接線圖、封裝手冊、中文資料、英文資料,薄型、多頻段、大規(guī)模
    發(fā)表于 05-15 18:32
    薄型、多頻段、<b class='flag-5'>大規(guī)模</b>物聯(lián)網(wǎng)前端模塊 skyworksinc

    帶耦合器的大規(guī)模物聯(lián)網(wǎng)半雙工前端模塊 skyworksinc

    電子發(fā)燒友網(wǎng)為你提供()帶耦合器的大規(guī)模物聯(lián)網(wǎng)半雙工前端模塊相關產(chǎn)品參數(shù)、數(shù)據(jù)手冊,更有帶耦合器的大規(guī)模物聯(lián)網(wǎng)半雙工前端模塊的引腳圖、接線圖、封裝手冊、中文資料、英文資料,帶耦合器的大規(guī)模
    發(fā)表于 05-09 18:35
    帶耦合器的<b class='flag-5'>大規(guī)模</b>物聯(lián)網(wǎng)半雙工前端模塊 skyworksinc

    如何借助大語言模型打造人工智能生態(tài)系統(tǒng)

    語言模型(LLMs)正以革命性的姿態(tài)重塑我們與科技的互動模式。然而,由于其龐大的規(guī)模,它們往往屬于資源密集型范疇,不僅大幅推高了成本,還造成了能源消耗的激增。本文深入剖析了大語言
    的頭像 發(fā)表于 04-27 09:19 ?1096次閱讀
    如何借助大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>打造人工智能生態(tài)系統(tǒng)

    AI原生架構升級:RAKsmart服務器在超大規(guī)模模型訓練中的算力突破

    近年來,隨著千億級參數(shù)模型的崛起,AI訓練對算力的需求呈現(xiàn)指數(shù)級增長。傳統(tǒng)服務器架構在應對分布式訓練、高并發(fā)計算和顯存優(yōu)化等場景時逐漸顯露瓶頸。而RAKsmart為超大規(guī)模模型訓練提供了全新的算力解決方案。
    的頭像 發(fā)表于 04-24 09:27 ?798次閱讀

    5G 大規(guī)模物聯(lián)網(wǎng)系統(tǒng)級封裝 skyworksinc

    電子發(fā)燒友網(wǎng)為你提供()5G 大規(guī)模物聯(lián)網(wǎng)系統(tǒng)級封裝相關產(chǎn)品參數(shù)、數(shù)據(jù)手冊,更有5G 大規(guī)模物聯(lián)網(wǎng)系統(tǒng)級封裝的引腳圖、接線圖、封裝手冊、中文資料、英文資料,5G 大規(guī)模物聯(lián)網(wǎng)系統(tǒng)級封裝
    發(fā)表于 04-11 15:21
    5G <b class='flag-5'>大規(guī)模</b>物聯(lián)網(wǎng)系統(tǒng)級封裝 skyworksinc