91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大模型沒有“知識圍城”

腦極體 ? 來源:腦極體 ? 作者:腦極體 ? 2024-08-27 11:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

wKgZombNQq6AMYaEAAl7e05UIyo071.jpg

最近,兩大知識平臺開始“反擊”大模型。

一是知網(wǎng)。就是引發(fā)學術(shù)界震動、開啟“天臨元年”的那個知網(wǎng),要求秘塔AI搜索終止對他們內(nèi)容的搜索和鏈接。

二是知乎。網(wǎng)友發(fā)現(xiàn)在微軟必應搜索、谷歌搜索的結(jié)果中,知乎內(nèi)容的標題和正文都可能是亂碼,極大可能是為了避免內(nèi)容被用來訓練AI模型。

這兩大平臺區(qū)別于其他互聯(lián)網(wǎng)社區(qū)的一大特點,就是知識內(nèi)容豐富、質(zhì)量較高。

對于大模型來說,“知識密度”是一個非常關(guān)鍵的指標,就像集成電路領(lǐng)域的“先進制程”一樣,如果說高制程芯片能夠在同樣面積上集成更多的晶體管,那么“知識密度高”的大模型,能夠在同樣的參數(shù)空間內(nèi)學習并存儲更多的知識,從而更好地完成特定領(lǐng)域的任務。

半導體領(lǐng)域的“先進制程”封鎖,一直是拿捏中國芯片的有效手段。

那么,頭部知識平臺對大模型采取“關(guān)門政策”,會影響到大模型及AI產(chǎn)品的先進性嗎?

我們的觀點如標題所示,大模型是不會被“知識圍城”而封鎖的

比起結(jié)論,更值得進一步探討的是,既然大模型訓練對平臺內(nèi)容并沒有高度依賴,模廠和平臺的矛盾是從何而起呢?

wKgZombNQrCAMSuzAAIz-cwzV1I704.jpg

很多讀者都聽說過AI三要素,是數(shù)據(jù)、算力、算法。知識處于什么地位呢?憑什么大模型知識密度,具有半導體“先進制程”一樣的重要性呢?

清華大學張鈸院士說過,當前大模型存在難以逾越的天花板,“推動AI的創(chuàng)新應用與產(chǎn)業(yè)化,四個要素肯定都要發(fā)揮知識、數(shù)據(jù)、算法、算力,但是我們最主張的,就必須重視知識的作用,所以我們把知識放在第一位”。

可能有人又會問,院士說得就一定對嗎?當然不一定。我們還可以來看看一線的從業(yè)者,又是怎么想的。

我聽過某AI創(chuàng)業(yè)公司,在交付產(chǎn)品時,發(fā)現(xiàn)即便是基于GPT4-Turbo這樣性能領(lǐng)先的基座模型,AI也對很多問題答不上來。因為有些場景會用到一些隱性知識,這些知識是下一步推理所必需的,但模型經(jīng)常get不到。

wKgaombNQrCADzJsAACJ8BZXr9s881.jpg

比如生成一道菜譜,其中提到了“加辣椒”,但辣椒有點辣(隱性知識),就需要詢問用戶“喜不喜歡吃辣”,人類廚師早就了解這個基礎(chǔ)知識,但讓AI主動意識到并詢問就很難。

這是因為缺少“通識知識”。

某金融券商想用大模型來替代人類理財師,發(fā)現(xiàn)大模型給出的理財觀點和建議很泛泛,是一些常識性內(nèi)容,而用戶在決策時,需要的是人類專家那樣犀利的洞見。

一位金融從業(yè)者說,有些場景,大模型fine tuning還不如傳統(tǒng)的小模型,怎么把業(yè)務知識注入大模型中,做了各種嘗試也沒有特別好的方法,只能把飄在上面的問題數(shù)據(jù),收集來達標給LLM,希望它下次不要再犯錯網(wǎng)絡。

而另一個創(chuàng)業(yè)公司發(fā)現(xiàn),如果從小處著手,將LLM與行業(yè)知識融合,可以獲得97%以上的準確率,基本能達到行業(yè)客戶的驗收標準。實際上,很多AI創(chuàng)業(yè)公司的大模型ToB項目,都是幫助企業(yè)構(gòu)建定制化知識庫(KB系統(tǒng))。

領(lǐng)域知識,則是關(guān)乎大模型處理復雜專項任務、收獲商業(yè)成功的第二道壁壘。

所以,很多模廠都希望模型通過持續(xù)學習,來不斷吸收新知識,這又帶來了新的問題——修改核心參數(shù),這可能影響到模型的原有性能,有可能直接崩掉,不work了,這是業(yè)務的大敵。

咋辦呢?還是得靠知識。

一方面,原本知識密度就高的大模型,相當于人類具備很強的通識基礎(chǔ),提前了解了很多背景知識,所以泛化能力很強,可以在面對新領(lǐng)域、陌生任務時,快速學習、舉一反三。所以,知識密度可以讓大模型具備跨領(lǐng)域、自學習的能力,通過“知識回路”就能學會新知識了。這就減少了人工干預,從而降低了故障率。

另外,高效、精準的知識編輯,可以對大模型中的知識進行新增、擦除等操作,就可以用很小的代價,實現(xiàn)模型的迭代升級。讓模廠在保持模型先進性的同時,也不影響到現(xiàn)有業(yè)務的持續(xù)性。對于業(yè)務不能中斷的金融、政務、電力、工廠等行業(yè)客戶,簡直不要太有吸引力。

此外,一些實際業(yè)務中,不希望大模型在生成時說出來的話,比如一些隱私信息,或者有害有毒內(nèi)容、政治偏見等,都需要知識編輯技術(shù)來進行“祛毒”,精準地識別毒性區(qū)域并擦除有毒內(nèi)容,真正做到給大模型“洗腦”。

由此可見,知識是AI商業(yè)化全流程都必須關(guān)注的。業(yè)界一度有著“得知識者得天下”的風向。有模廠提出了大模型知識的“摩爾定律”,認為大模型的知識密度,應該每隔8個月就翻一倍,同等知識量的模型參數(shù)量減半。

那反過來想一想,失知識者豈不是要失天下了?

wKgaombNQrKAK4o5AAHUiaMcQLM672.jpg

知識平臺,是人類知識匯聚的重要渠道,OpenAI、谷歌等海外AI公司都與優(yōu)質(zhì)媒體內(nèi)容平臺有商業(yè)化合作,用授權(quán)內(nèi)容來訓練自家模型。

既然如此,為什么我們會說,大模型其實并不擔心平臺的“知識封鎖”呢?

因為人類知識平臺,不再是模型不得不進的“圍城”。

如果說原始數(shù)據(jù)是“草”,而知識是牛奶,那么傳統(tǒng)知識獲取,是讓機器“喝的是奶,產(chǎn)的也是奶”。就像20世紀的專家系統(tǒng),根據(jù)一個或者多個專家提供的知識和經(jīng)驗,通過模擬專家的思維過程,讓機器能夠解決問題。

這種情況下,實現(xiàn)機器智能就必須依賴由人類領(lǐng)域?qū)<?,以及專家知識庫。要“進城”獲取知識,必須給平臺“城主”交過路費。

但大模型不一樣的地方,一是“不是必須喝奶,吃草也行”,可以直接從原始數(shù)據(jù)中挖掘知識、抽取知識。DeepMind聯(lián)合創(chuàng)始人哈薩比斯曾經(jīng)設想過,未來的大模型可以直接從與客觀世界的感知交互過程中,利用深度學習算法來總結(jié)知識,并直接用于決策。

二是“不依賴人產(chǎn)奶,自己也行”,通過數(shù)據(jù)驅(qū)動的大規(guī)模自動化的知識獲取,反哺模型。

ChatGPT、GPT4都具備較強的知識圖譜建構(gòu)能力,按照要求抽取知識,正確率可以達到88%,這種“生產(chǎn)效率”可比人類寫論文、在問答平臺“謝邀,剛下飛機,答一下”,要快得多。

更進一步,業(yè)界還在研究能夠大規(guī)模編碼和處理各種知識表示結(jié)構(gòu)的大型知識模型(Large Knowledge Model)。從LLM到LKM,對現(xiàn)有人類知識的依賴越來越低了。

所以,是否收錄基于人類知識的平臺內(nèi)容,其實對大模型訓練來說,影響已經(jīng)很小了。

“吃的是草,吐的是奶”的模型,可以在大數(shù)據(jù)的曠野上生存,并不一定要進知識平臺這座“圍城”,“關(guān)門”也就關(guān)門吧。

wKgaombNQrOAKqmXAAB0ZlM_MNM451.jpg

所以我們看到的后續(xù)就是,秘塔AI搜索在收到知網(wǎng)的函件之后,表示“學術(shù)”版塊僅收錄了論文的文獻摘要和題錄,并未收錄文章內(nèi)容本身。而且還主動“斷鏈”,不再收錄知網(wǎng)文獻的題錄及摘要數(shù)據(jù),轉(zhuǎn)而收錄其他中英文權(quán)威知識庫的文獻題錄及摘要數(shù)據(jù)。類似的,被知乎以亂碼干擾的谷歌搜索、微軟必應搜索,模型能力依然領(lǐng)先。

wKgZombNQrSAHvUOAAJM_NBM_4A531.jpg

那么,知識平臺的反應,難道是過度反應、虛空索敵嗎?平臺究竟想“鎖”住什么,恐怕才是值得關(guān)注的真問題。

首先,沒必要利用人類知識來訓練模型,并不是說大模型廠商就一定不會侵權(quán)。

目前,全球模廠都面臨高質(zhì)量語料匱乏的隱憂,數(shù)據(jù)焦渴之下,在未授權(quán)的情況下,用到有知識產(chǎn)權(quán)的數(shù)據(jù)是可能發(fā)生的。

在某次采訪中,OpenAI的CTO就對“視頻訓練數(shù)據(jù)是否來自YouTube等公開網(wǎng)站”等問題避而不談。此前,《紐約時報》曾因商談“內(nèi)容付費”沒有成效,將OpenAI和微軟告上法庭,指控他們未經(jīng)授權(quán)就使用該機構(gòu)的數(shù)百萬篇文章來訓練AI模型。

而前不久,微軟就與學術(shù)出版商Taylor & Francis簽署了一項價值1000萬美元的協(xié)議,允許微軟訪問其數(shù)據(jù)來改進AI系統(tǒng)。

由此可見,雖然AI領(lǐng)域的知識產(chǎn)權(quán)問題仍然有很多盲區(qū),但與知識平臺達成版權(quán)合作,應該被模廠及其客戶,納入AI合規(guī)和持續(xù)性經(jīng)營的考量中。

此外,即使侵權(quán)問題并不存在,但價值沖擊也會發(fā)生。

具體來說,AI搜索等新一代AI產(chǎn)品,對知識平臺的沖擊有兩方面:

一是流量價值沖擊。盡管秘塔AI搜索聲明中提到,向用戶提供的是知網(wǎng)的學術(shù)文獻題錄及摘要數(shù)據(jù),用戶要進一步瀏覽正文,要通過來源鏈接跳轉(zhuǎn)至網(wǎng)站獲取。但搜索引擎將觸角伸到網(wǎng)站,用戶就會減少訪問與站內(nèi)搜索,從而影響平臺的流量和潛在收益,類似于微信此前阻止百度搜索到公眾號內(nèi)容一樣。

二是知識價值沖擊。基于大模型的AI搜索具備總結(jié)、生成等能力,而由于模型可能存在“過擬合”問題,也就是AI自己“腦補”,最終可能輸出給用戶的內(nèi)容與原文高度一致,沒直接侵權(quán)但勝似侵權(quán)。

此前就有很多小說作者發(fā)現(xiàn),模型生成的故事大綱與走向與自己寫的高度類似,懷疑云文檔被用來訓練AI模型,但極有可能是AI跟人類作者“撞腦”了。

大模型經(jīng)濟的核心價值,是知識的創(chuàng)造與分發(fā)。

一位朋友說,“以前有問題,我會上網(wǎng)問知乎,但有些問題我不想讓公眾知道,以后我就問基礎(chǔ)大模型+領(lǐng)域知識+AI Agent打造的專業(yè)bot,一次到位”。Perplexity CEO曾明確說過,“我們想成為世界上最以知識為中心的公司”,秘塔AI搜索經(jīng)常被比作中國的Perplexity。

可以看到,即使沒有侵權(quán)糾紛,AI企業(yè)及產(chǎn)品,也與知識平臺,在商業(yè)層面形成了直接的替代和競爭關(guān)系。

失知識者失天下,從這個角度來說,的確成立。

大模型在數(shù)據(jù)曠野上狂飆突進,知識平臺能否靠“關(guān)門上鎖”來守住核心價值呢?或許大家心中已經(jīng)有答案。

解鎖關(guān)鍵信息

知識平臺封鎖,鎖不住AI獲取知識的腳步

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39936

    瀏覽量

    301567
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3662

    瀏覽量

    5197
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    知識分享-嵌入式系統(tǒng)可靠性模型

    形式,以實現(xiàn)系統(tǒng)可靠性的成倍提升,這時一般會采取可靠性并聯(lián)結(jié)構(gòu)模型。注意:系統(tǒng)可靠性的串、并聯(lián)模型和系統(tǒng)功能框圖的串、并聯(lián)模型沒有直接的等同關(guān)系。如圖1-8所示,B
    的頭像 發(fā)表于 03-11 16:43 ?89次閱讀
    <b class='flag-5'>知識</b>分享-嵌入式系統(tǒng)可靠性<b class='flag-5'>模型</b>

    什么是大模型,智能體...?大模型100問,快速全面了解!

    ,LLM)是大模型中最主要的一類,專門用于處理和生成人類語言。大語言模型通過“閱讀”海量的文本數(shù)據(jù)(如書籍、網(wǎng)頁、文章等)進行預訓練,學會語言的模式、知識和上下文
    的頭像 發(fā)表于 02-02 16:36 ?935次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問,快速全面了解!

    AI模型的配置AI模型該怎么做?

    STM32可以跑AI,這個AI模型怎么搞,知識盲區(qū)
    發(fā)表于 10-14 07:14

    知識分享 | 使用MXAM進行AUTOSAR模型的靜態(tài)分析:Embedded Coder與TargetLink模型

    知識分享在知識分享欄目中,我們會定期與讀者分享來自MES模賽思的基于模型的軟件開發(fā)相關(guān)Know-How干貨,關(guān)注公眾號,隨時掌握基于模型的軟件設計的技術(shù)
    的頭像 發(fā)表于 08-27 10:04 ?739次閱讀
    <b class='flag-5'>知識</b>分享 | 使用MXAM進行AUTOSAR<b class='flag-5'>模型</b>的靜態(tài)分析:Embedded Coder與TargetLink<b class='flag-5'>模型</b>

    模型工具的 “京東答案”

    隨著大模型技術(shù)的迅猛發(fā)展,AI工具已成為重要的輔助生產(chǎn)力工具和工作伙伴。它能夠顯著提升工作效率、幫助解決業(yè)務痛點,甚至能通過知識延展與智能協(xié)同,幫助團隊突破傳統(tǒng)認知邊界。掌握大模型工具的應用能力,正
    的頭像 發(fā)表于 08-25 16:09 ?590次閱讀

    潤和軟件“潤知“知識處理大模型榮登“2025中國大模型TOP30”榜單

    知識處理大模型成功入選。這一榮譽不僅體現(xiàn)了潤和軟件在多模態(tài)大模型技術(shù)上的領(lǐng)先地位,也標志著其在推動企業(yè)智能化轉(zhuǎn)型方面邁出了堅實一步。 ?潤和軟件“潤知”知識處理大
    的頭像 發(fā)表于 08-22 10:13 ?4249次閱讀

    阿里云設備的物模型數(shù)據(jù)里面始終沒有值是哪里的問題?

    如上圖,不知道講清楚沒有。 IG502自定義TOPIC 上發(fā)到阿里云沒問題。采用阿里云物模型的格式來上發(fā)就不行。請大佬指教!
    發(fā)表于 08-05 06:43

    cubemx導入模型后找不到keil找不到工程內(nèi)的模型的相關(guān)文件是怎么回事?

    模型在cubemx內(nèi)解析后沒有問題,但解析之后生成工程keil內(nèi)缺讀取不到生成的三個模型文件
    發(fā)表于 07-18 07:18

    最新人工智能硬件培訓AI 基礎(chǔ)入門學習課程參考2025版(大模型篇)

    在人工智能大模型重塑教育與社會發(fā)展的當下,無論是探索未來職業(yè)方向,還是更新技術(shù)儲備,掌握大模型知識都已成為新時代的必修課。從職場上輔助工作的智能助手,到課堂用于學術(shù)研究的智能工具,大模型
    發(fā)表于 07-04 11:10

    模型在半導體行業(yè)的應用可行性分析

    沒有這樣的半導體專用大模型,能縮短芯片設計時間,提高成功率,還能幫助新工程師更快上手?;蛘哕浻布梢栽谠O計和制造環(huán)節(jié)確實有實際應用。會不會存在AI缺陷檢測。 能否應用在工藝優(yōu)化和預測性維護中
    發(fā)表于 06-24 15:10

    pspice一直顯示元器件沒有仿真模型怎么回事?

    有大佬知道pspice仿真為什么總是顯示找不到仿真模型嗎,就連自帶庫的元器件左上角也有個綠圈顯示沒有仿真模型仿真不了,我把相應元器件的仿真模型.lib文件也都移到仿真設置的librar
    發(fā)表于 06-09 18:57

    知識分享 | 評估模型架構(gòu)——如何實現(xiàn)?

    確保良好的模型架構(gòu)對于開發(fā)安全和可靠的軟件非常重要。本文為您介紹MES Model Examiner? (MXAM)如何優(yōu)化模型架構(gòu),簡化復雜度管理步驟,并最終提升軟件質(zhì)量。
    的頭像 發(fā)表于 06-05 11:46 ?665次閱讀
    <b class='flag-5'>知識</b>分享 | 評估<b class='flag-5'>模型</b>架構(gòu)——如何實現(xiàn)?

    從FA模型切換到Stage模型時:module的切換說明

    升級到Stage模型時,Stage模型的name需要和FA模型的package保持一致,否則會導致升級失敗。 name標識HAP的類名。/FA模型中實際未使能,Stage
    發(fā)表于 06-05 08:16

    FA模型訪問Stage模型DataShareExtensionAbility說明

    。 DataShareHelper并沒有實現(xiàn)原DataAbilityHelper對外API接口的所有功能,因此有部分接口是無法兼容的,具體如表1所示。 表1 FA模型訪問stage模型
    發(fā)表于 06-04 07:53

    AD8313沒有模型,仿真不了怎么解決?

    AD8313沒有模型,在multisim上仿真不了,請?zhí)峁┲г?或者提供一個更新的版本也可以。
    發(fā)表于 03-24 06:38