1998 年,一些斯坦福大學(xué)的研究生發(fā)表了一篇論文,描述了一種新型的搜索引擎:“在本文中,我們將會(huì)介紹 Google 這種大型搜索引擎的原型。該原型大量使用了超文本形式的結(jié)構(gòu)。Google 旨在有效地對(duì)萬(wàn)維網(wǎng)數(shù)據(jù)進(jìn)行檢索和編制索引,并生成比現(xiàn)有系統(tǒng)更令人滿意的搜索結(jié)果?!?/p>
該研究的關(guān)鍵創(chuàng)新是一種稱為 PageRank 的算法,該算法通過(guò)基于用戶在網(wǎng)絡(luò)上查詢內(nèi)容與網(wǎng)絡(luò)上其他頁(yè)面鏈接的相關(guān)性來(lái)計(jì)算搜索結(jié)果,并且對(duì)搜索結(jié)果進(jìn)行排序。在 PageRank 的支持下,Google 成為了通往互聯(lián)網(wǎng)的門戶,而謝爾蓋?布林和拉里?佩奇建立了世界上最大的公司之一。
現(xiàn)在,一組 Google 研究人員發(fā)布了一項(xiàng)提議,要求對(duì)引擎進(jìn)行徹底的重新設(shè)計(jì),從而排除現(xiàn)有排序的方法,并用單一的大型 AI 語(yǔ)言模型(例如 BERT 或 GPT-3,以及它們的未來(lái)版本)來(lái)代替。
這樣一來(lái),用戶將不再用在龐大的網(wǎng)頁(yè)列表中搜索信息,而是通過(guò)對(duì)這些頁(yè)面上經(jīng)過(guò)訓(xùn)練的語(yǔ)言模型提出問(wèn)題來(lái)直接尋找答案。
這種方法不但可以改變搜索引擎的工作方式,而且可以改變它們可以做的事情,以及我們?nèi)绾闻c之互動(dòng)的方式。
即使網(wǎng)絡(luò)的規(guī)模激增,搜索引擎也在變得越來(lái)越快,且越來(lái)越準(zhǔn)確?,F(xiàn)在我們使用 AI 來(lái)對(duì)結(jié)果進(jìn)行排序,而 Google 可以通過(guò) BERT 來(lái)更好地理解用戶搜索的內(nèi)容。
然而,在這些調(diào)整之下,所有主流搜索引擎的工作方式仍與 20 年前相同:爬蟲(chóng)將網(wǎng)頁(yè)編入索引(可不間斷地讀取網(wǎng)絡(luò)并維護(hù)找到的所有內(nèi)容的列表的軟件),在與用戶查詢相匹配的結(jié)果索引中收集數(shù)據(jù),然后對(duì)結(jié)果進(jìn)行排序。
唐納德?麥茨勒(Donald Metzler)和他在 Google 研究部的同事寫道:“這種索引檢索然后排序的藍(lán)圖經(jīng)受得住時(shí)間的考驗(yàn),但也很少受到挑戰(zhàn)或被認(rèn)真地重新考慮一下?!?/p>
問(wèn)題就在于,即使是當(dāng)今最好的搜索引擎,它仍然會(huì)以包含所需信息的文檔列表來(lái)進(jìn)行響應(yīng),而不是包含信息本身。
搜索引擎也并不擅長(zhǎng)回答需要從多個(gè)來(lái)源獲得答案的查詢?nèi)蝿?wù),就像你看病時(shí),醫(yī)生給你一篇需要閱讀的文章列表,而不是直接給你答案一樣。
麥茨勒和他的同事對(duì)能像真人專家那樣工作的搜索引擎十分感興趣,它應(yīng)當(dāng)以自然語(yǔ)言生成答案,并由多個(gè)文檔合成,而且像維基百科的文章一樣,以支持證據(jù)的形式備份其答案。
大型語(yǔ)言模型為這樣的想法奠定了一些基礎(chǔ),GPT-3 在大多數(shù)網(wǎng)絡(luò)和數(shù)百本書(shū)上都接受過(guò)培訓(xùn),它可以從多種來(lái)源中獲取信息,以自然語(yǔ)言回答問(wèn)題。
現(xiàn)在的問(wèn)題在于它無(wú)法跟蹤這些來(lái)源,也無(wú)法提供證據(jù)來(lái)支持這些答案。我們無(wú)法判斷 GPT-3 是在模仿可信賴的信息還是虛假信息,或者只是散播自己的廢話。
麥茨勒和他的同事們稱語(yǔ)言模型為 Dilettantes——“人們以為它懂的很多,但實(shí)際上它的知識(shí)很膚淺。”
他們聲稱,解決方案是構(gòu)建和培訓(xùn)未來(lái)的 BERT 和 GPT-3,以保留其單詞來(lái)源的記錄。目前尚無(wú)此類模型能夠做到這一點(diǎn),但原則上是可行的,并且朝著這個(gè)方向的早期工作也已被提上日程。
來(lái)自英國(guó)謝菲爾德大學(xué)研究網(wǎng)絡(luò)信息檢索的張子琦說(shuō),在不同的搜索領(lǐng)域,從響應(yīng)用戶查詢、到總結(jié)文檔、再到結(jié)構(gòu)化信息,已經(jīng)有了數(shù)十年的發(fā)展。
但是,這些技術(shù)都沒(méi)有徹底改革過(guò)搜索,因?yàn)樗鼈兠總€(gè)都只是解決特定的問(wèn)題而無(wú)法被通用化。他說(shuō),這篇論文中提到的令人興奮的事情就是一些大型語(yǔ)言模型能夠同時(shí)完成所有這些操作。
然而,張也指出,語(yǔ)言模型在技術(shù)性或?qū)I(yè)學(xué)科上表現(xiàn)不佳,因?yàn)橛?xùn)練這些語(yǔ)言的文本中很少有這類范例。
他說(shuō):“網(wǎng)絡(luò)上關(guān)于電子商務(wù)的數(shù)據(jù)可能比有關(guān)量子力學(xué)的數(shù)據(jù)多數(shù)百倍。” 而且當(dāng)今的語(yǔ)言模型也偏向英語(yǔ),這會(huì)使網(wǎng)絡(luò)上的非英語(yǔ)部分無(wú)法得到充分服務(wù)。
但張還是很喜歡這個(gè)主意,他說(shuō):“要是在過(guò)去,這么做是不可能的,因?yàn)榇笮驼Z(yǔ)言模型只是最近才興起的。如果成功了,它將改變我們的搜索體驗(yàn)。”
原文標(biāo)題:GPT-3或宣告新型搜索引擎的誕生:通過(guò)語(yǔ)言模型提問(wèn)即可找到答案
文章出處:【微信公眾號(hào):DeepTech深科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
責(zé)任編輯:haq
-
AI
+關(guān)注
關(guān)注
91文章
40086瀏覽量
301726 -
語(yǔ)言
+關(guān)注
關(guān)注
1文章
97瀏覽量
24851 -
GPT
+關(guān)注
關(guān)注
0文章
368瀏覽量
16895
原文標(biāo)題:GPT-3或宣告新型搜索引擎的誕生:通過(guò)語(yǔ)言模型提問(wèn)即可找到答案
文章出處:【微信號(hào):deeptechchina,微信公眾號(hào):deeptechchina】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
云知聲大模型首席科學(xué)家劉升平暢談智能體
一文了解Mojo編程語(yǔ)言
NVIDIA 利用全新開(kāi)源模型與仿真庫(kù)加速機(jī)器人研發(fā)進(jìn)程
【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片到AGI芯片
【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI的科學(xué)應(yīng)用
【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+第二章 實(shí)現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)
【書(shū)籍評(píng)測(cè)活動(dòng)NO.64】AI芯片,從過(guò)去走向未來(lái):《AI芯片:科技探索與AGI愿景》
利用自壓縮實(shí)現(xiàn)大型語(yǔ)言模型高效縮減
信而泰×DeepSeek:AI推理引擎驅(qū)動(dòng)網(wǎng)絡(luò)智能診斷邁向 “自愈”時(shí)代
如何基于Kahn處理網(wǎng)絡(luò)定義AI引擎圖形編程模型
Google研究人提議對(duì)引擎重新設(shè)計(jì)并用單一大型AI語(yǔ)言模型代替
評(píng)論