91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

對話機(jī)器人之Sparrow簡介

深度學(xué)習(xí)自然語言處理 ? 來源:NLP日志 ? 2023-01-11 17:00 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1 簡介

DeepMind提出的Sparrow,相對于以往的方法,是一種更加有用,準(zhǔn)確并且無害的信息檢索對話機(jī)器人。

在之前的對話研究中,往往會針對對話的不同方面去設(shè)計對應(yīng)的任務(wù)跟模塊,例如知識性,一致性,長期記憶等等,但是Sparrow則不然,它直接根據(jù)用戶的用戶的反饋進(jìn)行學(xué)習(xí),這樣能盡可能讓模型對齊真實的用戶行為,而不再需要關(guān)注過于瑣碎的諸多對話細(xì)節(jié)。

95cda8ea-8508-11ed-bfe3-dac502259ad0.png

圖1: Sparrow測試樣例

2 Sparrow

整個流程是通過Sparrow模型根據(jù)當(dāng)前對話生成多個候選回復(fù),讓用戶去判斷那個回復(fù)最好,哪些回復(fù)違反了預(yù)先設(shè)置好的規(guī)則,基于用戶的反饋去訓(xùn)練對應(yīng)的Reward模型,利用訓(xùn)練好的Reward模型,用強(qiáng)化學(xué)習(xí)算法再去優(yōu)化Sparrow的生成結(jié)果。

95fcf4ec-8508-11ed-bfe3-dac502259ad0.png

圖2:Sparrow框架

Reward

Sparrow學(xué)習(xí)的用戶反饋分為兩種,一種用戶判斷對話是否違背某些預(yù)設(shè)置好的規(guī)則,另一種的是從用戶根據(jù)當(dāng)前對話從個候選答案里選擇最合適的一個。這兩種反饋分為對應(yīng)兩個不同的模型,Rule reward model跟Preference reward model。

對于Rule reward model,首先需要根據(jù)任務(wù)自定義對應(yīng)的一些規(guī)則,例如判斷機(jī)器人是否在回答用戶問題,話題是否變化等等,規(guī)則樣例如下圖所示。在具體訓(xùn)練數(shù)據(jù)構(gòu)造時,用戶在給定對話條件下,還會給某個特定規(guī)則,讓用戶有意識的引導(dǎo)機(jī)器人去違反對應(yīng)的規(guī)則,然后再由用戶評估機(jī)器人回復(fù)是否違反對應(yīng)的規(guī)則。

之所以采用這種方式是為了更高效的積累到高質(zhì)量樣本。用構(gòu)造好的訓(xùn)練數(shù)據(jù)訓(xùn)練對應(yīng)的分類模型,判斷機(jī)器人回復(fù)是否違反對應(yīng)的規(guī)則,每個規(guī)則對應(yīng)一個分類模型,彼此獨立。

9828ca52-8508-11ed-bfe3-dac502259ad0.png

圖3:規(guī)則示例

對于Preference reward model,在給定當(dāng)前對話條件下,利用多種方式生成多個候選答案(通過是否引入知識檢索,不同生成模型,不同prompt,不同采樣策略),讓用戶從中選擇最合適的答案。利用這些構(gòu)造好的數(shù)據(jù)訓(xùn)練可以得到對應(yīng)的分類模型,判斷用戶對于當(dāng)前回復(fù)的傾向。

以下圖為例,共有8個候選答案,其中前四個是不不經(jīng)過知識檢索直接生成的,后面四個是通過兩個不同的檢索query進(jìn)行知識檢索,將得到的檢索結(jié)果跟當(dāng)前對話合并再一起后再生成回復(fù)的。

985333e6-8508-11ed-bfe3-dac502259ad0.png

圖4: 回復(fù)生成流程

Reranking

當(dāng)上述兩個Reward模型給候選答案生成對應(yīng)的得分后,通過一個重排機(jī)制綜合考慮兩者的得分可以進(jìn)一步優(yōu)化對話機(jī)器人的性能。

Evidence

前面提及的答案生成是可以通過知識檢索,根據(jù)當(dāng)前上下文生成對應(yīng)的query,利用Google進(jìn)行搜索,將得到的結(jié)果跟當(dāng)前對話信息組合,然后再生成對應(yīng)的回復(fù)。之前也寫過一些相關(guān)的文章,有興趣可以自行查看文本生成系列之retrieval augmentation(思考篇)。

Reinforcement learning

這里強(qiáng)化學(xué)習(xí)每一步的狀態(tài)是當(dāng)前的對話上下文,action是具體的token,利用前面提及的rule reward model跟preference reward model來給action打出對應(yīng)的reward得分,從而優(yōu)化Sparrow的輸出結(jié)果。在強(qiáng)化學(xué)習(xí)訓(xùn)練過程中,如果機(jī)器人生成的回復(fù)reward超過預(yù)期的話,就會把當(dāng)前對話上下文+機(jī)器人回復(fù)作為新的訓(xùn)練數(shù)據(jù)加入到語料中,擴(kuò)充訓(xùn)練語料庫。

98a86410-8508-11ed-bfe3-dac502259ad0.png

圖5: 強(qiáng)化學(xué)習(xí)流程

3 總結(jié)

個人認(rèn)為,Sparrow對話機(jī)器人,最大的特色在于直接對用戶的反饋進(jìn)行學(xué)習(xí),那樣就不需要為對話各種瑣碎細(xì)節(jié)去設(shè)計不同的模塊跟任務(wù),把決策權(quán)進(jìn)一步交給模型,讓模型自己去學(xué),而對于那些機(jī)器人可能學(xué)不好的地方,通過預(yù)先定義的規(guī)則去構(gòu)造對應(yīng)的訓(xùn)練數(shù)據(jù),讓模型自己去補(bǔ)全。By the way, 可以好好期待一波ChatGPT了。





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    213

    文章

    31120

    瀏覽量

    222422

原文標(biāo)題:對話機(jī)器人之Sparrow

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    AI火爆 對話機(jī)器人將成為App之后的新入口?

    Bot即智能對話機(jī)器人,被業(yè)界定義為后App時代的全新人機(jī)交互方式,譬如蘋果Siri,微軟小冰,小i機(jī)器人虛擬客服等等。例如,目前用戶可以用Siri打開滴滴叫車,這意味著用戶可以直接通過Bots獲取服務(wù),而不需要進(jìn)入App。
    發(fā)表于 10-26 08:54 ?1633次閱讀

    話機(jī)器人顯著提高回款效率,對催收幫助不言而喻。

    據(jù)的方向,電話機(jī)器人最核心的語音識別,機(jī)器人必須在最短時間內(nèi)識別客戶的關(guān)鍵詞,并導(dǎo)入下一級菜單(即作出相應(yīng)的應(yīng)答)。在整個對話當(dāng)中,機(jī)器人女聲禮貌溫和、應(yīng)答自如,完全分辨不出是否人工,
    發(fā)表于 03-16 15:48

    智能打電話,機(jī)器人哪家比較好 如何選擇合適的電銷機(jī)器人

    的智能電銷機(jī)器人不是有身體有四肢那種實體存在的機(jī)器人,而是一套人工智能程序系統(tǒng),所謂的人工智能機(jī)器人都是靠人工智能程序支撐,機(jī)器人只是一個載體而已?!≈悄艽螂?/div>
    發(fā)表于 05-03 13:18

    電銷機(jī)器人的優(yōu)點

    。金融、保險、房地產(chǎn)、汽車等各個行業(yè)不同,大數(shù)訊機(jī)器人所制定的話術(shù)也不盡相同。且大數(shù)訊智能電話機(jī)器人會根據(jù)公司的側(cè)重點及方向來制定話術(shù),使其更有針對性的來跟客戶對話。使用大數(shù)訊智能電話機(jī)器人
    發(fā)表于 06-12 10:27

    話機(jī)器人:電銷行業(yè)精準(zhǔn)篩選客戶的利器

    工作量巨大的工作,不得不說每天有很大一部分時間需要安排在篩選大量意向客戶身上,而挖掘已有客戶的時間少之又少。 一、精準(zhǔn)篩選意向客戶——提高效率智能挑選意向客戶:電話機(jī)器人能夠正常的和客戶交流、挑選意向
    發(fā)表于 08-21 11:27

    華云天下智能電話機(jī)器人有哪些優(yōu)勢?

    的公司。機(jī)器人一樣,只有不斷學(xué)習(xí),才能提高它的識別能力。在有限的話術(shù)配置下,轉(zhuǎn)接人工座席就顯得尤為重要。華云天下電話機(jī)器人就是不一樣!多數(shù)廠商的智能電話機(jī)器人僅有一到兩輪
    發(fā)表于 08-22 14:44

    機(jī)器人簡介

    一.機(jī)器人簡介機(jī)器人(Robot)是自動執(zhí)行工作的機(jī)器裝置。它既可以接受人類指揮,又可以運行預(yù)先編排的程序,也可以根據(jù)以人工智能技術(shù)制定的原則綱領(lǐng)行動。它的任務(wù)是協(xié)助或取代人類工作的
    發(fā)表于 09-07 06:05

    機(jī)器人系統(tǒng)與控制需求簡介

    第二章 機(jī)器人系統(tǒng)與控制需求簡介2.1 工業(yè)機(jī)器人的系統(tǒng)組成機(jī)械本體:精密減速機(jī)、伺服電機(jī)、伺服驅(qū)動器、控制系統(tǒng)(核心零部件)控制柜示教盒2.2 機(jī)器人本體結(jié)構(gòu)與傳動方式
    發(fā)表于 09-08 07:44

    設(shè)計一個能自由行走并且可以與人語音對話機(jī)器人的設(shè)計資料分享

    在我的想象中機(jī)器人首先應(yīng)該能自由的走來走去,然后應(yīng)該能流利的與主人對話。朝著這個理想,我準(zhǔn)備設(shè)計一個能自由行走,并且可以與人語音對話機(jī)器人。實現(xiàn)的關(guān)鍵是讓
    發(fā)表于 12-17 06:58

    話機(jī)器人是什么?電銷機(jī)器人有什么用?有多少電話機(jī)器人品牌?

    代替人類工作的電話機(jī)器人。?  電話機(jī)器人采用了最前沿的深入學(xué)習(xí)技術(shù),先進(jìn)的語音識別(ASR)、口語理解(SLU)、對話管理(DM)、自然語言生成(NLG)、文本生成語音(TTS)五種對話
    發(fā)表于 07-26 19:35 ?2271次閱讀

    檢索式智能對話機(jī)器人開發(fā)實戰(zhàn)案例詳細(xì)資料分析概述

    本文檔的主要內(nèi)容詳細(xì)介紹的是檢索式智能對話機(jī)器人開發(fā)實戰(zhàn)案例詳細(xì)資料分析概述主要內(nèi)容包括了:第一個智能聊天機(jī)器人,人工智能標(biāo)記語言AIML,AIML基礎(chǔ)功能拓展進(jìn)階,AIML框架源碼剖析
    發(fā)表于 08-02 17:47 ?16次下載

    外呼對話機(jī)器人,自動批量外呼、智能人機(jī)對話-漢云

    外呼對話機(jī)器人融合傳統(tǒng)呼叫中心通信技術(shù)、智能AI等計算機(jī)技術(shù),實現(xiàn)自動真人語音外呼,智能人機(jī)對話等場景,其目的是幫助座席高效完成外呼任務(wù),為企業(yè)降低外呼成本,代替輔助人工快速獲客。  隨著國內(nèi)呼叫
    的頭像 發(fā)表于 01-14 09:25 ?4100次閱讀
    外呼<b class='flag-5'>對話機(jī)器人</b>,自動批量外呼、智能人機(jī)<b class='flag-5'>對話</b>-漢云

    對話機(jī)器人的智能程度判斷方法介紹

    有些對話機(jī)器人總讓崩潰,也許是智能級別不夠高。本文,就來一起看看如何判斷一個機(jī)器人的智能程度。 ? 隨著智能對話技術(shù)的發(fā)展,對話機(jī)器人越來
    的頭像 發(fā)表于 01-06 17:50 ?3247次閱讀

    AI應(yīng)用全面爆發(fā) 對話機(jī)器人成熱趨

    近日,艾瑞發(fā)布了題為《2021中國對話機(jī)器人chatbot行業(yè)發(fā)展研究》報告(下文簡稱《報告》)。報告針對對話機(jī)器人的產(chǎn)品流程、發(fā)展歷程、市場規(guī)模及應(yīng)用場景分布進(jìn)行了行業(yè)嵌入式研究分析及梳理,對上
    的頭像 發(fā)表于 10-14 09:55 ?1355次閱讀

    對話機(jī)器人LaMDA

    來自:NLP日志 提綱1 簡介 2 LaMDA 3 總結(jié) 1 簡介 LaMDA是在DeepMind的Sparrow跟openai的instructGPT之前由谷歌提出的對話機(jī)器人,全稱
    的頭像 發(fā)表于 01-04 14:49 ?1909次閱讀