91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于部分可觀察馬爾可夫決策過程思考自然語言處理和強化學習問題的一些想法

zhKF_jqr_AI ? 來源:李倩 ? 2018-11-30 08:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【編者按】Microsoft Semantic Machines資深研究科學家、UC Berkeley計算機科學博士Jacob Andreas討論了基于部分可觀察馬爾可夫決策過程思考自然語言處理和強化學習問題的一些想法。

AI研究應該操心話語含義的明確表示嗎?我這里說的“含義的明確表示”指具備預定義的解釋的結構化變量——語義學家關心的那類事情。長期以來,這樣的含義表示一直是將語義與其他任務連接起來的成功努力的中心,這些任務涉及推理、感知、行動(從SHRDLU到現(xiàn)代語義解析器)。另外,長期以來,結構化的含義表示同時也是一些不成功的工作的中心,這些工作包括機器翻譯、句法等。這種表示使用了許多不同的表示形式化系統(tǒng)——新戴維森邏輯形式(AZ13),組合子邏輯(LJK11),其他非邏輯結構(TK+11)——不過,從某種角度上來說,它們基本上都屬于基于預測-論據(jù)結構實現(xiàn)的模型-理論語義,也許預言主體有幾個自由變量。

這類方法看起來正在消失?,F(xiàn)在所有一切都是端到端的,接受手工設計的邏輯語言的值,帶有這樣的顯式潛變量的模型非常罕見。話語傳入模型,模型產生行為,我們并不怎么操心中間進行的運算的結構。從某種標準上來說,這是一件好事:在更形式化的方法中,機器學習和表示的緊密耦合意味著,數(shù)據(jù)中出現(xiàn)新的語義現(xiàn)象導致模型突然變得無用的風險始終存在。足夠一般的學習表示的機制(非邏輯)讓這一風險不那么可怕了。當然,在舊模型中毫不費力就能得到的一些特定種類的概括和歸納偏置,我們尚未完全搞清楚如何重建。不過,結構化正則器(OS+17)和我們的NMN工作(AR+16)這樣的混合方法的成功,暗示我們將逐漸達到這一步。

但是端到端世界的態(tài)度看起來是,既然我們不再進行邏輯推理,那么我們完全沒有必要考慮含義。突然之間,所有人都喜歡稱引維特根斯坦,主張我們應該以下游任務的成功來評估“語言理解”,而不是通過預測正確的邏輯形式(WLM16、GM16、LPB16)——這很棒!——但是這背后似乎有這么一種哲學:“含義即使用,所以如果我們能以很高的精確度預測使用,那么我們就已經理解了我們需要理解的關于含義的一切”。特別是考慮到我們實際上并沒有解決“使用”,我認為機器學習在等式的含義這邊有很多需要學、需要說的。而且我從不認為這是維特根斯坦《哲學研究》中的主張——就算使用(而不是指代)是我們應該嘗試解釋的主要內容,《哲學研究》則對依據(jù)哪種語言使用是可能的判斷~~心智表示~~過程表示特別感興趣。

本文的主張是,p(世界狀態(tài)|話語)形式的信念狀態(tài)的明確表示,適合作為“非結構”機器學習模型的含義表示。這類表示很自然地源于社區(qū)最近熱衷的決策任務,但也和語言學的經典表示理論很像。這一綜合暗示了同時訓練和解釋語言處理模型的道路。

信念狀態(tài)和內涵

考慮這樣一個問題,在部分觀察的世界中,通過和人們交談降低不確定性,決定如何行動。你應該如何選擇應該采取的最佳行動?給定單一話語w,可能真實的世界狀態(tài)x,就某風險函數(shù)R而言,最小化貝葉斯風險的行動為:

任何希望在這個世界成功的聽話人需要至少成功地逼近這一優(yōu)化問題的解,在實踐中,聽話人大概需要表示分布p(x|w),至少隱式地表示。在POMDP中,我們稱p(x|w)為信念狀態(tài);對一給定w而言,這是一個映射可能世界x至變量可信度判斷的函數(shù)——給定我們觀察到某人說了w這一事實,x是真實世界的可能性有多大?

和蒙塔古語義學中的內涵概念對比一下:“映射可能世界和時刻至真值的函數(shù)”(J11)。大多數(shù)(模型-理論)語義程序使用邏輯表達式(而不是表格)表示內涵。但邏輯形式只不過是表達類型正確的函數(shù)的一種方式;在蒙塔古傳統(tǒng)下,“含義的明確表示”正是內涵——類似p(x|w)的離散版。

信念狀態(tài)是包含概率的內涵。含義的內涵表示很有用,不僅是因為它們有助于解決語言學問題,還因為它們逼近一個量,我們知道,這個量有助于語言使用者利用從語言中獲取的信息進行有用之事。另一方面,POMDP告訴我們,我們需要在聽到話語后進行的計算,差不多是語言學家至始自終告訴我們需要計算的東西。或者,幾乎就是語言學習家已經告訴我們的東西——比起回答p(x|w)請求的黑箱,如果是帶一點結構的東西就更好了,也許是某種分解表示,讓我們可以通過檢查所有可信世界共有的一組屬性高效地找出MBR行動。也許是關于個體的斷言、他們的性質、他們之間的關系……等的乘積。要是邏輯語義學不存在的話,我們將不得不發(fā)明它。

準確地說,作為“含義”的p(x|w)應該理解為聽話人含義:已經計入格萊斯說話人含義類型效應(寓意)以及說話人也許不想讓聽話人進行的進一步推理(例如,w是謊言的概率)的精確信念狀態(tài)。我們這里不在乎p(x|w)來自何處,所以也許可以通過RSA之類的技術計算(使用不同的內嵌句含義概念)(FG12)。

最后一項調整:現(xiàn)實世界聽話人并不從白板開始:所有話語都基于現(xiàn)存信念狀態(tài)p(x)的上下文進行解讀,與其將句子的含義直接視作p(x|w),不如將其視作一個更新函數(shù)p(x) ? p(x∣w)。就“Pat loves Lou”這樣的句子而言,我想這一更新基本上一直是連續(xù)的;即p(x) ? (1/Z)?p(x)?p(x∣w). 但要處理指示詞和Quine問題中bachelor的含義(譯者注:bachelor既可以指學士,也可以指單身漢),我們需要更新函數(shù)的一般版本。

實際影響

這些都很好,不過我們注意到明確指稱含義表示(邏輯、概率或其他形式)并沒有在實踐中表現(xiàn)良好的那些模型中得到應用。所以這有什么可在意的?

語言理解系統(tǒng)要想工作良好,必定選擇了類似最小貝葉斯風險的行動。奧妙在于:深度網絡的后綴是一個通過固定回路轉換輸入表示至輸出行動的函數(shù);如果這個后綴可以為每個輸入表示選擇良好的行動,那么它實際上實現(xiàn)了類似MBR解碼算法的東西(盡管也許只是逼近,同時在表示的經驗分布上特化);呈現(xiàn)給這一部分網絡的語言上下文表示必須足以解決優(yōu)化問題,所以會是類似p(x|w)表示的東西。

這不是一個很好的論據(jù):模型的“句子表示”和“優(yōu)化”部分之間可能實際上沒有明顯的界限。但在實踐中,我們確實看到了含義類的句子表示出現(xiàn)(特別是在句子表示獨立于聽話人具備的關于世界狀態(tài)的初始信息計算的模型中(DP+18))。當在較大規(guī)模網絡中使用專門化的優(yōu)化模塊時(TW+17、LFK18),我們可以很明確地看到兩者的差別。

在任何情形下,我們模型的某種中間表示解碼(或應該能解碼)知識為世界狀態(tài)分布,并為我們提供了兩種工具:

可解釋性:通過估計p(x|rep(w))可以測試表示是否捕捉了正確的語義(或者識別表示捕捉了什么奇異的不規(guī)則性),其中rep(w)是模型學習到的話語w的表示。判斷這是否對應于w的真實(即人類聽話人的)指稱。我們發(fā)表的一些論文(ADK17、AK17)在這一技術上取得了一些進展。我們組的其他一些學生使用這一技術分析遵循指令的模型的預訓練方案。不過,某種程度上,應用這一技術學習自然語言自身的表示要比應用于學習到的消息/抽象行動的空間更加自然。

輔助目標:指令遵循/QA問題的一般目標是p(行動|話語, 聽話人觀測)。不過,如果碰到了過擬合問題,在說話人觀測可用的情況下,可以直接加上一項p(說話人觀測, 聽話人觀測|話語)。對某些問題而言(例如GeoQuery類的語義解析),在“說話人觀測”和“行動”之間不存在有意義的差別;對另一些問題而言,這看起來像是完全不同的學習問題。在指代表達任務中,指稱輔助問題是“生成/獲取圖像對,在這一對對圖像之間,這將是不同的描述”;在指令遵循模型中,它是“生成目標狀態(tài)(但未必是能讓我到達那里的行動)”。

結語

在語言任務中思考POMDP風格的解答,我們得到了疑似模型-理論語義學中的含義的描述。這一類比提供了解釋學習到的模型的工具,并暗示了提升模型精確度的輔助目標。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 強化學習
    +關注

    關注

    4

    文章

    272

    瀏覽量

    11986
  • 自然語言處理

    關注

    1

    文章

    630

    瀏覽量

    14694

原文標題:AI研究應該關注語含義的明確表示嗎?

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    自動駕駛中常提的離線強化學習是什么?

    ,圖片源自:網絡 但強化學習本身是需要不斷試錯的,如果采用這種學習方式在真實道路中不斷嘗試,定會導致不可控的事故。于是就有人提出種猜測,能不能利用已經存在的大量行駛日志、仿真記錄和
    的頭像 發(fā)表于 02-07 09:21 ?277次閱讀
    自動駕駛中常提的離線<b class='flag-5'>強化學習</b>是什么?

    強化學習會讓自動駕駛模型學習更快嗎?

    種讓機器通過“試錯”學會決策的辦法。與監(jiān)督學習不同,監(jiān)督學習是有人提供示范答案,讓模型去模仿;而強化學習不會把每
    的頭像 發(fā)表于 01-31 09:34 ?737次閱讀
    <b class='flag-5'>強化學習</b>會讓自動駕駛模型<b class='flag-5'>學習</b>更快嗎?

    自然語言處理NLP的概念和工作原理

    自然語言處理 (NLP) 是人工智能 (AI) 的個分支,它會教計算機如何理解口頭和書面形式的人類語言。自然語言
    的頭像 發(fā)表于 01-29 14:01 ?498次閱讀
    <b class='flag-5'>自然語言</b><b class='flag-5'>處理</b>NLP的概念和工作原理

    多智能體強化學習(MARL)核心概念與算法概覽

    訓練單個RL智能體的過程非常簡單,那么我們現(xiàn)在換個場景,同時訓練五個智能體,而且每個都有自己的目標、只能看到部分信息,還能互相幫忙。這就是多智能體強化學習
    的頭像 發(fā)表于 01-21 16:21 ?248次閱讀
    多智能體<b class='flag-5'>強化學習</b>(MARL)核心概念與算法概覽

    【「龍芯之光 自主可控處理器設計解析」閱讀體驗】+測試性設計章節(jié)閱讀與自己的一些感想

    作為嵌入式底層開發(fā),對第四章測試性的內容比較感興趣,因為嵌入式底層開發(fā)如何測試是個很重要的內容,一些芯片的測試性設計做得很好,就更方便調試與查找問題有開發(fā)。 所以就來閱讀下本章,
    發(fā)表于 01-15 23:30

    云知聲論文入選自然語言處理頂會EMNLP 2025

    近日,自然語言處理(NLP)領域國際權威會議 ——2025 年計算語言學與自然語言處理國際會議(EMNLP 2025)公布論文錄用結果,云知
    的頭像 發(fā)表于 11-10 17:30 ?867次閱讀
    云知聲論文入選<b class='flag-5'>自然語言</b><b class='flag-5'>處理</b>頂會EMNLP 2025

    今日看點:智元推出真機強化學習;美國軟件公司SAS退出中國市場

    智元推出真機強化學習,機器人訓練周期從“數(shù)周”減至“數(shù)十分鐘” ? 近日,智元機器人宣布其研發(fā)的真機強化學習技術,已在與龍旗科技合作的驗證產線中成功落地。據(jù)介紹,此次落地的真機強化學習方案,機器人
    發(fā)表于 11-05 09:44 ?1126次閱讀

    自動駕駛中常提的“強化學習”是個啥?

    下,就是個智能體在環(huán)境里行動,它能觀察到環(huán)境的一些信息,并做出個動作,然后環(huán)境會給出個反饋(獎勵或懲罰),智能體的目標是把長期得到的獎
    的頭像 發(fā)表于 10-23 09:00 ?771次閱讀
    自動駕駛中常提的“<b class='flag-5'>強化學習</b>”是個啥?

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的科學應用

    靈感的過程中發(fā)揮關鍵作用。五、用AI實現(xiàn)諾貝爾獎級別的科學發(fā)現(xiàn) 這想法這能夠大膽的。 1、AI科學家的構建 全自主科學實驗室需要哪些部分: ①自動實驗設備 ②流程管理系統(tǒng) ③數(shù)據(jù)處理
    發(fā)表于 09-17 11:45

    HarmonyOSAI編程自然語言代碼生成

    安裝CodeGenie后,在下方對話框內,輸入代碼需求描述,將根據(jù)描述智能生成代碼,生成內容鍵復制或鍵插入至編輯區(qū)當前光標位置。 提問示例 使用ArkTs語言
    發(fā)表于 09-05 16:58

    【HZ-T536開發(fā)板免費體驗】5- 無需死記 Linux 命令!用 CangjieMagic 在 HZ-T536 開發(fā)板上搭建 MCP 服務器,自然語言輕松控板

    GPIO 等),并返回結果。 Cangjie Magic 角色 :構建MCP服務器,同時提供自然語言理解能力,將用戶輸入的文本(如 “查看開發(fā)板 IP 地址”“點亮 LED1”)轉換為機器識別的指令(如
    發(fā)表于 08-23 13:10

    思必馳與上海交大聯(lián)合實驗室兩篇論文入選ICML 2025

    會議。會議涵蓋了機器學習的各個前沿方向,包括但不限于深度學習強化學習、自然語言處理、計算機視覺、貝葉斯方法及優(yōu)化算法等。
    的頭像 發(fā)表于 06-16 09:23 ?1557次閱讀
    思必馳與上海交大聯(lián)合實驗室兩篇論文入選ICML 2025

    【書籍評測活動NO.62】本書讀懂 DeepSeek 全家桶核心技術:DeepSeek 核心技術揭秘

    時的基本禮儀和清晰度; 第二次是在強化學習之后 ,收集在訓練中表現(xiàn)優(yōu)秀的解題示例,再混合一些人工整理的題目,重新訓練模型。通過這樣的流程,DeepSeek-R1 就像個經歷了自學、糾錯、再
    發(fā)表于 06-09 14:38

    18個常用的強化學習算法整理:從基礎方法到高級模型的理論技術與代碼實現(xiàn)

    本來轉自:DeepHubIMBA本文系統(tǒng)講解從基本強化學習方法到高級技術(如PPO、A3C、PlaNet等)的實現(xiàn)原理與編碼過程,旨在通過理論結合代碼的方式,構建對強化學習算法的全面理解。為確保內容
    的頭像 發(fā)表于 04-23 13:22 ?1687次閱讀
    18個常用的<b class='flag-5'>強化學習</b>算法整理:從基礎方法到高級模型的理論技術與代碼實現(xiàn)

    自然語言提示原型在英特爾Vision大會上首次亮相

    在英特爾Vision大會上,Network Optix首次展示了自然語言提示原型,該方案將重新定義視頻管理,為各行各業(yè)由AI驅動的洞察和效率提速。
    的頭像 發(fā)表于 04-09 09:30 ?1027次閱讀