91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

PPTAgent: 大模型驅(qū)動(dòng)的PPT自動(dòng)生成

中科院軟件所中文信息處理實(shí)驗(yàn)室 ? 來(lái)源:中科院軟件所中文信息處 ? 2025-01-21 10:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

論文題目

PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides

論文鏈接

https://arxiv.org/abs/2501.03936

項(xiàng)目倉(cāng)庫(kù)

https://github.com/icip-cas/PPTAgent

演示視頻

在數(shù)字化時(shí)代,演示文稿(PPT)作為信息傳遞的重要媒介,其自動(dòng)化生成需求愈發(fā)迫切。然而,一份優(yōu)秀的演示文稿不僅需要引人入勝的故事線,還需要抓人眼球的視覺(jué)效果和內(nèi)容的有效組織,這對(duì)創(chuàng)作者提出了極高的要求。針對(duì)這一挑戰(zhàn),中國(guó)科學(xué)院軟件研究所中文信息處理實(shí)驗(yàn)室提出了一種突破性的演示文稿自動(dòng)生成框架 PPTAgent。

不同于傳統(tǒng)的端到端生成方法,PPTAgent 借鑒了人類創(chuàng)作 PPT 的過(guò)程,采用基于編輯的工作流程。正如經(jīng)驗(yàn)豐富的演講者往往會(huì)參考優(yōu)秀的演示文稿來(lái)優(yōu)化自己的作品,PPTAgent 也通過(guò)分析和編輯參考演示文稿來(lái)生成新的內(nèi)容。

PPTAgent 設(shè)計(jì)的框架包含兩個(gè)關(guān)鍵階段:首先是“演示文稿分析”階段,系統(tǒng)會(huì)深入分析作為參考的演示文稿,提取每張幻燈片的語(yǔ)義信息。隨后在“演示文稿生成”階段,系統(tǒng)首先會(huì)基于文檔內(nèi)容生成詳細(xì)的演示大綱,并為每張幻燈片分配合適的參考模板及相關(guān)文檔段落。對(duì)于待生成的每張幻燈片,PPTAgent 能夠根據(jù)輸入內(nèi)容自動(dòng)調(diào)整幻燈片參考模板中的文本和視覺(jué)元素,通過(guò)生成的代碼指令來(lái)完成元素的創(chuàng)建、編輯和刪除等操作。通過(guò)這種方式,PPTAgent 不僅確保了生成內(nèi)容的連貫性,還保持了視覺(jué)設(shè)計(jì)的美觀度。

同時(shí),我們還提出了首個(gè)全面的演示文稿評(píng)估框架 PPTEval,從內(nèi)容、設(shè)計(jì)和結(jié)構(gòu)連貫性三個(gè)維度評(píng)估演示文稿的質(zhì)量,為自動(dòng)化生成技術(shù)的改進(jìn)提供了細(xì)粒度的反饋。實(shí)驗(yàn)結(jié)果表明,PPTAgent 能夠生成高質(zhì)量的演示文稿,在 PPTEval 的評(píng)估中取得了 3.67 的平均得分,并在來(lái)自不同領(lǐng)域的實(shí)驗(yàn)數(shù)據(jù)上展現(xiàn)出了 97.8%的任務(wù)成功率。

PPTAgent

ef57fafa-d63c-11ef-9310-92fbcf53809c.png

階段一:演示文稿分析 在這個(gè)階段,PPTAgent 首先對(duì)參考演示文稿進(jìn)行全面分析以提取其中包含的語(yǔ)義信息。具體來(lái)說(shuō):

根據(jù)功能將幻燈片分為兩大類:支持演示結(jié)構(gòu)的幻燈片(如開場(chǎng)頁(yè))和傳遞具體內(nèi)容的幻燈片(如要點(diǎn)頁(yè))。針對(duì)不同類型,PPTAgent 采用基于圖片相似度或大語(yǔ)言模型的方法對(duì)參考演示文稿中的幻燈片進(jìn)行聚類,并利用大語(yǔ)言模型的上下文感知能力對(duì)該頁(yè)的功能進(jìn)行描述。

考慮到現(xiàn)實(shí)世界中幻燈片內(nèi)容的復(fù)雜性和碎片性,我們利用大語(yǔ)言模型進(jìn)一步地提取幻燈片的內(nèi)容模式(schema),包括幻燈片元素的類別、形式和具體內(nèi)容。這些信息為后續(xù)的編輯過(guò)程提供了重要指導(dǎo)。

階段二:演示文稿生成

在生成階段,我們采用了基于編輯的生成范式,具體流程包括:

首先根據(jù)上一階段分析得到的幻燈片語(yǔ)義信息和輸入文檔生成結(jié)構(gòu)化大綱,為新演示文稿中的每張幻燈片指定參考模板和輸入文檔中的相關(guān)內(nèi)容。

基于我們?cè)O(shè)計(jì)的 API 接口,生成可執(zhí)行的代碼指令來(lái)對(duì)幻燈片中的元素進(jìn)行編輯修改。此外,我們還引入了實(shí)時(shí)的錯(cuò)誤反饋機(jī)制,系統(tǒng)能夠根據(jù)執(zhí)行過(guò)程中的錯(cuò)誤反饋進(jìn)行自我糾正,顯著提高了生成的穩(wěn)定性。

PPTEval:基于 LLM-as-a-Judge 范式的幻燈片質(zhì)量評(píng)估

此外,為了能夠有效和全面地評(píng)估生成幻燈片的質(zhì)量,我們還開發(fā)了 PPTEval 評(píng)估框架,利用大語(yǔ)言模型來(lái)從三個(gè)維度對(duì)演示文稿進(jìn)行全面評(píng)估:

內(nèi)容(Content):評(píng)估幻燈片中文本和圖像的相關(guān)度、文本內(nèi)容信息量和質(zhì)量,確保傳達(dá)的信息簡(jiǎn)潔、準(zhǔn)確且具備實(shí)用性。

設(shè)計(jì)(Design):關(guān)注幻燈片的色彩搭配、視覺(jué)元素的使用和整體設(shè)計(jì)的專業(yè)性,確保視覺(jué)呈現(xiàn)和內(nèi)容相輔相成。

連貫性(Coherence):評(píng)估幻燈片的邏輯結(jié)構(gòu)和上下文信息的完整性,確保內(nèi)容流暢且符合邏輯,觀眾易于理解。

ef81e6d0-d63c-11ef-9310-92fbcf53809c.png

實(shí)驗(yàn)

數(shù)據(jù)集

為了全面評(píng)估 PPTAgent 的性能,我們首先構(gòu)建了一個(gè)包含 10,448 份多領(lǐng)域演示文稿的數(shù)據(jù)集 Zenodo10K,這也是目前已知最大的幻燈片數(shù)據(jù)集。在此基礎(chǔ)上,我們?cè)谌齻€(gè)常用的大語(yǔ)言模型:GPT-4o、Qwen2.5-72B(Qwen2.5)和 Qwen2-VL-72B(Qwen2-VL)上進(jìn)行了實(shí)驗(yàn)。

efa3476c-d63c-11ef-9310-92fbcf53809c.png

實(shí)驗(yàn)結(jié)果

超高的生成成功率:PPTAgent 展現(xiàn)出卓越的魯棒性,使用 GPT-4o 或 Qwen2.5+Qwen2-VL 組合時(shí),均實(shí)現(xiàn)了超過(guò) 95%的生成成功率。這一成績(jī)遠(yuǎn)超此前模板編輯任務(wù)僅有 10%的成功率。

全方位的質(zhì)量提升:與基線方法相比,PPTAgent 在幻燈片的各個(gè)維度都取得了顯著進(jìn)步:

設(shè)計(jì)維度得分提升 40%(3.24 vs 2.33)

連貫性維度提升 34%(4.39 vs 3.28)

內(nèi)容質(zhì)量提升 9%(3.25 vs 2.98)

開源模型的出色表現(xiàn):值得一提的是,Qwen2.5 與 Qwen2-VL 的組合有效地克服了 Qwen2-VL 在語(yǔ)言處理方面的局限性,其整體表現(xiàn)也達(dá)到了與 GPT-4o 相當(dāng)?shù)乃剑宫F(xiàn)了開源大模型在專業(yè)領(lǐng)域的應(yīng)用潛力。

efbb1cac-d63c-11ef-9310-92fbcf53809c.png

評(píng)估結(jié)果的可靠性驗(yàn)證:為確保評(píng)估結(jié)果的可靠性,我們將 PPTEval 的評(píng)估結(jié)果與人工評(píng)估進(jìn)行了一致性分析。分析結(jié)果表明,PPTEval 在三個(gè)維度上的平均皮爾遜相關(guān)系數(shù)為 0.71,顯示其能夠有效地代替人類評(píng)估幻燈片的質(zhì)量。

總結(jié)

通過(guò)這項(xiàng)研究,我們將演示文稿的自動(dòng)生成重新定義為一個(gè)基于編輯的兩階段任務(wù)。PPTAgent 充分利用了大語(yǔ)言模型對(duì)代碼的理解和生成能力,通過(guò)分析參考演示文稿的文本特征和布局模式,有效地組織和生成新的演示文稿。在多個(gè)領(lǐng)域的實(shí)驗(yàn)驗(yàn)證中,PPTAgent 都能夠魯棒地生成高質(zhì)量幻燈片。同時(shí),我們提出的 PPTEval 評(píng)估框架為演示文稿生成任務(wù)提供了可靠的評(píng)估手段,為該領(lǐng)域的未來(lái)發(fā)展奠定了重要基礎(chǔ)。 這項(xiàng)技術(shù)有望開創(chuàng)一種全新的無(wú)監(jiān)督演示文稿生成范式,為未來(lái)研究提供了新的思路。通過(guò)這項(xiàng)技術(shù),我們期待能夠幫助更多人高效地創(chuàng)作專業(yè)的演示文稿,讓信息傳遞變得更加便捷。最后,通過(guò)開源的 PPTAgent、PPTEval 和大規(guī)?;脽羝瑪?shù)據(jù)集 Zenodo10K,我們希望能夠推動(dòng)整個(gè)領(lǐng)域的發(fā)展,激發(fā)更多創(chuàng)新性的研究成果。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • ppt
    ppt
    +關(guān)注

    關(guān)注

    1

    文章

    48

    瀏覽量

    18230
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3653

    瀏覽量

    5195

原文標(biāo)題:PPTAgent: 大模型驅(qū)動(dòng)的PPT自動(dòng)生成,解放打工人

文章出處:【微信號(hào):gh_e5b9d8c5c1d4,微信公眾號(hào):中科院軟件所中文信息處理實(shí)驗(yàn)室】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何構(gòu)建適合自動(dòng)駕駛的世界模型

    [首發(fā)于智駕最前沿微信公眾號(hào)]世界模型經(jīng)歷了系統(tǒng)動(dòng)力學(xué)階段(1960年~2000年)、認(rèn)知科學(xué)階段(2001年~2017年)、深度學(xué)習(xí)階段(2018年至今),但將其應(yīng)用到自動(dòng)駕駛汽車上,還是近幾年才
    的頭像 發(fā)表于 02-18 08:14 ?1.1w次閱讀
    如何構(gòu)建適合<b class='flag-5'>自動(dòng)</b>駕駛的世界<b class='flag-5'>模型</b>?

    生成式AI浪潮如何驅(qū)動(dòng)車載通信模組升級(jí)

    隨著生成式AI浪潮席卷全球,人們對(duì)實(shí)時(shí)算力和海量數(shù)據(jù)的需求從未如此迫切。想象一下,一輛智能汽車不僅能流暢地執(zhí)行自動(dòng)駕駛?cè)蝿?wù),還能在行駛中將TB級(jí)傳感器數(shù)據(jù)高效回傳至云端,用以即時(shí)優(yōu)化AI模型;同時(shí),即使深入無(wú)信號(hào)的偏遠(yuǎn)山區(qū),它依
    的頭像 發(fā)表于 01-06 10:15 ?336次閱讀
    <b class='flag-5'>生成</b>式AI浪潮如何<b class='flag-5'>驅(qū)動(dòng)</b>車載通信模組升級(jí)

    模型支撐后勤保障方案生成系統(tǒng)軟件平臺(tái)

    ? ? 北京五木恒潤(rùn)大模型支撐的后勤保障方案生成平臺(tái)系統(tǒng)軟件,依托人工智能大模型技術(shù),融合后勤保障領(lǐng)域?qū)I(yè)知識(shí)與實(shí)際需求,可自動(dòng)生成高效、精
    的頭像 發(fā)表于 12-17 16:51 ?495次閱讀

    模型支撐后勤保障方案生成系統(tǒng):功能特點(diǎn)與平臺(tái)架構(gòu)解析

    ? ? 大模型支撐后勤保障方案生成系統(tǒng):功能特點(diǎn)與平臺(tái)架構(gòu)解析 ? ?大模型支撐后勤保障方案生成系統(tǒng)憑借智能預(yù)測(cè)、動(dòng)態(tài)調(diào)度、路徑優(yōu)化、庫(kù)存管理及可視化展示等核心能力,為后勤保障方案
    的頭像 發(fā)表于 12-17 15:49 ?329次閱讀

    五大大模型支撐后勤保障方案生成系統(tǒng)軟件的應(yīng)用與未來(lái)發(fā)展

    ? ? 在后勤保障領(lǐng)域,五大以大模型或智能技術(shù)為核心支撐的系統(tǒng)方案顯著提升了保障的智能化與效率,包括:北京華盛恒輝與五木恒潤(rùn)的大模型驅(qū)動(dòng)方案生成系統(tǒng)、英國(guó)HUMS健康與使用監(jiān)控系統(tǒng)、以
    的頭像 發(fā)表于 12-17 15:24 ?308次閱讀

    世界模型是讓自動(dòng)駕駛汽車?yán)斫馐澜邕€是預(yù)測(cè)未來(lái)?

    ? [首發(fā)于智駕最前沿微信公眾號(hào)]世界模型自動(dòng)駕駛技術(shù)中已有廣泛應(yīng)用。但當(dāng)談及它對(duì)自動(dòng)駕駛的作用時(shí),難免會(huì)出現(xiàn)分歧。它到底是讓自動(dòng)駕駛汽車得以理解世界,還是為其提供了預(yù)測(cè)未來(lái)的視角?
    的頭像 發(fā)表于 12-16 09:27 ?884次閱讀
    世界<b class='flag-5'>模型</b>是讓<b class='flag-5'>自動(dòng)</b>駕駛汽車?yán)斫馐澜邕€是預(yù)測(cè)未來(lái)?

    pdf轉(zhuǎn)換ppt怎么轉(zhuǎn)換

    df轉(zhuǎn)換ppt怎么轉(zhuǎn)換 ? 將 pdf 轉(zhuǎn)為 ppt 是常見需求,選擇合適工具可以省時(shí)省力,我會(huì)介紹在線服務(wù)、桌面軟件和手動(dòng)方法,目標(biāo)是盡量保留文字圖片和排版,生成可編輯的 ppt
    的頭像 發(fā)表于 11-22 09:19 ?880次閱讀

    不只有AI協(xié)作編程(Vibe Coding):生成式系統(tǒng)級(jí)芯片(GenSoC)將如何把生成式設(shè)計(jì)推向硬件層面

    但是否能將這種生成式的、目標(biāo)驅(qū)動(dòng)的方法從軟件層向下延伸呢?這一理念是否可以直接應(yīng)用于硬件本身呢?通過(guò)GenSoC,開發(fā)者可用自然語(yǔ)言或高級(jí)模型描述系統(tǒng)行為,XMOS的工具鏈將自動(dòng)
    的頭像 發(fā)表于 11-07 14:04 ?544次閱讀

    VLA和世界模型,誰(shuí)才是自動(dòng)駕駛的最優(yōu)解?

    Model)路線,這兩種路徑都為自動(dòng)駕駛快速落地提供了可能,那誰(shuí)才是最優(yōu)解? 什么是VLA模型? VLA模型,即視覺(jué)—語(yǔ)言—行動(dòng)模型,是將視覺(jué)感知、語(yǔ)言理解和動(dòng)作
    的頭像 發(fā)表于 11-05 08:55 ?793次閱讀
    VLA和世界<b class='flag-5'>模型</b>,誰(shuí)才是<b class='flag-5'>自動(dòng)</b>駕駛的最優(yōu)解?

    真正免費(fèi)的AI生成PPT工具盤點(diǎn):告別收費(fèi)陷阱

    "PPT做得好,升職加薪早",但每次打開某知名辦公軟件看到"VIP專屬"的提示,是不是瞬間覺(jué)得錢包被掏空?別慌!今天我們就來(lái)扒一扒那些真正免費(fèi)的AI生成PPT神器,其中AiPPT更是堪稱"卷王中
    的頭像 發(fā)表于 10-30 15:43 ?6576次閱讀
    真正免費(fèi)的AI<b class='flag-5'>生成</b><b class='flag-5'>PPT</b>工具盤點(diǎn):告別收費(fèi)陷阱

    如何讓大模型生成你想要的測(cè)試用例?

    應(yīng)用大模型生成測(cè)試用例,常見的知識(shí)庫(kù),測(cè)試大模型,微調(diào),RAG等技術(shù)門檻都不低,甚至很難,因此對(duì)于應(yīng)用者而言,最快的方式就是應(yīng)用好提示詞,調(diào)教屬于個(gè)人風(fēng)格的測(cè)試用例智能生成模塊,讓智能
    的頭像 發(fā)表于 09-26 10:01 ?957次閱讀
    如何讓大<b class='flag-5'>模型</b><b class='flag-5'>生成</b>你想要的測(cè)試用例?

    小紅書:通過(guò)商品標(biāo)簽API自動(dòng)生成內(nèi)容標(biāo)簽,優(yōu)化社區(qū)推薦算法

    ? ?小紅書作為領(lǐng)先的社交電商平臺(tái),用戶生成內(nèi)容(UGC)是其核心驅(qū)動(dòng)力。隨著商品數(shù)量和用戶互動(dòng)激增,傳統(tǒng)推薦算法面臨效率瓶頸。本文探討小紅書如何利用商品標(biāo)簽API自動(dòng)生成內(nèi)容標(biāo)簽,顯
    的頭像 發(fā)表于 09-10 16:46 ?1018次閱讀
    小紅書:通過(guò)商品標(biāo)簽API<b class='flag-5'>自動(dòng)</b><b class='flag-5'>生成</b>內(nèi)容標(biāo)簽,優(yōu)化社區(qū)推薦算法

    生成式 AI 重塑自動(dòng)駕駛仿真:4D 場(chǎng)景生成技術(shù)的突破與實(shí)踐

    生成式AI驅(qū)動(dòng)的4D場(chǎng)景技術(shù)正解決傳統(tǒng)方法效率低、覆蓋不足等痛點(diǎn),如何通過(guò)NeRF、3D高斯?jié)姙R等技術(shù)實(shí)現(xiàn)高保真動(dòng)態(tài)建模?高效生成極端天氣等長(zhǎng)尾場(chǎng)景?本文為您系統(tǒng)梳理AI驅(qū)動(dòng)的4D場(chǎng)景
    的頭像 發(fā)表于 08-06 11:20 ?5173次閱讀
    <b class='flag-5'>生成</b>式 AI 重塑<b class='flag-5'>自動(dòng)</b>駕駛仿真:4D 場(chǎng)景<b class='flag-5'>生成</b>技術(shù)的突破與實(shí)踐

    谷歌新一代生成式AI媒體模型登陸Vertex AI平臺(tái)

    我們?cè)?Vertex AI 上推出新一代生成式 AI 媒體模型: Imagen 4、Veo 3 和 Lyria 2。
    的頭像 發(fā)表于 06-18 09:56 ?1106次閱讀

    Gemini API集成Google圖像生成模型Imagen 3

    開發(fā)者現(xiàn)在可以通過(guò) Gemini API 訪問(wèn) Google 最先進(jìn)的圖像生成模型 Imagen 3。該模型最初僅對(duì)付費(fèi)用戶開放,不久后也將面向免費(fèi)用戶推出。
    的頭像 發(fā)表于 05-14 16:53 ?1280次閱讀