国产一区二区精品久久91,蜜乳av无码91人人上,亚洲香蕉成人在线

1. 1800億參數(shù)，世界頂級(jí)開源大模型Falcon官宣！碾壓LLaMA 2，性能直逼GPT-4

原文：https://mp.weixin.qq.com/s/B3KycAYJ2bLWctvoWOAxHQ

一夜之間，世界最強(qiáng)開源大模型Falcon 180B引爆全網(wǎng)！

1800億參數(shù)，F(xiàn)alcon在3.5萬(wàn)億token完成訓(xùn)練，直接登頂Hugging Face排行榜。

基準(zhǔn)測(cè)試中，F(xiàn)alcon 180B在推理、編碼、熟練度和知識(shí)測(cè)試各種任務(wù)中，一舉擊敗Llama 2。

甚至，F(xiàn)alcon 180B能夠與谷歌PaLM 2不差上下，性能直逼GPT-4。不過(guò)，英偉達(dá)高級(jí)科學(xué)家Jim Fan對(duì)此表示質(zhì)疑，- Falcon-180B的訓(xùn)練數(shù)據(jù)中，代碼只占5%。而代碼是迄今為止對(duì)提高推理能力、掌握工具使用和增強(qiáng)AI智能體最有用的數(shù)據(jù)。事實(shí)上，GPT-3.5是在Codex的基礎(chǔ)上進(jìn)行微調(diào)的。- 沒(méi)有編碼基準(zhǔn)數(shù)據(jù)。沒(méi)有代碼能力，就不能聲稱「優(yōu)于GPT-3.5」或「接近GPT-4」。它本應(yīng)是預(yù)訓(xùn)練配方中不可或缺的一部分，而不是事后的微調(diào)。- 對(duì)于參數(shù)大于30B的語(yǔ)言模型，是時(shí)候采用混合專家系統(tǒng)（MoE）了。到目前為止，我們只看到OSS MoE LLM < 10B。

一起來(lái)看看，F(xiàn)alcon 180B究竟是什么來(lái)頭？世界最強(qiáng)開源大模型此前，F(xiàn)alcon已經(jīng)推出了三種模型大小，分別是1.3B、7.5B、40B。官方介紹，F(xiàn)alcon 180B是40B的升級(jí)版本，由阿布扎比的全球領(lǐng)先技術(shù)研究中心 TII推出，可免費(fèi)商用。

這次，研究人員在基底模型上技術(shù)上進(jìn)行了創(chuàng)新，比如利用Multi-Query Attention等來(lái)提高模型的可擴(kuò)展性。對(duì)于訓(xùn)練過(guò)程，F(xiàn)alcon 180B基于亞馬遜云機(jī)器學(xué)習(xí)平臺(tái)Amazon SageMaker，在多達(dá)4096個(gè)GPU上完成了對(duì)3.5萬(wàn)億token的訓(xùn)練?？侴PU計(jì)算時(shí)，大約7,000,000個(gè)。Falcon 180B的參數(shù)規(guī)模是Llama 2（70B）的2.5倍，而訓(xùn)練所需的計(jì)算量是Llama 2的4倍。具體訓(xùn)練數(shù)據(jù)中，F(xiàn)alcon 180B主要是RefinedWe數(shù)據(jù)集（大約占85%）。此外，它還在對(duì)話、技術(shù)論文，以及一小部分代碼等經(jīng)過(guò)整理的混合數(shù)據(jù)的基礎(chǔ)上進(jìn)行了訓(xùn)練。這個(gè)預(yù)訓(xùn)練數(shù)據(jù)集足夠大，即使是3.5萬(wàn)億個(gè)token也只占不到一個(gè)epoch。官方自稱，F(xiàn)alcon 180B是當(dāng)前「最好」的開源大模型，具體表現(xiàn)如下：在MMLU基準(zhǔn)上，F(xiàn)alcon 180B的性能超過(guò)了Llama 2 70B和GPT-3.5。在HellaSwag、LAMBADA、WebQuestions、Winogrande、PIQA、ARC、BoolQ、CB、COPA、RTE、WiC、WSC 及ReCoRD上，與谷歌的PaLM 2-Large不相上下。另外，它在Hugging Face開源大模型榜單上，是當(dāng)前評(píng)分最高（68.74分）的開放式大模型，超越了LlaMA 2（67.35）。

2. Meta的Flamera頭顯對(duì)增強(qiáng)現(xiàn)實(shí)有了新的愿景

原文：https://mp.weixin.qq.com/s/UepWwW7D03_jISTsSmjwnA

Meta的最新原型頭顯Flamera像是直接從科幻動(dòng)作片中來(lái)的一樣，它在Siggraph 2023上引起了人們的注意 —— Flamera在那里獲得了令人垂涎的Best in Show獎(jiǎng)。據(jù)悉，F(xiàn)lamera原型頭顯展示了接近人眼分辨率和全新的"透視"真實(shí)世界的技術(shù)。該原型或許為VR、MR和AR的未來(lái)鋪平了道路。頭顯原型展示的技術(shù)突破引發(fā)了人們的興趣和關(guān)注。Moor Insights&Strategy副總裁兼首席分析師Ansel Sag表示：“這絕對(duì)是我見過(guò)的質(zhì)量最好的（增強(qiáng)現(xiàn)實(shí)）實(shí)現(xiàn)透視真實(shí)世界的全新方法。”

Giving Reality the Bug Eye出于顯而易見的原因，在物理上不可能將頭顯的攝像頭與用戶的眼睛完全放置在同一位置。這種位移導(dǎo)致了我（作者，以下簡(jiǎn)稱我）個(gè)人經(jīng)歷的視角的轉(zhuǎn)變：我在使用AR/VR頭顯時(shí)撞到了墻上，或者被被椅子絆倒了。像Meta Quest Pro這樣的尖端頭顯，通過(guò)從正確的角度重新投射周圍環(huán)境的視圖，跨越了這一障礙，但解決方案可能會(huì)導(dǎo)致視覺(jué)失真。Meta的蟲眼Flamera提出了一個(gè)新穎的解決方案。它摒棄了當(dāng)前頭顯青睞的外部攝像頭陣列，采用了獨(dú)特的“光場(chǎng)穿透”設(shè)計(jì)，將圖像傳感器與物理控制到達(dá)傳感器的光的孔徑配對(duì)。會(huì)導(dǎo)致不正確視角的光被阻擋，而提供準(zhǔn)確視角的光則被允許到達(dá)傳感器。當(dāng)直接通過(guò)鏡頭觀看時(shí)，結(jié)果很奇怪：這有點(diǎn)像透過(guò)紙上的洞看世界。頭顯重新排列原始圖像以消除間隙并重新定位傳感器數(shù)據(jù)。一旦這個(gè)過(guò)程完成，耳機(jī)就會(huì)為用戶提供準(zhǔn)確的世界視圖。Sag說(shuō)：“這絕對(duì)是一個(gè)原型，但它的圖像質(zhì)量和分辨率給我留下了深刻印象?！?“幀速率很好，”ModiFace的軟件開發(fā)總監(jiān)Edgar Maucourant也演示了這款頭顯，并對(duì)此印象深刻，“我的眼睛所看到的東西和我的手的位置與我的手真正的位置之間沒(méi)有延遲，也沒(méi)有差異?！?/span>Maucourant認(rèn)為Flamera的準(zhǔn)確性可能會(huì)為用戶直接與周圍世界互動(dòng)的AR應(yīng)用程序帶來(lái)福音?！袄?，如果我們考慮遠(yuǎn)程輔助，人們必須操縱物體，那么今天它是用HoloLens和Magic Leap等AR眼鏡來(lái)實(shí)現(xiàn)的……我們可以想象使用AR穿透來(lái)實(shí)現(xiàn)這一點(diǎn)?！?/span>Meta’s Answer to the Apple Vision Pro?與微軟的HoloLens和Magic Leap進(jìn)行比較很重要。它們通過(guò)透明顯示器繞過(guò)了透視問(wèn)題，讓用戶的視覺(jué)暢通無(wú)阻。當(dāng)HoloLens于2016年發(fā)布時(shí)，這種方法感覺(jué)像是未來(lái)的趨勢(shì)，但其顯示質(zhì)量、視野和亮度仍然存在問(wèn)題。Meta的Quest Pro和蘋果即將推出的Vision Pro強(qiáng)調(diào)了這一方向的轉(zhuǎn)變。盡管以AR/VR頭顯（或者，蘋果方以“空間計(jì)算機(jī)”）的形式進(jìn)行營(yíng)銷，但它們顯然是虛擬現(xiàn)實(shí)家族的一個(gè)分支。它們通過(guò)不透明的顯示器完全遮擋了用戶的視野。增強(qiáng)現(xiàn)實(shí)是通過(guò)視頻饋送提供的，該視頻饋送將外部世界投射到顯示器。Vision Pro解決直通問(wèn)題的方法更注重肌肉而非大腦。它使用了一系列與其他AR/VR頭顯類似的外部攝像頭，但將其與蘋果定制的R1芯片配對(duì)，該芯片與蘋果M2芯片協(xié)同工作（就像該公司筆記本電腦中的芯片一樣）。R1是一個(gè)“視覺(jué)處理器”，可以幫助vision Pro的12臺(tái)相機(jī)通過(guò)計(jì)算校正視角（以及其他任務(wù)）。這很像Meta在Quest Pro上嘗試的方法，但蘋果將功率提高到了11。Meta的Flamera取而代之的是用鏡頭校正視角。這大大降低了準(zhǔn)確直通AR所需的原始計(jì)算能力。但這并不是說(shuō)Meta已經(jīng)完全打開了AR。Flamera的技術(shù)距離可供購(gòu)買的頭顯還有很長(zhǎng)的路要走，目前與傳統(tǒng)的直通AR相比存在一些缺點(diǎn)。Sag表示，該頭顯“視野相當(dāng)有限”，并注意到其景深“不連續(xù)”，這意味著遠(yuǎn)處的物體看起來(lái)比實(shí)際更近。Maucourant警告說(shuō)“顏色不太好”，并認(rèn)為頭顯的分辨率很低。盡管如此，F(xiàn)lamera或展示了Meta、蘋果和其他希望進(jìn)入AR領(lǐng)域的公司之間即將發(fā)生的爭(zhēng)論方向?？萍冀绲拇笸髠兯坪醮_信，明天最好的AR/VR頭顯看起來(lái)更像最初的Oculus Rift，而不是微軟的HoloLens。然而，目前這些原型更多還是在研究階段，離成為消費(fèi)級(jí)產(chǎn)品還有一段距離。未來(lái)，頭顯技術(shù)的發(fā)展還需要在各個(gè)方面進(jìn)行突破和創(chuàng)新，以實(shí)現(xiàn)更高的分辨率、更低的延遲、更舒適的使用體驗(yàn)等。只有解決了這些問(wèn)題，才能讓用戶真正感受到頭顯帶來(lái)的沉浸式體驗(yàn)，進(jìn)一步推動(dòng)VR、MR和AR技術(shù)的廣泛應(yīng)用。

3. 騰訊混元大模型正式亮相，我們搶先試了試它的生產(chǎn)力

原文：https://mp.weixin.qq.com/s/xuk77KHJHhoh6kWkf-4AKg

上個(gè)星期，國(guó)內(nèi)首批大模型備案獲批，開始面向全社會(huì)開放服務(wù)，大模型正式進(jìn)入了規(guī)模應(yīng)用的新階段。在前期發(fā)布應(yīng)用的行列中，有些科技巨頭似乎還沒(méi)有出手。很快到了 9 月 7 日，在 2023 騰訊全球數(shù)字生態(tài)大會(huì)上，騰訊正式揭開了混元大模型的面紗，并通過(guò)騰訊云對(duì)外開放。作為一個(gè)超千億參數(shù)的大模型，混元使用的預(yù)訓(xùn)練語(yǔ)料超過(guò)兩萬(wàn)億 token，憑借多項(xiàng)獨(dú)有的技術(shù)能力獲得了強(qiáng)大的中文創(chuàng)作能力、復(fù)雜語(yǔ)境下的邏輯推理能力，以及可靠的任務(wù)執(zhí)行能力。

騰訊集團(tuán)副總裁蔣杰表示：「騰訊混元大模型是從第一個(gè) token 開始從零訓(xùn)練的，我們掌握了從模型算法到機(jī)器學(xué)習(xí)框架，再到 AI 基礎(chǔ)設(shè)施的全鏈路自研技術(shù)?！?/span>打開大模型，全部都是生產(chǎn)力騰訊一直表示在大模型的相關(guān)方向上早已有所布局，專項(xiàng)研究一直有序推進(jìn)。這個(gè)不是「新技術(shù)」的大模型是什么級(jí)別？在大會(huì)上蔣杰通過(guò)直接詢問(wèn)混元大模型的方式透露了一些基本信息，它的參數(shù)量是千億級(jí)，訓(xùn)練用的數(shù)據(jù)截止到今年 7 月份，此外騰訊也表示大模型的知識(shí)將會(huì)每月更新。騰訊在現(xiàn)場(chǎng)展示了「騰訊混元大模型小程序」、騰訊文檔中的 AI 助手以及騰訊會(huì)議 AI 助手的能力。機(jī)器之心第一時(shí)間獲得測(cè)試資格嘗試了一番，首先是微信小程序。

從生產(chǎn)力、生活、娛樂(lè)到編程開發(fā)，它開放的能力可謂非常全面了，符合一個(gè)千億級(jí)大模型的身份。那么混元真的能有效地完成這些任務(wù)嗎？我要寫一份 PPT，只想好了主題卻不知從何寫起，問(wèn)一下混元大模型。只需幾秒，AI 就給了一份分出七個(gè)部分的大綱，每一部分里也包含細(xì)分的點(diǎn)：輸入一篇 arXiv 上 9 月份谷歌提交的論文《RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback》摘要和介紹部分，長(zhǎng)長(zhǎng)的好幾段，很多大模型根本不支持這么多輸入內(nèi)容，混元大模型直接進(jìn)行了總結(jié)順便翻譯成中文。它詳細(xì)解釋了平方根倒數(shù)算法里面數(shù)字的意義（不過(guò)對(duì)注釋理解得不太透徹）。或許過(guò)不了多久，我們做開發(fā)的時(shí)候就離不開大模型了。然后是騰訊文檔。很多人已經(jīng)把 GPT-4 等大模型工具用在了自己的工作流程中，混元大模型在騰訊文檔推出的智能助手功能中已有應(yīng)用。在 PC 端新建智能文檔，輸入 “/”，就能根據(jù)需求實(shí)現(xiàn)內(nèi)容生成、翻譯、潤(rùn)色等操作。已覆蓋騰訊超過(guò) 50 個(gè)業(yè)務(wù)蔣杰總結(jié)了混元大模型的三大特點(diǎn)：具備強(qiáng)大的中文創(chuàng)作能力、復(fù)雜語(yǔ)境下的邏輯推理能力以及可靠的任務(wù)執(zhí)行能力。目前不少業(yè)內(nèi)大模型在場(chǎng)景中的應(yīng)用依然有限，主要問(wèn)題集中在容錯(cuò)率高，只適用于任務(wù)簡(jiǎn)單的休閑場(chǎng)景。騰訊在算法層面進(jìn)行了一系列自研創(chuàng)新，提高了模型可靠性和成熟度。

針對(duì)大模型容易「胡言亂語(yǔ)」的問(wèn)題，騰訊優(yōu)化了預(yù)訓(xùn)練算法及策略，通過(guò)自研的「探真」技術(shù)，讓混元大模型的「幻覺(jué)」相比主流開源大模型降低了 30-50%。「業(yè)界的做法是提供搜索增強(qiáng)，知識(shí)圖譜等『外掛』來(lái)提升大模型開卷考試的能力。這種方式增加了模型的知識(shí)，但在實(shí)際應(yīng)用中存在很多局限性，」蔣杰表示?！富煸竽Ｐ驮陂_發(fā)初期就考慮完全不依賴外界數(shù)據(jù)的方式，進(jìn)行了大量研究嘗試，我們找到的預(yù)訓(xùn)練方法，很大程度上解決了幻覺(jué)的問(wèn)題?！?/span>騰訊還通過(guò)強(qiáng)化學(xué)習(xí)的方法，讓模型學(xué)會(huì)識(shí)別陷阱問(wèn)題，通過(guò)位置編碼的優(yōu)化，提高了模型處理超長(zhǎng)文的效果和性能。在邏輯方面，騰訊提出了思維鏈的新策略，讓大模型能夠像人一樣結(jié)合實(shí)際的應(yīng)用場(chǎng)景進(jìn)行推理和決策。騰訊混元大模型能夠理解上下文的含義，具有長(zhǎng)文記憶能力，可以流暢地進(jìn)行專業(yè)領(lǐng)域的多輪對(duì)話。除此之外，它還能進(jìn)行文學(xué)創(chuàng)作、文本摘要、角色扮演等內(nèi)容創(chuàng)作，做到充分理解用戶意圖，并高效、準(zhǔn)確的給出有時(shí)效性的答復(fù)。這樣的技術(shù)落地之后，才能真正提升生產(chǎn)力。

在中國(guó)信通院《大規(guī)模預(yù)訓(xùn)練模型技術(shù)和應(yīng)用的評(píng)估方法》的標(biāo)準(zhǔn)符合性測(cè)試中，混元大模型共測(cè)評(píng) 66 個(gè)能力項(xiàng)，在「模型開發(fā)」和「模型能力」兩個(gè)領(lǐng)域的綜合評(píng)價(jià)獲得了當(dāng)前最高分。在主流的評(píng)測(cè)集 MMLU、CEval 和 AGI-eval 上，混元大模型均有優(yōu)異的表現(xiàn)，特別是在中文的理科、高考題和數(shù)學(xué)等子項(xiàng)上表現(xiàn)突出。構(gòu)建大模型的意義在于行業(yè)應(yīng)用。據(jù)了解，騰訊內(nèi)部已有超過(guò) 50 個(gè)業(yè)務(wù)和產(chǎn)品接入并測(cè)試了騰訊混元大模型，包括騰訊云、騰訊廣告、騰訊游戲、騰訊金融科技、騰訊會(huì)議、騰訊文檔、微信搜一搜、QQ 瀏覽器等，并取得了初步效果。騰訊的程序員們，已經(jīng)在用大模型工具提高開發(fā)效率了。此外，騰訊還通過(guò)自研機(jī)器學(xué)習(xí)框架 Angel，使模型的訓(xùn)練速度相比業(yè)界主流框架提升 1 倍，推理速度比業(yè)界主流框架提升 1.3 倍。用于構(gòu)建大模型的基礎(chǔ)設(shè)施也沒(méi)有拉下。此前騰訊曾表示已于今年年初構(gòu)建了大規(guī)模算力中心，近期 MiniMax 和百川智能旗下的大模型都使用了騰訊的算力。騰訊也在致力于把行業(yè)數(shù)據(jù)與自身能力相結(jié)合，基于外部客戶的行業(yè)化數(shù)據(jù)來(lái)解決行業(yè)特定問(wèn)題，與實(shí)體行業(yè)結(jié)合，不斷推動(dòng)大模型的社會(huì)、經(jīng)濟(jì)利益和商業(yè)價(jià)值。「根據(jù)公開數(shù)據(jù)顯示，國(guó)內(nèi)已有 130 個(gè)大模型發(fā)布。其中既有通用模型也有專業(yè)領(lǐng)域模型?；煸鳛橥ㄓ媚Ｐ湍軌蛑С烛v訊內(nèi)部的大部分業(yè)務(wù)，今天我展示的幾個(gè)深度接入的業(yè)務(wù)都有很大的用戶量。大模型已在我們的核心領(lǐng)域獲得了深度應(yīng)用，」蔣杰說(shuō)道?！肝掖竽Ｐ褪紫仁欠?wù)企業(yè)本身，其次是通過(guò)騰訊云對(duì)外開放?！?/span>在開放給客戶使用時(shí)，混元大模型將作為騰訊云模型即服務(wù) MaaS 的底座?？蛻艏瓤梢灾苯诱{(diào)用混元 API，也能將混元作為基座模型，為不同的產(chǎn)業(yè)場(chǎng)景構(gòu)建專屬應(yīng)用。可見，騰訊在大模型領(lǐng)域的策略講究的是一個(gè)穩(wěn)字：專注打好基礎(chǔ)，不急于拿出半成品展示。而這一出手，就展現(xiàn)出了過(guò)硬的實(shí)力。

不過(guò)大模型的發(fā)展還在繼續(xù)，正如蔣杰所言：「毫不夸張地說(shuō)，騰訊已經(jīng)全面擁抱大模型。我們的能力一直在演進(jìn)，相信 AIGC 的潛力是無(wú)限的，我們已在路上。」

4. GitHub熱榜登頂：開源版GPT-4代碼解釋器，可安裝任意Python庫(kù)，本地終端運(yùn)行

原文：https://mp.weixin.qq.com/s/TiSVeZOeWourVJ60yyyygw

ChatGPT的代碼解釋器，用自己的電腦也能運(yùn)行了。剛剛有位大神在GitHub上發(fā)布了本地版的代碼解釋器，很快就憑借3k+星標(biāo)并登頂GitHub熱榜。不僅GPT-4本來(lái)有的功能它都有，關(guān)鍵是還可以聯(lián)網(wǎng)。

ChatGPT“斷網(wǎng)”的消息傳出后引起了一片嘩然，而且一關(guān)就是幾個(gè)月。這幾個(gè)月間聯(lián)網(wǎng)功能一直杳無(wú)音訊，現(xiàn)在可算是有解決的辦法了。由于代碼是在本地運(yùn)行，所以除了聯(lián)網(wǎng)之外，它還解決了網(wǎng)頁(yè)版的很多其他問(wèn)題：

3小時(shí)只能發(fā)50條消息
支持的Python模塊數(shù)量有限
處理文件大小有限制，不能超過(guò)100MB
關(guān)閉會(huì)話窗口之后，此前生成的文件會(huì)被刪除

如果沒(méi)有API，還可以把模型換成開源的Code LLaMa。這個(gè)代碼解釋器推出之后，很快有網(wǎng)友表示期待一波網(wǎng)頁(yè)版：

那么我們就來(lái)看看這個(gè)本地代碼解釋器到底怎么樣吧！讓GPT“重新聯(lián)網(wǎng)”既然調(diào)用了GPT-4的API，那GPT-4支持的功能自然都能用，當(dāng)然也支持中文。關(guān)于GPT本身的功能這里就不再一一詳細(xì)展示了。不過(guò)值得一提的是，有了代碼解釋器之后，GPT的數(shù)學(xué)水平提升了好幾個(gè)檔次。所以這里我們用一個(gè)高難度的求導(dǎo)問(wèn)題來(lái)考驗(yàn)一下它，題目是f(x)=√(x+√(x+√x))。

Emmm……這個(gè)結(jié)果有些抽象，不過(guò)應(yīng)該是提示詞的問(wèn)題，我們修改一下：

然后我們就看到了這樣的結(jié)果：

這個(gè)式子和標(biāo)準(zhǔn)答案長(zhǎng)得不太一樣，不過(guò)是不是格式的問(wèn)題呢？我們驗(yàn)證了一下：

結(jié)果是正確的！接下來(lái)就要進(jìn)入重頭戲了，來(lái)看看這個(gè)代碼解釋器的聯(lián)網(wǎng)功能到底是不是噱頭：比如我們想看一下最近有什么新聞。更多的內(nèi)容請(qǐng)點(diǎn)擊原文，謝謝。

5. ReVersion｜圖像生成中的Relation定制化

原文：https://mp.weixin.qq.com/s/7W80wWf2Bj68MnC8NEV9cQ

新任務(wù)：Relation Inversion今年，diffusion model和相關(guān)的定制化（personalization）的工作越來(lái)越受人們歡迎，例如DreamBooth，Textual Inversion，Custom Diffusion等，該類方法可以將一個(gè)具體物體的概念從圖片中提取出來(lái)，并加入到預(yù)訓(xùn)練的text-to-image diffusion model中，這樣一來(lái)，人們就可以定制化地生成自己感興趣的物體，比如說(shuō)具體的動(dòng)漫人物，或者是家里的雕塑，水杯等等。現(xiàn)有的定制化方法主要集中在捕捉物體外觀(appearance)方面。然而，除了物體的外觀，視覺(jué)世界還有另一個(gè)重要的支柱，就是物體與物體之間千絲萬(wàn)縷的關(guān)系（relation）。目前還沒(méi)有工作探索過(guò)如何從圖片中提取一個(gè)具體關(guān)系（relation），并將該relation作用在生成任務(wù)上。為此，我們提出了一個(gè)新任務(wù)：Relation Inversion。

如上圖，給定幾張參考圖片，這些參考圖片中有一個(gè)共存的relation，例如“物體A被裝在物體B中”，Relation Inversion的目標(biāo)是找到一個(gè)relation prompt來(lái)描述這種交互關(guān)系，并將其應(yīng)用于生成新的場(chǎng)景，讓其中的物體也按照這個(gè)relation互動(dòng)，例如將蜘蛛俠裝進(jìn)籃子里。

論文：https://arxiv.org/abs/2303.13495代碼：https://github.com/ziqihuangg/ReVersion主頁(yè)：https://ziqihuangg.github.io/projects/reversion.html視頻：https://www.youtube.com/watch?v=pkal3yjyyKQDemo：https://huggingface.co/spaces/Ziqi/ReVersion

ReVersion框架作為針對(duì)Relation Inversion問(wèn)題的首次嘗試，我們提出了ReVersion框架：

相較于已有的Appearance Invesion任務(wù)，Relation Inversion任務(wù)的難點(diǎn)在于怎樣告訴模型我們需要提取的是relation這個(gè)相對(duì)抽象的概念，而不是物體的外觀這類有顯著視覺(jué)特征的方面。我們提出了relation-focal importance sampling策略來(lái)鼓勵(lì)更多地關(guān)注high-level的relation；同時(shí)設(shè)計(jì)了relation-steering contrastive learning來(lái)引導(dǎo)更多地關(guān)注relation，而非物體的外觀。更多細(xì)節(jié)詳見論文。ReVersion Benchmark我們收集并提供了ReVersion Benchmark：https://github.com/ziqihuangg/ReVersion#the-reversion-benchmark它包含豐富多樣的relation，每個(gè)relation有多張exemplar images以及人工標(biāo)注的文字描述。我們同時(shí)對(duì)常見的relation提供了大量的inference templates，大家可以用這些inference templates來(lái)測(cè)試學(xué)到的relation prompt是否精準(zhǔn)，也可以用來(lái)組合生成一些有意思的交互場(chǎng)景。結(jié)果展示豐富多樣的relation，我們可以invert豐富多樣的relation，并將它們作用在新的物體上

6. 神經(jīng)網(wǎng)絡(luò)大還是小？Transformer模型規(guī)模對(duì)訓(xùn)練目標(biāo)的影響

原文：https://mp.weixin.qq.com/s/el_vtxw-54LVnuWzS1JYDw

論文鏈接：https://arxiv.org/abs/2205.10505

01 TL;DR本文研究了 Transformer 類模型結(jié)構(gòu)（configration）設(shè)計(jì)（即模型深度和寬度）與訓(xùn)練目標(biāo)之間的關(guān)系。結(jié)論是：token 級(jí)的訓(xùn)練目標(biāo)（如 masked token prediction）相對(duì)更適合擴(kuò)展更深層的模型，而 sequence 級(jí)的訓(xùn)練目標(biāo)（如語(yǔ)句分類）則相對(duì)不適合訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)，在訓(xùn)練時(shí)會(huì)遇到 over-smoothing problem。在配置模型的結(jié)構(gòu)時(shí)，我們應(yīng)該注意模型的訓(xùn)練目標(biāo)。一般而言，在我們討論不同的模型時(shí)，為了比較的公平，我們會(huì)采用相同的配置。然而，如果某個(gè)模型只是因?yàn)樵诮Y(jié)構(gòu)上更適應(yīng)訓(xùn)練目標(biāo)，它可能會(huì)在比較中勝出。對(duì)于不同的訓(xùn)練任務(wù)，如果沒(méi)有進(jìn)行相應(yīng)的模型配置搜索，它的潛力可能會(huì)被低估。因此，為了充分理解每個(gè)新穎訓(xùn)練目標(biāo)的應(yīng)用潛力，我們建議研究者進(jìn)行合理的研究并自定義結(jié)構(gòu)配置。02 概念解釋下面將集中解釋一些概念，以便于快速理解：2.1 Training Objective（訓(xùn)練目標(biāo)）

訓(xùn)練目標(biāo)是模型在訓(xùn)練過(guò)程中完成的任務(wù)，也可以理解為其需要優(yōu)化的損失函數(shù)。在模型訓(xùn)練的過(guò)程中，有多種不同的訓(xùn)練目標(biāo)可以使用，在此我們列出了 3 種不同的訓(xùn)練目標(biāo)并將其歸類為 token level 和 sequence level：

sequence level：
- classification 分類任務(wù)，作為監(jiān)督訓(xùn)練任務(wù)。簡(jiǎn)單分類（Vanilla Classification）要求模型對(duì)輸入直接進(jìn)行分類，如對(duì)句子進(jìn)行情感分類，對(duì)圖片進(jìn)行分類；而 CLIP 的分類任務(wù)要求模型將圖片與句子進(jìn)行匹配。
token level：（無(wú)監(jiān)督）
- masked autoencoder：masked token 預(yù)測(cè)任務(wù)，模型對(duì)部分遮蓋的輸入進(jìn)行重建
- next token prediction：對(duì)序列的下一個(gè) token 進(jìn)行預(yù)測(cè)

2.2 Transformer Configration（模型結(jié)構(gòu)：配置）

Transoformer 的配置指的是定義 Transformer 模型結(jié)構(gòu)和大小的超參數(shù)，包括層數(shù)（深度），隱藏層大小（寬度），注意力頭的個(gè)數(shù)等。2.3 Over-smoothing （過(guò)度平滑）

過(guò)度平滑是一個(gè)在圖神經(jīng)網(wǎng)絡(luò)中的概念，具體表示模型輸出趨向平滑一致，各個(gè)點(diǎn)的輸出缺少細(xì)節(jié)和變化的現(xiàn)象。這一現(xiàn)象在圖神經(jīng)網(wǎng)絡(luò)中被廣泛研究，但它也在 Transformer 模型中存在。（已有研究）發(fā)現(xiàn) Transoformer 模型遇到的 over-smoothing 問(wèn)題阻礙模型加深。具體而言，當(dāng)堆疊多層的 Transformer layers 時(shí)，transformer layer 輸出的 token 表征（向量）會(huì)趨于一致，丟失獨(dú)特性。這阻礙了 Transformer 模型的擴(kuò)展性，特別是在深度這一維度上。增加 Transformer 模型的深度只帶來(lái)微小的性能提升，有時(shí)甚至?xí)p害原有模型的性能。1. ViT 和 MAE 中的 over-smoothing直觀上，掩碼自編碼器框架（例如 BERT、BEiT、MAE）的訓(xùn)練目標(biāo)是基于未掩碼的 unmasked token 恢復(fù)被掩碼的 masked token。與使用簡(jiǎn)單分類目標(biāo)訓(xùn)練 Transformer 相比，掩碼自編碼器框架采用了序列標(biāo)注目標(biāo)。我們先假設(shè)掩碼自編碼器訓(xùn)練能緩解 over-smoothing，這可能是掩碼自編碼器 MAE 有助于提升 Transformer 性能的原因之一。由于不同的 masked token 相鄰的 unmaksed token 也不同，unmasked token 必須具有充分的語(yǔ)義信息，以準(zhǔn)確預(yù)測(cè)其臨近的 masked token。也即，unmasked token 的表征的語(yǔ)義信息是重要的，這抑制了它們趨向一致?？傊覀兛梢酝茢嘌诖a自編碼器的訓(xùn)練目標(biāo)通過(guò)對(duì) token 間的差異進(jìn)行正則化，有助于緩解過(guò)度平滑問(wèn)題。我們通過(guò)可視化的實(shí)驗(yàn)來(lái)驗(yàn)證了這一觀點(diǎn)。我們發(fā)現(xiàn) ViT 的 token 表征在更深的層中更加接近，而 MAE 模型則避免了這個(gè)問(wèn)題，這說(shuō)明在掩碼自編碼器中，over-smoothing 問(wèn)題得到了緩解。通過(guò)簡(jiǎn)單的分類任務(wù)訓(xùn)練 Transformer 模型則不具備這一特點(diǎn)。

進(jìn)一步的，我們還通過(guò)傅里葉方法對(duì)這一問(wèn)題進(jìn)行了研究，具體可以參考我們的論文。2. CLIP 和 LLM 中的 over-smoothing根據(jù)上述分析，我們可以得出結(jié)論：token 級(jí)的訓(xùn)練目標(biāo)（例如語(yǔ)言建模中的：next token prediction）表現(xiàn)出較輕的 over-smoothing。另一方面，基于 sequence 級(jí)別的目標(biāo)（如對(duì)比圖像預(yù)訓(xùn)練）更容易出現(xiàn) over-smoothing。為了驗(yàn)證這個(gè)結(jié)論，我們使用 CLIP 和 OPT 進(jìn)行了類似的 cosine 相似度實(shí)驗(yàn)。我們可以看到 CLIP 模型展現(xiàn)了與 Vanilla ViT 類似的 over-smoothing 現(xiàn)象。這一觀察結(jié)果符合我們的預(yù)期。此外，為了探究 next-token prediction 這一廣泛采用的語(yǔ)言建模預(yù)訓(xùn)練目標(biāo)是否可以緩解 over-smoothing，我們對(duì) OPT 進(jìn)行了評(píng)估，并發(fā)現(xiàn)它能夠有效應(yīng)對(duì) over-smoothing。這一發(fā)現(xiàn)具有重要意義，因?yàn)樗兄诮忉尀槭裁凑Z(yǔ)言建模模型在可擴(kuò)展性方面（如超大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型）優(yōu)于許多視覺(jué)模型。

03 溯源：現(xiàn)有的Transformer架構(gòu)是怎么來(lái)的為了在研究時(shí)保證公平的比較，現(xiàn)有的 Transformer 類模型通常會(huì)遵循固定的結(jié)構(gòu)（small, base, large…），即相同的寬度和深度。比如前面提到的 transformer-base 就是寬度為 768（隱藏層），深度為 12（層數(shù)）。然而，對(duì)于不同的研究領(lǐng)域，不同的模型功能，為什么仍要采用相同的超參數(shù)？為此，我們首先對(duì) Transformer 架構(gòu)進(jìn)行了溯源，回顧了代表性的工作中 Transformer 結(jié)構(gòu)的來(lái)源：Vision Transformer 的作者根據(jù) BERT 中 Transformer-base 的結(jié)構(gòu)作為其 ViT 模型配置；而 BERT 在選擇配置時(shí)遵循了 OpenAI GPT 的方法；OpenAI 則參考了最初的 Transformer 論文。在最初的 Transformer 論文中，最佳配置來(lái)源于機(jī)器翻譯任務(wù)的笑容實(shí)驗(yàn)。也就是說(shuō)，對(duì)于不同任務(wù)，我們均采用了基于對(duì)機(jī)器翻譯任務(wù)的 Transformer 配置。（參考上文，這是一種序列級(jí)別的任務(wù)）

04 現(xiàn)狀：不同的模型采用不同的訓(xùn)練目標(biāo)現(xiàn)在，Transformer 模型通過(guò)各種訓(xùn)練目標(biāo)進(jìn)行訓(xùn)練。以 ViT 為例，我們可以在圖像分類的監(jiān)督學(xué)習(xí)環(huán)境下從頭開始訓(xùn)練 Transformer 模型。在這種直接的圖像分類任務(wù)中，每個(gè)圖像被建模為一個(gè) token 序列，其中每個(gè) token 對(duì)應(yīng)圖像中的一個(gè)圖塊。我們使用來(lái)自圖像的所有 token（即圖塊）的全局信息來(lái)預(yù)測(cè)單個(gè)標(biāo)簽，即圖像類別。在這里，由于訓(xùn)練目標(biāo)是捕捉圖像的全局信息，token 表示之間的差異不會(huì)直接被考慮。這一訓(xùn)練目標(biāo)與機(jī)器翻譯任務(wù)完全不同，機(jī)器翻譯要求模型理解 token 序列，并以此生成另一個(gè)序列。據(jù)此，我們可以合理假設(shè)對(duì)于這兩個(gè)不同任務(wù)，應(yīng)該存在不同的最佳 Transformer 配置。

05 對(duì)于MAE訓(xùn)練目標(biāo)調(diào)整模型結(jié)構(gòu)基于上述的討論，我們得到了如下認(rèn)識(shí)：

現(xiàn)有的 Transformer 模型在加深模型深度時(shí)會(huì)發(fā)生 over-smoothing 問(wèn)題，這阻礙了模型在深度上的拓展。
相較于簡(jiǎn)單分類訓(xùn)練目標(biāo)，MAE 的掩碼預(yù)測(cè)任務(wù)能夠緩解 over-smoothing。（進(jìn)一步地，token 級(jí)別的訓(xùn)練目標(biāo)都能夠一定程度地緩解 over-smoothing）
MAE 的現(xiàn)有模型結(jié)構(gòu)繼承于機(jī)器翻譯任務(wù)上的最佳結(jié)構(gòu)設(shè)置，不一定合理。

綜合以上三點(diǎn)，可以推知 MAE 應(yīng)該能夠在深度上更好的拓展，也即使用更深的模型架構(gòu)。本文探索了 MAE 在更深，更窄的模型設(shè)置下的表現(xiàn)：采用本文提出的 Bamboo（更深，更窄）模型配置，我們可以在視覺(jué)和語(yǔ)言任務(wù)上得到明顯的性能提升。

另外，我們?cè)谏疃韧卣剐陨弦沧隽藢?shí)驗(yàn)，可以看到，當(dāng)采用 Bamboo 的配置時(shí)，MAE 能夠獲得明顯的性能提升，而對(duì)于 ViT 而言，更深的模型則是有害的。MAE 在深度增加到 48 層時(shí)仍能獲得性能提升，而 ViT 則總是處于性能下降的趨勢(shì)。

以上的結(jié)果佐證了本文提出的觀點(diǎn)：訓(xùn)練目標(biāo)能夠影響模型拓展的行為。Training objectives can greatly change the scaling behavior.06 結(jié)論本文發(fā)現(xiàn)，Transformer 的配置與其訓(xùn)練目標(biāo)之間存在著密切關(guān)系。sequence 級(jí)別的訓(xùn)練目標(biāo)，如直接分類和 CLIP，通常遇到 over-smoothing。而 token 級(jí)的訓(xùn)練目標(biāo)，如 MAE 和 LLMs 的 next token prediction，可以較好地緩解 over-smoothing。這一結(jié)論解釋了許多模型擴(kuò)展性研究結(jié)果，例如 GPT-based LLMs 的可擴(kuò)展性以及 MAE 比 ViT 更具擴(kuò)展性的現(xiàn)象。我們認(rèn)為這一觀點(diǎn)對(duì)我們的學(xué)術(shù)界有助于理解許多 Transformer 模型的擴(kuò)展行為。

———————End———————

點(diǎn)擊閱讀原文進(jìn)入官網(wǎng)

原文標(biāo)題：【AI簡(jiǎn)報(bào)20230908期】正式亮相！打開騰訊混元大模型，全部都是生產(chǎn)力

文章出處：【微信公眾號(hào)：RTThread 物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴