91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微軟AI可以根據(jù)詳細(xì)的文本描述來繪制對象

IEEE電氣電子工程師 ? 來源:未知 ? 作者:鄧佳佳 ? 2018-03-01 16:00 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

谷歌可能教過人工智能如何涂鴉,但繪制一些更復(fù)雜的東西對于電腦來說很難。想象一下,讓一臺電腦畫一只“黑色的翅膀和一個短喙的黃色的鳥”;這聽起來有點棘手。不過,微軟的研究人員已經(jīng)開發(fā)了一種基于人工智能的技術(shù)來做到這一點。根據(jù)團隊發(fā)布的最新文章,它以驚人的準(zhǔn)確性從文本描述生成圖像。

系統(tǒng)根據(jù)您的輸入找不到現(xiàn)有的圖像,但會創(chuàng)建真實的圖形。首席研究員何曉東在一份聲明中表示:“如果你去了Bing并且尋找一只鳥,你就會得到一張鳥的照片,但是這里的照片是由計算機逐個像素地從頭開始制作的。 “這些鳥可能不存在于現(xiàn)實世界中 - 它們只是我們計算機對鳥類想像力的一個方面?!?/p>

雖然這種繪畫技術(shù)的當(dāng)前形式并不完美,但不難想象,未來它可以作為畫家和室內(nèi)設(shè)計師的素描助手,或者是基于語音輸入來精煉照片的工具。更遠(yuǎn)的是,研究人員他想象從書面腳本生成的動畫電影。

該團隊開始研究計算機視覺和自然語言處理與CaptionBot,一個人工智能系統(tǒng),自動為照片寫字幕,然后創(chuàng)建一個系統(tǒng)回答人們問的圖像稱為SeeingAI的問題,如果你是盲人。目前的技術(shù)由兩部分組成:一個是產(chǎn)生被稱為生成對抗網(wǎng)絡(luò)(GAN)的圖像,另一個是判斷所產(chǎn)生的圖像的質(zhì)量,稱為鑒別器。繪圖機器人接受了一系列圖像和標(biāo)題的訓(xùn)練,教導(dǎo)人工智能學(xué)習(xí)使用哪些圖像處理哪些單詞。團隊還創(chuàng)建了一個人類關(guān)注的數(shù)學(xué)表示,當(dāng)我們從復(fù)雜的描述中繪制圖片時,我們都使用這個表示:一個紅色的翅膀,一個尖銳的喙,一個黃色的翅膀。他說:“注意力是一個人的概念,我們用數(shù)學(xué)來計算注意力?!?/p>

這個繪圖機器人完成了圍繞計算機視覺和自然語言處理交叉部分的研究循環(huán),何曉東和他的同事在過去五年中一直在這個領(lǐng)域內(nèi)摸索。他們一開始研究的是一項能夠自動為照片編寫標(biāo)題的技術(shù)——CaptionBot,然后轉(zhuǎn)向能夠回答人類關(guān)于圖像問題(例如語音對象的位置和屬性)的技術(shù),這種技術(shù)對于盲人來說特別有用。

這些研究工作需要訓(xùn)練機器學(xué)習(xí)模型來識別對象、解釋行為并用自然語言進行交談。

微軟研究院研究員Pengchuan Zhang補充表示,圖像生成是一項比圖像字幕更具挑戰(zhàn)性的任務(wù), 因為這個過程需要繪圖機器人想象出標(biāo)題中沒有包含的細(xì)節(jié)。“這意味著,你需要讓運行人工智能的機器學(xué)習(xí)算法想象出這個圖像中缺失的部分。”

會集中注意力的圖像生成

微軟繪畫機器人的核心是生成式對抗網(wǎng)絡(luò)(Generative Adversarial Network,或者稱為GAN)技術(shù)。該網(wǎng)絡(luò)包含了兩個機器學(xué)習(xí)模型,一個根據(jù)文字描述生成圖形;另一個則作為鑒別器(discriminator),使用文本描述來判斷所生成的圖像的真實性。這兩個模型組合既矛盾又融合,生成器試圖讓假的圖片通過鑒別器的鑒定,鑒定器決定了自己不被愚弄,兩者一起工作,鑒定器會推動生成器變得完美。

傳統(tǒng)生成式對抗網(wǎng)絡(luò)(GAN)在根據(jù)簡單文字(例如藍色的鳥或者常青樹)描述生成圖像方面做得非常好,但是當(dāng)文字描述變得更復(fù)雜的時候,例如綠色的頭、黃色的翅膀、紅色的肚皮的鳥,質(zhì)量就會停滯不前。這是因為整個句子對于生成器來說是一個單一輸入,這些描述中的詳細(xì)信息丟失了,結(jié)果生成的圖像是一只模模糊糊的、有點綠、有點黃也有點紅的鳥,而不是嚴(yán)格按照句子中的描述進行著色的鳥。但是,微軟的該項技術(shù)尤其擅長根據(jù)復(fù)雜的句子繪制圖像,而且,在標(biāo)題的描述中沒有提到的具體細(xì)節(jié)方面,機器人也可以填補這些空白。

這是因為,它有一點自己的常識和想象力,這要感謝它的訓(xùn)練數(shù)據(jù)。在鳥的例子中,機器人畫的鳥通常是站在枝頭上的,即使是文本內(nèi)容中并沒有提到這一細(xì)節(jié)也是如此,這是因為最初提供給它的圖像經(jīng)常出現(xiàn)類似的內(nèi)容。

微軟的繪圖機器人使用了標(biāo)題和圖像匹配好了的數(shù)據(jù)集進行訓(xùn)練,這讓這些模型能夠?qū)W會如何將文字內(nèi)容和這些內(nèi)容的可視化表達相匹配。例如,這個生成式對抗網(wǎng)絡(luò)(GAN)學(xué)會了在標(biāo)題是鳥的時候生成一個鳥的圖像,而且也學(xué)到了鳥的圖像應(yīng)該是什么樣子。何曉東表示:“這是我們相信機器可以學(xué)習(xí)的根本原因。”

在人類畫畫的過程中,會反復(fù)查看下一步畫什么,并且十分專注于正在描繪的這一部分內(nèi)容當(dāng)中。為了捕捉這一人類特質(zhì),微軟研究人員創(chuàng)建了他們稱之為注意力生成式對抗網(wǎng)絡(luò)或AttnGAN的技術(shù),它從數(shù)學(xué)上代表了人類的注意的概念。它是通過將輸入的文本內(nèi)容分解為單個的詞語,并將其同圖像中特定的區(qū)域進行匹配來完成這一任務(wù)的。

何曉東解釋說:“注意力是一個人類的概念;我們把注意力的問題變成了一個計算的問題。”

該模型還會從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)人類稱之為常識的東西,并且利用這些學(xué)到的概念來填補圖像中可供想象的空白部分。例如,由于訓(xùn)練數(shù)據(jù)中的很多圖像里的鳥都是站在枝頭之上的,所以除非文本內(nèi)容另有詳細(xì)說明,AttnGAN通常畫出的鳥也都是站在枝頭之上的。

Pengchuan Zhang表示:“從數(shù)據(jù)來看,機器學(xué)習(xí)算法學(xué)到了鳥應(yīng)該在哪里這一常識?!弊鳛殡y度測試,該團隊給這個繪圖機器人一些荒謬的題目,例如“漂浮在湖面上的紅色雙層巴士。”結(jié)果它生成了一個模糊的、濕漉漉的圖像,既有點像一艘有雙層甲板的船,又有點像一輛雙層巴士,漂浮在群山環(huán)繞的湖面上。這個圖像表明,該機器人內(nèi)部產(chǎn)生了斗爭,它知道船是漂浮在湖面上的,而文本內(nèi)容卻詳細(xì)指定了對象是一輛巴士車。

何曉東解釋說:“我們的描述可以天花亂墜,看看機器會如何反應(yīng)。這臺機器有一些背景知識的常識,但它仍然服從你的要求,盡管有時這些要求聽起來有點荒謬?!?/p>

當(dāng)然,這不是第一項將藝術(shù)和人工智能結(jié)合在一起的技術(shù)案例。

這兩者的交叉有時會產(chǎn)生奇妙的結(jié)果。比如谷歌的人工智能繪制的這些夢幻般的圖像就有了自己的藝術(shù)展,谷歌還有一個神經(jīng)網(wǎng)絡(luò)可以猜測你正在畫的是什么,還有一個自動繪圖機器人等等。

Facebook也一直在教導(dǎo)神經(jīng)網(wǎng)絡(luò)繪制一些小圖形,例如飛機、汽車和動物等,甚至從照片中創(chuàng)建自己的Bitmoji風(fēng)格的化身形象。

英偉達的研究人員使用人工智能(A.I)創(chuàng)建了計算機生成的名人。

實際應(yīng)用

從文本到圖像的生成技術(shù)可以找到很多實際應(yīng)用,可以作為畫家和室內(nèi)設(shè)計師的草圖助理,或者作為語音激活照片的細(xì)化工具。何曉東認(rèn)為,如果有更多的計算能力,這項技術(shù)能夠根據(jù)電影劇本生成動畫電影,通過消除一些手工勞動來改善動畫電影制片人的工作。

然而目前來看,微軟的這項技術(shù)還不完善。如果你仔細(xì)檢查圖像就能找到瑕疵,例如鳥的喙是藍色的而不是黑色的,以及水果攤位上有突變的香蕉。這些缺陷清楚地表明,創(chuàng)造這幅畫的是電腦而不是人類。盡管如此,何曉東認(rèn)為,這個AttnGAN生成的圖像的質(zhì)量比之前最好的GAN生成的圖像質(zhì)量提高了接近三倍,已經(jīng)成為了通往類人類智能道路上的一個里程碑,這些類人類智能能夠增強人類的能力。
何曉東進一步解釋說,“對于生活在同一個世界里的人工智能和人類來說,他們必須有一種彼此交流的方式。而語言和視覺是人類和機器互相交流的兩種最重要的方式?!?/p>

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:微軟AI可以根據(jù)詳細(xì)的文本描述來繪制對象

文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    微軟全新AI超級工廠Fairwater在亞特蘭大落成

    微軟正式發(fā)布位于美國喬治亞州亞特蘭大的 Azure AI 數(shù)據(jù)中心 Fairwater 站點。全新的數(shù)據(jù)中心將與威斯康星州的首個 Fairwater 站點、前幾代 AI 超級計算機以及全球 Azure 數(shù)據(jù)中心深度互聯(lián),共同構(gòu)建
    的頭像 發(fā)表于 12-09 17:31 ?751次閱讀

    CAD如何繪制螺旋線

    螺旋線的多種方法,幫助您快速掌握這一實用技能。 我們點擊菜單【繪圖-螺旋】(【HELIX】命令),根據(jù)提示,指定圓心,半徑等設(shè)置,即可繪制螺旋線。 以上就是本文的全部內(nèi)容,希望可以對你有所幫助,更多關(guān)于CAD的資訊
    的頭像 發(fā)表于 12-02 17:35 ?935次閱讀
    CAD如何<b class='flag-5'>繪制</b>螺旋線

    Labview 解析dxf文件并顯示<一>

    文本格式,可以參考下面地址里面的介紹,介紹了CAD里面遇到的各種圖形單元的文本編輯格式,我們以此解析出圖形參數(shù),用該圖像參數(shù),咱們再將圖形繪制
    發(fā)表于 11-14 22:45

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片到AGI芯片

    2)滲透式AI的優(yōu)勢 5、大型多模態(tài)模型 多模態(tài)模型(LMM)可以被理解成大模型的更高級版本,不僅可以處理文本,還可以處理和理解多種類型的
    發(fā)表于 09-18 15:31

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的科學(xué)應(yīng)用

    了科學(xué)發(fā)現(xiàn)的重要組成部分。 實驗科學(xué):通過觀察和實驗驗證假說 理論科學(xué):通過構(gòu)建邏輯框架解釋觀察到的現(xiàn)象 模型科學(xué):通過數(shù)學(xué)模型描述和預(yù)測自然現(xiàn)象 數(shù)據(jù)科學(xué):通過挖掘和分析數(shù)據(jù)
    發(fā)表于 09-17 11:45

    微軟Visual Studio 2026 發(fā)布!AI 深度融合、性能提升

    “ ?微軟發(fā)布 Visual Studio 2026 預(yù)覽版,新版本以深度融合的 AI Copilot 為核心,結(jié)合全新的 Fluent Design 界面與顯著的性能提升,旨在打造前所未有的智能
    的頭像 發(fā)表于 09-16 11:17 ?2018次閱讀
    <b class='flag-5'>微軟</b>Visual Studio 2026 發(fā)布!<b class='flag-5'>AI</b> 深度融合、性能提升

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+可期之變:從AI硬件到AI濕件

    生物化學(xué)計算機,它通過離子、分子間的相互作用來進行復(fù)雜的并行計算。因而未來可期的前景是AI硬件將走向AI濕件。 根據(jù)研究,估算出大腦的功率是20W,在進行智力活動時,其功率會增大到25~50W。在大腦進化
    發(fā)表于 09-06 19:12

    【M-K1HSE開發(fā)板免費體驗】相關(guān)源碼分析與實現(xiàn)2-全部案例運行一般思路

    直接在內(nèi)存中操作的位圖對象可以被 Canvas 用來繪制。 定時器 (Timer): 代碼中雖然沒有直接展示 setInterval,但 TimeChangeListener 的實現(xiàn)原理必然是基于一
    發(fā)表于 09-03 21:46

    微軟企業(yè)級應(yīng)用AI能力全面升級

    微軟宣布,已將 OpenAI 迄今為止最具突破性的的 AI 技術(shù)系統(tǒng) GPT-5 全面集成至其產(chǎn)品生態(tài)中,全面增強平臺的的推理、代碼生成與對話體驗。最新版 GPT-5 已在 Microsoft
    的頭像 發(fā)表于 08-15 11:44 ?1365次閱讀

    日本航空攜手微軟率先將AI應(yīng)用引入客艙管理

    日本航空(JAL)攜手微軟,率先將AI應(yīng)用引I入客艙管理。通過基于微軟Phi-4小型語言模型(SLM)開發(fā)的JAL-AI報告系統(tǒng),空乘人員報告航班事件的效率提升高達2/3,即使離線也能
    的頭像 發(fā)表于 07-18 11:12 ?1414次閱讀

    關(guān)于鴻蒙App上架中“AI文本生成模塊的資質(zhì)證明文件”的情況說明

    的應(yīng)用缺少AI文本生成模塊的資質(zhì)證明文件,不符合相關(guān)法律法規(guī)要求。 修改建議:AI文本生成模塊需補充提供《安全評估報告》并加手寫簽名、《安全評估報告》在全國互聯(lián)網(wǎng)安全服務(wù)管理平臺的提交
    發(fā)表于 06-30 18:37

    新思科技攜手微軟借助AI技術(shù)加速芯片設(shè)計

    近日,微軟Build大會在西雅圖盛大開幕,聚焦AI在加速各行業(yè)(包括芯片設(shè)計行業(yè))科學(xué)突破方面的變革潛力。作為Microsoft Discovery平臺發(fā)布的啟動合作伙伴,新思科技亮相本次大會,并攜手微軟
    的頭像 發(fā)表于 06-27 10:23 ?1111次閱讀

    NVIDIA攜手微軟加速代理式AI發(fā)展

    代理式 AI 正在重新定義科學(xué)探索,推動各行各業(yè)的研究突破和創(chuàng)新發(fā)展。NVIDIA 和微軟正通過深化合作提供先進的技術(shù),從云到 PC 加速代理式 AI 應(yīng)用的發(fā)展。
    的頭像 發(fā)表于 05-27 14:03 ?1061次閱讀

    微軟推出多項革新性AI工具

    在今年Microsoft Build大會上,微軟推出了多項革新性Al工具:智能Microsoft 365 Copilot副駕駛Tuning支持企業(yè)通過低代碼方式,結(jié)合自有數(shù)據(jù)與業(yè)務(wù)邏輯定制高精度AI
    的頭像 發(fā)表于 05-26 09:47 ?1173次閱讀

    根據(jù)法羅力壁掛爐電路板實物繪制出了電路圖

    根據(jù)法羅力壁掛爐電路板實物繪制出了電路圖,確實很復(fù)雜,請高手幫我分析一下,看看有啥問題嗎?;
    發(fā)表于 03-30 20:09