91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

小米首個(gè)AI大模型計(jì)算攝影平臺(tái)Xiaomi AISP介紹

小米公司 ? 來(lái)源:小米公司 ? 2024-03-14 11:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2月22日,小米龍年第一場(chǎng)重磅發(fā)布會(huì),正式發(fā)布專(zhuān)業(yè)影像旗艦小米14 Ultra。

此前小米發(fā)布的兩代 Ultra,在不同維度,引領(lǐng)了移動(dòng)影像行業(yè)的走向。最新的小米14 Ultra 在定義的時(shí)候,我們反復(fù)在思考:怎么才能把移動(dòng)影像推向一個(gè)全新的層次?

為此,小米跟徠卡、用戶、攝影師、專(zhuān)家學(xué)者做了大量的交流,最終確定小米14 Ultra 影像追求的目標(biāo):讓真實(shí)有層次,要細(xì)節(jié)豐富,過(guò)渡細(xì)膩;要主次明確,遠(yuǎn)近分明,通過(guò)好的技術(shù)和審美,還原生活的豐富、從而直指人心。

當(dāng) AI 大模型與手機(jī)影像結(jié)合,會(huì)碰撞出什么火花?

為了讓基于 AI 大模型實(shí)現(xiàn)的手機(jī)影像系統(tǒng)更符合小米的“光學(xué)味”,在結(jié)合小米14 Ultra 的設(shè)計(jì)理念下,我們層次性地去釋放大模型的能力,給用戶帶來(lái)突破性的效果和使用體驗(yàn)。

這里,要和大家重點(diǎn)介紹小米首個(gè) AI 大模型計(jì)算攝影平臺(tái) Xiaomi AISP,也是小米影像大腦的全新升級(jí)。Xiaomi AISP 是計(jì)算攝影的強(qiáng)力之作,它有哪些革命性升級(jí)?我們一起來(lái)看。

01

Xiaomi AISP

首個(gè) AI 大模型計(jì)算攝影平臺(tái)

AI 大模型一經(jīng)問(wèn)世,便展現(xiàn)了其驚人的技術(shù)能力,各行各業(yè)都相繼涌現(xiàn)出了利用 AI 大模型來(lái)推動(dòng)技術(shù)變革的不同思路。小米相機(jī)團(tuán)隊(duì)也一直在思考,AI 大模型會(huì)給手機(jī)影像帶來(lái)哪些變革?又如何將 AI 大模型技術(shù)更好地引入到手機(jī)影像系統(tǒng)里來(lái)?

經(jīng)過(guò)不斷地技術(shù)驗(yàn)證及效果評(píng)估,小米確定了開(kāi)發(fā)基于 AI 大模型的 Xiaomi AISP 影像處理系統(tǒng)的目標(biāo),并在效果、算力、生成三個(gè)方面有了獨(dú)家的見(jiàn)解和想法創(chuàng)新。

效果:在圖像領(lǐng)域,AI 大模型最初被用來(lái)生成描述包含各式內(nèi)容、具有指定風(fēng)格的圖像。但隨著技術(shù)的迭代,生成圖像的質(zhì)量、真實(shí)性、分辨率越來(lái)越高,甚至達(dá)到了影棚級(jí)的效果。

若將大模型用到相機(jī)影像系統(tǒng)的任務(wù)中,處理噪聲、影調(diào)、人像等問(wèn)題,效果是不是會(huì)更好?團(tuán)隊(duì)帶著問(wèn)題開(kāi)始嘗試和探索,認(rèn)為在具備一定質(zhì)量的圖像輸入的前提下,經(jīng)過(guò)合適的調(diào)整和匹配,AI 大模型會(huì)得到相較于傳統(tǒng)方法或者第一代 AI 技術(shù)更好的效果。

算力:算力,是將大模型應(yīng)用到手機(jī)上、拍照影像系統(tǒng)里最大的問(wèn)題。團(tuán)隊(duì)為了能將 AI 大模型應(yīng)用到實(shí)時(shí)性要求非常高的手機(jī)相機(jī)影像系統(tǒng)中,在模型重構(gòu)設(shè)計(jì)、模型求解優(yōu)化(推理迭代)以及系統(tǒng)級(jí)管線管理及多硬件算法分配方面,投入了非常多的資源,也攻克了許多關(guān)鍵性的問(wèn)題。

通過(guò)重新設(shè)計(jì)、訓(xùn)練適合相機(jī)影像任務(wù)的小型化 AI 大模型,并基于小米澎湃 OS 和自研的異構(gòu)加速平臺(tái),全面整合了 CPUGPU、NPU 和 ISP 的平臺(tái)算力(計(jì)算能力達(dá)到 60 TOPS),最終成功地實(shí)現(xiàn)了基于 AI 大模型的 ISP 系統(tǒng)解決了端側(cè)、拍照模型運(yùn)行的速度、功耗等問(wèn)題。

生成:為了讓基于 AI 大模型實(shí)現(xiàn)的相機(jī)影像系統(tǒng)更符合小米的“光學(xué)味”,在結(jié)合小米14 Ultra 的設(shè)計(jì)理念下,我們層次性地去釋放大模型的能力。在基礎(chǔ)的影像功能任務(wù)和場(chǎng)景,從多個(gè)維度相對(duì)保守的使用了 AI 大模型的生成能力,以保持大模型原有的優(yōu)勢(shì);相反的,在超出光學(xué)和傳感器物理極限的場(chǎng)景,我們會(huì)適當(dāng)釋放大模型的生成能力,以帶來(lái)不一樣的效果體驗(yàn)。

本次推出的14 Ultra 所使用的 Xiaomi AISP 平臺(tái)便是通過(guò)對(duì)效果、算力、生成的創(chuàng)新思考,基于 Stable Diffusion 模型(圖像處理領(lǐng)域的基礎(chǔ) AI 大模型)開(kāi)發(fā)。

依據(jù)相機(jī)影像功能間的耦合程度以及相機(jī)功能特點(diǎn),小米將 Xiaomi AISP 拆分成四類(lèi)大模型,即融合光學(xué)大模型、影調(diào)大模型、色彩大模型及人像大模型,并且各個(gè)模型都經(jīng)過(guò)了小型化、異構(gòu)并行等加速處理,以符合手機(jī)端側(cè)、拍照功能客觀需求特點(diǎn)。

經(jīng)過(guò)這四類(lèi)大模型不同的組合方式并結(jié)合影像處理流程的其他模塊,實(shí)現(xiàn)了基于 Xiaomi AISP 的全新的相機(jī)功能,接下來(lái)讓我們展開(kāi)介紹。

02

AI 超級(jí)變焦

恢復(fù)超高清遠(yuǎn)景瞬間

清晰地捕捉動(dòng)人瞬間,不受拍攝距離遠(yuǎn)近的影響,留住想要記錄的真實(shí)。小米首次將 AIGC 技術(shù)應(yīng)用到計(jì)算攝影領(lǐng)域,帶來(lái)了能精準(zhǔn)預(yù)測(cè)“看到什么”、“想要呈現(xiàn)什么樣”的影像,解決相機(jī)中長(zhǎng)焦功能拍攝距離遠(yuǎn),成片效果模糊不清,缺少真實(shí)性的問(wèn)題,并利用先進(jìn)的 Stable Diffusion 大模型將其生成為圖片的 AI 超級(jí)變焦(Ultra Zoom)功能。

以往 AIGC 往往使用在如魔法消除等后處理功能中,而如今應(yīng)用在實(shí)時(shí)出圖的功能中,小米走在了前列。可以說(shuō),Ultra Zoom 是 AIGC 在影像領(lǐng)域應(yīng)用的革命性創(chuàng)新。

受硬件限制,長(zhǎng)焦高倍率拍攝場(chǎng)景一直以來(lái)都是行業(yè)難題之一。相比于專(zhuān)業(yè)相機(jī),手機(jī)相機(jī)的傳感器、光圈都更小,限制了最終拍攝圖像的空間分辨率和聚光能力。因此當(dāng)我們?cè)谂臄z遠(yuǎn)景時(shí),大氣擾動(dòng)疊加鏡頭光學(xué)模糊、像素欠采樣等影響都會(huì)導(dǎo)致手機(jī)相機(jī)傳感器捕捉的照片出現(xiàn)清晰度不足、線條扭曲、細(xì)節(jié)丟失等現(xiàn)象。

由于 Zoom 倍率比較大,現(xiàn)有相機(jī)通常采用對(duì)圖像裁切并插值放大的方式來(lái)實(shí)現(xiàn)數(shù)字變焦,進(jìn)一步導(dǎo)致圖像變得模糊,失真也更嚴(yán)重,影響最終拍攝出圖畫(huà)質(zhì)。

隨著大模型技術(shù)的出現(xiàn),我們?cè)谒伎际欠窨梢越柚竽P偷膹?qiáng)大生成能力和泛化能力來(lái)提升移動(dòng)端相機(jī)在長(zhǎng)焦高倍率的拍攝效果。于是,展開(kāi)了 Ultra Zoom 算法的研發(fā),利用超大參數(shù)量的新一代網(wǎng)絡(luò)架構(gòu),對(duì)精心清洗的大量(超過(guò)200w)超高清數(shù)據(jù)進(jìn)行學(xué)習(xí),使得模型具備了對(duì)細(xì)節(jié)恢復(fù)任務(wù)的充分理解及知識(shí)遷移,實(shí)現(xiàn)對(duì)遠(yuǎn)攝場(chǎng)景自適應(yīng)超清優(yōu)化效果。

Ultra Zoom 以 Stable Diffusion 大模型為基座,融合了場(chǎng)景分割、超分辨率等多項(xiàng)技術(shù),以低清圖像作為提示,結(jié)合大模型的先驗(yàn)知識(shí),“猜想”出物體的紋理和細(xì)節(jié),帶來(lái)真正可用的超高倍率變焦效果。

大模型輕量化升級(jí),部署移動(dòng)端側(cè)

Stable Diffusion 大模型雖然具有強(qiáng)大的理解能力和生成能力,但數(shù)十億的參數(shù)量對(duì)于算力和存儲(chǔ)都受限的手機(jī)移動(dòng)端部署是巨大的挑戰(zhàn),很多特殊的計(jì)算操作是手機(jī)端側(cè)目前無(wú)法支持的。 即使部分算子能夠進(jìn)行支持,推理時(shí)間也是達(dá)到了數(shù)十秒,盡管目前出現(xiàn)了很多關(guān)于 Diffusion 推理性能的優(yōu)化方案,但是想直接應(yīng)用到對(duì)實(shí)時(shí)性要求較高的手機(jī)拍照上,還有很大差距,大模型如何輕量化到可以進(jìn)行端側(cè)部署是一大難題。

為了解決以上問(wèn)題,我們對(duì)齊硬件平臺(tái)規(guī)格,對(duì)低效算子進(jìn)行替換,同時(shí)結(jié)合量化、剪枝技術(shù),實(shí)現(xiàn)了硬件感知的性能優(yōu)化。同時(shí)從迭代推理部署入手,結(jié)合潛在一致性模型思想,將原本上千步的迭代優(yōu)化到了6步以內(nèi),降低推理迭代計(jì)算負(fù)擔(dān)。最后結(jié)合大模型蒸餾技術(shù),保證輕量化后的 Stable Diffusion 相比原來(lái)推理精度損失最小,達(dá)到秒級(jí)推理高清 4K 圖像的水平,可成功部署在移動(dòng)端。

真實(shí)清晰雙向并行,提升畫(huà)面細(xì)節(jié)

基于大模型的圖像生成任務(wù)中,保真度和清晰度的平衡是一個(gè)非常重要的難點(diǎn)。保真度通常指的是生成的圖像與真實(shí)物理場(chǎng)景的相似度,而清晰度則指的是生成的圖像的細(xì)節(jié)和清晰程度。 例如拍攝一張遠(yuǎn)處的大樓,如果擴(kuò)散模型過(guò)于注重清晰度和細(xì)節(jié),那么可能會(huì)在大樓的墻面生成磚紋,但真實(shí)的大樓可能是沒(méi)有磚紋或者不同形狀的磚紋,這樣生成的圖像就會(huì)失去真實(shí)感和自然感。相反,如果擴(kuò)散模型過(guò)于注重保真度,沒(méi)有生成磚紋,反而將墻面抹的很平,那么就不會(huì)帶來(lái)畫(huà)面清晰度和細(xì)節(jié)的提升。

為了在保真度和清晰度之間尋求最優(yōu)平衡點(diǎn),團(tuán)隊(duì)采用局部判別學(xué)習(xí)的方式,對(duì)細(xì)節(jié)信息和異常紋理進(jìn)行區(qū)分處理,對(duì)細(xì)節(jié)進(jìn)行信息增強(qiáng)和恢復(fù),對(duì)異常紋理進(jìn)行抑制和去除。同時(shí)研發(fā)了特征控制模塊,對(duì)不同場(chǎng)景和不同圖像內(nèi)容進(jìn)行生成信息強(qiáng)度的引導(dǎo),實(shí)現(xiàn)場(chǎng)景自適應(yīng)的保真度和清晰度平衡。

AI 超級(jí)變焦功能生成的照片雖然可觀性更強(qiáng),但是它加入了 AI 算法的修飾,并非完全的真實(shí)。真實(shí)性,是小米在影像戰(zhàn)略道路上一直堅(jiān)守的方向。因此,對(duì)于 Ultra Zoom 所生成的圖像,小米都給予了它們加密的 AI 標(biāo)簽,這是一個(gè)藏在畫(huà)面中的「AI 暗水印」,這個(gè)信息不會(huì)隨著修圖或者分享而消失,從而保持照片來(lái)源的客觀性和真實(shí)性。

03

Ultra Raw 超級(jí)底片

塑造移動(dòng)攝影新基底

讓移動(dòng)攝影再邁進(jìn)一步,定義屬于這個(gè)時(shí)代的新層次。得益于 Xiaomi AISP,小米14 Ultra 擁有全新融合光學(xué)大模型(FusionLM)算法,打破了常規(guī)的先剪切再拼接邏輯,最大化的保留了完整的原始光強(qiáng)信息,做到原始光強(qiáng)線性校準(zhǔn),在合成一張圖片時(shí),突破了舊有合成技術(shù)過(guò)渡不自然不順滑的問(wèn)題。

誕生于 Xiaomi AISP 計(jì)算管線多幀融合光學(xué)數(shù)據(jù)的 Ultra Raw 超級(jí)底片,能在 HDR 照片拍攝時(shí),把多幀不同亮度的圖片以“像素”為單位合而為一,保留多幀完整的原始光強(qiáng)信息,并且取材的顆粒度更細(xì)膩,亮度變化更順滑自然,不會(huì)有割裂的光強(qiáng)表現(xiàn),在動(dòng)態(tài)范圍達(dá)到 16EV,線性色深可以達(dá)到16bit 的條件下,給后期處理無(wú)盡的發(fā)揮空間。

融合光學(xué)大模型是整個(gè) Xiaomi AISP 影像處理系統(tǒng)的核心部分,RAW 文件即一種未經(jīng)加工的“原始圖像編碼數(shù)據(jù)”的文件格式,保留著圖像感應(yīng)器捕捉到的原始畫(huà)面數(shù)據(jù),也被稱(chēng)為「數(shù)字底片」。 Ultra Raw 超級(jí)底片具備可進(jìn)行風(fēng)格化調(diào)色創(chuàng)作的原始圖像信息,能帶來(lái)更多影像的可塑性、創(chuàng)造性??梢哉f(shuō) Ultra Raw 超級(jí)底片為專(zhuān)業(yè)攝影師帶來(lái)了移動(dòng)端攝影驚喜。

高度適配豐富場(chǎng)景,多幀融合絲滑拼接

那究竟是如何讓光影、像素信息過(guò)渡自然,達(dá)到順滑效果的呢? 常規(guī)而言,用戶在 HDR 照片拍攝時(shí),成像會(huì)根據(jù)多幀不同亮度圖片的非線性亮度分布和細(xì)節(jié)情況,在不同區(qū)域選擇不同源的輸入,即所謂的“剪切”。 比如原始光強(qiáng)比較暗的區(qū)域會(huì)選擇曝光量更高的圖片,來(lái)獲得更合適的亮度和更佳的信噪比;原始光強(qiáng)比較亮的區(qū)域會(huì)選擇曝光量更低的圖片,來(lái)盡可能地避免過(guò)曝和還原更多高光細(xì)節(jié)等。且在選擇不同輸入源的同時(shí),算法還會(huì)根據(jù)畫(huà)面的亮度和細(xì)節(jié)等信息計(jì)算其相應(yīng)的融合比例,最后不同區(qū)域根據(jù)不同比例進(jìn)行“拼接”來(lái)得到最終的融合結(jié)果。

但問(wèn)題也隨之而來(lái),由于 HDR 照片拍攝時(shí)后臺(tái)拍攝的多幀圖片的曝光量往往是離散的,這時(shí)來(lái)自不同區(qū)域、不同輸入源的特性,就會(huì)導(dǎo)致最終成圖時(shí)不同區(qū)域之間也存在一定亮度離散性,畫(huà)面亮度不連續(xù)。

雖然研究人員也會(huì)做各種各樣平滑和過(guò)渡處理來(lái)緩解以上離散問(wèn)題,但這并不能從根源上解決,也導(dǎo)致了后續(xù)拍攝成像時(shí)亮度線性關(guān)系保持不好、比例控制不當(dāng)易出現(xiàn)“不自然不連續(xù)”“亮度反轉(zhuǎn)”的問(wèn)題。 由此,我們首先要解決的問(wèn)題就是:如何借助大模型的強(qiáng)大算力和學(xué)習(xí)能力,解決傳統(tǒng)融合方法的弊端,從更細(xì)顆粒度的像素上自動(dòng)學(xué)習(xí)多幀信息融合和亮度線性自然過(guò)渡,并兼顧運(yùn)動(dòng)偽影處理。

融合光學(xué)大模型 FusionLM 由于有線性數(shù)據(jù)的輸入要求,能從公開(kāi)渠道獲得的訓(xùn)練數(shù)據(jù)較少,特別是拍攝對(duì)象帶真實(shí)連續(xù)運(yùn)動(dòng)的數(shù)據(jù)更加不足,很難發(fā)揮大模型海量數(shù)據(jù)的優(yōu)勢(shì)。針對(duì)該問(wèn)題,我們創(chuàng)新性地提出了一套基于 AIGC 的多幀融合光學(xué)數(shù)據(jù)生成方法,極大提高了訓(xùn)練數(shù)據(jù)的場(chǎng)景豐富度和數(shù)據(jù)量,保證了 FusionLM 大模型的融合效果和豐富場(chǎng)景的適配能力。

網(wǎng)絡(luò)模型消除運(yùn)動(dòng)偽影,動(dòng)勢(shì)成像過(guò)渡自然

在動(dòng)勢(shì)場(chǎng)景下要想成像過(guò)渡自然,就不得不提及由于運(yùn)動(dòng)直接導(dǎo)致的“運(yùn)動(dòng)偽影”。在拍攝過(guò)程中,攝像者常會(huì)面臨運(yùn)動(dòng)對(duì)象的速度或快或慢,如快速行駛的汽車(chē)、慢悠悠散步的行人;被攝主體或大或小,如龐大的建筑和精巧的小物件;拍攝距離或遠(yuǎn)或近帶來(lái)的成像尺寸變化,如人物特寫(xiě)與大全景的情況。這就帶來(lái)了用戶常規(guī)拍攝時(shí)拍攝對(duì)象突然移動(dòng)或者姿態(tài)變化帶來(lái)的運(yùn)動(dòng)偽影問(wèn)題,這對(duì)網(wǎng)絡(luò)的多尺寸特征提取能力和提取效率提出了很大的挑戰(zhàn)。

需要既能“看到更大范圍”來(lái)覆蓋快速運(yùn)動(dòng)物體的運(yùn)動(dòng)區(qū)間和大尺寸拍攝對(duì)象,又能“聚焦更小范圍”來(lái)識(shí)別局部精細(xì)運(yùn)動(dòng)和小尺寸對(duì)象。因此,團(tuán)隊(duì)特別設(shè)計(jì)了專(zhuān)門(mén)的人/物運(yùn)動(dòng)和人體姿態(tài)變化的數(shù)據(jù)生成方法,為網(wǎng)絡(luò)訓(xùn)練提供了更多樣、更連續(xù)真實(shí)的運(yùn)動(dòng)樣本,模擬真實(shí)拍攝場(chǎng)景的情況,極大提高了模型運(yùn)動(dòng)偽影的處理能力。

同時(shí),也從網(wǎng)絡(luò)模型優(yōu)化著手,對(duì) Tranformer 的 attention block 和 window partition 進(jìn)行專(zhuān)門(mén)改進(jìn),提高網(wǎng)絡(luò)多尺度、cross patch 的特征提取能力。去有效解決運(yùn)動(dòng)偽影問(wèn)題,提高用戶在運(yùn)動(dòng)場(chǎng)景拍攝效果和拍攝成片率。

Ultra Raw 超級(jí)底片,能夠做到高動(dòng)態(tài)范圍、高信噪比、無(wú)運(yùn)動(dòng)偽影的純線性域數(shù)據(jù),帶給專(zhuān)業(yè)攝影師更多的操作空間。這個(gè)突破性的想法得到了徠卡的認(rèn)可,小米作為移動(dòng)影像領(lǐng)域的引領(lǐng)者,從認(rèn)知到技術(shù),都為行業(yè)帶來(lái)了全新的突破。他們認(rèn)為“ Ultra Raw 甚至超越了光學(xué)無(wú)損,每一張照片都寫(xiě)滿了被自由修改的渴望”。除了徠卡,Ultra Raw 還通過(guò)了 Adobe 實(shí)驗(yàn)室校準(zhǔn),也是目前國(guó)內(nèi)率先支持 Lightroom HDR 工作流的安卓設(shè)備。

04

構(gòu)建小米的色彩還原體系

每個(gè)顏色都有獨(dú)特的 RGB 信息,給人傳遞或溫柔、或強(qiáng)烈、或冷淡等視覺(jué)識(shí)別性的信息特征。每一張照片都記錄著當(dāng)時(shí)入畫(huà)的環(huán)境、主體物等,要想成像質(zhì)量足夠高,圖像信息更豐富,就必須得提及 HDR(高動(dòng)態(tài)范圍成像)技術(shù)。 作為在大家拍攝自然風(fēng)景、人物肖像、市場(chǎng)街景、食物攝影、藝術(shù)品展覽等場(chǎng)景下的好搭檔,能夠更細(xì)節(jié)地留下圖像的色彩信息,呈現(xiàn)出最貼近人眼視覺(jué)感受的真實(shí)色彩,還原所見(jiàn)之景。

那么,人眼中的色彩世界和相機(jī)傳感器中的色彩世界是否一致呢?人眼只能看到380納米到780納米之間的光譜,且看不見(jiàn)短于380納米的紫外線光波和長(zhǎng)于780納米的紅外線光波。而相機(jī)傳感器的設(shè)計(jì)是基于人眼成像的特性,采用相近的響應(yīng)光譜分布,但依舊與真實(shí)人眼所能看到的色彩光波信息存在差異,因此, CMOS 傳感器無(wú)法真實(shí)呈現(xiàn)貼近肉眼和心理期待的色彩還原。

且自然界的物體不僅會(huì)反射顏色,也會(huì)吸收顏色,更是增加了還原色彩的難度。例如成熟的櫻桃有著飽滿艷麗的鮮紅色,這是因?yàn)闄烟冶砻嫖站G光和藍(lán)光,而只反射長(zhǎng)波光,所以才會(huì)顯出紅色。因此,感知到哪些顏色,取決于藍(lán)色、綠色和紅色被吸收的比例和光線強(qiáng)度。這些因素都讓人感受到照片和真實(shí)世界中顏色具有差異。這就需要我們圖像色彩大模型具備高精度的色彩還原能力,以滿足拍攝的照片能還原出原始圖像中的細(xì)節(jié)和色彩信息。

色彩大模型,高精度還原自然真實(shí)色彩

色彩,是認(rèn)知世界的重要信息。原有的 HDR 算法中,高光處顏色無(wú)法得到正確還原,以及存在偏色、失真的問(wèn)題。為了更好地把握色彩,小米與徠卡工程師進(jìn)行了深度地交談,同時(shí)結(jié)合產(chǎn)品和評(píng)測(cè)多方專(zhuān)業(yè)意見(jiàn),構(gòu)建出了一套屬于小米自己的色彩還原體系。

通過(guò)在標(biāo)準(zhǔn)的實(shí)驗(yàn)室場(chǎng)景和真實(shí)的自然場(chǎng)景大量的采集和調(diào)試,逐步完善了我們的色彩數(shù)據(jù)庫(kù),并結(jié)合大模型強(qiáng)大的學(xué)習(xí)和表達(dá)能力,做到哪怕是高動(dòng)態(tài)的拍攝場(chǎng)景下,也能保證色彩還原的準(zhǔn)確性,做到準(zhǔn)確還原人眼所感知的內(nèi)容,讓用戶所見(jiàn)即所得。

同時(shí),針對(duì)以往算法會(huì)遇到的色彩斷層、過(guò)渡不均勻等問(wèn)題,我們結(jié)合了傳統(tǒng)算法中的 3D LUT 技術(shù),利用其本身良好的色彩過(guò)渡性和連續(xù)性,融入進(jìn)色彩大模型之中,在準(zhǔn)確還原色彩的基礎(chǔ)上,保證了色彩是自然連續(xù)有層次感的。無(wú)論是拍攝自然景色、城市風(fēng)光,還是普通拍照或高動(dòng)態(tài)場(chǎng)景,畫(huà)面都能還原出真實(shí)的自然色彩,展現(xiàn)出場(chǎng)景中豐富的色彩變化,得到身臨其境般的影像效果。

05

大師開(kāi)拍

探索電影級(jí)光影之美

影調(diào),如同畫(huà)作中的色彩一樣,能賦予畫(huà)面生命和情感,更是一種視覺(jué)情境的表現(xiàn)形式。Xiaomi 14 Ultra 是目前唯一支持全焦段 8K 拍攝的影像旗艦,擁有全新的影調(diào)大模型( ToneLM) 大模型算法。借助于大模型的強(qiáng)大算力,真正讓小米影像做到了“讓真實(shí)有層次”、“過(guò)渡細(xì)膩”、“主次明確”的影調(diào)風(fēng)格。

影調(diào)大模型,直出電影級(jí)層次感視頻

小米14 Ultra 搭載全新的「大師開(kāi)拍」視頻功能,視頻影調(diào)風(fēng)格也進(jìn)行了全面的升級(jí),具備電影級(jí)的高規(guī)格,擁有“直出電影級(jí)層次感”視頻的能力。 它具備電影級(jí)的高規(guī)格,4K,24或30幀的電影幀率,10bit 色深、HLG 高動(dòng)態(tài)范圍、以及 BT2020 廣色域。充分利用了 LYT-900 的高動(dòng)態(tài)能力,捕捉和記錄 14EV 的動(dòng)態(tài)范圍,并通過(guò)高動(dòng)態(tài)的影調(diào)和中性的色調(diào),呈現(xiàn)出電影級(jí)自然、細(xì)膩的畫(huà)質(zhì)。許多攝影師體驗(yàn)之后也不禁感嘆“安卓的視頻也終于有了影調(diào)”。 讓畫(huà)面光影效果更真實(shí),光比更接近人眼的效果。小米使用了 ToneLM 大模型來(lái)訓(xùn)練 Tone mapping 算法,該模型會(huì)在 Ultra Raw 超高動(dòng)態(tài)范圍線性數(shù)據(jù)上,自動(dòng)學(xué)習(xí)如何調(diào)整圖像的亮度和對(duì)比度,提高影調(diào)效果,比傳統(tǒng)的 Tone mapping 算法能處理復(fù)雜的場(chǎng)景。

在亮度上,拍攝高動(dòng)態(tài)范圍畫(huà)面時(shí)可以更真實(shí)地還原環(huán)境的光比,既保持影像的明暗影調(diào)關(guān)系,又還原暗部和高光蘊(yùn)涵的細(xì)節(jié)。例如金屬質(zhì)感、夕陽(yáng)的光感,以及夜晚的霓虹燈效果。

在對(duì)比度上,既聚焦全局通透感提升,強(qiáng)化場(chǎng)景特點(diǎn),又專(zhuān)注于局部層次和反差的捕捉,實(shí)現(xiàn)整體通透、局部反差自然結(jié)合。例如波光粼粼的河流、郁郁蔥蔥的樹(shù)林等,讓影像更加鮮明、有立體感。

同時(shí),在將高動(dòng)態(tài)的圖像轉(zhuǎn)換為低動(dòng)態(tài)圖像的過(guò)程中。主要關(guān)注

呈現(xiàn)圖像的完整動(dòng)態(tài)范圍,充分恢復(fù)圖像內(nèi)容細(xì)節(jié),暗區(qū)不死黑,亮區(qū)不過(guò)曝;

影調(diào)真實(shí)自然,盡量避免亮度反轉(zhuǎn),貼近人眼觀感。現(xiàn)有的視覺(jué)大模型算法不能完全匹配 Tone mapping 任務(wù)的特性和需求。

因此在模型設(shè)計(jì)上,將 transformer block 和空間/通道注意力模塊結(jié)合,并采用多尺度的架構(gòu),更好地挖掘局部和全局信息,保持影像的明暗影調(diào)關(guān)系,又還原暗部和高光蘊(yùn)涵的細(xì)節(jié)。

當(dāng)你啟用大師開(kāi)拍,視頻畫(huà)面就擁有了電影級(jí)的立體光影、柔和的色彩過(guò)渡,充滿故事感。

06

大師人像

邁入人像攝影新境界

攝影,需要真實(shí)性與藝術(shù)性的并行描繪,是一種能觸動(dòng)人心的藝術(shù)。Xiaomi 14 Ultra 此次推出的「大師人像」功能便做到了真實(shí)與美麗的極致融合,帶來(lái)更豐富的焦段選擇、更強(qiáng)的抓拍能力,以及全新的「大師人像」/「徠卡人像」雙畫(huà)質(zhì),展現(xiàn)了小米在人像攝影層面的技術(shù)突破與藝術(shù)理解。

像大模型,主體與背景的深層融合

人像攝影技術(shù)的全面超越,離不開(kāi)人像大模型(Portrait LM)的技術(shù)支持,人像大模型共包括“人像語(yǔ)義”“人像虛化”“高保真人像智能美顏”三個(gè)主要模塊。 它們超越了傳統(tǒng)人像算法的「功能導(dǎo)向」思路,提供了模仿攝影大師思維方式的算法模型。通過(guò)算法的藝術(shù)般處理,讓光影更加立體、景深層次更加自然、皮膚細(xì)節(jié)和膚質(zhì)更加真實(shí),為用戶獲得真實(shí)美好的人像圖像提供了最穩(wěn)妥的技術(shù)依托。

“人像語(yǔ)義”對(duì)圖像進(jìn)行解析,通過(guò)大模型分析返回人像和環(huán)境的解析結(jié)果,實(shí)現(xiàn)了人像的精細(xì)化調(diào)整。“精細(xì)分割”是實(shí)現(xiàn)人像精細(xì)化處理的必殺技。

“人像語(yǔ)義”通過(guò)對(duì)圖像不同區(qū)域進(jìn)行精細(xì)化的分割,對(duì)不同分割區(qū)域應(yīng)用不同的算法處理,來(lái)呈現(xiàn)整圖最優(yōu)的人像效果。例如通過(guò)皮膚分割,實(shí)現(xiàn)對(duì)膚色的精確還原;五官分割,對(duì)五官進(jìn)行微調(diào),讓五官更加立體飽滿;發(fā)絲分割,幫助還原發(fā)絲,做到“發(fā)絲級(jí)”虛化;天空和場(chǎng)景分割,讓人像背景影調(diào)更加通透,色彩還原更加準(zhǔn)確。

除了能對(duì)圖像精細(xì)分割外,“人像語(yǔ)義”還會(huì)輸出圖像屬性 ID ,將不同的人像屬性 ID 與不同的算法相結(jié)合,實(shí)現(xiàn)對(duì)不同類(lèi)型的人像最優(yōu)處理。例如定制面部美顏效果功能并能夠針對(duì)不同光源、膚質(zhì)區(qū)別性地對(duì)膚色進(jìn)行調(diào)試,讓膚色還原更加準(zhǔn)確。

“人像虛化”則包括深度計(jì)算與虛化渲染兩部分。

深度計(jì)算動(dòng)態(tài)融合多種語(yǔ)義信息,對(duì)深度細(xì)節(jié)、穩(wěn)定性方面的技術(shù)進(jìn)行了增強(qiáng)。由于不同語(yǔ)義處理圖像的不同區(qū)域,小米還引入了“門(mén)控網(wǎng)絡(luò)”實(shí)現(xiàn)語(yǔ)義的動(dòng)態(tài)融合,讓語(yǔ)義信息能根據(jù)圖像內(nèi)容自適應(yīng)優(yōu)化深度準(zhǔn)確性,從而使人像虛化更加真實(shí)自然。

例如拍攝人像特寫(xiě)時(shí),模型專(zhuān)注提升人體發(fā)絲還原準(zhǔn)確性,做到發(fā)絲根根分明;拍攝多人合影時(shí),模型專(zhuān)注提升多人景深關(guān)系的準(zhǔn)確性,告別「紙片人」式的“虛化摳圖”的生硬感。 虛化渲染則能夠使用光源,還原網(wǎng)絡(luò)估計(jì)場(chǎng)景光斑能量分布,以做到光斑的光學(xué)還原。同時(shí)使用網(wǎng)絡(luò)對(duì)光學(xué)景深進(jìn)行建模,做到與同光圈條件下單反相機(jī)能夠呈現(xiàn)地同樣的景深效果。

“高保真人像智能美顏”模塊構(gòu)建大規(guī)模人像修復(fù)模型并整合 StyleGan 的人像生成能力,使得美顏算法在修復(fù)補(bǔ)全的同時(shí)具備輕度智能生成效果,祛除人臉瑕疵同時(shí)獲得超越自身的輕微美化。 此外,大模型還整合了大量人像語(yǔ)義信息讓美顏更智能,讓算法能夠根據(jù)人像屬性信息匹配合適的美化效果,一鍵實(shí)現(xiàn)“千人千面”的定制化美顏效果。

同時(shí),為避免過(guò)度美化問(wèn)題,人像大模型還引入了語(yǔ)義高保真模塊,促使在修復(fù)和生成過(guò)程中,更好地記憶并保持人臉身份信息。

- 真實(shí)是人文影像永恒的魅力,能透過(guò)照片傳遞出情感與藝術(shù)張力,而真實(shí)影像的靈魂就在于“層次感”。

Xiaomi AISP 影像處理平臺(tái),在技術(shù)上賦予了小米影像更多的精巧呈現(xiàn),同時(shí)又增添了許多對(duì)攝影藝術(shù)的深刻理解,層次性地展示了真實(shí)的人物、真實(shí)的場(chǎng)景、真實(shí)的光影,讓手機(jī)攝影進(jìn)入新的藝術(shù)階段。 在小米影像的全新篇章里,技術(shù)與人文的交融,締造出了真實(shí)有層次的影像。讓我們一起拿起小米14 Ultra,用影像的語(yǔ)言,體驗(yàn)豐富“層次感”所帶來(lái)的真實(shí)感受吧!




審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 傳感器
    +關(guān)注

    關(guān)注

    2576

    文章

    55056

    瀏覽量

    791493
  • 小米
    +關(guān)注

    關(guān)注

    70

    文章

    14534

    瀏覽量

    152203
  • NPU
    NPU
    +關(guān)注

    關(guān)注

    2

    文章

    374

    瀏覽量

    21110
  • AI大模型
    +關(guān)注

    關(guān)注

    0

    文章

    398

    瀏覽量

    1004

原文標(biāo)題:AI 大模型賦能手機(jī)影像,小米14 Ultra 讓真實(shí)有層次

文章出處:【微信號(hào):xiaomigongsi0406,微信公眾號(hào):小米公司】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    SeaVerse發(fā)布全球首個(gè)AI Native平臺(tái),“All in AI Native”引領(lǐng)AI創(chuàng)作前瞻革命

    2026年1月10日,SeaVerse宣布全球發(fā)布SeaVerse AI平臺(tái)。這是全球首個(gè)AI原生的創(chuàng)建和部署平臺(tái),集合大語(yǔ)言
    的頭像 發(fā)表于 01-14 17:41 ?1253次閱讀

    AI資訊:前DeepSeek研究員羅福莉已加入小米 英偉達(dá)一夜蒸發(fā)超萬(wàn)億元

    前DeepSeek研究員羅福莉正式宣布已經(jīng)加入小米,據(jù)悉,羅福莉在朋友圈發(fā)文稱(chēng):“智能終將從語(yǔ)言邁向物理世界。我正在Xiaomi MiMo,和一群富有創(chuàng)造力、才華橫溢且真誠(chéng)熱愛(ài)的研究員,致力于構(gòu)建這樣的未來(lái),全力奔赴我們心目中的AGI?!?
    的頭像 發(fā)表于 11-12 17:02 ?1217次閱讀

    Arm Flexible Access方案引入Armv9邊緣AI計(jì)算平臺(tái)

    全球首個(gè) Armv9 邊緣 AI 計(jì)算平臺(tái)(專(zhuān)為物聯(lián)網(wǎng)及邊緣 AI 工作負(fù)載優(yōu)化)將納入 Arm Flexible Access 方案,助力
    的頭像 發(fā)表于 10-29 15:27 ?1059次閱讀

    中科曙光推出科學(xué)大模型一站式開(kāi)發(fā)平臺(tái)OneScience

    近日,在2025年中國(guó)計(jì)算機(jī)大會(huì)上,中科曙光發(fā)布了國(guó)內(nèi)首個(gè)科學(xué)大模型一站式開(kāi)發(fā)平臺(tái)OneScience。該平臺(tái)遵循
    的頭像 發(fā)表于 10-28 17:29 ?919次閱讀

    AI模型的配置AI模型該怎么做?

    STM32可以跑AI,這個(gè)AI模型怎么搞,知識(shí)盲區(qū)
    發(fā)表于 10-14 07:14

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI的科學(xué)應(yīng)用

    流體芯片 ⑤AI計(jì)算平臺(tái) ⑥基于AI的自主決策系統(tǒng) ⑦基于AI的自主學(xué)習(xí)系統(tǒng) 2、面臨的挑戰(zhàn) ①需要造就一個(gè)跨學(xué)科、全面性覆蓋的知識(shí)庫(kù)和科學(xué)
    發(fā)表于 09-17 11:45

    LambdaTest推出全球首個(gè)AI智能體測(cè)試平臺(tái)

    領(lǐng)先的AI原生測(cè)試平臺(tái)LambdaTest已推出其智能體對(duì)智能體測(cè)試(Agent-to-Agent Testing)平臺(tái)的封閉測(cè)試版。這是全球首個(gè)專(zhuān)為驗(yàn)證與評(píng)估
    的頭像 發(fā)表于 08-26 17:37 ?953次閱讀

    小米AI眼鏡×商湯日日新 商湯“日日新”大模型交互平臺(tái)「商量」已探索性接入小米AI眼鏡

    程度:據(jù)國(guó)內(nèi)XR Vision報(bào)道,小米AI眼鏡首銷(xiāo)3天銷(xiāo)量或已接近5萬(wàn)副,創(chuàng)下了中國(guó)AI眼鏡最快銷(xiāo)售紀(jì)錄。 作為小米長(zhǎng)期生態(tài)合作伙伴,商湯“日日新”大
    的頭像 發(fā)表于 08-07 15:35 ?9555次閱讀
    <b class='flag-5'>小米</b><b class='flag-5'>AI</b>眼鏡×商湯日日新 商湯“日日新”大<b class='flag-5'>模型</b>交互<b class='flag-5'>平臺(tái)</b>「商量」已探索性接入<b class='flag-5'>小米</b><b class='flag-5'>AI</b>眼鏡

    全球首個(gè)胃癌影像篩查AI模型發(fā)布

    浙江省腫瘤醫(yī)院聯(lián)合阿里巴巴達(dá)摩院,發(fā)布了全球首個(gè)胃癌影像篩查AI模型DAMO GRAPE,首次利用平掃CT影像識(shí)別早期胃癌病灶,并聯(lián)合全國(guó)20家醫(yī)院,在近10萬(wàn)人的大規(guī)模臨床研究中大幅提升胃癌檢出率。 相關(guān)論文在24日登
    的頭像 發(fā)表于 06-30 14:37 ?3854次閱讀

    2.0.0版本的ST Edge AI Core在linux平臺(tái)上可以把量化后的onnx模型轉(zhuǎn)換為.nb,但是運(yùn)行報(bào)錯(cuò),缺少文件,為什么?

    2.0.0版本的ST Edge AI Core工具在linux平臺(tái)上應(yīng)該是可以把量化后的onnx模型轉(zhuǎn)換為.nb,但是運(yùn)行報(bào)錯(cuò),缺少文件。
    發(fā)表于 06-17 06:29

    上新:小米首個(gè)推理大模型開(kāi)源 馬斯克:下周推出Grok 3.5

    開(kāi)源新一代通義千問(wèn)模型Qwen3。據(jù)悉,Qwen3模型參數(shù)量?jī)H為DeepSeek - R1的1/3,能夠大幅降低成本,而且性能全面超越R1、OpenAI - o1等全球頂尖模型,登頂全球最強(qiáng)開(kāi)源
    的頭像 發(fā)表于 04-30 16:08 ?1340次閱讀

    Deepseek海思SD3403邊緣計(jì)算AI產(chǎn)品系統(tǒng)

    海思SD3403邊緣計(jì)算AI框架,提供了一套開(kāi)放式AI訓(xùn)練產(chǎn)品工具包,解決客戶低成本AI系統(tǒng),針對(duì)差異化AI 應(yīng)用場(chǎng)景,自己采集樣本數(shù)據(jù),進(jìn)
    發(fā)表于 04-28 11:05

    【「零基礎(chǔ)開(kāi)發(fā)AI Agent」閱讀體驗(yàn)】+初品Agent

    模型落地的重要方向,也是AI技術(shù)的下一個(gè)風(fēng)口。 因此該書(shū)適于對(duì)AI感興趣的讀者,尤其是Agent的學(xué)習(xí)者與開(kāi)發(fā)者,如想要提升工作效率的職場(chǎng)人、推動(dòng)企業(yè)AI深化應(yīng)用的管理者、希望在
    發(fā)表于 04-22 11:51

    首創(chuàng)開(kāi)源架構(gòu),天璣AI開(kāi)發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手

    模型庫(kù)的限制,聯(lián)發(fā)科還首發(fā)了開(kāi)源彈性架構(gòu)。區(qū)別于過(guò)往的開(kāi)放接口,只能部署特定架構(gòu)模型,開(kāi)放彈性架構(gòu)允許開(kāi)發(fā)者直接調(diào)整平臺(tái)源代碼,無(wú)需等待芯片廠商的支持,即可完成目標(biāo)或其他自研大模型輕松
    發(fā)表于 04-13 19:52

    Banana Pi 發(fā)布 BPI-AI2N &amp; BPI-AI2N Carrier,助力 AI 計(jì)算與嵌入式開(kāi)發(fā)

    RZ/V2N——近期在嵌入式世界2025上新發(fā)布,為 AI 計(jì)算、嵌入式系統(tǒng)及工自動(dòng)化提供強(qiáng)大支持。這款全新的計(jì)算平臺(tái)旨在滿足開(kāi)發(fā)者和企業(yè)用戶對(duì)高性能、低功耗和靈活擴(kuò)展的需求。 [](
    發(fā)表于 03-19 17:54