91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

云知聲正式推出Unisound U1-OCR文檔智能基礎(chǔ)大模型

云知聲 ? 來源:云知聲 ? 2026-02-26 17:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

就在剛剛,云知聲正式推出Unisound U1-OCR 文檔智能基礎(chǔ)大模型。作為首個(gè)工業(yè)級(jí)文檔智能基座,該模型憑借 “性能 SOTA、可信可驗(yàn)、開箱即用、高效部署、強(qiáng)適配” 五大核心優(yōu)勢(shì),打破傳統(tǒng)文檔處理邊界,樹立起行業(yè)新標(biāo)桿。

PART 1

技術(shù)跨越:從 OCR 2.0 邁向 3.0

文檔智能(Document Intelligence)是指利用人工智能技術(shù)自動(dòng)閱讀和理解文檔影像,并進(jìn)行內(nèi)容的讀取、理解、分類及關(guān)鍵信息提取。傳統(tǒng)視覺方案(OCR 1.0,以CRNN 為代表)僅能識(shí)別文字,新一代多模態(tài)方案(OCR 2.0,以VLM為代表)具備端到端版面理解能力和文字識(shí)別能力。而Unisound U1-OCR 則正式開啟 OCR 3.0 時(shí)代——在理解版面的基礎(chǔ)上,進(jìn)一步洞察文檔深層語義,實(shí)現(xiàn)自動(dòng)分類與業(yè)務(wù)級(jí)信息抽取,完成了從“字符感知”到“文檔認(rèn)知”的質(zhì)的飛躍。

PART 2

實(shí)力領(lǐng)跑:多項(xiàng)權(quán)威評(píng)測(cè)穩(wěn)居全球第一梯隊(duì)

Unisound U1-OCR是一款達(dá)到國際頂尖水平(SOTA)的文檔智能理解模型,其核心優(yōu)勢(shì)在于突破了傳統(tǒng)模型“只讀文字、不懂排版”的瓶頸,能夠像人類專家一樣“看懂”復(fù)雜文檔。為適應(yīng)OCR 3.0 時(shí)代對(duì)于文檔業(yè)務(wù)級(jí)結(jié)構(gòu)化抽取的新要求,Unisound U1-OCR 采用 ViT + LLM 架構(gòu),其中視覺編碼器部分采用 NaViT 架構(gòu),實(shí)現(xiàn)文檔分辨率動(dòng)態(tài)處理,模型參數(shù)規(guī)模 3B 量級(jí),兼顧模型計(jì)算效率與文檔深層語義信息理解的能力要求。除此之外,模型還提出了多項(xiàng)創(chuàng)新舉措:

首先,它擁有“先懂結(jié)構(gòu),再讀內(nèi)容”的智慧。傳統(tǒng)模型往往按順序死板閱讀,而Unisound U1-OCR首創(chuàng)了“語義驅(qū)動(dòng)+動(dòng)態(tài)聚焦”策略。如同人類閱讀習(xí)慣,先梳理文檔目錄、標(biāo)題的層級(jí)關(guān)系,再按需提取內(nèi)容。模型能自動(dòng)構(gòu)建文檔的“語義地圖”,精準(zhǔn)識(shí)別標(biāo)題、圖表與正文的從屬關(guān)系,即使面對(duì)排版混亂的極端場(chǎng)景,也能條理清晰地提取信息。

其次,它具備敏銳的“空間感知力”。通過強(qiáng)化空間對(duì)齊模塊,模型能充分利用文字在頁面上的位置信息,主動(dòng)理解元素間的空間布局。結(jié)合動(dòng)態(tài)分辨率技術(shù),無論是密集表格還是圖文混排,它都能精準(zhǔn)還原文檔結(jié)構(gòu),徹底解決了以往模型“張冠李戴”的空間盲區(qū)。

此外,模型采用Multi-Token Prediction(MTP)技術(shù)——在預(yù)測(cè)當(dāng)前 Token時(shí),同步考慮未來多個(gè)Token的概率分布,大幅提升長(zhǎng)文檔邏輯連貫性。配合全任務(wù)強(qiáng)化學(xué)習(xí)策略,增強(qiáng)模型對(duì)版式結(jié)構(gòu)的全局預(yù)見性并在推理階段將模型生成效率提升了80%以上。在訓(xùn)練階段,采用多任務(wù)協(xié)同強(qiáng)化訓(xùn)練方案,實(shí)現(xiàn)文檔結(jié)構(gòu)還原、文檔分類與信息抽取的深度對(duì)齊。強(qiáng)化訓(xùn)練策略圍繞“語義+坐標(biāo)”雙目標(biāo)優(yōu)化,針對(duì)坐標(biāo)回溯的 IoU 精度進(jìn)行專項(xiàng)強(qiáng)化,有效遏制定位幻覺,確保輸出結(jié)果的物理可信度。通過多檔位分辨率擾動(dòng)與Mask采樣策略,顯著提升了模型多場(chǎng)景文檔圖像的理解能力。

憑借這些創(chuàng)新,Unisound U1-OCR在多項(xiàng)權(quán)威測(cè)試中均獲業(yè)界SOTA表現(xiàn),真正實(shí)現(xiàn)了從“識(shí)別文字”到“理解文檔”的跨越。

1.OmniDocBench V1.5評(píng)測(cè)SOTA

在OmniDocBench V1.5評(píng)測(cè)中,Unisound U1-OCR以95.1分取得SOTA表現(xiàn)(如圖1),領(lǐng)先GLM-OCR,Deepseek-OCR2,Gemini-3-Pro,GPT-5.2等主流模型,實(shí)現(xiàn)了精度與泛化能力的雙重突破。 e549dbce-12e4-11f1-90a1-92fbcf53809c.png

圖1Unisound U1-OCR在OmniDocBench V1.5的評(píng)測(cè)得分對(duì)比

2.D4LA評(píng)測(cè)SOTA

在D4LA評(píng)測(cè)中,F(xiàn)1 分?jǐn)?shù)達(dá) 90.8(如圖 2),大幅領(lǐng)先 DocLayout-YOLO(87.3)PP-StructureV3(86.0)。無需微調(diào)即可高精度解析學(xué)術(shù)論文、財(cái)務(wù)報(bào)表等 11 類高復(fù)雜度文檔。 e5ab06ce-12e4-11f1-90a1-92fbcf53809c.png

圖2 基于D4LA評(píng)測(cè)的文檔版面解析橫向?qū)Ρ冉Y(jié)果

3.DocLayNet評(píng)測(cè)SOTA

在DocLayNet評(píng)測(cè)中,F(xiàn)1 分?jǐn)?shù) 95.9(如圖 3),超越 MinerU 2.5、PP-StructureV3 等模型。在表格識(shí)別、跨頁關(guān)聯(lián)、微小文本檢測(cè)等高難任務(wù)上優(yōu)勢(shì)顯著,魯棒性極強(qiáng)。

e6047c7c-12e4-11f1-90a1-92fbcf53809c.png

圖3 基于DocLayNet評(píng)測(cè)的文檔版面解析橫向?qū)Ρ冉Y(jié)果

4.業(yè)務(wù)相關(guān)評(píng)測(cè)SOTA

在內(nèi)部業(yè)務(wù)測(cè)試中(如圖4),其信息抽取與文書分類能力超越 Gemini-2.5-Flash、Qwen-235B-VL 等主流通用商業(yè)和開源模型。特別是在醫(yī)療入院記錄、出院小結(jié)等強(qiáng)業(yè)務(wù)場(chǎng)景中,領(lǐng)先優(yōu)勢(shì)尤為明顯,Unisound U1-OCR 以 3B 規(guī)模的參數(shù)獲得比更大規(guī)模通用 VLM 更好的評(píng)測(cè)性能。與較小尺寸的文檔解析任務(wù)模型相比,得益于模型多項(xiàng)創(chuàng)新舉措,在業(yè)務(wù)級(jí)信息抽取等深層語義信息理解的能力表現(xiàn)更好。 e65cf578-12e4-11f1-90a1-92fbcf53809c.png 圖4 基于業(yè)務(wù)數(shù)據(jù)集的文書分類和信息抽取能力橫向?qū)Ρ仍u(píng)測(cè)結(jié)果

PART 3

面向真實(shí)場(chǎng)景:4大核心能力助推U1-OCR從“讀懂”邁向“執(zhí)行”

作為開啟OCR 3.0時(shí)代的文檔智能基礎(chǔ)大模型,除了在通用評(píng)測(cè)中斬獲多項(xiàng)SOTA,Unisound U1-OCR更立足工業(yè)級(jí)場(chǎng)景需求,打造了四大核心能力,實(shí)現(xiàn)從‘讀懂’到‘執(zhí)行’的業(yè)務(wù)落地。

1.可信可查:精準(zhǔn)溯源,結(jié)果可驗(yàn)

模型獨(dú)創(chuàng)“坐標(biāo)-文本-語義”融合架構(gòu),實(shí)現(xiàn)像素級(jí)精準(zhǔn)定位與完整證據(jù)鏈構(gòu)建。在完成信息抽取的同時(shí),系統(tǒng)精準(zhǔn)標(biāo)示信息在文檔中的來源位置,使結(jié)果審核過程全透明、可追溯,從技術(shù)層面保障文檔處理結(jié)果的可信度,徹底解決傳統(tǒng)文檔處理“結(jié)果不可驗(yàn)”的行業(yè)難題。

例如,在企業(yè)審核場(chǎng)景中,審核人員無需大海撈針般翻閱原文,點(diǎn)擊抽取結(jié)果即可實(shí)時(shí)高亮定位原始位置。這種“人機(jī)協(xié)同”的閉環(huán)將審核耗時(shí)縮短至秒級(jí),讓人工漏檢率降至最低,真正實(shí)現(xiàn)了“可信任的AI”。

2. 業(yè)務(wù)融合:開箱即用,Agent Ready

通用OCR工具在專業(yè)領(lǐng)域存在局限——例如醫(yī)保結(jié)算單中“自付一”“自付二”與“個(gè)人自費(fèi)”的邏輯關(guān)系,或合同中金額大小寫的校驗(yàn)規(guī)則,都需要領(lǐng)域知識(shí)支撐。

Unisound U1-OCR在基礎(chǔ)模型之上,融入了云知聲在醫(yī)療、金融等領(lǐng)域的行業(yè)知識(shí)積累,模型可基于業(yè)務(wù)邏輯進(jìn)行多字段關(guān)聯(lián)校驗(yàn)。在內(nèi)部業(yè)務(wù)測(cè)試中,面向50余種常見業(yè)務(wù)文書的分類準(zhǔn)確率超過99%。

3. 高效部署,安全可控

模型深度支持私有化與離線部署,可在無外網(wǎng)環(huán)境下穩(wěn)定運(yùn)行,完美匹配政務(wù)、醫(yī)療、金融等高安全等級(jí)行業(yè)的數(shù)據(jù)隱私保護(hù)需求。同時(shí),通過版面級(jí)并行解碼與多Token預(yù)測(cè)架構(gòu)等優(yōu)化措施,一份十多頁的文檔,整理處理可在數(shù)秒內(nèi)完成,高效的文檔處理能力,讓工業(yè)級(jí)文檔智能能力觸手可及。

4. 超強(qiáng)適配,攻克復(fù)雜場(chǎng)景

針對(duì)企業(yè)實(shí)際業(yè)務(wù)中遇到的非標(biāo)準(zhǔn)拍照、文檔彎折模糊、復(fù)雜花式排版、多語言混排等各類極端復(fù)雜文檔場(chǎng)景,Unisound U1-OCR仍能保持穩(wěn)定、高精度的處理表現(xiàn),徹底擺脫傳統(tǒng)技術(shù)對(duì)標(biāo)準(zhǔn)化文檔的依賴,真正適配企業(yè)真實(shí)業(yè)務(wù)的全場(chǎng)景需求。

PART 4

真實(shí)場(chǎng)景驗(yàn)證,實(shí)力可鑒

1. 可信信息抽取案例

案例1:模型能夠深度理解業(yè)務(wù)需求,實(shí)現(xiàn)數(shù)據(jù)的“即抽即用”。醫(yī)療費(fèi)用清單抽取中,模型能自動(dòng)理解語義,兼容不同醫(yī)院的寫法差異(如將原圖中的“總計(jì)”“合計(jì)金額”等描述統(tǒng)一對(duì)齊映射至數(shù)據(jù)庫的“總費(fèi)用”字段),并根據(jù)業(yè)務(wù)字段抽取規(guī)則精準(zhǔn)剔除無關(guān)的大類干擾項(xiàng),實(shí)現(xiàn)結(jié)果直接入庫。同時(shí),模型支持像素級(jí)的坐標(biāo)回溯,通過不同顏色將抽取結(jié)果與原圖位置一一對(duì)應(yīng)(如圖所示),這種透明的可信體系讓傳統(tǒng)的“全文重讀”進(jìn)化為“秒級(jí)定點(diǎn)確認(rèn)”,在保障數(shù)據(jù)入庫準(zhǔn)度的同時(shí),實(shí)現(xiàn)了業(yè)務(wù)效率的質(zhì)變。

e6b48eb4-12e4-11f1-90a1-92fbcf53809c.png

2. 業(yè)務(wù)知識(shí)融合案例

案例2:模型支持單圖內(nèi)多文檔自動(dòng)識(shí)別與分割,精準(zhǔn)區(qū)分病歷、處方等混疊文件。無需人工預(yù)分類,即可一鍵完成混合單據(jù)的自動(dòng)化歸檔與提取,讓海量雜亂文檔處理簡(jiǎn)單高效。

e715aeba-12e4-11f1-90a1-92fbcf53809c.png

案例3:即使面對(duì)拍照遮擋、內(nèi)容缺失的非理想文檔,模型仍能憑借深層語義洞察準(zhǔn)確判定類別。這種對(duì)復(fù)雜長(zhǎng)尾場(chǎng)景的高兼容性,確保系統(tǒng)在實(shí)戰(zhàn)中無死角,大幅提升自動(dòng)化處理成功率。

e773ce3c-12e4-11f1-90a1-92fbcf53809c.png

3. 復(fù)雜版式識(shí)別案例

案例4:傳統(tǒng)方案在解析報(bào)紙、期刊等多欄穿插、圖文交織的復(fù)雜版面時(shí),易陷入“下一段該讀哪里”的閱讀迷航。而Unisound U1-OCR模型的突破在于,它不再機(jī)械地按固定順序掃描頁面,而是像人一樣,結(jié)合上下文語義與版面邏輯,自動(dòng)判斷段落的承接關(guān)系,精準(zhǔn)梳理出符合人類閱讀習(xí)慣的內(nèi)容流。

案例5:針對(duì)滿屏水印與傾斜排版,模型可自動(dòng)執(zhí)行“圖像凈化”——智能消除水印干擾,精準(zhǔn)校正扭曲版面。無論原圖多雜亂,都能輸出布局規(guī)整、內(nèi)容清晰的標(biāo)準(zhǔn)化文檔,為后續(xù)識(shí)別奠定干凈基礎(chǔ),徹底消除干擾隱患。

e834928e-12e4-11f1-90a1-92fbcf53809c.png

案例6:面對(duì)跨行、跨列及嵌套的復(fù)雜表格,模型不僅能精準(zhǔn)解析內(nèi)容,更能完整保留原始行列結(jié)構(gòu)與邏輯關(guān)系。輸出結(jié)果直接可用、無需二次調(diào)整,無論是統(tǒng)計(jì)報(bào)表還是工程圖紙都能輕松解析。

e88c9632-12e4-11f1-90a1-92fbcf53809c.png

Unisound U1-OCR開啟OCR 3.0時(shí)代,標(biāo)志著AI從單純“識(shí)字”躍遷至“理解業(yè)務(wù)邏輯”。這不僅是文檔智能的革新,更是云知聲邁向AGI的關(guān)鍵一步。我們將以多模態(tài)文檔為知識(shí)入口,賦予機(jī)器自主推理與證據(jù)溯源能力,推動(dòng)AI從感知走向認(rèn)知。未來,云知聲期待構(gòu)建能像人類一樣閱讀、思考并解決復(fù)雜問題的通用智能體,讓每一份文檔都成為通往AGI的智慧階梯。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 云知聲
    +關(guān)注

    關(guān)注

    0

    文章

    314

    瀏覽量

    9360

原文標(biāo)題:云知聲Unisound U1-OCR大模型發(fā)布!首個(gè)工業(yè)級(jí)文檔智能基礎(chǔ)大模型,開啟OCR 3.0時(shí)代

文章出處:【微信號(hào):云知聲,微信公眾號(hào):云知聲】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    與嘉會(huì)醫(yī)療達(dá)成戰(zhàn)略合作

    2月5日下午,國內(nèi)人工智能技術(shù)與服務(wù)領(lǐng)軍企業(yè)智能科技股份有限公司(以下簡(jiǎn)稱“
    的頭像 發(fā)表于 02-06 09:05 ?995次閱讀

    山海知音大模型2.0重磅發(fā)布

    隨著智能體時(shí)代到來,在“山?!tlas”通用智算基座持續(xù)演進(jìn)基礎(chǔ)上,年前實(shí)現(xiàn)了“山海·醫(yī)”5.0醫(yī)療大
    的頭像 發(fā)表于 01-27 14:08 ?196次閱讀
    <b class='flag-5'>云</b><b class='flag-5'>知</b><b class='flag-5'>聲</b>山海知音大<b class='flag-5'>模型</b>2.0重磅發(fā)布

    榮登MedAIBench優(yōu)秀國產(chǎn)醫(yī)療大模型榜單

    12月20日,國家人工智能應(yīng)用中試基地(醫(yī)療)·浙江正式發(fā)布《MedAIBench測(cè)評(píng)榜(優(yōu)秀國產(chǎn)醫(yī)療大模型)》。在這一具備行業(yè)權(quán)威性與臨床導(dǎo)向性的嚴(yán)格測(cè)評(píng)中,
    的頭像 發(fā)表于 12-29 14:36 ?818次閱讀

    山海醫(yī)療大模型問鼎MedBench4.0三項(xiàng)榜首

    12月16日,中文醫(yī)療大模型權(quán)威評(píng)測(cè)平臺(tái)MedBench4.0發(fā)布最新評(píng)測(cè)結(jié)果。自主研發(fā)的“山海醫(yī)療大模型(UniGPT?Med)”展
    的頭像 發(fā)表于 12-29 14:35 ?3161次閱讀
    <b class='flag-5'>云</b><b class='flag-5'>知</b><b class='flag-5'>聲</b>山海醫(yī)療大<b class='flag-5'>模型</b>問鼎MedBench4.0三項(xiàng)榜首

    推出醫(yī)療領(lǐng)域?qū)<掖?b class='flag-5'>模型“山海·醫(yī)大模型5.0”

    剛剛,正式推出醫(yī)療領(lǐng)域?qū)<壹?jí)大模型全新力作——“山海?醫(yī)大
    的頭像 發(fā)表于 12-24 18:12 ?4233次閱讀

    獲批建設(shè)河南信陽人工智能模型工程技術(shù)研究中心

    近日,河南省信陽市公示了《2025年度信陽市級(jí)科技研發(fā)平臺(tái)擬新建名單》,由(信陽)數(shù)字科技有限公司申報(bào)的“信陽市人工智能模型服務(wù)平臺(tái)
    的頭像 發(fā)表于 11-03 17:16 ?1306次閱讀

    聯(lián)合行業(yè)伙伴推出多款智能硬件解決方案

    近日,智慧生活產(chǎn)品線迎來一系列新產(chǎn)品和解決方案升級(jí),大模型全面進(jìn)入產(chǎn)品線,讓AGI從“技術(shù)概念”切實(shí)走進(jìn)“日常好用”的智慧化生活。
    的頭像 發(fā)表于 10-29 13:47 ?952次閱讀

    與申能達(dá)簽署戰(zhàn)略合作協(xié)議

    日前,智能科技股份有限公司(以下簡(jiǎn)稱“
    的頭像 發(fā)表于 10-11 09:12 ?679次閱讀

    攜手TCL空調(diào)煥新智能家電體驗(yàn)

    “空調(diào)開24度,新風(fēng)打開”——?jiǎng)偞蛲昊@球的小濤對(duì)著客廳遠(yuǎn)處的TCL空調(diào)發(fā)出指令,而空調(diào)無需聯(lián)網(wǎng)仍精準(zhǔn)執(zhí)行操作。這一離線狀態(tài)下的智能響應(yīng)場(chǎng)景,正是TCL空調(diào)與聯(lián)手研發(fā)的“基于端
    的頭像 發(fā)表于 08-25 13:53 ?1188次閱讀

    獸牙智能體平臺(tái)通過華為昇騰技術(shù)認(rèn)證

    近日,(09678.HK)自主研發(fā)的獸牙智能體平臺(tái)v1.0成功通過華為昇騰應(yīng)用開發(fā)技術(shù)認(rèn)證,獲得Ascend Native認(rèn)證證書及認(rèn)證徽標(biāo)的使用權(quán)。這一認(rèn)證標(biāo)志著
    的頭像 發(fā)表于 07-11 18:20 ?1458次閱讀

    在港交所成功上市

    近日,智能科技股份有限公司(以下簡(jiǎn)稱“
    的頭像 發(fā)表于 07-03 17:41 ?1046次閱讀

    AGI龍頭企業(yè)港股上市,市值達(dá)147億港元

    為147.44億港元。 ? 圖:創(chuàng)始人董事長(zhǎng)CEO黃偉博士在現(xiàn)場(chǎng)致辭表示:從今天起,我們將以香港為支點(diǎn),將中國AGI產(chǎn)品帶向全世界——用更敏捷的創(chuàng)新、更好的商業(yè)化和更開放的心胸,讓人類智慧與機(jī)器
    的頭像 發(fā)表于 06-30 11:44 ?3368次閱讀
    AGI龍頭企業(yè)<b class='flag-5'>云</b><b class='flag-5'>知</b><b class='flag-5'>聲</b>港股上市,市值達(dá)147億港元

    與商湯科技達(dá)成戰(zhàn)略合作

    近日,智能科技股份有限公司(以下簡(jiǎn)稱“
    的頭像 發(fā)表于 06-20 14:52 ?978次閱讀

    再度登頂MedBench榜單

    近日,中文醫(yī)療大模型權(quán)威評(píng)測(cè)平臺(tái)MedBench公布最新自測(cè)榜單結(jié)果,基于山海大模型打造的醫(yī)療行業(yè)專用大
    的頭像 發(fā)表于 05-20 10:12 ?795次閱讀

    深度參與三項(xiàng)大模型國家標(biāo)準(zhǔn)編寫

    在人工智能技術(shù)加速落地的當(dāng)下,標(biāo)準(zhǔn)化建設(shè)已成為推動(dòng)行業(yè)高質(zhì)量發(fā)展的關(guān)鍵因素。近日,參與編寫的3項(xiàng)人工智能
    的頭像 發(fā)表于 03-18 18:19 ?915次閱讀