• 最新的
  • 熱門
雲知聲Unisound U1-OCR大模型發布!首個工業級文檔智能基礎大模型,開啟OCR 3.0時代

雲知聲Unisound U1-OCR大模型發布!首個工業級文檔智能基礎大模型,開啟OCR 3.0時代

2026-02-26
高德智感亮相德國IWA戶外用品展 樹立行業新標桿

高德智感亮相德國IWA戶外用品展 樹立行業新標桿

2026-02-26
FxPro 與 McLaren Racing 延續策略合作夥伴關係

FxPro 與 McLaren Racing 延續策略合作夥伴關係

2026-02-26
IEI 於 2026 Embedded World 展示 Secure-by-Design 強韌邊緣基礎架構,賦能 AI 時代的工業營運韌性

IEI 於 2026 Embedded World 展示 Secure-by-Design 強韌邊緣基礎架構,賦能 AI 時代的工業營運韌性

2026-02-26
2026年度VINEXPO ASIA香港酒展:市場轉型期的堅實支柱

2026年度VINEXPO ASIA香港酒展:市場轉型期的堅實支柱

2026-02-26
啦啦隊女神做公益!各務礼美奈、謝予容等陪長輩滾元宵送暖

啦啦隊女神做公益!各務礼美奈、謝予容等陪長輩滾元宵送暖

2026-02-26
霸氣樂團 2026 震撼變身!王瞳披「方口獅戰袍」求突破

霸氣樂團 2026 震撼變身!王瞳披「方口獅戰袍」求突破

2026-02-26

漾新聞|高雄美國學校IB專案亮眼 十年級獨立研究用行動改變世界

2026-02-26
開學轉換心情首選 文化幣闖關集章 一起升級為「傳說」

開學轉換心情首選 文化幣闖關集章 一起升級為「傳說」

2026-02-26
柯震東感嘆乩身「活著只為還債與贖罪」詮釋三太子乩身斬妖除魔 大讚海量特效

柯震東感嘆乩身「活著只為還債與贖罪」詮釋三太子乩身斬妖除魔 大讚海量特效

2026-02-26
《百分之一相對論》首度挑戰校園驚悚事件 宋偉恩遭體罰 攜「Saturnday」「 未來少女」賣弄身姿

《百分之一相對論》首度挑戰校園驚悚事件 宋偉恩遭體罰 攜「Saturnday」「 未來少女」賣弄身姿

2026-02-26
喬奇瑞不打怪改打活屍?! 力推《怪奇物語》粉絲會愛《全境屍控》

喬奇瑞不打怪改打活屍?! 力推《怪奇物語》粉絲會愛《全境屍控》

2026-02-26
源少年林毓家《NO GOOD!歐吉桑》嗆聲「只會蛤蛤蛤」!李銘順氣炸:被逼到很不爽

源少年林毓家《NO GOOD!歐吉桑》嗆聲「只會蛤蛤蛤」!李銘順氣炸:被逼到很不爽

2026-02-26
Retail
2026年 / 2 月 26日 / 星期四
  • 金融財經
  • 生活消費
  • 健康樂活
  • 旅遊美食
  • 地方社會
  • 3C科技
  • 影劇娛樂
  • 藝術教育
  • 運動體育
沒有結果
查看所有結果
商訊快報
沒有結果
查看所有結果
  • 金融財經
  • 生活消費
  • 健康樂活
  • 旅遊美食
  • 地方社會
  • 3C科技
  • 影劇娛樂
  • 藝術教育
  • 運動體育

雲知聲Unisound U1-OCR大模型發布!首個工業級文檔智能基礎大模型,開啟OCR 3.0時代

2026-02-26
發布在 金融財經
分享到Facebook分享到LINE分享到Twitter分享到Wechat

北京2026年2月26日 /美通社/ — 就在剛剛,雲知聲正式推出「Unisound U1-OCR」 文檔智能基礎大模型。作為首個工業級文檔智能基座,該模型憑借 「性能 SOTA、可信可驗、開箱即用、高效部署、強適配」 五大核心優勢,打破傳統文檔處理邊界,樹立起行業新標杆。

一、技術跨越:從 OCR 2.0 邁向 3.0

文檔智能(Document Intelligence)是指利用人工智能技術自動閱讀和理解文檔影像,並進行內容的讀取、理解、分類及關鍵信息提取。傳統視覺方案(OCR 1.0,以 CRNN 為代表)僅能識別文字,新一代多模態方案(OCR 2.0,以VLM為代表 )具備初步版面理解能力。而 「Unisound U1-OCR」 則正式開啟 OCR 3.0 時代——在理解版面的基礎上,進一步洞察文檔深層語義,實現自動分類與業務級信息抽取,完成了從「字符感知」到「文檔認知」的質的飛躍。

二、實力領跑:多項權威評測穩居全球第一梯隊

「Unisound U1-OCR」是一款達到國際頂尖水平(SOTA)的文檔智能理解模型,其核心優勢在於突破了傳統模型「只讀文字、不懂排版」的瓶頸,能夠像人類專家一樣「看懂」複雜文檔。為適應 OCR 3.0 時代對於文檔業務級結構化抽取的新要求,Unisound U1-OCR 采用 ViT + LLM 架構,其中視覺編碼器部分采用 NaViT 架構,實現文檔分辨率動態處理,模型參數規模 3B 量級,兼顧模型計算效率與文檔深層語義信息理解的能力要求。除此之外,模型還提出了多項創新舉措:

首先,它擁有「先懂結構,再讀內容」的智慧。傳統模型往往按順序死板閱讀,而「Unisound U1-OCR」首創了「語義驅動+動態聚焦」策略。如同人類閱讀習慣,先梳理文檔目錄、標題的層級關系,再按需提取內容。模型能自動構建文檔的「語義地圖」,精准識別標題、圖表與正文的從屬關系,即使面對排版混亂的極端場景,也能條理清晰地提取信息。

其次,它具備敏銳的「空間感知力」。通過強化空間對齊模塊,模型能充分利用文字在頁面上的位置信息,主動理解元素間的空間布局。結合動態分辨率技術,無論是密集表格還是圖文混排,它都能精准還原文檔結構,徹底解決了以往模型「張冠李戴」的空間盲區。

此外,模型采用Multi-Token Prediction(MTP)技術——在預測當前 Token時,同步考慮未來多個Token的概率分布,大幅提升長文檔邏輯連貫性。配合全任務強化學習策略,增強模型對版式結構的全局預見性並在推理階段將模型生成效率提升了80%以上。在訓練階段,采用多任務協同強化訓練方案,實現文檔結構還原、文檔分類與信息抽取的深度對齊。強化訓練策略圍繞「語義+坐標」雙目標優化,針對坐標回溯的 IoU 精度進行專項強化,有效遏制定位幻覺,確保輸出結果的物理可信度。通過多檔位分辨率擾動與Mask采樣策略,顯著提升了模型多場景文檔圖像的理解能力。

憑借這些創新,Unisound U1-OCR在多項權威測試中均獲業界SOTA表現,真正實現了從「識別文字」到「理解文檔」的跨越。

1. OmniDocBench V1.5評測SOTA

在OmniDocBench V1.5評測中,Unisound U1-OCR以95.1分取得SOTA表現(如圖1),領先GLM-OCR,Deepseek-OCR2,Gemini-3-Pro,GPT-5.2等主流模型,實現了精度與泛化能力的雙重突破。

圖1Unisound U1-OCR在OmniDocBench V1.5的評測得分對比

2. D4LA評測SOTA

在D4LA評測中, F1 分數達 90.8,大幅領先 DocLayout-YOLO(87.3)、PP-StructureV3(86.0)。無需微調即可高精度解析學術論文、財務報表等 11 類高複雜度文檔。

3. DocLayNet評測SOTA

在DocLayNet評測中,F1 分數 95.9,超越 MinerU 2.5、PP-StructureV3 等模型。在表格識別、跨頁關聯、微小文本檢測等高難任務上優勢顯著,魯棒性極強。

4. 業務相關評測SOTA

在內部業務測試中,其信息抽取與文書分類能力超越 Gemini-2.5-Flash、Qwen-235B-VL 等主流通用商業和開源模型。特別是在醫療入院記錄、出院小結等強業務場景中,領先優勢尤為明顯,Unisound U1-OCR 以 3B 規模的參數獲得比更大規模通用 VLM 更好的評測性能。與較小尺寸的文檔解析任務模型相比,得益於模型多項創新舉措,在業務級信息抽取等深層語義信息理解的能力表現更好。

三、面向真實場景:4大核心能力助推U1-OCR從「讀懂」邁向「執行」

作為開  啟OCR 3.0時代的文檔智能基礎大模型,除了在通用評測中斬獲多項SOTA,Unisound U1-OCR更立足工業級場景需求,打造了四大核心能力,實現從『讀懂』到『執行』的業務落地。

1. 可信可查:精准溯源,結果可驗

模型獨創「坐標-文本-語義」融合架構,實現像素級精准定位與完整證據鏈構建。在完成信息抽取的同時,系統精准標示信息在文檔中的來源位置,使結果審核過程全透明、可追溯,從技術層面保障文檔處理結果的可信度,徹底解決傳統文檔處理「結果不可驗」的行業難題。

例如,在企業審核場景中,審核人員無需大海撈針般翻閱原文,點擊抽取結果即可實時高亮定位原始位置。這種「人機協同」的閉環將審核耗時縮短至秒級,讓人工漏檢率降至最低,真正實現了「可信任的AI」。

2. 業務融合:開箱即用,Agent Ready

通用OCR工具在專業領域存在局限——例如醫保結算單中「自付一」「自付二」與「個人自費」的邏輯關系,或合同中金額大小寫的校驗規則,都需要領域知識支撐。

Unisound U1-OCR在基礎模型之上,融入了雲知聲在醫療、金融等領域的行業知識積累,模型可基於業務邏輯進行多字段關聯校驗。在內部業務測試中,面向50餘種常見業務文書的分類准確率超過99%。

3. 高效部署,安全可控

模型深度支持私有化與離線部署,可在無外網環境下穩定運行,完美匹配政務、醫療、金融等高安全等級行業的數據隱私保護需求。同時,通過版面級並行解碼與多Token預測架構等優化措施,一份十多頁的文檔,整理處理可在數秒內完成,高效的文檔處理能力,讓工業級文檔智能能力觸手可及。

4. 超強適配,攻克複雜場景

針對企業實際業務中遇到的非標准拍照、文檔彎折模糊、複雜花式排版、多語言混排等各類極端複雜文檔場景,Unisound U1-OCR仍能保持穩定、高精度的處理表現,徹底擺脫傳統技術對標准化文檔的依賴,真正適配企業真實業務的全場景需求。

 

分享130分享Tweet81分享

相關的文章

高德智感亮相德國IWA戶外用品展 樹立行業新標桿
金融財經

高德智感亮相德國IWA戶外用品展 樹立行業新標桿

2026-02-26
FxPro 與 McLaren Racing 延續策略合作夥伴關係
金融財經

FxPro 與 McLaren Racing 延續策略合作夥伴關係

2026-02-26
IEI 於 2026 Embedded World 展示 Secure-by-Design 強韌邊緣基礎架構,賦能 AI 時代的工業營運韌性
金融財經

IEI 於 2026 Embedded World 展示 Secure-by-Design 強韌邊緣基礎架構,賦能 AI 時代的工業營運韌性

2026-02-26
2026年度VINEXPO ASIA香港酒展:市場轉型期的堅實支柱
金融財經

2026年度VINEXPO ASIA香港酒展:市場轉型期的堅實支柱

2026-02-26

最新新聞

雲知聲Unisound U1-OCR大模型發布!首個工業級文檔智能基礎大模型,開啟OCR 3.0時代

雲知聲Unisound U1-OCR大模型發布!首個工業級文檔智能基礎大模型,開啟OCR 3.0時代

2026-02-26
高德智感亮相德國IWA戶外用品展 樹立行業新標桿

高德智感亮相德國IWA戶外用品展 樹立行業新標桿

2026-02-26
FxPro 與 McLaren Racing 延續策略合作夥伴關係

FxPro 與 McLaren Racing 延續策略合作夥伴關係

2026-02-26

你可能也喜歡

廖雅蘭返台首站投入公益 赴罕見疾病基金會 探視家庭並捐款 呼籲正視醫療缺口:民間力量不能缺席
影劇娛樂

廖雅蘭返台首站投入公益 赴罕見疾病基金會 探視家庭並捐款 呼籲正視醫療缺口:民間力量不能缺席

2026-02-21

旅美醫療政策專家、長年深耕台美公共衛生與...

閱讀更多
從共享文化到宴席美學 JR東日本大飯店台北重現日本大皿節慶宴席

從共享文化到宴席美學 JR東日本大飯店台北重現日本大皿節慶宴席

2026-02-25

漾新聞|中鋼新春開泰祈福 黃建智領軍迎戰鋼市新局

2026-02-24
商訊快報

商訊快報有最新生活、社會、科技、產經及各種消費新聞,提供即時資訊。

最新新聞

  • 雲知聲Unisound U1-OCR大模型發布!首個工業級文檔智能基礎大模型,開啟OCR 3.0時代
  • 高德智感亮相德國IWA戶外用品展 樹立行業新標桿
  • FxPro 與 McLaren Racing 延續策略合作夥伴關係

Copyright © 商訊快報 businessalert.today All rights reserved.

沒有結果
查看所有結果
  • 金融財經
  • 生活消費
  • 健康樂活
  • 旅遊美食
  • 地方社會
  • 3C科技
  • 影劇娛樂
  • 藝術教育
  • 運動體育

Copyright © 商訊快報 businessalert.today All rights reserved.