自然環(huán)境中的自動文本讀取,也稱為場景文本檢測/識別或PhotoOCR,已成為計算機視覺中越來越流行和重要的研究課題。
該文本是人類最輝煌和最有影響力的創(chuàng)作之一。文本中體現(xiàn)的豐富、精確的高級語義有助于理解我們周圍的世界,并構(gòu)建可以在實時環(huán)境中部署的自主解決方案。因此,從自然環(huán)境中自動讀取文本,也稱為場景文本檢測/識別或PhotoOCR,已成為計算機視覺中越來越流行和重要的研究課題。
隨著人類語言書面形式的發(fā)展,我們開發(fā)了數(shù)千種獨特的字體系列。當(dāng)我們添加大小寫(大寫/小寫/單大小寫/小寫)、傾斜(斜體/羅馬)、比例(水平刻度)、重量、特定尺寸(顯示/文本)、斜紋和襯線化(超系列中的襯線/無襯線)時,這個數(shù)字會增長到數(shù)百萬,這使得文本識別成為機器學(xué)習(xí)令人興奮的學(xué)科。
賽靈思作為 OCR 解決方案的選擇
如今,Xilinx 通過其各種功能強大的平臺為 10 項新開發(fā)中的 7 項提供支持,并引領(lǐng)基于 FPGA 的系統(tǒng)設(shè)計趨勢。Softnautics 之所以選擇 Xilinx 來實施該解決方案,是因為其集成的 Vitis? AI 堆棧和強大的硬件功能。
Xilinx Vitis? 是一款免費的開源開發(fā)平臺,可將硬件模塊打包為軟件可調(diào)用函數(shù),并與標(biāo)準(zhǔn)開發(fā)環(huán)境、工具和開源庫兼容。它可自動使軟件和算法適應(yīng) Xilinx 硬件,無需 VHDL 或 Verilog 專業(yè)知識。
選擇合適的賽靈思平臺
全面而豐富的 Xilinx 工具集和生態(tài)系統(tǒng)使原型設(shè)計成為一個非??深A(yù)測的過程,并加快了解決方案的開發(fā),從而將整體開發(fā)時間縮短了多達(dá) 70%。
Xilinx Ultrascale+ 平臺,因為它提供了最佳的應(yīng)用處理和 FPGA 加速功能。它還提供令人印象深刻的高級合成能力,與早期型號相比,每瓦系統(tǒng)級性能提高了 5 倍。它支持 Xilinx Vitis AI,提供廣泛的功能,使用加速庫構(gòu)建 AI 推理。
Xilinx Vitis AI堆棧和加速利用該軟件創(chuàng)建混合應(yīng)用,并通過將 TensorFlow-lite 移植/遷移到 ARM 來實現(xiàn)有效的序列預(yù)測 LSTM 功能。它使用N2Cube軟件在處理側(cè)(PS)上運行。圖像預(yù)處理和后處理是通過Vivado使用HLS實現(xiàn)的,Vitis用于使用CTPN(連接主義文本提案網(wǎng)絡(luò))進(jìn)行推理。我們最終將解決方案升級為使用視頻管道進(jìn)行實時場景文本檢測,并使用強大的數(shù)據(jù)集改進(jìn)了模型。
場景文本檢測
有許多可用的實現(xiàn),并且正在研究新的實現(xiàn)。盡管如此,在野外檢測和識別文本時,仍可能遇到一系列重大挑戰(zhàn)。與文檔中的腳本相比,自然場景的困難主要源于三個差異:
多樣性和可變性源于語言、顏色、字體、大小、方向等。
寫文本的生動背景
場景文本的縱橫比和布局可能會有很大差異
此類解決方案在需要對視頻流進(jìn)行實時文本檢測的各個領(lǐng)域具有廣泛的適用性,具有更高的準(zhǔn)確性和快速識別能力。這些應(yīng)用領(lǐng)域很少:
停車驗證 — 城鎮(zhèn)正在使用移動 OCR 來驗證汽車是否根據(jù)城市法規(guī)自動停車。停車檢查員可以使用帶有OCR的移動設(shè)備掃描車輛的車牌,并與在線數(shù)據(jù)庫進(jìn)行檢查,以查看是否允許他們停車。
移動文檔掃描 — 各種移動應(yīng)用程序允許用戶拍攝文檔的照片并將其轉(zhuǎn)換為文本。這種 OCR 任務(wù)比傳統(tǒng)的文檔掃描儀更具挑戰(zhàn)性,因為照片具有不可預(yù)測的圖像角度、照明條件和文本質(zhì)量。
數(shù)字資產(chǎn)管理 - 該軟件有助于組織富媒體資產(chǎn),如圖像、視頻和動畫。DAM 系統(tǒng)的一個關(guān)鍵方面是富媒體的可搜索性。通過在上傳的圖像和視頻幀上運行 OCR,DAM 可以使富媒體可搜索,并使用有意義的標(biāo)簽豐富它。
審核編輯:郭婷
-
賽靈思
+關(guān)注
關(guān)注
33文章
1798瀏覽量
133563 -
計算機
+關(guān)注
關(guān)注
19文章
7823瀏覽量
93343 -
AI
+關(guān)注
關(guān)注
91文章
40474瀏覽量
302079
發(fā)布評論請先 登錄
WBS Power推進(jìn)3.2吉瓦超大規(guī)模數(shù)據(jù)中心園區(qū)能源基礎(chǔ)設(shè)施建設(shè)
登臨科技以創(chuàng)新GPU+架構(gòu)打造規(guī)模化智慧養(yǎng)殖場景解決方案
中科曙光scaleX萬卡超集群筑牢超大規(guī)模智算硬核底座
中科曙光scaleX萬卡超集群重塑超大規(guī)模算力基礎(chǔ)設(shè)施
燧原科技榮獲2025年超大規(guī)模智算集群創(chuàng)新應(yīng)用實踐成果
格靈深瞳智慧體育解決方案打造AI運動新體驗
芯華章 HuaEmu E1 四大技術(shù)打通超大規(guī)模驗證核心瓶頸
睿海光電以高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級
偉創(chuàng)力高效電源模塊在超大規(guī)模數(shù)據(jù)中心的應(yīng)用
超大規(guī)模芯片驗證:基于AMD VP1902的S8-100原型驗證系統(tǒng)實測性能翻倍
CMOS超大規(guī)模集成電路制造工藝流程的基礎(chǔ)知識
納微半導(dǎo)體推出12kW超大規(guī)模AI數(shù)據(jù)中心電源
BDx成功融資助力香港超大規(guī)模數(shù)據(jù)中心擴建
AI原生架構(gòu)升級:RAKsmart服務(wù)器在超大規(guī)模模型訓(xùn)練中的算力突破
芯啟源提供DPU產(chǎn)品與解決方案
采用賽靈思超大規(guī)模+和Vitis AI的智能OCR解決方案
評論