91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

首個(gè)基于深度學(xué)習(xí)的端到端在線手寫數(shù)學(xué)公式識(shí)別模型

倩倩 ? 來源:lq ? 作者:SandaG ? 2019-09-20 15:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文簡要介紹 2018 年 5 月被 TMM 錄用論文“ Track,Attend and Parse (TAP): An End-to-end Framework for Online Handwritten Mathematical Expression Recognition” 的主要工作 。該論文是 2017 年發(fā)表在 ICDAR 上的文章 [1] 的升級(jí)版,主要解決了在線手寫數(shù)學(xué)公式的識(shí)別問題。

該論文中介紹的方法獲得了國際最大在線手寫數(shù)學(xué)公式比賽 CROHME2019 的冠軍,且是在未使用額外數(shù)據(jù)的情況下超過了有大量額外數(shù)據(jù)的國際企業(yè)參賽隊(duì)伍,如 MyScript , Wiris , MathType 等,突出了該算法較傳統(tǒng)數(shù)學(xué)公式識(shí)別算法的優(yōu)勢。

一、研究背景

手寫數(shù)學(xué)公式識(shí)別較傳統(tǒng) OCR 問題而言,是一個(gè)更復(fù)雜的二維手寫識(shí)別問題,其內(nèi)部復(fù)雜的二維空間結(jié)構(gòu)使得其很難被解析,傳統(tǒng)方法的識(shí)別效果不佳。隨著深度學(xué)習(xí)在各領(lǐng)域的成功應(yīng)用,文章 [2] [3] 首次提出了基于深度學(xué)習(xí)的端到端離線數(shù)學(xué)公式算法,并在公開數(shù)據(jù)集上較傳統(tǒng)方法獲得了顯著提升,開辟了全新的數(shù)學(xué)公式識(shí)別框架。然而在線手寫數(shù)學(xué)公式識(shí)別框架還未被提出,論文 TAP 則是首個(gè)基于深度學(xué)習(xí)的端到端在線手寫數(shù)學(xué)公式識(shí)別模型,且針對(duì)數(shù)學(xué)公式識(shí)別的任務(wù)特性提出了多種優(yōu)化。

二、TAP原理簡述

Fig.1. Overall archi tecture

Fig 1 是 TAP 的整體結(jié)構(gòu)。 TAP 遵循文章 [2] [3] 中的做法,將數(shù)學(xué)公式的樹結(jié)構(gòu)識(shí)別問題轉(zhuǎn)換成了數(shù)學(xué)公式 LaTeX 字符串識(shí)別問題。這一思路的轉(zhuǎn)換簡化了數(shù)學(xué)公式識(shí)別問題,使端到端的識(shí)別成為了可能。 TAP 的基本框架為基于注意力機(jī)制的編解碼模型,也稱 Encoder-Decoder 模型 [4] ,其將輸入的軌跡點(diǎn)序列通過 Encoder 編碼得到高維特征表達(dá),依靠 Attention 機(jī)制找出高維特征中的關(guān)鍵部分以用于解碼出當(dāng)前時(shí)刻的 LaTeX 字符,直至解碼結(jié)束。

TAP 延續(xù)了會(huì)議文章 [1] 中的 Encoder 框架,在 Attention 機(jī)制上針對(duì)在線手寫公式識(shí)別提出了 Spatial Attention, Temporal Attention, Attention Guider 用于改善 Attention 的對(duì)齊以及 Decoder 的解碼能力。文章中還利用了在線與離線兩個(gè)模態(tài)之間的互補(bǔ)性進(jìn)一步提升了手寫識(shí)別性能。

Fig.2. Architecture of the hybridattention model

Fig 2 是 TAP 所采用的H ybrid Attention 機(jī)制,除了常用的S patial Attention 外,還采用了T emporal Attention 機(jī)制。其中,S patial Attention 利用了A ttention 的歷史信息以解決數(shù)學(xué)公式中多個(gè)同樣數(shù)學(xué)字符出現(xiàn)時(shí)的對(duì)齊混淆問題。

而T emporal Attention 用于處理 LaTeX 中的結(jié)構(gòu)字符的特殊對(duì)齊。因?yàn)樵?LaTeX 的語法規(guī)則中,為了重現(xiàn)數(shù)學(xué)公式語言里的二維空間結(jié)構(gòu),需要額外有一些特殊的結(jié)構(gòu)字符來形成語法,而這些特殊的結(jié)構(gòu)字符在輸入的數(shù)學(xué)公式中不存在,因而S patial Attention 無法完成對(duì)齊,此時(shí)則需要T emporal Attention 來補(bǔ)足這個(gè)不存在的對(duì)齊空缺,既能不干擾S patial Attention 的學(xué)習(xí),又能提高D ecoder 的解碼能力,進(jìn)一步提升性能。

Fig.3. Illustration of the attention guider

此外, TAP 還采用了A ttention Guider 來強(qiáng)化S patial Attention 的學(xué)習(xí),從 Fig 3 中可以看出,在使用了A ttention Guider 來引導(dǎo)S patial Attention 的學(xué)習(xí)后,S patial Attention 的對(duì)齊效果顯著提升,十分精確,并且效果也反映到了最終的識(shí)別性能上。

三、主要實(shí)驗(yàn)結(jié)果及可視化效

TABLE 1. The recognition results on CROHME2014.

TABLE 2. The recognition results on CROHME2016.

由 TABLE 1 、 TABLE 2 來看,文章所提方案在 CROHME2014 和 CROHME2016 公開數(shù)據(jù)集上取得了 state-of-the-art 的結(jié)果,且較傳統(tǒng)方法有巨大的提升,驗(yàn)證了該方法的有效性,且 TAP 展示的結(jié)果相對(duì)于會(huì)議版本也有了進(jìn)一步的提升,體現(xiàn)了H ybrid Attention 在糾正對(duì)齊和提升性能處起到了關(guān)鍵作用。

Fig.4. Visualization of temporal attention

Fig.5. Visualization of hybrid attention

Fig.6. Example of complementarity between online and offline modality

Fig 4 是對(duì)于T emporal Attention 的可視化,可見T emporal Attention 能夠很正確的幫助 Spatial Attention 區(qū)分結(jié)構(gòu)字符和實(shí)體字符。 Fig 5 是對(duì) Hybrid Attention 整體在一個(gè)手寫數(shù)學(xué)公式實(shí)例上的可視化。 Fig 6 列出了一個(gè)手寫數(shù)學(xué)公式在線和離線模態(tài)互補(bǔ)性的實(shí)例,由于存在倒筆現(xiàn)象,單純的在線模型無法正確識(shí)別該例子,而通過離線模型的融合輔助最終使得這個(gè)公式例子被正確識(shí)別(由于符號(hào)定義過多,更詳細(xì)的內(nèi)容請(qǐng)參考原文,鏈接附后)。

四、總結(jié)及討論

1. TAP-ICDAR 版首次提出了基于深度學(xué)習(xí)的端到端在線手寫數(shù)學(xué)公式識(shí)別模型,將樹形結(jié)構(gòu)識(shí)別問題巧妙轉(zhuǎn)換成了 LaTe X 字符串識(shí)別問題,成功突破了傳統(tǒng)方法在該問題上的性能瓶頸, 開辟了全新的在線數(shù)學(xué)公式識(shí)別框架。

2. TAP-TMM 相比 TAP-ICDAR 而言, 進(jìn)一步提出了 Hybrid Attention ,不僅提高了 Attention 的對(duì)齊準(zhǔn)確度,也針對(duì)性地處理了 LaTeX 中結(jié)構(gòu)字符的對(duì)齊和生成,且效果最終都很好地反映在了最終的識(shí)別性能上。此外,通過融合離線模態(tài)的全局特性,進(jìn)一步提升了在線手寫數(shù)學(xué)公式的識(shí)別率。

3. TAP 中匯報(bào)出來的在 CROHME2014 及 CROHME2016 上的識(shí)別率,至今仍是最好的公開結(jié)果,相關(guān)算法也在 CROHME2019 競賽上獲得了第一名,并且在沒有使用額外數(shù)據(jù)的情況便超越了其他使用大量額外數(shù)據(jù)的企業(yè)隊(duì)伍 。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4784

    瀏覽量

    98095
  • 識(shí)別模型
    +關(guān)注

    關(guān)注

    0

    文章

    5

    瀏覽量

    6868
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5599

    瀏覽量

    124418
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    自動(dòng)駕駛為什么會(huì)出現(xiàn)黑盒現(xiàn)象?

    在自動(dòng)駕駛領(lǐng)域,(End-to-End)是指從感知環(huán)境的原始數(shù)據(jù)車輛實(shí)際控制指令,全部交給一個(gè)統(tǒng)一的深度
    的頭像 發(fā)表于 02-20 09:25 ?9304次閱讀
    自動(dòng)駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>為什么會(huì)出現(xiàn)黑盒現(xiàn)象?

    Nullmax感知規(guī)劃模型進(jìn)化提速

    近日,2025年度浦東新區(qū)科技發(fā)展基金社會(huì)領(lǐng)域數(shù)字化轉(zhuǎn)型專項(xiàng)擬支持項(xiàng)目名單公布。經(jīng)評(píng)審,Nullmax申報(bào)的《面向城市高級(jí)別輔助駕駛的感知規(guī)劃模型》項(xiàng)目入選。
    的頭像 發(fā)表于 12-22 16:39 ?522次閱讀

    如何訓(xùn)練好自動(dòng)駕駛模型?

    [首發(fā)于智駕最前沿微信公眾號(hào)]最近有位小伙伴在后臺(tái)留言提問:算法是怎樣訓(xùn)練的?是模仿學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和離線強(qiáng)化
    的頭像 發(fā)表于 12-08 16:31 ?1451次閱讀
    如何訓(xùn)練好自動(dòng)駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>模型</b>?

    福州移動(dòng)與華為聯(lián)合推出國內(nèi)首個(gè)智能化體驗(yàn)經(jīng)營系統(tǒng)

    近日,福州移動(dòng)與華為聯(lián)合推出國內(nèi)首個(gè)智能化體驗(yàn)經(jīng)營系統(tǒng),通過多智能管理系統(tǒng)協(xié)同,實(shí)現(xiàn)場景化體驗(yàn)套餐的可預(yù)估、可保障、可保護(hù)、可評(píng)估,分層分級(jí)保障用戶在熱門景區(qū)、大型演唱會(huì)和體育賽
    的頭像 發(fā)表于 10-24 09:46 ?498次閱讀

    自動(dòng)駕駛中“一段式”和“二段式”有什么區(qū)別?

    [首發(fā)于智駕最前沿微信公眾號(hào)]最近有小伙伴提問,一段式和二段式有什么區(qū)別。其實(shí)說到自
    的頭像 發(fā)表于 10-24 09:03 ?1220次閱讀
    自動(dòng)駕駛中“一段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”和“二段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”有什么區(qū)別?

    自動(dòng)駕駛中常提的一段式(單段)是個(gè)啥?

    自動(dòng)駕駛技術(shù)的發(fā)展,催生出技術(shù)的應(yīng)用,一段式(end-to-end single-s
    的頭像 發(fā)表于 10-18 10:16 ?1706次閱讀

    自動(dòng)駕駛模型為什么會(huì)有不確定性?

    。為了能讓自動(dòng)駕駛汽車做出正確、安全且符合邏輯的行駛動(dòng)作,模型被提了出來。
    的頭像 發(fā)表于 09-28 09:20 ?883次閱讀
    自動(dòng)駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大<b class='flag-5'>模型</b>為什么會(huì)有不確定性?

    發(fā)展趨勢下,云算力如何賦能智能駕駛技術(shù)躍遷?

    [首發(fā)于智駕最前沿微信公眾號(hào)]隨著智能駕駛輔助系統(tǒng)的發(fā)展,汽車行業(yè)正在從傳統(tǒng)模塊化架構(gòu)向(End-to-End,E2E)模型邁進(jìn)。
    的頭像 發(fā)表于 09-08 09:16 ?945次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>發(fā)展趨勢下,云算力如何賦能智能駕駛技術(shù)躍遷?

    自主工具鏈助力組合輔助駕駛算法驗(yàn)證

    徹底解決越來越多的長尾問題。圖1輔助駕駛算法(圖片來源網(wǎng)絡(luò))輔助駕駛算法是一種深度學(xué)習(xí)算法,該算法將傳感器數(shù)據(jù)輸入后,基于大
    的頭像 發(fā)表于 08-26 17:41 ?3349次閱讀
    自主工具鏈助力<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>組合輔助駕駛算法驗(yàn)證

    蔚來模型化架構(gòu)如何大幅提升安全上限

    2024年7月,蔚來將行業(yè)首個(gè)基于模型化架構(gòu)的「自動(dòng)緊急制動(dòng) AEB」推送上車,蔚來也成為了行業(yè)首家使用
    的頭像 發(fā)表于 08-15 15:35 ?931次閱讀

    廣和通發(fā)布自研側(cè)語音識(shí)別模型FiboASR

    7月,全球領(lǐng)先的無線通信模組及AI解決方案提供商廣和通,發(fā)布其自主研發(fā)的語音識(shí)別模型FiboASR。該模型專為側(cè)設(shè)備上面臨的面對(duì)面實(shí)時(shí)對(duì)話及多人會(huì)議場景
    的頭像 發(fā)表于 08-04 11:43 ?1616次閱讀

    為什么自動(dòng)駕駛模型有黑盒特性?

    [首發(fā)于智駕最前沿微信公眾號(hào)]隨著自動(dòng)駕駛技術(shù)落地,(End-to-End)大模型也成為行業(yè)研究與應(yīng)用的熱門方向。相較于傳統(tǒng)自動(dòng)駕駛系統(tǒng)中的模塊化結(jié)構(gòu),
    的頭像 發(fā)表于 07-04 16:50 ?895次閱讀
    為什么自動(dòng)駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大<b class='flag-5'>模型</b>有黑盒特性?

    基于LockAI視覺識(shí)別模塊:手寫數(shù)字識(shí)別

    1.1 手寫數(shù)字識(shí)別簡介 手寫數(shù)字識(shí)別是一種利用計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)技術(shù)自動(dòng)識(shí)別
    發(fā)表于 06-30 16:45

    一文帶你厘清自動(dòng)駕駛架構(gòu)差異

    [首發(fā)于智駕最前沿微信公眾號(hào)]隨著自動(dòng)駕駛技術(shù)飛速發(fā)展,智能駕駛系統(tǒng)的設(shè)計(jì)思路也經(jīng)歷了從傳統(tǒng)模塊化架構(gòu)模型轉(zhuǎn)變。傳統(tǒng)模塊化架構(gòu)將感
    的頭像 發(fā)表于 05-08 09:07 ?1043次閱讀
    一文帶你厘清自動(dòng)駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>架構(gòu)差異

    自動(dòng)駕駛中基于規(guī)則的決策和模型有何區(qū)別?

    在自動(dòng)駕駛架構(gòu)的選擇上,也經(jīng)歷了從感知、決策控制、執(zhí)行的三段式架構(gòu)到現(xiàn)在火熱的模型,尤其是在2024年特斯拉推出FSD V12后,各車企更是陸續(xù)推出自家的
    的頭像 發(fā)表于 04-13 09:38 ?3748次閱讀
    自動(dòng)駕駛中基于規(guī)則的決策和<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大<b class='flag-5'>模型</b>有何區(qū)別?