亚洲日产AⅤ中文字幕无码,玛雅视频精品欧美国产,大胸国产主播在线播放,国产综合精品久久亚洲,91亚洲日韩欧美,人人人妻日韩一区二区,色无码日韩一区二区

請輸入關(guān)鍵字

蒙古文智能信息處理國家地方聯(lián)合工程中心2篇論文被人工智能領(lǐng)域國際頂級會議AAAI2025錄用

AAAI(Association for the Advancement of Artificial Intelligence)會議是人工智能領(lǐng)域的國際頂級學(xué)術(shù)會議,也是中國計算機學(xué)會(CCF)和中國人工智能學(xué)會(CAAI)推薦的A類國際學(xué)術(shù)會議。AAAI會議涵蓋了人工智能領(lǐng)域的廣泛議題,包括但不限于機器學(xué)習(xí)、自然語言處理、計算機視覺、強化學(xué)習(xí)、知識表示與推理、機器人學(xué)、自動化決策、倫理與社會影響等。經(jīng)過同行專家兩輪評審,蒙古文智能信息處理國家地方聯(lián)合工程中心2篇論文被The 39th Annual AAAI Conference on Artificial Intelligence (AAAI 2025)錄用。

SSAN: A Symbol Spatial-Aware Network for Handwritten Mathematical Expression Recognition

作者:張皓然,蘇向東,周興祥,高光來

單位:內(nèi)蒙古大學(xué)

簡介:手寫數(shù)學(xué)公式識別(Handwritten Mathematical Expression Recognition, HMER)是一項將手寫數(shù)學(xué)公式圖像轉(zhuǎn)換為下游應(yīng)用可理解的LaTex序列的技術(shù),在答卷評分、辦公自動化以及文檔理解等有廣泛的應(yīng)用前景。該任務(wù)的巨大挑戰(zhàn)在于手寫公式的復(fù)雜結(jié)構(gòu),而這種結(jié)構(gòu)與符號的空間位置直接相關(guān)?,F(xiàn)有的HMER方法通過解碼器中的注意力機制隱式感知符號位置,或利用符號計數(shù)與基于樹的策略建立符號空間關(guān)系模型,但仍難以有效捕捉公式結(jié)構(gòu)信息,導(dǎo)致符號解碼性能受限。

為了解決上述問題,本文提出了預(yù)測手寫數(shù)學(xué)公式中符號空間分布圖的輔助任務(wù)。設(shè)計了一個符號空間分布感知網(wǎng)絡(luò)(SSAN),并與HMER模型進行了聯(lián)合優(yōu)化。具體來說,考慮到手寫公式圖像與其對應(yīng)的印刷體模板之間符號空間位置分布的相似性,首先根據(jù)LaTeX標(biāo)簽生成手寫公式圖像的印刷體模板,然后用二維高斯分布圖替換印刷體模板中的連通域分量,從而得到符號空間分布圖。同時,由于手寫公式圖像和印刷公式圖像之間的符號空間分布對齊不緊密,以及存在相似符號的誤分類問題,又進一步提出了從粗到細的對齊策略和注意力引導(dǎo)的符號掩蔽策略來解決這些問題。大量實驗證明,SSAN能顯著提高HMER模型的識別性能,而且與現(xiàn)有的輔助任務(wù)相比,所提出的輔助任務(wù)能更有效地提高HEMR性能。

圖1 SSAN與HMER模型聯(lián)合訓(xùn)練的整體框架圖

Multi-modal and Multi-scale Spatial Environment Understanding for Immersive Visual Text-to-Speech

作者:劉瑞,何樹偉,胡一帆,李海洲

單位:內(nèi)蒙古大學(xué) 香港中文大學(xué)(深圳)

簡介:視覺文本到語音合成(Visual Text-to-Speech,VTTS)旨在利用環(huán)境圖像作為提示,為說話內(nèi)容合成與空間特性相匹配的混響語音。這一任務(wù)的主要難點在于如何準確理解圖像中的空間環(huán)境信息。雖然目前已有不少研究嘗試從圖像的RGB空間中提取全局空間信息,但它們往往忽略了局部細節(jié)和深度信息這兩個對空間環(huán)境理解至關(guān)重要的線索。為了解決這一問題,我們提出了一種名為M2SE-VTTS的全新多模態(tài)與多尺度空間環(huán)境理解框架,以實現(xiàn)沉浸式視覺文本到語音合成。多模態(tài)旨在融合空間圖像的RGB和深度空間以學(xué)習(xí)更全面的空間信息,多尺度模塊則致力于同時建模局部與全局的空間知識。具體而言,我們首先將RGB圖像和深度圖像劃分為若干補丁塊,并利用Gemini生成的環(huán)境描述來引導(dǎo)局部空間的理解。隨后,我們通過局部感知的全局空間理解方式,將多模態(tài)與多尺度特征有機結(jié)合。這使得M2SE-VTTS能夠在多模態(tài)空間環(huán)境中有效地處理局部和全局空間信息之間的關(guān)聯(lián)。實驗結(jié)果表明,無論是在客觀指標(biāo)還是主觀評估中,我們的模型在環(huán)境語音生成任務(wù)上都顯著優(yōu)于當(dāng)前主流的基線方法。

圖2  M2SE-VTTS模型架構(gòu)圖

代碼和音頻樣例可以通過以下鏈接獲取:https://github.com/AI-S2-Lab/M2SE-VTTS。

(素材來源:計算機學(xué)院(軟件學(xué)院)、人工智能學(xué)院       編輯:武濤      審核:劉雪峰       終審:阿茹娜)

六安市| 玉林市| 深圳市| 北流市| 上高县| 本溪| 菏泽市| 吉安市| 贵德县| 应城市| 易门县| 合肥市| 商水县| 平潭县| 富宁县| 洛扎县| 农安县| 彭泽县| 侯马市| 玛多县| 桐梓县| 葵青区| 凤城市| 龙泉市| 资源县| 阳西县| 岳普湖县| 策勒县| 华坪县| 房产| 民乐县| 红河县| 马边| 池州市| 万年县| 沁源县| 交城县| 禹城市| 博野县| 麻阳| 武强县|