亚洲日产AⅤ中文字幕无码,玛雅视频精品欧美国产,大胸国产主播在线播放,国产综合精品久久亚洲,91亚洲日韩欧美,人人人妻日韩一区二区,色无码日韩一区二区

請(qǐng)輸入關(guān)鍵字

計(jì)算機(jī)學(xué)院(軟件學(xué)院)、人工智能學(xué)院劉瑞教授題組在人機(jī)語(yǔ)音共情交互方向取得新進(jìn)展

近期,我校計(jì)算機(jī)學(xué)院(軟件學(xué)院)、人工智能學(xué)院劉瑞教授課題組在語(yǔ)音識(shí)別、表現(xiàn)力語(yǔ)音合成、語(yǔ)音鑒偽等人機(jī)語(yǔ)音共情交互方向取得了重要研究進(jìn)展,3項(xiàng)研究成果發(fā)表在中科院一區(qū)Top期刊Information Fusion,內(nèi)蒙古大學(xué)為第一單位和通訊單位。

Information Fusion是計(jì)算機(jī)科學(xué)、人工智能領(lǐng)域國(guó)際權(quán)威學(xué)術(shù)期刊,在中科院分區(qū)中為計(jì)算機(jī)科學(xué)大類(lèi)一區(qū)TOP期刊,屬于中國(guó)人工智能學(xué)會(huì)推薦A類(lèi)期刊。該期刊聚焦信息融合的理論、算法及實(shí)際應(yīng)用,涵蓋多模態(tài)數(shù)據(jù)融合(如圖像、視頻、文本、語(yǔ)音)、傳感器網(wǎng)絡(luò)、知識(shí)融合、大規(guī)模多源數(shù)據(jù)處理等。以下為3項(xiàng)研究成果簡(jiǎn)述:

(1)Retrieval-Augmented Dialogue Knowledge Aggregation for Expressive Conversational Speech Synthesis

論文作者:劉瑞,賈真琦(23級(jí)碩士研究生),飛龍,李海洲

對(duì)話(huà)語(yǔ)音合成(Conversational Speech Synthesis,CSS)旨在以當(dāng)前對(duì)話(huà)歷史為參考,合成符合會(huì)話(huà)風(fēng)格的表現(xiàn)力語(yǔ)音。與當(dāng)前對(duì)話(huà)不同,存儲(chǔ)的對(duì)話(huà)包含了用戶(hù)與智能體在早期交互階段中保留的對(duì)話(huà)片段,這些片段包含了與當(dāng)前對(duì)話(huà)類(lèi)似場(chǎng)景相關(guān)的風(fēng)格表達(dá)知識(shí)。需要注意的是,這些知識(shí)對(duì)于幫助智能體合成能夠產(chǎn)生共情反饋的表現(xiàn)力會(huì)話(huà)語(yǔ)音具有重要意義。然而,現(xiàn)有的研究普遍忽略了這一點(diǎn)。為了解決這一問(wèn)題,我們提出了一種用于表現(xiàn)力CSS的新型檢索增強(qiáng)對(duì)話(huà)知識(shí)聚合方案,稱(chēng)為RADKA-CSS。該方案包括三個(gè)主要組件:1)為了從存儲(chǔ)對(duì)話(huà)中有效檢索在語(yǔ)義和風(fēng)格上與當(dāng)前相似的對(duì)話(huà),我們首先構(gòu)建了一個(gè)包含文本和音頻樣本的存儲(chǔ)對(duì)話(huà)語(yǔ)義-風(fēng)格數(shù)據(jù)庫(kù)(Stored Dialogue Semantic-Style Database,SDSSD)。然后,我們?cè)O(shè)計(jì)了一種多屬性檢索方案,將當(dāng)前的對(duì)話(huà)語(yǔ)義和風(fēng)格向量與SDSSD中存儲(chǔ)的對(duì)話(huà)語(yǔ)義和風(fēng)格向量進(jìn)行匹配,從而檢索出最相似的對(duì)話(huà)。2)為了有效利用當(dāng)前對(duì)話(huà)和檢索到的對(duì)話(huà)中的風(fēng)格知識(shí),我們提出多粒度異構(gòu)圖結(jié)構(gòu)對(duì)對(duì)話(huà)進(jìn)行編碼,并引入多源風(fēng)格知識(shí)聚合機(jī)制。3)最后,將聚合后的風(fēng)格知識(shí)輸入語(yǔ)音合成器,幫助智能體合成符合會(huì)話(huà)風(fēng)格的表現(xiàn)力語(yǔ)音。我們基于CSS任務(wù)的基準(zhǔn)數(shù)據(jù)集DailyTalk開(kāi)展了全面深入的實(shí)驗(yàn)??陀^評(píng)估和主觀評(píng)估結(jié)果均表明,RADKA-CSS在表現(xiàn)力呈現(xiàn)方面優(yōu)于現(xiàn)有的基線(xiàn)模型。相關(guān)代碼和音頻樣本可訪問(wèn)以下鏈接獲?。篽ttps://github.com/Coder-jzq/RADKA-CSS 。

論文地址:https://www.sciencedirect.com/science/article/abs/pii/S1566253525000211

(2)Listening and Seeing Again: Generative Error Correction for Audio-Visual Speech Recognition

論文作者:劉瑞,袁宏宇(23級(jí)碩士研究生),高光來(lái),李海洲

與傳統(tǒng)的自動(dòng)語(yǔ)音識(shí)別(ASR)不同,視聽(tīng)語(yǔ)音識(shí)別(AVSR)同時(shí)采用音頻和視覺(jué)信號(hào)來(lái)推斷轉(zhuǎn)錄。最近的研究表明,大語(yǔ)言模型(LLMs)可以從 ASR 生成的 N-Best 假設(shè)中預(yù)測(cè)出最佳轉(zhuǎn)錄,從而有效地用于 ASR 的生成性糾錯(cuò)(GER)。然而,這些 LLMs缺乏同時(shí)理解音頻和視頻的能力,使得 GER 方法在 AVSR 中的應(yīng)用面臨挑戰(zhàn)。在這項(xiàng)工作中,我們提出了一種用于 AVSR 的新型 GER 范式,稱(chēng)為 AVGER,它遵循 “Listening and Seeing Again”的概念。具體來(lái)說(shuō),我們首先利用強(qiáng)大的 AVSR 系統(tǒng)讀取音頻和視覺(jué)信號(hào),得到 N-Best 假設(shè),然后利用基于 Q-Former 的多模態(tài)同步編碼器再次讀取音頻和視覺(jué)信息,并將其分別轉(zhuǎn)換為 LLM 可以理解的音頻和視頻壓縮表征。之后,音視頻壓縮表征和 N-Best 假設(shè)共同構(gòu)成跨模態(tài)提示,引導(dǎo) LLM 生成最佳轉(zhuǎn)錄。此外,我們還提出了多級(jí)一致性約束訓(xùn)練準(zhǔn)則,包括對(duì)數(shù)級(jí)、語(yǔ)篇級(jí)和表征級(jí),在提高校正精度的同時(shí),增強(qiáng)了音視頻壓縮表征的可解釋性。在 LRS3 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,我們的方法能夠在較短的時(shí)間內(nèi)對(duì)語(yǔ)音進(jìn)行校正。在 LRS3 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,我們的方法優(yōu)于目前主流的 AVSR 系統(tǒng)。與它們相比,所提出的 AVGER 可以將字錯(cuò)誤率(WER)降低了27.59%。

論文地址:https://www.sciencedirect.com/science/article/abs/pii/S1566253525001502

(3)Hierarchical multi-source cues fusion for mono-to-binaural based Audio Deepfake Detection

論文作者:劉瑞,張錦華(24級(jí)博士研究生),李海洲

音頻深度偽造檢測(cè)(Audio Deepfake Detection, ADD)旨在識(shí)別由文本轉(zhuǎn)語(yǔ)音(Text-to-Speech, TTS)、語(yǔ)音轉(zhuǎn)換(Voice Conversion, VC)、語(yǔ)音編輯等技術(shù)生成的偽造音頻中的偽造特征。隨著生成式人工智能(Generative AI)的發(fā)展,ADD 研究受到越來(lái)越多的關(guān)注。近年來(lái),單聲道到雙聲道(Mono-to-Binaural, M2B)轉(zhuǎn)換已被應(yīng)用于 ADD 領(lǐng)域,以從新的角度揭示偽造特征。然而,基于 M2B 的方法可能會(huì)削弱或忽略單聲道音頻中獨(dú)特的偽造特征,從而限制檢測(cè)性能。為此,本文提出了一種 層次化多源特征融合網(wǎng)絡(luò)(Hierarchical Multi-Source Cues Fusion network, HMSCF-ADD),以提高音頻深度偽造檢測(cè)的準(zhǔn)確性。該方法將單聲道音頻與雙聲道的左、右通道視為三種獨(dú)立的信息來(lái)源,并通過(guò)層次化的信息融合區(qū)分共性特征與雙聲道特有特征,同時(shí)去除冗余信息,以實(shí)現(xiàn)更有效的檢測(cè)。具體而言,該方法首先提取并融合雙聲道的特定特征和共性特征,形成雙聲道信息;隨后,動(dòng)態(tài)融合單聲道與雙聲道信息,以實(shí)現(xiàn)層次化特征融合。在 ASVspoof2019-LA 和 ASVspoof2021-PA 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,HMSCF-ADD 在所有單聲道輸入和基于 M2B 轉(zhuǎn)換的基線(xiàn)方法中均取得了最佳性能。此外,對(duì)不同融合策略和 M2B 轉(zhuǎn)換的詳細(xì)對(duì)比進(jìn)一步驗(yàn)證了該框架的有效性。代碼開(kāi)源地址為:https://github.com/AI-S2-Lab/HMSCF-ADD。

論文地址:https://www.sciencedirect.com/science/article/abs/pii/S1566253525001708

以上研究受到國(guó)家自然科學(xué)基金面上項(xiàng)目、青年基金項(xiàng)目、中國(guó)科協(xié)青年人才托舉工程項(xiàng)目、內(nèi)蒙古大學(xué)駿馬計(jì)劃項(xiàng)目等項(xiàng)目的支持。

供稿:計(jì)算機(jī)學(xué)院(軟件學(xué)院)     編輯:武濤      審核:劉雪峰     終審:阿茹娜

驻马店市| 白朗县| 和顺县| 大新县| 桦南县| 苏尼特右旗| 梅河口市| 宁晋县| 仙游县| 张北县| 白沙| 衡山县| 岳西县| 鲁甸县| 阿荣旗| 自治县| 伽师县| 宝兴县| 安图县| 两当县| 兴义市| 平阳县| 陆良县| 杭锦旗| 即墨市| 资溪县| 保德县| 广平县| 镇江市| 阿拉善右旗| 汨罗市| 保靖县| 老河口市| 新绛县| 新源县| 兴和县| 霸州市| 湄潭县| 乐昌市| 昂仁县| 漠河县|