貝鉑智能申請多模態融合的語音翻譯專利,提升了翻譯結果的準確性

金融界2024年9月26日消息,國家知識產權局信息顯示,深圳市貝鉑智能科技有限公司申請一項名爲“多模態融合的語音翻譯方法、系統以及設備”的專利,公開號CN 118692446 A,申請日期爲2024年8月。

專利摘要顯示,本發明提供了一種多模態融合的語音翻譯方法、系統以及設備,包括:對輸入的語音信號進行音頻特徵提取處理,得到音頻特徵數據;獲取與所述語音信號相關聯的文本信息,對所述文本信息進行文本特徵提取處理,得到文本特徵數據;採用自適應權重分配融合策略,對所述音頻特徵數據和文本特徵數據進行融合處理,得到融合特徵數據;基於多級編碼單元對所述融合特徵數據進行編碼處理,得到編碼特徵;其中,在所述多級編碼單元中,串聯的每一級編碼單元分別採用不同的編碼算法,並依據前一級的輸出結果進行編碼參數自適應調整;將所述編碼特徵輸入至預先訓練的翻譯模型中進行翻譯處理,得到語音翻譯結果。在本發明中,提升了翻譯結果的準確性。

本文源自:金融界

作者:情報員