“交交”可用于教育輔導(dǎo)、家庭互動、商務(wù)溝通等場景。
多知4月16日消息,上海交通大學(xué)聽覺認(rèn)知與計算聲學(xué)實驗室推出純學(xué)術(shù)界自研的支持多人實時口語對話的語音情感大模型“交交”,它不僅是一個智能語音助手,更是一個多說話人、多語言、多角色、多情感的全能對話伙伴。當(dāng)前,該模型已經(jīng)開啟內(nèi)測申請。
據(jù)介紹,“交交”可用于教育輔導(dǎo)、家庭互動、商務(wù)溝通、客服支持、娛樂陪伴等。
(“交交”對話界面)
根據(jù)介紹, “交交”,除了在對話上下文內(nèi)容上的強(qiáng)大理解和知識問答能力,還同時具備多人對話與身份辨識,多語種和方言感知,角色切換與實時模仿,情感實時理解和表達(dá)等多項能力。這在目前已知發(fā)布的語音對話大模型中,尚屬首次。
實時對話采用了端到端語音對話,還有基于上下文信息,用思維鏈技術(shù)生成符合對話場景的情感全局表征,用在生動的情感語音回復(fù)生成??梢杂糜诳头С帧?/p>
多人對話很像一個家庭聚會,或者開會的場景, “交交”能針對不同的人給出不同的回應(yīng)。這采用了實時音色克隆技術(shù)。
“交交”支持漢語、英語、日語和法語四大主流語言,具備跨語言回復(fù)能力。
“交交”還具備角色扮演與情感互動,根據(jù)對話內(nèi)容和場景理解用戶情緒,生成富有情感的回應(yīng)。
知識問答方面,涵蓋廣泛的知識領(lǐng)域,如古詩詞背誦、科學(xué)原理講解、文學(xué)名著解讀等。這可用于家庭輔導(dǎo),輔助教學(xué)。
根據(jù)介紹,“交交”可靈活拓展,具備對齊策略,支持文本與音頻模態(tài)的任意方式拼接融合,為集成大規(guī)模文本大模型中的多種增強(qiáng)機(jī)制(如聯(lián)網(wǎng)搜索、RAG檢索增強(qiáng)生成等)提供統(tǒng)一且可擴(kuò)展的接口。