通過(guò)數(shù)據(jù)、算法等技術(shù)創(chuàng)新,使得小參數(shù)垂類(lèi)模型實(shí)現(xiàn)性能大幅提升。

網(wǎng)易有道:小參數(shù)垂類(lèi)模型實(shí)現(xiàn)翻譯質(zhì)量持續(xù)提升

2025-03-11 19:10:59發(fā)布     來(lái)源:多知    作者:馮瑋  

  多知3月11日消息,網(wǎng)易有道在公眾號(hào)推文宣布,已完成翻譯底層技術(shù)迭代,基于自主研發(fā)的子曰翻譯大模型2.0,翻譯質(zhì)量在與國(guó)內(nèi)外通用大模型的對(duì)比測(cè)試中展現(xiàn)了不錯(cuò)的成績(jī)。

  此次的突破,也標(biāo)志著網(wǎng)易有道子曰大模型在專(zhuān)業(yè)領(lǐng)域取得實(shí)質(zhì)性進(jìn)展,通過(guò)數(shù)據(jù)、算法等技術(shù)創(chuàng)新,使得小參數(shù)垂類(lèi)模型實(shí)現(xiàn)性能大幅提升。

  據(jù)了解,搭載全新大模型的翻譯已在有道詞典、有道翻譯及有道翻譯官內(nèi)上線,提供標(biāo)準(zhǔn)模型、高級(jí)模型兩種不同參數(shù)選擇,用戶可免費(fèi)使用全新的AI翻譯功能。

  同時(shí),有道詞典筆X7系列也已升級(jí)為最新的翻譯大模型,其余型號(hào)將陸續(xù)更新。

  據(jù)官方介紹,經(jīng)歷了10個(gè)月的技術(shù)更迭,子曰翻譯大模型2.0從數(shù)據(jù)、算法、評(píng)估三個(gè)層面進(jìn)行技術(shù)突破,最終以14B小參數(shù)垂類(lèi)模型實(shí)現(xiàn)高水準(zhǔn)的翻譯性能。

截屏2025-03-11 下午7.14.49.png

  這也體現(xiàn)出有道在教育大模型發(fā)展上的垂直專(zhuān)業(yè)能力,驗(yàn)證了“場(chǎng)景+數(shù)據(jù)”的護(hù)城河。

  其中:

  在數(shù)據(jù)層面,有道收集并嚴(yán)格清洗了高質(zhì)量的翻譯語(yǔ)料數(shù)據(jù),由英語(yǔ)專(zhuān)八認(rèn)證人員及職業(yè)譯員進(jìn)行精細(xì)化人工標(biāo)注,使得模型擁有優(yōu)質(zhì)數(shù)據(jù)資源庫(kù),增強(qiáng)其在多樣化翻譯場(chǎng)景的應(yīng)對(duì)能力。

  在算法層面,有道以子曰大模型為基礎(chǔ),進(jìn)行二次預(yù)訓(xùn)練,進(jìn)一步優(yōu)化更具專(zhuān)業(yè)性與針對(duì)性的翻譯基座大模型,結(jié)合大模型蒸餾技術(shù)、大模型融合技術(shù)、Online DPO技術(shù)等多項(xiàng)手段,有效避免了大模型的災(zāi)難性遺忘問(wèn)題,并在運(yùn)行效率、準(zhǔn)確性、流暢性等翻譯性能上進(jìn)行大幅提升。

  在評(píng)估層面,借助翻譯數(shù)據(jù)沉淀,有道自主研發(fā)了翻譯評(píng)估模型Reward Model,為子曰翻譯大模型的性能評(píng)估提供可靠的量化依據(jù)及完善的人工評(píng)估方案,多維度對(duì)模型的翻譯結(jié)果進(jìn)行評(píng)估和分析。

  “通用大模型比的是參數(shù)大、算力強(qiáng),但翻譯這件事,參數(shù)堆不出專(zhuān)業(yè)度;當(dāng)通用大模型競(jìng)逐參數(shù)規(guī)模時(shí),我們還是更相信垂類(lèi)模型的未來(lái)價(jià)值——用專(zhuān)業(yè)的垂直應(yīng)用真正解決專(zhuān)業(yè)場(chǎng)景的痛點(diǎn),這也正是我們持續(xù)努力和進(jìn)化的方向。”網(wǎng)易有道相關(guān)負(fù)責(zé)人表示。