大模型正在為古文字考釋工作添磚加瓦。
大模型正在為古文字考釋工作添磚加瓦。
近日,據(jù)廈門大學(xué)官方公眾號(hào)消息,廈門大學(xué)宣布該校信息學(xué)院自然語(yǔ)言處理實(shí)驗(yàn)室史曉東教授團(tuán)隊(duì)正嘗試?yán)萌斯ぶ悄芏嗄B(tài)大模型,結(jié)合甲骨文的音、形、義等多元信息,輔助專家進(jìn)行更高效的甲骨文考釋工作。
甲骨文距今已有三千多年歷史,是世界四大古文字之一。傳統(tǒng)的甲骨文字考釋工作極其耗時(shí)費(fèi)力,依托于專家進(jìn)行人工釋讀,多采用字形分析、辭例研究等方法,需要考古專家以深厚的知識(shí)積累和大量的文獻(xiàn)閱讀為基礎(chǔ),結(jié)合多方面的知識(shí)去破譯甲骨字,已經(jīng)難以為繼。
據(jù)人民日?qǐng)?bào)援引清華大學(xué)出土文獻(xiàn)研究與保護(hù)中心常務(wù)副主任、中國(guó)文字博物館館長(zhǎng)黃德寬教授的觀點(diǎn)表示,甲骨文考釋當(dāng)前還有許多問題沒有懸而未決,一是認(rèn)字,二是片數(shù),三是斷代。以認(rèn)字為例,學(xué)者編纂的甲骨文字典收字已有4300多個(gè),其中2000多字有人進(jìn)行過研究,但目前取得共識(shí)的破譯字僅1300多個(gè),一大半字還不認(rèn)識(shí),只能放在字典的附錄中存疑待考。
另?yè)?jù)大河網(wǎng)曾援引古文字學(xué)博士、河南財(cái)經(jīng)政法大學(xué)講師武亞帥的觀點(diǎn)剖析了許多甲骨文難以破譯的原因:“這些未識(shí)字或是字形未被后世傳承,或是出現(xiàn)頻率很低,或是辭例殘缺,無(wú)法提供有效信息,所以使得考釋工作舉步維艱,因此,現(xiàn)存的未識(shí)字多是難啃的‘硬骨頭’。而且甲骨文考釋不同于看圖說話,需要從形、音、義多方面尋找證據(jù),只有達(dá)到‘字形無(wú)誤,文義大安’的效果才算是比較可信的考釋意見。”
為了激發(fā)古文字研究工作者積極主動(dòng)地破譯甲骨文,中國(guó)文字博物館于2016年發(fā)布通告,對(duì)破譯未釋讀甲骨文并經(jīng)專家委員會(huì)鑒定通過的研究成果,單字獎(jiǎng)勵(lì)10萬(wàn)元;對(duì)存爭(zhēng)議甲骨文作出新的釋讀并經(jīng)專家委員會(huì)鑒定通過的研究成果,單字獎(jiǎng)勵(lì)5萬(wàn)元。
近年來(lái),近年來(lái)AI技術(shù)迅猛發(fā)展,利用深度學(xué)習(xí)模型超強(qiáng)語(yǔ)義表示能力來(lái)實(shí)現(xiàn)甲骨文的輔助考釋,優(yōu)勢(shì)已經(jīng)嶄露頭角。
據(jù)介紹,廈門大學(xué)信息學(xué)院自然語(yǔ)言處理實(shí)驗(yàn)室史曉東教授團(tuán)隊(duì)研究人員針對(duì)甲骨文數(shù)據(jù)稀缺、圖像質(zhì)量參差不齊的現(xiàn)狀,系統(tǒng)整理相關(guān)古文字?jǐn)?shù)據(jù),構(gòu)建更大規(guī)模、更高質(zhì)量的甲骨文多模態(tài)數(shù)據(jù)集,提出了“基于甲骨文多模態(tài)大模型的多元信息輔助考釋模型”的技術(shù)方案。
項(xiàng)目將設(shè)計(jì)一系列與實(shí)際考釋過程密切相關(guān)的任務(wù)和評(píng)估方法,如跨字體圖像映射、跨字體IDS(表達(dá)結(jié)構(gòu)的部首偏旁序列)解碼和甲骨字現(xiàn)代字對(duì)譯關(guān)系等,以有效訓(xùn)練多模態(tài)大模型。利用其強(qiáng)大的跨模態(tài)理解能力,輔助甲骨文考釋。在大模型提供的語(yǔ)義嵌入基礎(chǔ)上,本項(xiàng)目還將設(shè)計(jì)融合音、形、義、用多元信息的端到端甲骨文綜合考釋模型,綜合利用字形結(jié)構(gòu)、語(yǔ)義關(guān)聯(lián)、同音通假和用法聚類分析,開發(fā)一種更加輕量的考釋系統(tǒng),以適應(yīng)資源有限的實(shí)際考釋場(chǎng)景。
(圖源自廈門大學(xué)公眾號(hào))
目前,該團(tuán)隊(duì)申報(bào)的“基于甲骨文多模態(tài)大模型的多元信息甲骨文輔助考釋模型”入選“探元計(jì)劃2024”“創(chuàng)新探索型項(xiàng)目”TOP10榜單。據(jù)悉,“探元計(jì)劃2024”是由國(guó)家文物局科技教育司指導(dǎo),中國(guó)文物信息咨詢中心(國(guó)家文物局?jǐn)?shù)據(jù)中心)、騰訊SSV數(shù)字文化實(shí)驗(yàn)室、騰訊研究院、社會(huì)價(jià)值投資聯(lián)盟(深圳)與中國(guó)文物報(bào)、紫荊雜志社聯(lián)合發(fā)起。