圖片

閱讀古文字。圖片來源:《自然》雜志引自慕尼黑大學。


“維蘇威火山挑戰(zhàn)”(Vesuvius Challenge)的項目名稱來源于公元79年維蘇威火山的爆發(fā),許多珍貴的莎草紙文獻在火山噴發(fā)中遭到損毀。18世紀,研究人員從意大利龐貝附近赫庫蘭尼姆的一座羅馬別墅遺跡中發(fā)掘出數(shù)以百計的卷軸。這些卷軸寫有文字的部分多已炭化,使得研究人員很難進行解讀。


科學家們一直致力于用新的科技輔助解讀這些古老的文獻。美國肯塔基大學的計算機科學家布倫特·西爾斯(Brent Seales)就曾花費數(shù)年時間開發(fā)“虛擬展開”(virtual unwrapping)技術,即通過對古卷的內(nèi)部結(jié)構進行高分辨率掃描,再繪制橫截面,最后用算法將其展開為平面圖像。2015年,這種技術成功解讀了以色列恩戈地的一個可追溯至公元三世紀的燒焦古卷。


恩戈地古卷寫作的墨水中含有鐵,在計算機掃描的過程中會發(fā)出光芒。與之不同的是,赫庫蘭尼姆古卷的抄寫員使用的是碳基墨水,在計算機掃描中幾乎不可見。解讀難度的增大迫使科學家團隊思考新的探索方案。西爾斯認為,即使無法直接看到墨水,他們或許可以通過訓練神經(jīng)網(wǎng)絡發(fā)現(xiàn)裸露的莎草紙和寫有墨水的莎草紙表面紋理的差異,進而推進解讀。


“維蘇威火山挑戰(zhàn)”在這種需求下應運而生。西爾斯的團隊于2023年3月和硅谷企業(yè)家納特·弗里德曼(Nat Friedman)合作,發(fā)起該挑戰(zhàn)賽,他們公布了卷軸表面的扁平圖像,要求參賽團隊通過訓練神經(jīng)網(wǎng)絡來尋找差異,以贏取豐厚的獎金。最終,超過1000個團隊參與比賽。今年2月,一支由多位計算機專業(yè)學生組成的團隊獲得獎金。該團隊鑒定文本可能來自于伊壁鳩魯派哲學家菲洛德摩斯。


多名學者認為,近些年來,人工智能的高速發(fā)展正在大幅重塑我們對古代世界的看法。早在2010年,人們就已經(jīng)開始將深度學習應用于古代文獻的研究中。人工智能也逐漸表現(xiàn)出與人類考古研究者協(xié)作的潛力。英國諾丁漢大學的西婭·索莫斯奇爾德(Thea Sommerschield)等人曾經(jīng)使用公元前七世紀至公元五世紀之間的數(shù)萬個希臘銘文訓練了一個名為Pythia的模型,通過大量數(shù)據(jù)的訓練,向模型展示它從未見過的文本時,它可以根據(jù)上下文重建文獻中缺失的字符。2022年,他們對模型進行了升級,以使其能捕捉到更復雜的語言模式。索莫斯奇爾德表示,在測試中,面對人為制造的古代文本空白,人工智能的修復準確率達到62%,高于人類研究者的25%。不過,若人類研究者在人工智能的幫助下開展研究,修復準確率可以上升到72%。


人工智能正在展現(xiàn)出的潛力已經(jīng)為多個國家所重視。中國的多個研究團隊都曾嘗試借用人工智能的力量破譯甲骨文。今年年底,在接受媒體采訪時,廈門大學信息學院自然語言處理實驗室史曉東團隊就曾表示,團隊正在利用已經(jīng)破譯出的1000多個甲骨文,通過人工將其拆解為IDS(表達結(jié)構的部首偏旁序列)。找出與現(xiàn)代文字IDS的對應關系后,再將這些數(shù)據(jù)“喂”給AI,實現(xiàn)學習。


西爾斯將這些有待科技進一步挖掘的文獻稱作“隱形圖書館”,包括中世紀書籍、古埃及木乃伊包裹物中的文本等等?!叭缃?,人工智能幫助我們打開了曾經(jīng)無力訪問的資源?!?/p>


參考鏈接:

1.How AI is unlocking ancient texts— and could rewrite history

https://www.nature.com/articles/d41586-024-04161-z

2.“喚醒”甲骨文廈大團隊嘗試用AI破譯古老文字

https://news.xmnn.cn/xmxw/202412/t20241211_286795.html


編譯/劉亞光

編輯/羅東

校對/穆祥桐