激活數字服務(wù)平臺,給“養在深閨”的古籍注入新的生命力
古籍,即1912年之前經(jīng)過(guò)刻印、抄寫(xiě)等方式所生產(chǎn)出版的圖書(shū)和文獻,用來(lái)傳承文明、普及教育以及記載歷史,承載厚重的歷史和文化。相關(guān)統計數據顯示,我們已完成普查的270多萬(wàn)部古籍中,僅有7萬(wàn)多部可供線(xiàn)上閱讀,更多海量古籍文化資源亟待數字化,這也是當下古籍保護、傳承與開(kāi)放的重要課題之一。目前上海古籍出版社推出的“匯典·古籍數字服務(wù)平臺”引起業(yè)界關(guān)注,該平臺聚合上海、長(cháng)三角乃至更廣泛地區出版社的優(yōu)質(zhì)古籍資源,利用最新光學(xué)文字識別(OCR)、自然語(yǔ)言處理、大規模語(yǔ)料庫和機器學(xué)習標點(diǎn)等古籍智能算法技術(shù),建設面向傳統文化與古籍行業(yè)的知識服務(wù)平臺。
“北方有中華書(shū)局‘籍合網(wǎng)’,南方有上海古籍出版社‘匯典’。”復旦大學(xué)圖書(shū)館副館長(cháng)、中華古籍保護研究院常務(wù)副院長(cháng)楊光輝表示,古籍數字化對于中華古代文明的傳承、保護和利用有著(zhù)積極的促進(jìn)作用,這一平臺一方面可以把上海古籍出版社多年積累起來(lái)的古籍文化資源通過(guò)數字化的方式向大眾普及,另一方面也可以加速古籍數字轉化和出版的流程,推動(dòng)相應出版產(chǎn)業(yè)領(lǐng)域的數字化發(fā)展。
經(jīng)歷數十年發(fā)展的古籍數字化之路任重道遠
《上海市全面推進(jìn)城市數字化轉型“十四五”規劃》指出,要“深化文化大數據體系建設,推進(jìn)文化資源數字化”,在媒介大融合、知識大融通的時(shí)代背景下,實(shí)現以數字技術(shù)推動(dòng)優(yōu)秀傳統文化的傳承創(chuàng )新。古籍數字化,是保護和合理利用古籍的方向。復旦大學(xué)古籍整理研究所研究員石祥在接受記者采訪(fǎng)時(shí)說(shuō),“古籍的‘用’和‘藏’之間是矛盾的,誰(shuí)都想來(lái)翻一翻,時(shí)間久了必然影響古籍的保護”,而數字化之后,古籍“母本”就不用冒著(zhù)各種風(fēng)險“拋頭露臉”了。同時(shí),“養在深閨人未識”的古籍可以在數字化之后走出“深閨”,可不受時(shí)間、地域限制滿(mǎn)足更多讀者的閱讀需求,實(shí)現一對多、點(diǎn)對面、虛對實(shí)的變化。
從“將紙質(zhì)書(shū)變?yōu)殡娮訏呙璋?rdquo;的“采集側”到“將電子掃描版變?yōu)槲淖职?rdquo;的“生產(chǎn)側”,再到“將文字版變?yōu)楣偶袑W(xué)系統”的“應用側”,古籍數字化流程并不復雜。在數十年歷史發(fā)展中,有兩個(gè)分水嶺。其一是上世紀80年代,美國華裔學(xué)者陳炳藻提出用計算機統計《紅樓夢(mèng)》的字詞,計算機技術(shù)和人文研究逐漸開(kāi)始結合。其二是1999年,被譽(yù)為“大型中文電子出版工程的典范書(shū)”文淵閣《四庫全書(shū)》電子版問(wèn)世。
在數十年的發(fā)展中,我國的古籍數字化取得一定成效——國家圖書(shū)館的“中華古籍資源庫”已在線(xiàn)發(fā)布超過(guò)3.3萬(wàn)部古籍影像;中華書(shū)局的“中華經(jīng)典古籍庫”已發(fā)布3000多種、15億字的點(diǎn)校本古籍;愛(ài)如生公司的“中國基本古籍庫”收書(shū)1萬(wàn)種,既有可供檢索的全文,又有古籍原版圖像。但與此同時(shí),古籍數字化推進(jìn)之路也鋪滿(mǎn)荊棘。究其原因,一方面源于古籍成本,據上海古籍出版社數字出版中心負責人侯君明透露:“大多古籍獲取成本不菲,此外制作、版權、平臺開(kāi)發(fā)以及版權保護技術(shù)研發(fā)等方面費用高昂。相對而言古籍數字化回報周期卻又比較漫長(cháng)。”另一方面,根據全國古籍普查工作要求,要對全部古籍鑒定編目,具體包括書(shū)名、卷數、作者、版本、存卷、冊次、藏印等項目,須逐一厘清,工作量巨大,對編目鑒定者的業(yè)務(wù)水平要求頗高。
事實(shí)上,我國目前尚存在大量現有的古籍數字化資源呈黑白影像,分辨率較低,難以滿(mǎn)足讀者和研究人員的需要。
加速古籍數字轉化,利用新技術(shù)整合海量古籍知識體系
上海古籍出版社總編輯呂健表示,古籍整理是一項古老的事業(yè),而數字化則屬于當下,數字化轉型代表著(zhù)產(chǎn)業(yè)的前沿。在古籍亟待數字化的當下,“匯典·古籍數字服務(wù)平臺”的出現猶如一道曙光。這一平臺的OCR系統、自動(dòng)標點(diǎn)與自動(dòng)標引技術(shù)開(kāi)發(fā)都已初見(jiàn)成效。其中OCR技術(shù)可以迅速識別一本書(shū),準確率達93%。達到理想準確率的機器標點(diǎn)后,剩下的疑難問(wèn)題通過(guò)專(zhuān)家學(xué)者可以較快完成,把學(xué)者從大量簡(jiǎn)單重復的勞動(dòng)中解放出來(lái)。
有著(zhù)OCR的文本生成技術(shù)、自然語(yǔ)言處理的文本整理與標引等先進(jìn)技術(shù)的加持,大量?jì)?yōu)秀古籍可以在準確權威的平臺上與公眾、專(zhuān)業(yè)研究人員面對面,使用效率大幅提高,有力促進(jìn)海量?jì)?yōu)秀傳統文化信息便利快捷有效利用。這一平臺還通過(guò)解析上海古籍出版社海量古籍資源內容,對其進(jìn)行知識結構化揭示,重構原有的古籍內容組織形式,并創(chuàng )建全新的知識模塊,實(shí)現古籍資源的知識化、專(zhuān)業(yè)化服務(wù)。
通過(guò)技術(shù)的加持,從內容可利用的深度和廣度上使古籍里的文字快速“活”起來(lái)。侯君明表示:“利用新技術(shù)整合海量古籍的知識體系,深入闡釋中華文化的歷史淵源、發(fā)展脈絡(luò )、基本走向,有助于推動(dòng)有中國底蘊、中國特色的思想體系、學(xué)術(shù)體系和話(huà)語(yǔ)體系的構建。從再生性保護的角度,古籍數字化技術(shù)對中國優(yōu)秀傳統文化的普及、研究與傳承具有重大意義。”
推動(dòng)古籍的數字化進(jìn)程,不僅是內容的數字化,更是思維的數字化。編、印、發(fā)是傳統出版的基本流程,在數字化項目實(shí)踐過(guò)程中,這些傳統的工作流程也在逐漸接受來(lái)自數字化思維的積極影響。在楊光輝眼中,普通掃描技術(shù)向三維高清掃描的迭代發(fā)展,互聯(lián)網(wǎng)向物聯(lián)網(wǎng)的轉變,古籍數字化向數字人文進(jìn)化,藏在圖書(shū)館的書(shū)可以通過(guò)數字出版技術(shù),打通虛擬和現實(shí)之間鴻溝,傳統館藏資源通過(guò)新媒介形成“元宇宙”,也并非遙不可及。
(來(lái)源:文匯報;記者 汪荔誠)