午夜九九,99色在线视频,97国产露脸视频97在线视频,国产美女主播精品一区二区三区,国产野精品久久久久久久不卡,最新国产成人,国产精品午夜久久

您現在的位置:?臺海網(wǎng) >> 生活頻道 >> 文化 >> 文化大話(huà)堂  >> 正文

科技守護文明:中國古籍“回家”之路

www.xmdelibao.com 來(lái)源: 新華社 用手持設備訪(fǎng)問(wèn)
二維碼

  中國是世界四大文明古國之一,中國浩如煙海的文獻典籍記錄了歷史。然而遺憾的是,近代以來(lái)超過(guò)400萬(wàn)冊中國古籍由于種種原因流散海外。

  阿里巴巴達摩院、四川大學(xué)、美國加州大學(xué)伯克利分校近日公布,他們花費兩年多的時(shí)間,教會(huì )了AI識別中國古籍,將它們以數字化的形式接回故土,置于網(wǎng)絡(luò )公益平臺,向所有人開(kāi)放。

  這個(gè)項目的名字叫“漢典重光”,意為讓失落的珍貴古籍重放光芒。“漢典重光”以97.5%的準確率,識別了20萬(wàn)頁(yè)古籍,覆蓋3萬(wàn)多字的古籍字典。

  現代科技照亮中國古籍“回家”之路

  中國古籍擁有非常龐大且復雜的知識體系,包括甲骨簡(jiǎn)牘、敦煌遺書(shū)、宋元善本、明清精槧、拓本輿圖、少數民族文獻等等。所涉及的范圍也是極其廣泛,有應對自然災害、流行疫病、經(jīng)濟波動(dòng)、政治斗爭、外交危機、氣候變遷等的經(jīng)驗,有戰爭、瘟疫、地震、洪澇災害、病蟲(chóng)害等方面的經(jīng)驗總結,還有醫療、中藥、養生、家具、服飾、飲食文化等生活經(jīng)驗。

  加州大學(xué)伯克利分校的東亞圖書(shū)館是全美三大東亞圖書(shū)館之一,90萬(wàn)冊藏書(shū)里四成都是中文書(shū),還有不少甲骨文和拓片。第一次到這兒的中國學(xué)者總感覺(jué)在穿越歷史的“蟲(chóng)洞”,這些古籍不能運回中國,那就用數字化手段讓古籍的內容“回家”。

  2019年,阿里巴巴和四川大學(xué)提出“數字化回歸”設想,四川大學(xué)歷史文化學(xué)院副院長(cháng)王果與中央文史研究館館員陳力牽線(xiàn)搭橋,溝通北美、歐洲、日韓等地藏書(shū)機構,最后獲得加州大學(xué)伯克利分校支持,達成共識,將伯克利東亞圖書(shū)館的中文古籍善本逐步數字化。

  前所未有的挑戰

  據王果介紹,“漢典重光”的分工非常明確——采集側把紙質(zhì)書(shū)變?yōu)橛坝“妫瑪底只a(chǎn)側把影印版變?yōu)槲淖职妫瑧脗葹槲淖职嬖黾訖z索、字典和知識圖譜等研學(xué)系統。東亞圖書(shū)館完成第一個(gè)環(huán)節后,四川大學(xué)將和達摩院共同完成另外兩個(gè)步驟。其中,四川大學(xué)將提供一切非計算層面的專(zhuān)業(yè)支持,并與達摩院的機器視覺(jué)實(shí)驗室合作,共同開(kāi)發(fā)古籍AI技術(shù)。

  首批數字化的古籍共20萬(wàn)頁(yè),包含40余種珍貴宋元善本。剛開(kāi)始大家對這個(gè)項目很有信心,但實(shí)際一上手才知道難度有多大。

  首先是中國古籍的載體很多,紙、布、竹子、木頭、甲骨、石碑……幾乎所有能用的載體都被古人留了字,不同載體上面的字識別起來(lái)差別非常大。年代久遠的紙張大多殘缺不全,上面還布滿(mǎn)斑點(diǎn),而且排列非常復雜。古人喜歡從上到下,從右到左,還非常喜歡在上面做批注。

  字跡的精美也成了負擔。隸書(shū)、楷書(shū)、草書(shū)、行書(shū)都漂亮,但也真難認。大部分字還是手寫(xiě)的,不但兩個(gè)人寫(xiě)的同一個(gè)字不一樣,同一個(gè)人寫(xiě)的同一個(gè)字也差別很大,很多字還有不同寫(xiě)法。

  團隊原有的OCR(圖像文字識別)的識別準確率只有40%,這顯然是不夠的,較早涉足古籍識別的Google Books(谷歌圖書(shū))針對的都是英文古籍,對中文也不適用。

  大量創(chuàng )造性和創(chuàng )新性的辛勤勞動(dòng)

  沒(méi)有前車(chē)可鑒,只能自己來(lái)了。“這就像教小朋友識字,確實(shí)難,但也有簡(jiǎn)單的部分,我們就由易到難慢慢做。”王果說(shuō)。

  前所未有的開(kāi)拓性成果,包含著(zhù)中國學(xué)者大量創(chuàng )造性和創(chuàng )新性的辛勤勞動(dòng)。

  達摩院的古籍識別算法,用AI替代人工,大幅壓縮了專(zhuān)家標注工作量。在機器為主進(jìn)行識別的97.5%的內容中,約有1%(1萬(wàn)字左右)需要專(zhuān)家錄入;機器不能識別的余下2.5%(2.5萬(wàn)字)的文字,全部交給專(zhuān)家做后期標注。相比人工專(zhuān)家錄入,百萬(wàn)字書(shū)籍的數字化工作量從1000天降低到了35天,效率比人工專(zhuān)家錄入方案提升近30倍。這種古籍識別算法,為中華古籍的回歸提供了另一種可行可期的思路。

  非計算機層面的工作也非常重要,四川大學(xué)專(zhuān)門(mén)組織了30多個(gè)歷史系學(xué)生來(lái)做標注,這很耗神,眼力、腦力缺一不可,但這個(gè)過(guò)程沒(méi)法省略,就像學(xué)生要學(xué)習,算法也要迭代,“只有數據夠多夠好,機器才能搞定”。

  這是一件非常難但非常有意義的事情。古籍識別的挑戰巨大,但大家還是想通過(guò)技術(shù)讓古籍活起來(lái),用科技守護文明。

  據了解,達摩院、四川大學(xué)、美國加州大學(xué)伯克利分校、中國國家圖書(shū)館、浙江圖書(shū)館將繼續投入人力、物力,擴大古籍數字化回歸的數量,讓所有蒙塵的古籍重煥新生。

  達摩院院長(cháng)張建鋒表示,阿里計劃將這套技術(shù)工具連同古籍數字化平臺一并捐贈,交由權威公共機構長(cháng)期運營(yíng),最終將成為一個(gè)開(kāi)放的網(wǎng)絡(luò )平臺,供大眾檢索學(xué)習。

(來(lái)源:新華社 記者童芳

相關(guān)新聞
“漢典重光”首批實(shí)現海外20萬(wàn)頁(yè)中文古籍“數字化回歸”

中國海外古籍“數字化回歸”項目“漢典重光”平臺18日下午在北京中國科技館正式發(fā)布,通過(guò)先進(jìn)的人工智能(AI)技術(shù),一批珍藏于美國加州大學(xué)伯克利分校的中文古籍善本,以數字化方式回歸故土,落地“漢典重光”古籍平臺。   “漢典重光”平臺稱(chēng),首批20萬(wàn)頁(yè)古籍已完成數字化,并沉淀為覆蓋3萬(wàn)多字的古籍字典,公眾可通過(guò)該平臺翻閱、檢索古籍,這20萬(wàn)頁(yè)古籍的識別準...

“護書(shū)人”讓藏文古籍“重生”【組圖】

這是一場(chǎng)持續了近九年的“搶救”,古籍專(zhuān)家們朝夕必爭只為讓幾近損毀的珍貴藏文古籍早日“重生”。當下,這場(chǎng)和時(shí)間的“角力”仍在繼續。   2013年10月,位于西藏自治區山南市隆子縣的白嘎寺發(fā)現了大量珍貴的藏文古籍散葉,搶救性保護工作隨即展開(kāi)。歷經(jīng)挖掘、整理、修復、數字化...

全國累計發(fā)布古籍資源達7.4萬(wàn)部(件)

第二十六個(gè)世界讀書(shū)日到來(lái)之際,國家圖書(shū)館(國家古籍保護中心)、天津圖書(shū)館、南京圖書(shū)館、安徽省圖書(shū)館、湖北省圖書(shū)館、四川省圖書(shū)館、云南省圖書(shū)館、西藏自治區圖書(shū)館、杭州圖書(shū)館、河南省唐河縣圖書(shū)館等10家單位,21日在京聯(lián)合發(fā)布古籍數字資源。   本次聯(lián)合發(fā)布新增古籍資源1700余部(件),目前全國累計發(fā)布古籍資源達7.4萬(wàn)部(件)。本次新增發(fā)布一批藏文和中醫藥...

四川率先完成文旅資源普查 總量超300萬(wàn)處【組圖】

4月15日,四川省文化和旅游資源普查工作總結電視電話(huà)會(huì )在成都召開(kāi)。會(huì )上公布了四川文化和旅游資源普查系列成果,共查明六大類(lèi)文化資源305.7萬(wàn)余處,旅游資源24.5萬(wàn)余處,數量和質(zhì)量目前居全國第一。四川也是全國第一個(gè)完成文化和旅游資源“雙普查”的省份。   據悉,四川文化和旅...

古籍“零頁(yè)殘片”成文創(chuàng )產(chǎn)品

民國古籍零頁(yè)殘片辭句做的樹(shù)脂掛件成了文創(chuàng )產(chǎn)品。北京青年報記者近日在北京圖書(shū)訂貨會(huì )中國書(shū)店展場(chǎng)看到了這些別具一格兼具收藏價(jià)值的古籍文創(chuàng )產(chǎn)品。   中國書(shū)店成立于1952年,至今已近七十載。長(cháng)期以來(lái),中國書(shū)店對古代典籍文獻進(jìn)行整理、保護和再利用。于此過(guò)程中,一些古籍零頁(yè)...

商洛市| 永春县| 武强县| 海原县| 碌曲县| 丹东市| 义乌市| 临猗县| 重庆市| 日喀则市| 夏邑县| 金堂县| 大庆市| 建昌县| 长沙县| 定安县| 大化| 上高县| 大埔县| 平罗县| 革吉县| 耒阳市| 宁远县| 绥阳县| 原平市| 石阡县| 民乐县| 黄山市| 循化| 濮阳市| 哈密市| 南城县| 黑龙江省| 淮安市| 韶山市| 泸州市| 伊通| 千阳县| 台山市| 全南县| 镇赉县|