古籍数字化背后:谁为技术买单

2011-7-18 13:26 来源: 光明日报
756 收藏到BLOG
  这些年,多部大型电子古籍资料库的面世,让“古籍数字化”工作看上去杂花生树,一派春光烂漫。可是,当我们深入到繁华表象的背后,却是“别有一番滋味在心头”。我们选取清华大学智能图文信息处理研究室和北京国学时代文化传播有限公司,作为 “解剖麻雀”的样本;在此基础上,记者与国家古籍保护中心专家委员会委员、中国社科院研究员杨成凯先生展开对话,从宏观视角对古籍数字化相关问题进行观照。

  期待通过这组报道,引发社会各界对古籍数字化研发和生产的重视。

  【故事】

  (一)清华大学智能图文信息处理研究室——“谁为我们的技术买单?”

  眼下,清华大学智能图文信息处理研究室的古籍识别技术研究,几乎处于停滞状态。研究室主任丁晓青教授为此焦虑不安。

  汉文字和少数民族文字识别技术研究,是丁晓青团队20年来专注推进的一项工作。作为文字识别技术的具体化,古籍识别系统也在此间渐具规模。

  丁晓青告诉记者:“对系统来说,识别和理解古籍要比现代印刷品复杂得多。而更有挑战性的是,处理每部古籍时,系统都要面对崭新的情况,比如,这部古籍有无钤印、句读、栏线,单行标注还是双行标注,写本还是刻本,普通的文本还是家谱、碑拓…… 此外,古籍中还有大量形态各异的异体字。情况异常复杂。要提高古籍识别系统准确性,必须让它尽可能多地接触古籍,提取出新的字样来扩充字符集;同时,在识别形态各异的版式过程中,增强其版面分析判断能力。唯有如此,别无他途。”

  然而,接下来的问题就是:这些耗资甚巨的古籍训练样本从何而来?也正是这点,让古籍识别技术的推进举步维艰。

  “现在,社会上对古籍数字化产品需求量本就不多,生产相关产品的企业更加稀少,几乎没有企业找我们合作,单靠市场这条路根本行不通。”丁晓青对记者说。

  更让她无法释怀的是,“近10年间,古籍识别技术研究项目从国家一些重大规划中渐渐淡出了。现在,识别技术研究无法得到国家政策和资金上的支持。系统无法接触更多的古籍训练样本,要想提高识别能力根本无从谈起。”彭良瑞副研究员递给记者一份研究报告说:“与之形成对照的是,欧美对拉丁体系文字的古籍数字化研究却方兴未艾。近年来,欧盟26家图书馆联合推出IMPACT(Improving Access to Text)项目,旨在通过OCR(光学字符识别)等技术的研究,来推动15-19世纪英文等拉丁体系文字的古籍全文数字化工程。”

  现在,研究室里只有寥寥一两个研究人员还在从事这项研究;而由于古籍识别系统日常使用太少,研究室入口处的公共演示平台也根本没有装入这套系统。

  这种局面,让丁晓青深感痛惜。在她看来,对古籍进行数字化,就是用技术手段将传统文化 “链接”进当代,不论对于古籍的保存还是中华文化的传扬,都是功莫大焉。她也深信,要真正实现古籍数字化,“核心就是要解决古籍的识别技术问题”。在她眼中,古籍识别技术的优势显而易见:古籍收藏单位提供的图像浏览方式不能进行全文检索;而人工录入校对古籍电子文本的成本大约是每页8元-10元,录入一册古籍的全文则需要几百元至数千元不等。

  “现在我们只能靠一份责任感来艰难、缓慢地推进这项工作。”整个采访过程中,丁晓青反复追问一个问题:“谁为我们的技术买单?”

  (二)北京国学时代文化传播有限公司——“最致命的是易于复制”

  北京国学时代文化传播有限公司董事长尹小林从书橱中搬下一册影印本《文苑英华》,打开,桌案顿显局促。

  随着他的讲述,一个耗时耗力的古籍数字化流程展现在记者面前。“前期先要选定古籍版本,比如《文苑英华》就有四库本、明刻本等,要尽量搜罗内容完整的版本。之后,对文字进行分段、标点,录入计算机。随后,专业人员要对打印出来的文本进行校对,并由专家审订,继而由操作员在电脑上修正。这些工作都做完后,还要对数据进行标引和入库。最后才是做成软件。”尹小林说,每道工序都必不可少,像《文苑英华》6册、1000卷这样的体量,全部处理完要持续1年以上。

  而对于公司全部工作量来说,这只能算沧海一粟。尹小林告诉记者,他们最大的一套数字化产品《国学宝典》现已收书6000种,最迟明年就能实现1万种目标,届时收录的所有古籍加起来将达到20亿字,比最大古籍丛书《四库全书》的体量还多2倍。而每册古籍都要重复同样的工序,整个过程繁复、枯燥而漫长。

  即使产品成形后,时间和人力的投入仍绵绵不绝。尹小林抱来一摞《古籍整理研究学刊》《古籍点校疑误记录》《中国典籍与文化》说,他每天做的工作就是大量掌握最新研究成果,随时通查他们产品中的所有古籍,并及时进行修正和完善。类似工作从未间断。

  非但如此。尹小林团队正凭一力推进,使自己的古籍数字化产品臻于完美:研发出数据格式和数据比对技术等独有核心技术,请各领域专家担纲古籍编选……

  然而,艰苦的努力并未得到对等的回报。自产品面世那刻起,尹小林就再也无力掌控局面。

  “谁来买?”这一点,尹小林作不得主。古籍数字化产品受众面很窄,其需求量可想而知。而与微弱的需求形成强烈反差的是,要真正做好古籍数字化工作,必须投入高昂的人力、财力和时间成本。如今尹小林公司已购买了几万册纸质古籍来充实资料库, “且不要说明刻本、清刻本了,即便是现代影印本一册也要几百、上千元钱,这几年光是购买古籍就投入了上千万元。而对一部纸质古籍进行数字化,其成本将达到其定价的几十倍。”利润微薄,缺少外部投资,也让试图涉足这一领域的企业望而却步。现在,古籍数字化市场上,只有少数几家企业在苦撑局面。

  “最致命的,是数字化产品很容易复制。”尹小林告诉记者,现在《国学备览》光盘已经卖掉 10多万片,但是使用的人肯定远不止这些。现在,尹小林能想出来的应对之道都被自己否定了——加密?成本太高,“加密一张盘就要多花几毛钱,相当于从原本微薄的利润里扣掉一半”;诉诸法律?取证太难,“假如说《国学备览》已经在网上下载100万次了,要怎么证明呢?必须找到盗版的服务器和日志,这对我们而言无异于天方夜谭。100万次?我们甚至连一次都证明不了。”

  不足掌心大小的光盘几乎没有重量,但它却沉沉地压在尹小林心头。尹小林对记者说:“和卖好这些产品比起来,做好它们似乎还容易些。”