然而,接下来的问题就是:这些耗资甚巨的古籍训练样本从何而来?也正是这点,让古籍识别技术的推进举步维艰。

  “现在,社会上对古籍数字化产品需求量本就不多,生产相关产品的企业更加稀少,几乎没有企业找我们合作,单靠市场这条路根本行不通。”丁晓青对记者说。

  更让她无法释怀的是,“近10年间,古籍识别技术研究项目从国家一些重大规划中渐渐淡出了。现在,识别技术研究无法得到国家政策和资金上的支持。系统无法接触更多的古籍训练样本,要想提高识别能力根本无从谈起。”彭良瑞副研究员递给记者一份研究报告说:“与之形成对照的是,欧美对拉丁体系文字的古籍数字化研究却方兴未艾。近年来,欧盟26家图书馆联合推出IMPACT(Improving Access to Text)项目,旨在通过OCR(光学字符识别)等技术的研究,来推动15-19世纪英文等拉丁体系文字的古籍全文数字化工程。”