古籍数字化背后：谁为技术买单（2）

2011-7-18 13:26

　　然而，接下来的问题就是：这些耗资甚巨的古籍训练样本从何而来？也正是这点，让古籍识别技术的推进举步维艰。

　　“现在，社会上对古籍数字化产品需求量本就不多，生产相关产品的企业更加稀少，几乎没有企业找我们合作，单靠市场这条路根本行不通。”丁晓青对记者说。

　　更让她无法释怀的是，“近10年间，古籍识别技术研究项目从国家一些重大规划中渐渐淡出了。现在，识别技术研究无法得到国家政策和资金上的支持。系统无法接触更多的古籍训练样本，要想提高识别能力根本无从谈起。”彭良瑞副研究员递给记者一份研究报告说：“与之形成对照的是，欧美对拉丁体系文字的古籍数字化研究却方兴未艾。近年来，欧盟26家图书馆联合推出IMPACT(Improving Access to Text)项目，旨在通过OCR（光学字符识别）等技术的研究，来推动15-19世纪英文等拉丁体系文字的古籍全文数字化工程。”

查看全文