古籍数字化背后：谁为技术买单（1）

2011-7-18 13:26

　　期待通过这组报道，引发社会各界对古籍数字化研发和生产的重视。

　　【故事】

　　（一）清华大学智能图文信息处理研究室——“谁为我们的技术买单？”

　　眼下，清华大学智能图文信息处理研究室的古籍识别技术研究，几乎处于停滞状态。研究室主任丁晓青教授为此焦虑不安。

　　汉文字和少数民族文字识别技术研究，是丁晓青团队20年来专注推进的一项工作。作为文字识别技术的具体化，古籍识别系统也在此间渐具规模。

　　丁晓青告诉记者：“对系统来说，识别和理解古籍要比现代印刷品复杂得多。而更有挑战性的是，处理每部古籍时，系统都要面对崭新的情况，比如，这部古籍有无钤印、句读、栏线，单行标注还是双行标注，写本还是刻本，普通的文本还是家谱、碑拓…… 此外，古籍中还有大量形态各异的异体字。情况异常复杂。要提高古籍识别系统准确性，必须让它尽可能多地接触古籍，提取出新的字样来扩充字符集；同时，在识别形态各异的版式过程中，增强其版面分析判断能力。唯有如此，别无他途。”

查看全文