期待通过这组报道,引发社会各界对古籍数字化研发和生产的重视。

  【故事】

  (一)清华大学智能图文信息处理研究室——“谁为我们的技术买单?”

  眼下,清华大学智能图文信息处理研究室的古籍识别技术研究,几乎处于停滞状态。研究室主任丁晓青教授为此焦虑不安。

  汉文字和少数民族文字识别技术研究,是丁晓青团队20年来专注推进的一项工作。作为文字识别技术的具体化,古籍识别系统也在此间渐具规模。

  丁晓青告诉记者:“对系统来说,识别和理解古籍要比现代印刷品复杂得多。而更有挑战性的是,处理每部古籍时,系统都要面对崭新的情况,比如,这部古籍有无钤印、句读、栏线,单行标注还是双行标注,写本还是刻本,普通的文本还是家谱、碑拓…… 此外,古籍中还有大量形态各异的异体字。情况异常复杂。要提高古籍识别系统准确性,必须让它尽可能多地接触古籍,提取出新的字样来扩充字符集;同时,在识别形态各异的版式过程中,增强其版面分析判断能力。唯有如此,别无他途。”