学术研究的文本挖掘时代实验方法详情页

实验方法> 生物信息学技术> 数据库>学术研究的文本挖掘时代

学术研究的文本挖掘时代

关键词： 学术研究文本来源：互联网

（本文根据2月7日发表的《自然》新闻整理，因作者首次接触该领域，错误难免，更准确信息，请原始文献）

文本挖掘应该是信息领域的高频词汇，但在学术领域，特别作为一种学术辅助工具，并不是那么被学者广发关注。不过最近学术出版领域的大亨爱斯唯尔公司将提供对该公司数据库中论文的文本挖掘服务。这一动作引起《自然》关注，专门发文进行报道。

文本挖掘有时也被称为文字探勘、文本数据挖掘等，大致相当于文字分析，一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生，如模式识别。人工纯文字挖掘方法最早出现在20世纪80年代中期，最近的技术进步已使这一领域迅速发展。

文本挖掘已经成为信息检索、数据挖掘、机器学习、统计以及计算语言学等学科中的重要领域。由于80％的信息以文本形式来保存，文本挖掘被认为具有较高潜在商业价值。多语种数据挖掘，因为可根据意愿从跨语种文字挖掘出有用信息，也越来越多引起人们兴趣。

学者们准备好你的计算机作好文本挖掘，出版大亨Elsevier将给科学家提供从1100万论文中获许有价值信息的更简单方法。估计其他一些出版机构也会跟进，这将会降低基于计算机技术的研究技术难度。科学家担心，即使这些出版公司可以提高技术条件，开放更多服务，但文本挖掘可能面临许多法律上的约束。

几年前，科学家希望出版公司提供通过软件分析学术论文信息的服务，使用计算机软件从网络在线论文搜索数据时，有学者发现程序容易卡。

在申请许可访问这些论文的过程中，学者们发现自己会陷入和许多机构谈判的泥潭，更要命的是，有的支付注册费也要走程序性步骤。例如，加州大学圣克鲁兹分校计算生物学家Max Haeussler，为制备人类基因组在线地图，需要获得3百万篇论文中DNA数据资料的权限，就前后经过3年多和众多出版社讨论。

过去向出版公司申请获得文本挖掘权限，可能会遇到踢皮球的问题。

现在Elsevier希望能让这个步骤变的简单方便。根据1月26日费城美国图书馆协会学术会议上达成的意向，学术机构的学者使用Elsevier在线接口，可批量下载计算机阅读XML格式的文件。Elsevier暂时选择每周1万篇的下载上限。

只要学者或所在研究机构签署一分协议，这些文章就可用于文本挖掘。协议内容包括，学者发表这些论文时必须是非商业目的，只要包含200个字符段，就必须提供原始出处的链接。从事欧洲脑研究计划的发言人说，他们的学者目前就在这一服务，并对这一政策表示赞赏。

加拿大大不列颠大学神经科学家Shreejoy Tripathy去年就从大量论文中获取关于神经细胞生理学的信息。Tripathy认为，文本挖掘对许多学者来说并不非常熟悉，许多学者不一定善于使用计算机技术。他希望有更简单的技术和途径提供给科学家用于学术研究。

随着相关论文发表数量的增加，科学家对这些技术的要求就会增加。

许多大型的出版公司都已经准备开展这一服务。也有学者担心，他们认为出版商可能错误地认为所谓文本挖掘不过是阅读权限许可，但计算机阅读需要比人类阅读更高的权限，因为阅读权限决定了挖掘权限。

一些国家政府也在考虑这个问题，英国政府计划4月开始开放非商业目的的文本挖掘服务，允许学术机构使用他们购买的各类文本信息。

欧盟担心计算机研究壁垒会阻挡科学创新活动，也将考虑这个问题。英国已经组建了一个委员会，主席是英国加的夫大学的知识产权专家Ian Hargreaves，负责检查文本挖掘和数据挖掘对科学研究的经济学影响，这个委员会2月底将提交最后结论。

数据或文本挖掘是信息时代，大数据条件下技术发展的必然趋势，随着文本和各类数据的迅速增加，只有通过计算机技术的配合，才可以全面分析相关数据，整体把握有关领域。我们应该密切关注这一趋势，制定出符合国情的数据和文本挖掘政策和措施。

推荐方法