分析测试百科网 > 行业资讯 > 项目成果

神经网络计算模型重建让人可以听懂的单词和语句

2019.4.28

　　对于大多数不能说话的人，“意念”隐藏在他们的大脑中，没有人能直接破译这些信号。三人研究小组，加州大学旧金山研究所的Gopala K. Anumanchipalli、Josh Chartier和加州大学伯克利分校的Edward F. Chang利用手术植入大脑电极获得的数据，将其转化成为了计算机生成语言。在新发表的《Nature》文章中，研究小组使用了神经网络计算模型，在某些情况下重建了单词和语句，使人类听者得以听懂。

图片.png

　　过去的所有努力都未曾成功地重新创造出人们所期望的演讲。日内瓦大学神经工程师Stephanie Martin表示（未参与本研究）：“新研究展示的重建后的演讲是可以被人理解的……绝对令人兴奋”。

　　中风或生病后失去说话能力的人可以用眼睛或做其他小动作来控制光标或选择屏幕上的字母（已逝宇宙学家Stephen Hawking靠紧绷脸颊触发眼镜上的开关装置）。但是，没有一个大脑-计算机界面可以直接重新生成人脑海中的语句，假设能够做到这一步，失去说话能力的患者们将可以更自如地控制音调变化，或者在快速对话中插入言论。

　　现实门槛很高。哥伦比亚大学的计算机科学家Nima Mesgarani 说：“我们正在研究神经元在不同时间点的开关模式，再推断出语音。从一个信号到另一个信号的映射并不简单，至于这些信号如何转换为语音是因人而异的，因此计算机模型必须对每个人进行‘培训’。模型需要非常精确的数据，这需要打开头盖骨。”

　　延伸阅读：哥大科学家将大脑信号直接转化成语言

　　研究人员只能在极少数情况下进行这种侵入性记录。一种是切除脑肿瘤过程中，暴露在外的脑内电子读数帮助外科医生定位并避开关键的语言和运动区域；另一种是癫痫患者手术治疗前植入电极数天，以确定癫痫的来源。“我们只有20分钟，也许最长不超过30分钟（的数据收集时间），真的非常有限，”Martin说。

　　新论文背后的研究小组通过将信息输入神经网络来获取宝贵的数据，神经网络通过计算“节点”层传递信息来处理复杂的模式。网络通过调整节点之间的连接来学习。在实验中，神经网络被暴露在一个人产生或听到的语音记录和同时进行的大脑活动数据中。

　　Mesgarani小组的研究建立在5名癫痫患者的数据上。在患者听取1至9号故事和人名时，神经网络分析了从听觉皮层（说话和听的过程中都是活跃的）的记录，然后，计算机仅从神经数据中重建语音数字，当计算机“说出”这些数字时，一群听众就以75%的准确度给它们命名。

　　另外，来自德国不莱梅大学的计算科学家Tanja Schultz领导的研究小组，依靠6名接受脑肿瘤手术的患者数据，当患者朗读单音节字母时，麦克风捕捉到他们的声音。同时，脑内电极记录语言规划区和运动区活动，这些电极向声带发送指令来发音。目前在马斯特里赫特大学任职的计算机科学家Miguel Angrick和Christian Herff训练了一个网络，该网络将电极读数映射到音频记录，然后从以前看不见的大脑数据中重建单词。根据计算机评分系统，大约40%的计算机生成单词是可以被人理解的。

　　最后，加州大学旧金山研究所的神经外科医生Edward Chang和他的团队在三名癫痫患者大声朗读时，根据从讲话到运动区的大脑活动重建整个句子。在一项网络测试中，166人听到了一个句子，并将其从10个书面选择中择出。有些句子的正确识别率超过80%。

　　研究人员还进一步推进了这个模型：用它从人们无声地“说”出单词时的数据重建句子。“这距离我们所有人心目中的语音假体又近了一步。”

　　然而，“我们还在等待，当病人不能说话时，这些方法将如何进行，当一个人默念或听到别人说话时，大脑就会发出信号，这与语言或听觉信号不一样。如果没有与大脑活动相匹配的外部声音，计算机很难分辨出内部语言的起点和终点，”圣地亚哥州立大学的语言神经科学家Stephanie Riès说。

　　“解码想象中的语言需要一个巨大的飞跃，现在还不清楚如何做到这一点，”神经工程师Gerwin Schalk说。

　　Herff说，一种方法是给大脑-计算机界面提供用户反馈：如果病人能够实时听到计算机的语言解释，他们可能会调整自己的想法以获得他们想要的结果。通过用户对神经网络的充分训练，最终大脑和计算机无缝衔接。

神经网络

生物通

喜欢作者我要约稿