撰文 | 英成

责编 | 翊竑

肌肉萎缩性侧索硬化症、脑卒中等疾病会让患者失去说话能力,是当前无法攻克的医学难题。提高患者生活质量的方法之一是基于文字输入的脑机接口【1-5】,但该技术受限于缓慢的速度,使失语者仍无法顺畅地实现语言表达。一种更有效、自然的方法是直接从控制语言的脑区解码整个单词【6-8】,并在健康人中表现不俗。但对于瘫痪失语患者来说,同时采集神经活动和语音较为困难,因此很难直接训练有效的计算模型。

近日,来自美国加州大学旧金山分校的Edward F. Chang研究组在The New England Journal of Medicine上发表题为Neuroprosthesis for Decoding Speech in a Paralyzed Person with Anarthria的研究论文,通过置入电极阵列于控制语言的脑区,利用深度学习算法自动识别患者想说出的单词,因而大幅提升了瘫痪失语患者的语言交流效率。

打开网易新闻 查看更多图片

在这项研究中,研究者招募了一名36岁的瘫痪失语患者。在20岁时,该患者由于罹患脑卒中,导致了严重的痉挛性四肢瘫痪和失语,仅仅能够发出咕噜声和呻吟声。在此次试验开始之前,他常通过计算机辅助的打字接口进行交流,每分钟仅能打出5个正确的单词或18个正确的字符。研究人员通过神经外科方法,在受试者的感觉运动皮层植入了高密度皮层电图电极阵列。

在试验开始后的81周内,受试者接收了若干次语言测试以采集数据。随后,研究者利用了自然语言处理模型和 Viterbi译码等深度学习算法以提高模型的鲁棒性。在对话演示中,研究者会将语句投射在电脑屏幕上(如:“你今天怎么样?”或“你要喝点水吗?”),受试者在脑机接口的帮助下,能够使用包含 50 个单词的词汇集来回答问题。同时,研究者通过电极阵列从大脑表面获取皮层信号并实时处理,使用语音检测模型逐个样本进行分析,并利用深度学习算法从每个检测到的相关神经活动计算单词概率,并预测出受试者最想说出的句子。

在这套系统的帮助下,受试者能够完成“我非常好”或“不,我不渴”等回答。在所有 150 次试验中,受试者每分钟解码的单词数中位数为 15.2。而在 92.0% 的试验中,检测到的单词数等于目标句子中的单词数,且使用自然语言模型的单词错误数量显著减少。重要的是,语音检测和单词分类模型在整个 81 周的研究期间始终如一地执行,无需每天或每周重新校准。

综上,该研究利用人工智能和脑机接口,首次从瘫痪失语患者的大脑活动中解码完整语句,实现了失语者的“重新发声”。虽然该技术依赖相对复杂的神经外科植入手术,且仅能完成50个常见单词的发声,但其为后续研究开辟了道路。未来大规模(如大样本的临床试验)、全方面(如通过脑机接口恢复瘫痪者的肢体功能)的试验,将有可能引发医学研究范式的变革。

打开网易新闻 查看更多图片

图1. 脑机接口的研究示意图

原文链接:

https://www.nature.com/articles/s41586-021-03734-6

参考文献

[1] Sellers EW, Ryan DB, Hauser CK. Noninvasive brain-computer interface enables communication after brainstem stroke. Sci Transl Med. 2014 Oct 8;6(257):257re7. doi: 10.1126/scitranslmed.3007801. PMID: 25298323; PMCID: PMC4711808.

[2] Vansteensel MJ, Pels EGM, Bleichner MG, Branco MP, Denison T, Freudenburg ZV, Gosselaar P, Leinders S, Ottens TH, Van Den Boom MA, Van Rijen PC, Aarnoutse EJ, Ramsey NF. Fully Implanted Brain-Computer Interface in a Locked-In Patient with ALS. N Engl J Med. 2016 Nov 24;375(21):2060-2066. doi: 10.1056/NEJMoa1608085. Epub 2016 Nov 12. PMID: 27959736; PMCID: PMC5326682.

[3] Pandarinath C, Nuyujukian P, Blabe CH, Sorice BL, Saab J, Willett FR, Hochberg LR, Shenoy KV, Henderson JM. High performance communication by people with paralysis using an intracortical brain-computer interface. eLife. 2017 Feb 21;6:e18554. doi: 10.7554/eLife.18554. PMID: 28220753; PMCID: PMC5319839.

[4] Brumberg JS, Pitt KM, Mantie-Kozlowski A, Burnison JD. Brain-Computer Interfaces for Augmentative and Alternative Communication: A Tutorial. Am J Speech Lang Pathol. 2018 Feb 6;27(1):1-12. doi: 10.1044/2017_AJSLP-16-0244. PMID: 29318256; PMCID: PMC5968329.

[5] Linse K, Aust E, Joos M, Hermann A. Communication Matters-Pitfalls and Promise of Hightech Communication Devices in Palliative Care of Severely Physically Disabled Patients With Amyotrophic Lateral Sclerosis. Front Neurol. 2018 Jul 27;9:603. doi: 10.3389/fneur.2018.00603. PMID: 30100896; PMCID: PMC6072854.

[6] Makin JG, Moses DA, Chang EF. Machine translation of cortical activity to text with an encoder-decoder framework. Nat Neurosci. 2020 Apr;23(4):575-582. doi: 10.1038/s41593-020-0608-8. Epub 2020 Mar 30. PMID: 32231340.

[7] Anumanchipalli GK, Chartier J, Chang EF. Speech synthesis from neural decoding of spoken sentences. Nature. 2019 Apr;568(7753):493-498. doi: 10.1038/s41586-019-1119-1. Epub 2019 Apr 24. PMID: 31019317.

[8] Moses DA, Leonard MK, Makin JG, Chang EF. Real-time decoding of question-and-answer speech dialogue using human cortical activity. Nat Commun. 2019 Jul 30;10(1):3096. doi: 10.1038/s41467-019-10994-4. PMID: 31363096; PMCID: PMC6667454.