大数据时代，为什么还需要做小样本研究？| 追问Data

追问快读：

大脑-行为关联研究中，过分追求大样本可能会遏制创新。相较之下，小规模研究在测试新的扫描范式时至关重要。

“可重复性危机”，即指实验结果难以通过独立的重复实验得到相同的结论，这一问题在心理学、医学和神经科学等多个领域普遍存在，长期困扰着学界。

在功能性磁共振成像（fMRI）研究领域，许多早期研究由于样本量小、数据处理不足或方法存在局限性，其脑功能与行为关联研究结果常常难以复现。为此，人脑功能神经影像学界呼吁：采用更大规模的样本，以建立脑功能测量与个体表型之间可重复且普遍存在的关联，从而提高fMRI在临床或其他实际应用中的有效性。

▷图1. 科学中可重复危机出现的简单示例. 图源：Roger Peng.

“全脑关联研究

样本量需数千甚至更多”

这一观点的代表性研究——圣路易斯华盛顿大学医学院的斯科特·马雷克（Scott Marek）及其同事既往发表在《自然》上的高影响力研究认为，大多数已发表的全脑关联研究（brain-wide association studies）存在样本量严重不足，难以得出有意义结论的问题。

例如，若一项25名被试参与的研究发现某个大脑变量（如某一特定功能连接强度）与某个表型变量（如智商）之间存在统计学上显著的关联，在另一相同样本规模的实验中再次出现的概率仅约为5%（即原始显著性阈值）；而在1000名参与者中，这一概率约为20%。因此，在许多情况下，若要检测出足够稳健且可重复的关联，可能需要数千甚至上万名参与者。

▷图2. 单变量全脑关联的效应大小和抽样变异性. 图源：

Marek, Scott et al. “Reproducible brain-wide association studies require thousands of individuals.” Nature vol. 603,7902 (2022): 654-660. doi:10.1038/s41586-022-04492-9

对从事基础科学或转化研究的科研人员而言，这些结果发人深省。但这种元科学（meta-scientific）审视，却是必要且被接纳的。马雷克及其同事的研究结果并不出人意料：当研究健康成年人间的个体差异时，由于效应量较小且数据噪音较大，很难明确建立大脑测量数据与表型之间的关联。

然而，呼吁所有此类研究都采用超大样本量的做法同样存在风险：我们可能会因此遏制实验范式（in-scanner paradigms）的创新，而这恰恰有可能提高大脑-表型关系的灵敏度，从而减少获得可靠且可重复结果所需的样本量。

▷图3. 实验范式示例. 图源：Howard, S J et al. “Behavioral and fMRI evidence of the differing cognitive load of domain-specific assessments.” Neuroscience vol. 297 (2015): 38-46.doi:10.1016/j.neuroscience.2015.03.047

实验范式设计的游湖

或能实现“四两拨千斤”

实验范式，或受试者在fMRI扫描过程按要求进行的认知活动，其实发挥数据最大效用的关键，虽然其所受重视程度不如样本量和统计方法。虽然我们通常认为，需要大规模的样本才能发现稳定且有意义的个体内和个体间差异，但这很可能只是因为我们采用的任务设计并不理想。

由于单个实验室难以扫描成千上万的参与者，许多最具统计效力的大脑-表型关系研究都采用现代科研合作项目的数据。这些项目投入了巨大的资源来采集足够大样本量的数据，以获得统计上的显著性。

例如，扫描了1200名健康的年轻成年人的“人类连接组计划”（Human Connectome Project）；计划在让12000名青少年在10年内接受5次扫描的“青少年脑与认知发展研究”（Adolescent Brain and Cognitive Development study）；以及规模最大的、计划扫描十万被试，并跟进纵向随访的“英国生物银行”（UK Biobank）。这些联盟所采集的数据将在未来被不同的研究团队用于探索多种科学问题，因此他们选择的扫描范式尤为重要。

不幸的是，这些大型研究通常使用的范式对大脑-行为关联的敏感性并不高。上述三项研究大多或至少部分的fMRI扫描机时都花在了所谓的“静息态”上，即被试在机器中安静躺着，任由思绪飞扬，不接受任何明确的刺激或参与任务。其余的机时则分配给一些传统的认知任务，比如考察工作记忆的n-back任务或评估情感处理的情绪面孔任务（emotional faces task）。

▷图4. 情绪识别任务的试验结构示例. Mavratzakis, Aimee et al. “Emotional facial expressions evoke faster orienting responses, but weaker emotional responses at neural and behavioural levels compared to scenes: A simultaneous EEG and facial EMG study.” NeuroImage vol. 124,Pt A (2016): 931-946. doi:10.1016/j.neuroimage.2015.09.065

静息态固然有其优点——适用于难以扫描的群体（如儿童和某些患者），易于不同站点间的标准化，纵向研究中易于操作。因此，静息态被大脑-表型关联研究广泛采用。事实上，马雷克及其同事的分析中主要使用的正是静息态数据，原因显而易见：样本量够大，足以支持其结论。

人类连接组计划启动以来的十多年间，有类似的研究提出获取的数据量固然重要，数据的类型同样关键。但不幸的是，静息态功能成像往往对个体差异的敏感性最低。

而一些研究尽管规模较小，但结果却颇具说服力——基于相同被试、预测相同表型的模型，在使用任务态fMRI数据时，表现显著优于使用静息态数据的结果。即使采用的任务与目标行为看似无关，比如在预测流体智力（fluid intelligence）时使用简单的运动任务（如敲击手指），这一效应依然存在。在某些案例中，任务态数据可以解释多达五倍于静息态数据的扫描仪外的表型差异（out-of-scanner phenotypes）。

▷图5. 任务诱导的大脑状态是个体特质预测准确性的关键决定因素. 图源：Greene, Abigail S et al. “Task-induced brain state manipulation improves prediction of individual traits.” Nature communications vol. 9,1 2807. 18 Jul. 2018, doi:10.1038/s41467-018-04920-3

要理解为什么会出现这种情况，可以用压力测试来类比：与其观察大脑在完全不受限制状态下的活动，我们更倾向于让大脑处于特定条件下，以便受关注的表型相关的功能模式（比如表征当前或预测未来健康状况的指标）易于显现出来。尽管相较于静息态，传统任务已经能更有效地充当这种“压力测试”，但越来越多的证据表明，非传统任务，包括所谓的“自然（naturalistic）任务”（如让参与者在扫描仪中看电影或听故事），产生的效果可能更佳。

小样本研究，

为大数据预留创新空间

那么，为什么目前的大规模数据集更偏向于静息态和少数几项被反复使用的认知任务呢？

原因在于，这类项目通常需要由多个首席研究员带领的大团队来完成。为了达成共识或所谓的“科学委员会决策”，常常会倾向于采用已经被验证的经典方法。这不难理解，在一个计划要应用于数百甚至数千人的实验方案中，加入一个新的实验范式是有风险的。然而，过度强调经典方法或追求不同数据集间的一致性，可能会让我们陷入僵局，阻碍创新。

如果不依赖经典范式，那么我们应该如何选择大型合作研究中的实验范式呢？有哪些合适的候选方法？明确地说，本文并不提倡将完全未经验证的范式投入耗资数百万美元的科学项目中“试水”。

但我们确实需要在研究中留出创新的空间，并非每项研究都需要成千上万的参与者。

▷图源：Mari Fouz.

可以先在小规模研究中积累证据，未来的大规模合作项目可以在那些经过验证的、对个体间和个体内相关变异敏感的范式之中做出“稳妥的选择”。实际上，来自多个实验室的证据更为强有力，因为结果“扛住”了不同实验室的数据采集、预处理和分析的微小差异而依然保持稳健，结论令人信服。

如前所述，一些证据表明，扫描时看电影和听故事，能够在减少噪声信号的同时，保留甚至增强有意义的差异。

另一种有前景的范式是“带标注的静息态（annotated rest）”，即在扫描过程中或之后的特定时间间隔，被试口头报告他们的思维过程，以促进被试内省，并增强大脑信号与当下思维模式之间的关联。

此外，交互游戏以及其他来自新兴领域计算精神病学的评估工具，将精心设计的任务下的行为模式作为认知和情感类型的读出信息，有助于揭示大脑活动与表型之间的关系，尤其是那些与心理健康相关的表型。

坦率地说，哪种范式或范式组合“最优”，仍然是一个尚未解决的问题——但这正是关键所在：如果仅仅因为样本量小就否定基于新范式的研究发现，我们将错失开发全新数据采集方法的机会，这些方法或许可能对未来大规模研究的运行方式产生颠覆性改变，进而改变我们对人脑的理解。

https://www.thetransmitter.org/future-of-fmri/to-improve-big-data-we-need-small-scale-human-imaging-studies/

文献：

[1] Botvinik-Nezer, Rotem, and Tor D. Wager. "Reproducibility in neuroimaging analysis: challenges and solutions." Biological Psychiatry: Cognitive Neuroscience and Neuroimaging 8.8 (2023): 780-788.

[2] Marek, Scott, et al. "Reproducible brain-wide association studies require thousands of individuals." Nature 603.7902 (2022): 654-660.

[3] Greene, Abigail S., et al. "Task-induced brain state manipulation improves prediction of individual traits." Nature communications 9.1 (2018): 2807.

关于追问nextquestion

天桥脑科学研究院旗下科学媒体，旨在以科学追问为纽带，深入探究人工智能与人类智能相互融合与促进，不断探索科学的边界。如果您有进一步想要讨论的内容，欢迎评论区留言，或添加小助手微信questionlab，加入社群与我们互动。

关于天桥脑科学研究院

天桥脑科学研究院（Tianqiao and Chrissy Chen Institute, TCCl）是由陈天桥、雒芊芊夫妇出资10亿美元创建的世界最大私人脑科学研究机构之一，围绕全球化、跨学科和青年科学家三大重点，支持脑科学研究，造福人类。

TCCI与华山医院、上海市精神卫生中心设立了应用神经技术前沿实验室、人工智能与精神健康前沿实验室；与加州理工学院合作成立了TCCI加州理工神经科学研究院。

TCCI建成了支持脑科学和人工智能领域研究的生态系统，项目遍布欧美、亚洲和大洋洲，包括、、、科研型临床医生奖励计划、、中文媒体追问等。

大数据时代，为什么还需要做小样本研究？| 追问Data

最新研究显示，三天少玩手机，就会改变大脑活动

科学家研发数字孪生脑平台，实现对人脑结构和功能的模拟

科学家用莲藕“重塑骨骼”，8周内实现超95%骨愈合率

破解阿尔茨海默病重大难题！中科大团队发现驱动疾病进展的新机制

寻秘剧组欧洲行-法国意大利篇

发现、质疑、再发现，为什么记忆能被存储？

突破瓶颈！Nature 通讯作者在线分享线粒体基因编辑与功能检测

Nature：冯亮团队解析人源线粒体丙酮酸转运蛋白的结构及其小分子抑制机制

《哪吒2》火上全国两会，贵安算力悄然崛起！

孩子越聪明就越“难带”？脑科学：若娃有3种表现，你就偷着乐吧

惊人实验！48只狗狗每天吸100支香烟，3年后发生了什么？

数据洪流已至，AI如何助力神经影像学研究？

大数据越来越可怕，美女对着手机说了一句话，下秒就被精准打击

新手必知：如何进行样本量计算？

一口气看完5个奇葩挑战，每一个实验既好玩又解压，挑战合集

ET-SEED：提升机器人操作泛化能力的高效等变扩散策略

中欧EMBA「合一讲堂」：大脑、意识与人工智能

每天发会儿呆，可不是在浪费时间！哈佛医学院研究：发呆、小憩和白日梦有益于大脑发育！

迪士尼“饼饼”又被游客拍头，工作人员强势“回击”

重要会议聚焦数据要素，大数据ETF（515400）盘中涨幅4.46%！