文荟谭 │ REDUCED临床试验：降低难产产妇剖宫产率的整群随机试验

导读

一个新的临床指南或专家共识出台时都不免会让人质疑“这有没有用？”。这个问题非常重要和及时。我们医护人员面临着铺天盖地的由各个国家或地区制定的各种文字的临床规范。我们到底要不要执行？

记得2008年无痛分娩中国行第一次到达中国后，就有人尖锐地提出：那些建立在西方国家医学院附属医院的规范，在不同种族、不同文化背景、不同教育程度人群，在不同教育体系、不同住院医师培训、不同医学继续教育下，在没有产科麻醉亚专业培训医护人员的情况下，椎管内无痛分娩对我们的母婴利弊如何？正是有了这些问题，我们有了总数65,000的三级不同医院的四个自然临床试验得到的数据，回答了这些问题。比如，2021年发表的河北省威县人民医院的数据【见下微信链接1】。

这类问题可以小到一个具体的临床措施，比如，自体血回收【见下微信链接2】。也可以大到一项国家的医疗政策，比如，二胎政策【见下微信链接3】。也正如我们大家可以想象的，只把这些规章制度挂在墙上或写在纸上是没有用的【见下微信链接4】。

我们选用这篇文章，通过“降低难产产妇剖宫产率”临床规范的研究，在了解这一领域临床前沿动态的同时，期待通过对与上述自然临床试验不同的整群随机试验的学习，为我们提供更多的研究方法，期待有越来越多的验证临床规范的研究。

我们也需要接受和解释临床结局没有改进的结果。原因可能是研究标本量不够大的Ⅱ型错误？是有些没有控制的混淆因素？还是新的临床细则没有太多改进意义？医护人员根本没有执行新的临床细则？抑或是这个医学领域就没有改善的空间？你对这篇文章有什么看法吗？

胡灵群

2023.4.22

点击文章题目，即可查阅全文

NPLD-GHI Journal Club 2023年4月文献评判

精选文章

Wood S, Skiffington J, Brant R, Crawford S, Hicks M, Mohammad K, Mrklas KJ, Tang S, Metcalfe A, REDUCED Trial Team. The REDUCED trial: a cluster randomized trial for REDucing the utilization of CEsarean delivery for dystocia. American Journal of Obstetrics and Gynecology. 2023 Mar 16

可直接去官方网站查阅原文

文章摘要

【标题】REDUCED试验：降低难产产妇剖宫产率的整群随机试验

研究背景：

为降低初产妇剖宫产率，美国国家儿童健康和人类发展研究所、美国妇产科医学会和母胎医学会制定了产程停滞的诊断指南。这些主要基于安全分娩联盟（the Consortium for Safe Labor）的研究数据。该指南尚未进行临床验证，其有效性和安全性不明确。

目的：

本研究旨在评估采用新的产程停滞诊断指南是否会降低剖宫率。

研究设计：

我们在 26 家加拿大医院（13 个对照组和 13 个干预组）中对指南的知识转化项目进行了整群随机对照试验。这些机构包括艾伯塔省所有可实施剖宫产术并每年至少收治70例初产妇的分娩医疗点。试验基线期从2015年1月1日开始，2017年1月开始涉入干预，随访期为2017年2月到2020年2月。主要结局为足月分娩头先露初产妇剖宫产率。次要结局包括自然阴道分娩及孕产妇和新生儿安全。主要和次要结局的数据来源于艾伯塔围产期健康计划数据库。采用适于分娩的重复测量混合效应逻辑回归模型评估剖宫产率。

结果：

分析比较干预组45193例和对照组43725例分娩数据。没有证据表明与干预相关的剖宫产率下降（基线调整后的比值比，0.94；95%置信区间 0.85-1.05；P=0.259）。同时自然阴道分娩率略有增加（基线调整后的比值比，1.10；95%置信区间1.01-1.18；P=0.024）。两组孕产妇或新生儿不良结局无差异。

结论：

应用最新的产程停滞诊断指南并未降低初产妇剖宫产率。次要结局-自然阴道分娩率在干预组中有所增加。该项干预似乎是安全的。

文献评判

1.评判标准

西北大学芬堡医学院麻醉科

医学论文质量评分表(改良版)

评定项目(每项评分0～2分，总分：20分)

1 问题和假设

2 伦理研究委员会，知情同意，公开注册

3 研究设计方法：随机方法（原始研究）或客观筛选文章（综述/荟萃分析）

4 研究对象：入选标准，排除标准，人群描写指标

5 主要临床指标，次要临床指标

6 标本量计算，统计的α值(P值)

7 统计方法的合理性

8 研究的局限性

9 讨论的逻辑性和结论的客观性

10 实际临床意义，直接临床结局相关的

2.文献质量评价及评分

19分

文章：

REDUCED试验：降低难产产妇剖宫产率的整群随机试验

评分标准(0～20分)

2分

1,评定项目：问题和假设

评分标准(0～2分)

背景：

剖宫产率持续上升一直是困扰现代产科的问题。在2012年及2014 年，尤尼斯·肯尼迪·施赖弗国立儿童健康和人类发展研究所（Eunice Kennedy Shriver National Institute of Child Health and Human Development )、母胎医学学会和美国妇产科医师学会发布了预防初产妇剖宫产的新指南(表1)。指南中提出了产程停滞或难产的新诊断标准。此前难产的定义基于弗里德曼曲线。新指南主要基于最近的研究结果，这些研究挑战了弗里德曼曲线( Friedman Curve, 即中国教科书上的旧产程图)在当代实践中的适用性。总体上，这些新数据表明，多数产妇在宫颈口扩张至6cm 之前尚未进入分娩活跃期，且在活跃期的宫口扩张速度远低于每小时1cm。此外，该指南建议仅在产程停滞时才应进行干预，缓慢但有进展的分娩应视为正常。并鼓励医护人员允许更长的第二产程。

这些拟议的修改是有争议的，一些专家指出，新指南缺乏临床试验及安全数据。加拿大尚未采用这些新指南（该国的剖宫产率与美国相似），我们认为可以通过随机试验评估指南可行性。

该试验的目的是评估与常规医疗相比，引入新指南是否可以降低初产妇足月分娩时的剖宫产率。

表1: 难产指南

2012年难产指南

2014年难产指南

1-引产失败：

催产素给药至少 24 小时，加以适时人工破膜后，仍未产生规律宫缩（例如每 3 分钟）和宫颈变化。

2-第一产程停滞：

宫颈扩张≥6cm伴胎膜破裂后，充分宫缩下宫颈无变化≥4小时，或宫缩不充分宫颈无变化≥6小时。

3-第二产程停滞：

使用硬膜外阻滞的初产妇 ≥ 4 小时或未使用硬膜外阻滞的初产妇 ≥ 3 小时无先露下降或胎儿转动。

1-第一产程停滞：

潜伏期延长（例如，初产妇>20 小时）不应该是剖宫产的指征。
第一产程分娩缓慢但有进展不应该是剖宫产的指征。

2-第二产程停滞：

尚未确定第二产程中允许的特定最大绝对时间长度，即一旦超过这一时长，所有产妇都应接受手术结束分娩。
在诊断第二产程停滞之前，如果母胎条件允许，初产妇可屏气用力至少 3 小时。只要有进展，可根据个体化情况（例如，使用硬膜外镇痛或胎儿畸形），允许更长时间也可能是合适的。

2分

2,评定项目：伦理研究委员会，知情同意，公开注册

评分标准(0～2分)

该试验得到了两个审查委员会的批准：卡尔加里大学的联合健康研究伦理委员会 (REB16-1576) 和艾伯塔大学的健康研究伦理委员会 (Pro00071471)。

该试验于 2016 年 8 月 22 日在 ClinicalTrials.gov (NCT02874443) 上进行了前瞻性注册，并发布了方案和修正案。

2分

3,评定项目：研究设计方法：随机方法(原始研究)或客观筛选文章(综述/荟萃分析)

评分标准(0～2分)

整群随机对照试验

本研究统计人员根据分娩量（<1000 和≥1000 例初产妇分娩量）分层，使用R统计软件的样本函数对观察点进行随机划分。

2分

4,评定项目：研究对象：入选标准，排除标准，人群描写指标评分标准(0～2分)

主要和次要观察指标的数据来源于艾伯塔围产期健康计划数据库。该数据库包含自 1992 年以来加拿大艾伯塔省所有 122 家医院超过 130 万例新生儿的人口统计、分娩和妊娠结果数据。中度至重度缺氧缺血性脑病或治疗性低温的次要观察指标数据来自2个数据库，记录了自2010年以来艾伯塔省的所有病例。其他管理数据集也用于为次要观察指标提供信息。

入选标准：

足月单胎初产妇，头先露，自然临产或引产，自然阴道分娩或阴道助产或中转剖宫产产妇。

纳入试验医院：

对照组（无干预）13家医院，基线期间（2015年1月至 2016年12月）符合条件的出生人数17,261，随访期间（2017年2月至2020年2月）符合条件的出生人数22,538。

干预组13家医院，基线期间（2015年1月至2017年）符合条件的出生人数23,036，随访期间（2017年2月至2020年2月）符合条件的出生人数22,157。

研究护士对干预组中因难产指征而实施的所有剖宫产进行了病历审查，以评估对指南的依从性。总体而言，只有31%合规，不同医院的依从性从13%到50%不等。

2分

5,评定项目：主要临床指标，次要临床指标

评分标准(0～2分)

主要观察指标:

足月（妊娠 37 周或以上）单胎头先露初产妇剖宫产。

次要观察指标：

包括自然阴道分娩及孕产妇和新生儿安全。产妇的次要指标包括：自然阴道分娩、手术阴道分娩、产后出血、输血、子宫动脉栓塞、入住重症监护室和产后子宫切除术。新生儿的次要指标包括：围产期死亡（产时死产或新生儿死亡率）、新生儿窒息、新生儿重症监护病房入院、中重度新生儿缺氧缺血性脑病和/或需要低温治疗以及败血症。

2分

6,评定项目：标本量计算，统计的α值(P值)

评分标准(0～2分)

为计算所需的出生人数，假设我们的干预措施会使剖宫产率从 25% 降低到 18.75%（相对风险降低 25%）。保守假设集群间系数 (ICC) 为 0.01，将相等数量的医院随机分为对照和干预两组，得出入组的每所医院至少需要111 例初产妇。

2分

7,评定项目：统计方法合理性

评分标准(0～2分)

主要分析数据包括所有医院基线期（2015-2017）和随访期（2017-2020）数据。随访期的开始日期各干预点不同，分别为计划实施后短暂洗脱期的结束日期。本次研究全部采用意向性治疗分析。采用适于分娩的重复测量混合效应逻辑回归模型评估剖宫产率。

使用约束基线法（constrained baseline approach）调整干预前数据。即用 3 个0或1的指标变量，用时间及其治疗效果建模。记录那些在干预前基线期和干预后随访期带有随机性的，以那个只在干预组的随访期看到的“1”指标变量代表干预有效。该模型包括的是第三个变量时间段指标（以 6个月为间隔）。

根据方案（第2版，2018年9月8日）规定，将对所有站点干预措施先后启动后的2年间，即2017年12月1日至2019年11月30日期间的数据进行主要分析（第1阶段）。随后还计划对截至 2021年11月30日（第2阶段）的数据进行为期4年的分析，以确定在完成原始干预后，第1阶段结束时观察到的任何变化是否可持续。

数据分析由统计学家独立进行。

2分

8,评定项目：研究局限性(原文自评)

评分标准(0～2分)

我们的研究有许多局限性。样本量计算是基于预估剖宫产率降低8%，而我们的研究只观察到降低2% 。对指南的遵守有限可能会解释这一结果。但根据我们可衡量的变量（例如第二产程的持续时间）表明，采用程度有意义。

2分

9,评定项目：讨论的逻辑性和结论的客观性

评分标准(0～2分)

我们的试验未发现应用新的指南可显著降低足月单胎妊娠难产初产妇的剖宫产率。然而，我们的确观察到自然阴道分娩率有小幅度增加，这可能有一定意义。

鉴于很少有经过验证的干预措施可提高自然阴道分娩率，因此，至少表明新指南的应用值得进一步研究。

此外，该试验实施机构的盆腔中段产钳分娩率本身比剖宫产率高，因此，如果干预措施是在很少这样做的医疗机构中进行测试的，则剖宫产率可能会大幅降低。

重要的是，我们还观察到采用新指南后，孕产妇或新生儿不良结局无差异。尽管在采用干预措施点的第二产程时间明显增加，但新生儿不良结局（例如产时死产、窒息或中重度缺氧缺血性脑病）无变化。

我们的结果与先前报道大体一致，虽然大多数评估新指南效果的研究都是观察性的，且结果各异，其中3 项报告剖宫产率下降，1 项未发现变化。

Main 等人针对加州产妇质量医护协作组织的“支持阴道分娩倡议”报告了迄今为止关于这些指南最全面的观察性研究。将相同指南应用于加利福尼亚州剖宫产率最高的 56 家医院，结果显示头先露初产妇剖宫产率从 29.1% 大幅下降到24.6%，且孕产妇或新生儿不良结局的发生率没有增加。

除了研究设计之外，与我们的结果存在差异的一个原因可能是，在Main 等人研究中，干预措施还包括增加护理支持和医生支付费用改革。前者已在临床试验中清楚地表明可以减少剖宫产。

只有 1 项临床试验对新难产指南中非常有限的方面进行了评估。Bernitz 等人报告了一项整群随机对照试验，将安全分娩联盟推出的张式产程图与世界卫生组织标准产程图进行比较。结果显示剖宫产率没有变化，对照组为 5.9% (196/3305)，干预组为 6.8% (271/3972)。

总的来说，我们认为本项研究为解决如何降低剖宫产率这一长期难题提供了重要信息。尽管我们的试验结果未分出利弊，但低估这些指南的潜力是不公平的。而且各个入组医院在首次尝试采用这些指南时就达到很高的依从性是极不可能的。

通常在会议上，我们发现人们对这种新的分娩管理方法的安全性不确定时会感到犹豫不决。我们的结果，结合Main 等人的研究，应该为临床医生提供关于这种干预安全性的实质性保证。进一步努力应用这些指南仍有可能显著降低初次剖宫产率。

1分

10,评定项目：实际临床意义，直接临床结局相关的评分标准(0～2分)

这是一项实用试验，对干预组的临床医生进行相关指南的教育，医生们根据临床判断选择是否遵循新指南。对指南的遵循度低（31%），可能是导致本试验结果无差异的原因。然而，在剖宫产率减少和自然阴道分娩率增加的研究地点，对新指南依从性较高。

此外，我们的数据表明，尽管在干预措施实施点因难产而进行的剖宫产有所下降，但这部分被因胎儿窘迫而进行剖宫产的增加所抵消。可能是由于缺乏诊断胎儿窘迫的准确方法，导致新指南的有效性有所降低。总体而言，我们的指南依从性数据与德克萨斯州一个单中心回顾性队列研究相似，该研究发现依从率仅为 27%。

我们与 Main 等人的研究一致认为应该让临床医生放心使用这种干预措施。

3.研究专业评判

点评项目

临床研究点评

点评人：吴颖怡

统计学点评

点评人：Anna Huang

1.研究问题是否具有临床意义？

降低剖宫产率和减少并发症之间总是存在很微妙的平衡。很多产科临床工作者一方面想降低剖宫产率，但却因为对延迟剖宫产产生的母胎不良后果的顾虑，提早选剖宫产结束分娩。

新的产程管理的目的旨在进一步降低剖宫产率，但实际实践过程到底是否可行，是否可以得到多数产科临床工作者的信赖和运用，目前尚存在各种疑虑。

这篇大型的随机对照试验提供了一个非常有参考价值的答案。

这是一个临床研究问题。新的临床细则是否付诸实施通常需要权衡患者安全，医院和患者医疗成本效益风险。这项拟定的临床细则有潜在降低医院和患者成本，及不必要剖宫产并发症的风险。

2.研究内容的先进性、可行性？

这是新产程管理推行后第一个大型的研究。加拿大的医疗具有很强的同质性，数据有非常显著的参考意义。相信这个研究很快会在产科领域引起一波回应。

基于先前的发现，这项研究在临床领域具有可信度和相关应用。它的先进之处在于，这种做法不但可行而且有益，但也涉及很多风险。

3.试验设计的严谨性？

这是一个教科书式的知识-态度-行为（KAB， Knowledge-Attitude-Behavior) + 行为干预 (behavior intervention）的大型随机对照试验。运用了各种手段控制变量，还有专门团队做质控。哪怕从流行病学的角度，都是一篇非常高水平的临床研究。

本研究的实验设计因样本量大、医院数量多而得到加强。测量时间差异的设计的准实验性质也是一种优势，但由于对指南的依从性较低，因此应谨慎解释结果。

4.研究方法的合理性？

个人认为本文使用的方法是目前可以研究这个题目的最可行干预方案。无论从宣教的团队组成，目标对象的全面性，完整性，宣教的时间设定（包括洗脱期、实践期、再教育计划以及对宣教对象的跟踪等等）都非常详尽仔细。

特别值得一提的是，本研究使用了意向性治疗 (intention to treat) 原则，极大地体现了文中的实践性，完全站在观察者中立的角度阐述问题可行性。

研究人员应该根据以前的文献预见到协议的依从性不高，并在选择队列时主动考虑到这一点。治疗意向分析是标准的，但鉴于治疗的利用率低，结果存在偏差。

5.研究过程的质量控制？

质控也设计得非常到位，包括宣教的质控，前期研究和洗脱期的设定，以及后期对于新冠出现的特殊时期的快速调整，都显现了质控的高级。

数据的来源和数量是通过适当的一般性质量控制收集的。该队列研究设计也考虑了支持时间指标，但它没有考虑由于随机效应而导致的大的政策变化。

6.研究结果的可信度？

结果虽然于本试验设计前预期结果不一致，但正因为这点更体现研究的可信性。正如作者所说，他们也并没有预期有这样的结果，甚至结果有可能造成对新产程管理理念的进一步备受质疑，但因为其他次要结局(secondary outcome) 的支持，让读者更有兴趣了解更多文中提供的对未来研究方向的可能性。

调查结果并不像他们想象那样的，但与这一话题以前文献的结果类似。局限性在于研究中治疗组及其许多其他变量未列入考虑（例如产钳的使用和增强医疗/医师报酬系统的改革）。

7.证据水平及原因？

本来随机对照试验已然是目前最高级别的试验设计。对于知识-态度-行为 (KAB) 和行为干预的研究使用于临床指引，更是有洞察力和执行力。

这项研究的证据水平不高，关于使用这项临床细则的进一步研究可能不会对患者安全造成更大风险，但与现有临床实践相比并无益处。

8.临床是否采用？(与目前方案比较)

估计产科临床会对本文有很大的反响。盲猜会有明显的两派，一派因本文结果而摒弃使用新产程管理方案，一派通过本文建立的体系，针对其局限性展开进一步的推进和研究。无论哪方，都会使用本文的发现支持自己的观点。预计本文会在近期有很大的引用率。

鉴于作者所述的局限性，应谨慎解释本研究的结论。在推进这种做法之前，应该对治疗组进行更严格控制的进一步研究。

4.临床专科点评荟萃

美国大学医院产科医生：

吴颖怡(美国盖辛格(Geisinger)医疗中心妇产科)

这是一篇非常有趣的文章。作为一个产科医生加流行病学者，我收到文章第一眼看到题目就马上被吸引。要知道，跟其他内科甚至肿瘤科不同，天天在引用各种临床试验(trial)说话。在产科，被称谓“临床试验”寥寥无几，每次大型的产科临床试验都会引起非常大的反响。这是一个大型的设计严谨的知识-态度-行为（KAB，Knowledge-Attitude-Behavior) + 行为干预 (behavior intervention) 临床研究，而且关注在产科最热的话题“降低剖宫产率”上，无论结论是褒是贬，无疑对整个产科都会造成很大的回响。

虽然看到标题非常兴奋，但我在以前的文荟谭（Journal club）就讲过，看文章最重要的就是要看设计，如果没有合理的设计，再华丽的外表都是败絮，哪怕就随机对照试验，只要实验设计不合理，花十秒钟看结论都是浪费。然而我们仔细品文章，不难看出，实验设计非常精细，各个细节都体现出设计者的用心：

整套干预手段的完整性、时效性、持续性以及管理的全面性都是非常到位的。可以想象完成这篇文章所需的行政付出估计很大。虽然暂时还没有时间，但我很好奇看他们第一步的实验预算。好的文章真的需要实打实的付出的！
“试验监督 (Trial oversight)”也是一个亮点，整个试验指导委员会的监控，确实让整个实验设计非常有说服力。也正是因为有这个，才可以在新冠发生的时候，非常及时地叫停实验，让临床减负。虽然这个决定可能对本文是有巨大的影响，但在病人利益面前，其他都是浮云。
“意向性治疗 (Intention-to-treat)”原则：极大程度地保留了理论和实践的现实差异，承认了纯理论的不足以及不可预见性，尊重了临床工作的特殊性。
因为医院规模的不同，根据分娩量引入“R软件的样本函数 (Sample function in R)”对统计作调整，非常有说服力。
具体的干预从预备试验，到分批多次宣教，到“洗脱期 (washout period)”的使用，再到后期每4-6月的加强宣教，哪怕作为一个非常忙的临床医生，都一定可以从中受到影响。（顺带提一点小小的不足，文中并没有探讨临床医疗工作者人事变动率(turn over rate）的问题，如果某些医院人员变动特别多，有可能影响宣教结果。这一点文章并没有原始数据分析。）
非常具体的定义，例如对于“新生儿缺氧”这些模糊的概念，文中都给予非常明确的客观指标，让分析更清晰。
专门的数据验证 (data validation）也让数据更有说服力。
最为可靠的数据来源，直接运用统计局数据，并使用客观指标，基本不出现数据丢失。

我们常常在问，是什么一股无形的力量，把剖宫产率限制在了一个瓶颈，一直无法突破，到底是我们没找到正确的突破口？还是执行力不够？还是真的就是像“重力加速度”一样，就是一个无法突破的常数，就是一个自然规律？我们看看本文有没有给到我们一些思考。

让我们再发散细品一下，从理论上有什么东西可能影响结论，文章是否有足够的考虑。文章的结论是：是否使用新的指南对剖宫产率没有统计学差异。所以，是什么影响到这样的结果，这些因素有可能改变并足以影响结果吗？

文章以“符合条件的分娩 (eligible delivery)”作为分母，但并没有清楚说明什么是符合的条件：初产分娩？还是所有分娩？排除不排除择期手术？如果排除，很多择期手术也是可以试产的，这些会怎么影响最后的评估。文中都没有具体分析。我想从他们最先提交的研究提案有可能找到一些答案。但目前文章并没有详细叙述。有兴趣的读者可搜寻一下原提案逐字细抠。因为这分母的具体定义，也同时意味着百分率估算的差异，以及最重要的是可能会影响到样本量的计算。
是因为依从率太低吗？这可以从政策上改变吗？本文已经运用非常有效的资源去教育、督促以及跟进，因为面对的群体是专业人士，而且目前没有完整的循证依据说明有效性，根本没有足够的说服力去运用更多的资源做这样的事情。哪怕没有降低剖宫产率的循证依据，有成本效益 (cost-effectiveness) 有效性的支持也可能予以审批增加资源去推行政策，可惜目前什么具体的证据支持都没有。况且，专业的医务人员首先就会质疑，真的有效吗？为什么我要冒着母胎和手术风险去改变我已经非常熟悉而有信心的管理体系？真的，第一个问题连这个这么大的临床试验都得到否定的答案。幸运的是，次要结局 (secondary outcome）给了我们信心，虽然没有降低剖宫产率，但至少是没有增加不良结果的。于是，引出第三个问题：
是不是已经达到了最高效果了？在没有一级强证据的情况下推行一个新的临床管理方案，本身就是一个值得商榷的命题，在意向性治疗(intention-to-treat）的前提下，本身就有极限性和达到极限效果的可能，但这也是自然规律，并不能责怪任何的临床工作者没有遵从新指南，因为指南本身就没有很高级别的循证结论。在这个平衡降低剖宫产率和母胎安全的天枰上，迟早会到达一个平衡点的，这个平衡点是20%？15%？我想没有人觉得会是10%或者更低吧。那到底是多少？在目前的医疗水平上，最低的点可以达到多少？怎样的医疗机构和支持可以达到这样的低点仍然不会影响母胎风险？这都是很值得推敲的问题。文中也没有数据可以进行更深入的探讨。
非常有趣的是，这个临床试验因为新冠在2020年紧急叫停。这个难免让人产生疑问，如果继续按计划进行到2023年，是不是结果就会有变化？目前我们确实看到某些医院有降低，但没有统计学差异。然而我们在上述讨论里面已经提到，如果作为分母的“符合条件的分娩”改变，或者会影响到样本量计算的结果，这很有可能让差异没有显示统计学意义。我也希望文中有这样的深入讨论，为后续研究指明方向。
跳出上述可能因为样本量的差异所致的统计学无差异结论，如果两两比较下没有差异，只有三种原因：干预组太弱，对比组太强，或者两者并存。那放在本文的命题上是怎样的情况？是上述提出的“我们目前已经做得足够接近最好了”（对比组太强），还是“新的产程管理本质上哪怕100%实践也无法在没有影响母胎不良结局的情况下显著性降低剖宫产率”（干预组太弱）。如何在实验设计里有效地回答这个问题，估计目前还是没有最佳结论。
文中计算样本量的时候，使用的是8%的剖宫产降低率，然而，经过上述各种讨论，我们是否在想，是不是这个8%有什么需要改变的空间？

无论如何，我对文章还是给予非常高的评价的。这是我看过产科可以做的最优的对临床工作者干预的随机对照实验了。这样的实验对行政执行力的要求太强了。试想要控制并改变临床医生的行医习惯，而且在这种没有一级证据的情况下要说服医生群体改变治疗方案，这可想而知有多大的阻力。虽然文中结论并没有如他们预期的可以降低剖宫产率，看似非常打脸的结果，但只要仔细看实验细节，不难看出其实还是有很多值得深入分析的地方的。首先由次要结局得到的正面影响，就已经值得我们思考：虽然没得到什么我们想要的好处，但也没有失去啊，至少增加了顺产分娩率。（也间接说明了减少了手术助产率）。

在各方都在给产科施压，甚至产科医生自己也在不断给自己施压的情况下，我只想轻轻为一线的产科医生讲一句，如果他们真的对自然分娩没有信心，确定剖宫产会更能控制母胎不良结局的话，谁敢说这就一定是错的。我们尽力在探讨“最低”，但如果历险的代价是牺牲母胎健康的话，谁帮这些一线产科工作者背负一辈子的自责？到底这个天枰是公称，还是应该具体到每一个级别的机构、医生？毕竟全球剖宫产率从7%上升到21%的这20年，孕产妇死亡率降低了34%。在此我完全没有要增加剖宫产率的意思，我个人非常支持试产，但如果剖宫产率已经低于30%，这就应该是一个平衡问题，不是一味强调降低的问题了。这是我个人愚见，恳请各位指正。

最后讲个轻松点的，调侃一下，我们麻醉的同事看到这里肯定要咬牙切齿了。在“指南依从性（Compliance with the guideline）”部分提到，“在没有硬膜外阻滞的产妇中，第二产程超过3小时的在干预组明显升高”。我看到当时差点没把自己呛到。哈哈。

美国社区医院产科医生：

周樱(美国加利福尼亚旧金山湾区米尔斯-半岛医疗中心妇产科)

降低剖宫产率，已经在美国推进了多年，有个临床规范是很有指导意义的。在应用新指南时，有明确统一的标准，就会使患者无论在哪家医院都会享受相对统一的医疗措施。这个指南或临床规范，有三个部分组成。第一部分是引产失败。引产失败指加用缩宫素后，出现有规律的宫缩，每三分钟一次，持续24个小时后还没有进展的。这和我们平时临床做的基本一样。一般来讲，只有在使用宫颈软化药物，等宫颈成熟以后才会使用缩宫素。以前引产失败没有什么明确的定义，有的医生只要引产24小时没有进展就当引产失败而转成剖宫产。也有医生，引产一周无效才算引产失败。这个过程中，宫颈成熟需要多长时间，缩宫素需要多长时间，多高的缩宫素剂量，每个医生都不一样。这项指南，对宫颈成熟部分还是没有明确定义，但开始用缩宫素后，没有定义缩宫素的剂量，而是以能达到三分钟一次宫缩的结果为定义。24小时还没有进展，就为引产失败。这和我们临床实践上非常相符合。第二部分是活跃期停滞，在新规范中的时间加长了，以前用活跃期2小时，有规律的宫缩没有进展后，再观察2小时，最长时段不超过4小时，如果宫颈宫口还没有变化，就为活跃期停滞。现在的新指南，延长到4～6小时。这对需要产程长一点的枕后位，能够有足够的时间，给胎头转位留有充分的机会。胎位变正以后，顺产的可能性增加。这个新规范上还写了，产程中需要操作，调整胎儿体位。第二产程的时长多了1小时，从原来的2小时和3小时，变成了现在的3小时和4小时。我们现在医院可以用力的时间没有明确规定，只要胎心率正常的，还可以再多用一些时间。还可以休息一下后，再接着用力。好像每个人操作上有一点点不同。因为这是个产科的指南，所以更倾向于从如何能降低剖宫产率的角度。但从盆腔修复科的角度上看，则希望避免过长的第二产程。所以，就每个具体的病例，给予灵活的应用空间是合理的。总的来说，我觉得有个明确统一的规范为依据，并能够允许医生在某些特殊情况下的灵活应用，这样的指导性规范，对母婴安全是十分重要的。

美国大学医院麻醉科医生：

赵培山(美国塔夫茨大学医学中心麻醉科)

临床指南是否能够改善临床结局？Wood等人的研究是为了验证最近发表的，对难产（dystocia）或产程停滞（non-progress labor）诊断定义改变后的临床指南是否能有效降低初产妇的剖宫产率，结果是否定的[1]。这并不奇怪，因为，临床结局受很多因素的影响[2]。大部分美国麻醉医师协会（ASA）的临床指南也都以免责声明开头：“不是想把临床指南作为标准或绝对要求，其使用不能保证任何特定临床结果”（are not intended as standards or absolute requirements, and their use cannot guarantee any specific outcome. ）[3]。

临床指南大多收集、分析了现有的研究证据，用以帮助医生在临床诊疗中做出正确的决定。所以，临床指南在临床实践中的意义是不言而喻的。然而，现有最高级别的证据，随机分组对照试验（randomized-controlled trial, RCT）有其不可避免的缺陷。这些RCTs更多考虑的是“内部有效性”（internal validity），即“某种干预是否有效”，而不是“外部有效性”（external validity），即“研究结果是否可以推广，以及在哪些人群和条件下推广”。RCTs通常在资源充足的地方和特定人群中进行，这使得其它条件不同的、非科研环境单位难以效仿实施其做法。此外，RCTs将患者随机分组，并给与固定的（试验组和对照组）两个临床干预之一的试验设计，可能不符合临床实际工作中医生会根据患者疾病的性质、严重性和变化而不断调整治疗方案的做法，也就是打破了常规的疾病严重程度和治疗水平之间的关系，即：治疗错位（practice misalignments）[4]。例如，在经典的输血研究中，限制性输血对治疗组病情较轻者是正常治疗，对病情重者则可能是治疗不足；传统输血对照组对病情较重者可能是合理治疗，对病情较轻者则是过度治疗。这种“治疗错位”在整体分析中显示不出来，其研究结论是：“在危重患者，限制性输血至少与传统输血策略一样有效，甚至可能优于传统输血策略”[5]。然而，把同样人群的资料细分后处理，在病情较重（有缺血性心肌病）的人群，结论与整体人群得出的结论相反，“限制性输血增加危重患者的死亡率”[4]。所以，临床指南的接受和实施应该考虑那些与最初RCTs研究场所不同的人群和环境（in real-world settings）。这是一个很大的挑战，也是近来发展很快的实施科学（implementation science）的任务[5]。

临床结局受病人自身的社会经济条件、病情轻重、医护人员的业务水平、对工作的满意度和实施一项医疗干预的动力、医院的人力物力、利益分配和国家的医疗体制等多因素影响[2]。所以，要改善医疗质量，获得良好的临床结局不是一个是否遵循临床指南的简单问题，而是一个多方面、多层次协同努力的过程。

美国私立医院麻醉科医生：

张运宏(美国Mercy Hospital South - 慈爱医院南院麻醉科)

在临床上我们经常看到剖宫产指征掌握得比较松，剖宫产比例过高，采取有效措施降低剖宫产率也是势在必行。本研究旨在观察临床人员，医生护士在学习熟悉最新的难产指南后能否有效的利用到临床中去，并有效到降低剖宫产。

研究发现虽然采用新指南后剖宫产率并没有统计学意义的下降，但看到剖宫产率下降的趋势，并且观察到阴道分娩率上升。这些现象提示新指南是有效的，长期大样本的观察可能会发现统计学意义的差别。

医生的依从性，执行该指南的严格程度对该研究的结果有很大的影响。在产科我们都知道PIH（pregnancy induced hypertension，妊高症）。我也听到调侃剖宫产率居高不下的原因是 PIH，这个PIH指的是 physcian in hurry（急切的医生）。医学的长期发展取决于科学，但是短期内人文的影响也是巨大的。

要有效地降低剖宫产率，除了严格地执行指南，还要社会因素，文化背景，及人文素养。

知识小视角

群体随机试验（Cluster Randomized Trial）

卓娜

整群随机试验的定义：

整群随机试验是指随机化的单位为具有可识别的共同特征的群体而不是单一个体的试验。这些群体可以是学校、诊所、工作场所、社区或其他单位等[7]。

整群随机试验的历史：

据文献记载，整群随机试验可能始于 1940 年 Lindquist 作者“教育研究中的统计分析”一书[8, 9]。书中大部分内容也适用于临床和公共卫生干预[10]。1960年之前的整群随机试验大多用于传染病预防或治疗方面。到 1970 年左右，整群随机试验依然被广泛用于此领域，特别是在低收入国家。整群随机试验也被认为适合评估那些旨在改变健康行为的公共卫生干预措施，例如改善牙科护理，提倡洗手和参加免疫接种等。整群随机试验已被公认为在评估许多不同类型的卫生系统干预方面具有价值，包括医疗措施实施，临床管理改善，性价比验证，和医疗策略对比等。Vogt [11]等在1983年用于比较增加医生报告法定疾病的试验方法中呈现了一组重要的整群随机试验。其整群是由同一名临床医生治疗的患者组成。临床医生被随机分配，干预针对的是临床医生而不是患者。以临床医生为目标的干预措施，旨在影响临床医生的实践和患者的治疗效果，这些试验通常被称为“专业整群随机试验”。例如，帮助医生改善患者血压控制的教育计划，本文中的新指南等。到 21世纪初期，随着 CONSORT 关于整群随机试验报告指南的扩展声明和随后几篇大规模、实施良好的整群随机试验的文章发表，自此被视为是整群随机对照试验时代的到来[12]。

整群随机试验适用条件：

整群随机试验非常适合并常用于评估公共卫生系统干预措施。当干预措施难以在个体层面上实施，整群随机试验是测试干预措施的理想选择。例如，就抑郁症的检测和治疗对医生进行宣教，因为医生通常在某一组织中工作，如果不对该“群体”医务人员进行宣教，很难单独对一位医生进行新方案传达[13]。

整群随机试验的特点：

整群随机试验的特点是随机化针对群体，因此需要大量的群成员才能为试验提供足够的证据支持。随机分组数量少通常不太可能很好的控制潜在的偏倚，这也是整群随机试验的主要缺点[7]。

群体随机试验的优劣势：

在考虑整群随机化设计时，需要权衡这些优势和局限性。

在某些情况下，整群随机试验可以优于其他随机设计。当随机分配到不同比较组的个体彼此经常接触并因此可能存在组间沾染时，整群随机试验将是比较理想的方案。这也是研究者采用这种方法的最常见原因之一。其次，在一些情况下，将干预措施提供给整个群体而不是个人层面时会更容易被接受。例如，新的治疗指南。或者一些干预措施的本质是适用于整个社区而不是个人，如教育计划或改善村庄的供水。最后，整群随机试验可以捕获干预措施的直接和间接影响，从而衡量在整个人群中实施干预措施的总体效果。这在应用于传染性疾病时非常受用。那些接受干预的人群同时受益于干预措施对感染易感性的直接影响和导致感染暴露减少的间接效应[14]。

整群随机试验的缺点包括功效和精确度低于个体随机试验，其设计更复杂,需要纳入更多个体以获得相同的统计功效。另外，整群随机试验可能导致准备和宣传工作的重复，对研究成本造成负面影响。整群随机试验通常不是为了显示个体水平的有效性作为主要目标而设计的，因此，对非许可产品使用整群随机设计不常见。尽管如此，在某些情况下，可以通过比较已知接受过干预的人与已知未接受过干预的人的结果来估计干预的个体有效性[15]。

群体随机试验与个体随机试验比较：

整群随机试验和个体随机试验的最大区别是分配单位，前者针对群体，后者则为个体。其余区别见下表[16]。

因素

个体随机试验

整群随机试验

设计

以个体对象为基础，研究对象、干预措施、随机化方案等都基于个体

以“群”为基础，研究对象、干预措施、随机化方案等都基于“群”

样本量

考虑效应、Ⅰ类错误、Ⅱ类错误

还需考虑群数量、群大小、群内相关系数，样本量相对较大

统计分析及结果报告

无需考虑群集性，分析方法较为简单

考虑群间变异，分析方法复杂；比较个体和整群水平的基线资料；给出结局的群内相关系数，统计方法为广义估计方程、多水平模型等；CONSORT工作组专门制定了整群随机试验的CONSORT指南

参考资料

Wood S, et al.. The REDUCED trial: a cluster randomized trial for REDucing the utilization of CEsarean delivery for dystocia. Am J Obstet Gynecol 2022; e1-e9.

[2]

Mosadeghrad AM. Factors Affecting Medical Service Quality. Iran J Public Health. 2014 Feb;43(2):210-20.

[3]

Practice Guidelines for Obstetric Anesthesia. Anesthesiology. 2016 Feb;124(2):270-300.

Deans KJ, et al. Randomization in clinical trials of titrated therapies: Unintended consequences of using fixed treatment protocols. Crit Care Med 2007; 35:1509–1516.

[5]

Hebert PC, Wells G, Blajchman MA, et al: A multicenter, randomized, controlled clinical trial of transfusion requirements in critical care. Transfusion Requirements in Critical Care Investigators, Canadian Critical Care Trials Group. N Engl J Med 1999; 340: 409 – 417.

[6]

Shelton RC, Cooper BR, Stirman SW. The Sustainability of Evidence-Based Interventions and Practices in Public Health and Health Care. Annual review of public health. 2018;39:55–76.

[7]

John I. Gallin, Frederick P. Ognibene, Principles and Practice of Clinical Research (Third Edition):Academic Press,2012.

[8]

Lindquist EF. Statistical Analysis in Educational Research, Boston: Houghton Mifflin, 1940.

[9]

Klar N and Donner A. The impact of EF Lindquist’s 1940 text “Statistical Analysis in Educational Research” on cluster randomization. JLL Bulletin: Commentaries on the history of treatment evaluation, 2004.

[10]

Moberg J, Kramer M. A brief history of the cluster randomised trial design. J R Soc Med. 2015 May;108(5):192-8.

[11]

Vogt RL, Larue D, Klaucke DN, Jillson DA. Comparison of an active and passive surveillance system of primary care providers for hepatitis, rubella, and salmonellosis in Vermont. Am J Public Health 1983; 73: 795–797.

[12]

Campbell MK, Elbourne DR, Altman DG, CONSORT group CONSORT statement: extension to cluster randomised trials. BMJ 2004; 328: 702–708.

[13]

Eve C. Johnstone, David Cunningham Owens, Stephen M. Lawrie, Andrew M. McIntosh, Michael Sharpe, Companion to Psychiatric Studies (Eighth Edition),Churchill Livingstone,2010.

[14]

Hayes R, Moulton L. Cluster randomised trials. Chapman and Hall/CRC Press, Boca Raton , FL , 2009.

[15]

WHO Guidance on Research Methods for Health Emergency and Disaster Risk Management. Switzerland: World Health Organization.2021.

[16]

朱之恺,谷鸿秋,姜勇.整群随机试验[J].中国卒中杂志,2022,17(12):1403-1409.

小编强烈推荐：一个非常好用的中国行微信专属搜索神器！

中文引用｜卓娜，刘宇燕，吴颖怡，Anna Huang, 周樱，赵培山，张运宏，黄琴，胡灵群. 文献评判 │ REDUCED临床试验：降低难产产妇剖宫产率的整群随机试验[J]. J NPLD-GHI. 2023 Apr 26;13(4):26.

英文引用｜ Zhuo N，Liu YY, Wu YY, Anna Huang, Zhou Y, Zhao PS, Zhang YH, Huang Q, Hu LQ. Journal Club: The REDUCED trial: a cluster randomized trial for Reducing the utilization of Cesareans delivery for dystocia[J]. J NPLD-GHI. 2023 Apr 26;13(4):26.

欢迎投稿：16762530@qq.com

小编微信：y16262530

特别感谢："无痛分娩中国行"战略合作伙伴

Journal of No Pain Labor & Delivery

- Global Health Initiative

（ISSN: 2475-711X）

无痛分娩中国行杂志

翻译：

卓娜(内蒙古自治区锡林郭勒盟中心医院麻醉科)

编校/撰稿：

刘宇燕(美国新泽西医疗中心麻醉科)

导读撰写：

胡灵群(美国俄亥俄州立大学韦克斯纳医疗中心麻醉科)

临床研究审稿：

吴颖怡(美国盖辛格(Geisinger)医疗中心妇产科)

统计学审稿：

Anna Huang(美国心脏协会公卫健康)

临床专科审稿：

吴颖怡，周樱，赵培山，张运宏

知识点回顾审稿：

卓娜(内蒙古自治区锡林郭勒盟中心医院麻醉科)

黄琴(华中科技大学同济医学院附属协和医院康复科)

刘宇燕(美国新泽西医疗中心麻醉科)

主审：胡灵群

执行编辑：杨书伟(安谱佳®全球医疗)

文荟谭 │ REDUCED临床试验：降低难产产妇剖宫产率的整群随机试验

美方无理指责中方向俄提供军事装备中国代表当场回击

上海、北京56家出版社宣布：集体抵制！网友看呆，业内愤慨：太侮辱人了

谁见过连一个诺贝尔奖得主都没培养出的世界一流大学？

某地民政局连续三年520实拍图对比：从大排长龙到空无一人

某重点中学男学生发言火了！讲话语气+神态，太像厅级干部讲话了

美媒拆解比亚迪后破防：如此便宜且精良的车，对美国来说是噩梦

网传四川某镇项目改造，给每块高标准田都安装水表

上海环球金融中心71层拍卖流拍，因无人出价

杭州一老小区“原拆原建”成功！以楼幢为单位，每户出钱

再打“虎”，三天前缺席重要会议

南阳开会纪念诸葛亮仙逝1790年被指巧立名目！主办方回应

送别总统莱希！伊朗政局将向何方？

海南省人大常委会党组副书记、副主任刘星泰接受审查调查

媒体：被美军拒收的F-35隐形战斗机已经快没地儿放了

2024年端午节放假不调休

住建部：做好公积金房贷利率下调工作

NBA本季最佳防守一阵：阿德巴约、浓眉、戈贝尔、琼斯、文班

都市车界|上汽集团与奥迪将联合开发专注于中国市场的全新平台

众生相！步行者罚球10-30全队黑脸直接离场詹皇质疑名帅犯大错

实探暂停直播后的菏泽南站：现场几乎恢复平静

文荟谭 │ REDUCED临床试验：降低难产产妇剖宫产率的整群随机试验

美方无理指责中方向俄提供军事装备 中国代表当场回击

上海、北京56家出版社宣布：集体抵制！网友看呆，业内愤慨：太侮辱人了

谁见过连一个诺贝尔奖得主都没培养出的世界一流大学？

某地民政局连续三年520实拍图对比：从大排长龙到空无一人

某重点中学男学生发言火了！讲话语气+神态，太像厅级干部讲话了

美媒拆解比亚迪后破防：如此便宜且精良的车，对美国来说是噩梦

网传四川某镇项目改造，给每块高标准田都安装水表

上海环球金融中心71层拍卖流拍，因无人出价

杭州一老小区“原拆原建”成功！以楼幢为单位，每户出钱

再打“虎”，三天前缺席重要会议

南阳开会纪念诸葛亮仙逝1790年被指巧立名目！主办方回应

送别总统莱希！伊朗政局将向何方？

海南省人大常委会党组副书记、副主任刘星泰接受审查调查

媒体：被美军拒收的F-35隐形战斗机 已经快没地儿放了

2024年端午节放假不调休

住建部：做好公积金房贷利率下调工作

NBA本季最佳防守一阵：阿德巴约、浓眉、戈贝尔、琼斯、文班

都市车界|上汽集团与奥迪将联合开发专注于中国市场的全新平台

众生相！步行者罚球10-30全队黑脸直接离场 詹皇质疑名帅犯大错

实探暂停直播后的菏泽南站：现场几乎恢复平静

美方无理指责中方向俄提供军事装备中国代表当场回击

媒体：被美军拒收的F-35隐形战斗机已经快没地儿放了

众生相！步行者罚球10-30全队黑脸直接离场詹皇质疑名帅犯大错