心血管试验中的事件发生率常常被高估


根据先于在《美国心脏病学杂志》(
American Journal of Cardiology)刊登而于201558日在线发布的一项研究,在评价心血管介入治疗方法和设备的 RCT中,事件发生率经常被高估。

 以后的事情

 

研究的作者们说,开展效力降低了的RCT的研究人员必须保持透明度。

 

“这种少报现象可对RCT设计产生根本性的影响,并可对这些试验的统计效果产生不良影响,无法回答关于治疗策略的重要问题。”梅奥诊所(美国明尼苏达州罗切斯特)的医学博士David R. Holmes Jr和同事们写道。

研究人员预先指定了在心血管介入治疗和设备领域的10个常见研究主题;对于每个主题,识别了截至2014414日已发布的5项最新同行评审过的研究。在排除了有非治疗与对照设计的研究,少于30的患者人群的研究,手稿不是英文的研究,或没有样本大小计算或列出的估计事件发生率的研究后,他们分析了从2000年到2012年,将19436名患者随机分配的27RCT的事件发生率。

17项试验的目的是显示优越性,10项试验具有非劣性设计。中位试验持续时间为2.2年,中位中途退出率为2.4%。除了5项试验以外的所有试验均由行业资助。

模式很清楚

Holmes医生和同事们发现了“事件率被高估的明确证据,”他们写道。

例如,20项(74.1%)试验的对照组内的主要事件发生率低于预期,观察到和估计的事件发生率之间的平均相对差别为22.9%95% CI -33.5%-12.2%)。在生物降解聚合物DES和肾动脉支架试验中差别最大,RCT的差别超过10%(表1)。

1. 各种RCT主题的预测与实际事件发生率

 

平均相对差别

生物降解聚合物DES

-35.6%

肾动脉支架植入

-41.1%

远端保护直接PCI

-11.7%

颈动脉支架植入中的栓塞保护

51.7%

在有休克的急性心梗期间的主动脉内球囊泵

-6.1%

房颤中左心耳闭塞

-15.9%

心尖瓣膜置换

-31.8%

经皮心尖瓣膜修复

170.0%

PFO 封堵

-34.9%

TAVR

-4.9%


在探索性分析中,研究人员发现,在更长时间的研究(
P=0.12)和有高退出率(P=0.15)的研究中,有一种更加高估事件发生率的趋势。此外,基于先前RCT的预测更可能更准确(P=0.07)。

研究设计(优越性与非劣效性)和时间(登记开始年份)均不影响事件被高估的情况。此外,在行业资助和公共部门资助的研究之间,无差异(P=0.662)。

三项试验——PREVAILPROTECT AFRESPECT——为事件驱动性的,而非基于传统的样本大小驱动设计。因此,当将这些试验排除在分析之外时,其他24项试验中样本大小变化更小(平均相对差-7.9%95% CI -17.9%2.2%),其中7项的实际样品大小小于计划的大小。

9项试验(33.3%)产生了积极结果(优越性或非劣效性),2项非劣效性试验(7.4%)显示了劣效性,15项优越性试验(55.6%)无显著性。

在未能显示出一个主要终点的显著性的14项优越性试验中,8项产生的结果具有不确定。在相对风险评分表上,基于预先指定的最小相对风险差异,这些试验中只有3项(21.4%)确实产生了负面结论。

过高估计是如何发生的?

“通过使用基于主题的方法,目前的报道显示,事件发生率的系统性的高估将如何影响心血管介入治疗和装置领域的随机证据集。”Holmes医生和同事写道。

更长的研究的事件减少的趋势“可以通过总体医疗进步来解释,例如高血压治疗的不断改善,以及将肾动脉支架植入与药物治疗相比较的一般较长的RCT中他汀类药物的出现。”他们提出,“在退出率较高的情况下,事件发生率也有下降的趋势。这方面的证据是有限的,但一些研究找到了患者退出与药物不依从和更高死亡率的联系,从而有可能减除性随机对照试验的结果。”

作者们指出,由于当研究基于先前的RCT时,事件发生率估计往往更准确,所以在设计未来的研究时,这似乎是一件“合理”的事情,但“关于RCT和非随机的研究的结果估计精确性,文献相互冲突。”

关于霍桑效应,他们说,患者可能因为知道他们正在接受研究而改变了他们的行为。“有人认为,在最近的研究为治疗难治性高血压而采取肾脏去神经的试验中,假手术组的收缩压发生12毫米汞柱的下降,其原因可能就在于霍桑效应。”研究人员写道,“有些被认为患有难治性高血压的患者可能只是没有坚持服药,并在试验过程中改善他们的习惯。”

透明度是关键

高估“可能会对RCT的效力产生不利影响,”Holmes医生和同事们评论道,“研究人员可以在有预算限制的情况下设计试验时,利用[平方反比定律]。对照组内事件发生率的高估极大地降低了所需的样本大小,并且更容易被机构审查委员会接受,而不会去调整试验的α或效力。然而,我们的研究表明,这严重降低了试验得出决定性结果的可能性。”

他们指出,尽管优越性和非劣效性试验“似乎会同等程度地高估事件发生率,但后者尤其让人担忧;”当事件发生率低于预期时,使用绝对范围的非劣效性试验可能偏向积极的结果。自适应和事件驱动的试验令人担忧,原因在于“试验时间延长和更多资源的投入。”他们补充说。

作者们建议,展望未来,“应鼓励研究人员使用更保守的事件发生率估计,即使这需要一个更大的样本大小或导致效力降低,也是如此。”他们说,另一个选择是试验过程中的盲样本大小重新计算。

他们评论道,低效力试验的伦理合理性会受到争论。

“虽然有人强烈反对,但也有人指出,执行得良好的低效力试验仍然可以提供治疗效果的无偏见估计,并且低效力试验的结果可以集中到具有充分效力的分析中。”作者们最后说,并强调需要透明度,“目前,粗心的读者一般很难识别低效试验,无论他谴责还是接受这样的做法,都是如此。”


来源:

Mahmoud KD, Lennon RJ, Holmes DR Jr. Event rates in randomized clinical trials evaluating cardiovascular interventions and devices. Am J Cardiol. 2015;Epub ahead of print.


披露

  • Holmes医生反映,他是PROTECT AFPREVAIL试验的首席研究员,是PARTNER试验中协调员。


相关报道:

 

Comments