Equivalence

當我們比較控制變量的組時,我們應該使用等價檢驗嗎?

  • March 10, 2018

在許多考慮治療和結果的論文中,我看到了可能被稱為有害變量(通常是人口統計,有時是醫療狀況)的表格(通常是“表 1”),其中包含顯著性檢驗和諸如“各組大致相似,有XXXXX 無顯著差異,見表”。因此,明確的目標是表明分配到不同治療方法的組是相似的。

然而,在我看來,這可能是“接受空值”,我們應該做(或要求做)是對等價的測試。

這可能適用於隨機試驗或觀察性研究。我在這裡錯過了什麼嗎?

這是一個複雜的問題,它引入了許多相關問題:1) 明確指定假設,2) 了解什麼因果機制(可能)構成假設效應的基礎,以及 3) 呈現的選擇/風格。

你是對的,如果我們應用合理的統計實踐,聲稱“組相似的”,就必須進行等效性檢驗。但是,等效性檢驗與 NHST 對應物存在相同的問題:功效只是樣本量和比較次數的反映:我們預計會存在差異,但它們對主要分析的程度和影響要重要得多。

當遇到這些情況時,基線比較幾乎總是紅鯡魚。可以應用更好的方法(科學和統計)。在回答此類問題時,我會考慮一些股票概念/回复。

“總計”列比按處理拆分的列更重要;有必要對這些價值觀進行討論。

在臨床試驗中,通常分析*安全樣本。*這是首先接觸、然後同意、然後隨機化並最終暴露於至少一次控製或治療迭代的那些人的子集。在這個過程中,我們面臨不同程度的參與偏見。

這些研究中最重要和最被忽略的方面可能是匯總表 1 的結果。這實現了表 1 的最重要目的:向其他研究人員展示研究樣本對結果適用的更廣泛人群的推廣程度。

當完全無視納入/排除標準和样本的普遍性時,我發現令人驚訝的是,研究人員、讀者和審稿人如何專注於患者特徵內的切線趨勢。

我很慚愧地說我是一名分析師,在一項忽視了這個問題的試驗中。我們招募了患者,然後,由於後勤問題,我們等了將近一年才實施干預。結合圖不僅顯示了這些時期之間的巨大下降,而且樣本發生了變化。結果很大程度上是失業/就業不足,比我們打算接觸的人更老、更健康。我對這項研究的普遍性深表擔憂,但很難遊說讓人們知道這些擔憂。

用於檢測基線特徵不平衡的測試的功效和 I 類錯誤取決於特徵的實際數量

如前所述,提供如此詳細的基線變量列表的目的是提供樣本的完整快照;他們的病史、實驗室、藥物和人口統計數據。這些都是臨床醫生用來向患者推薦治療的所有方面。他們都被認為可以預測結果。但這些因素的數量是驚人的。可以比較多達 30 個不同的變量。I 類錯誤的粗略風險是 1-(1-0.05)^30 = 0.79。如果必須進行測試,建議使用 Bonferroni 或置換校正。

最純粹形式的統計測試意味著是公正的,並且應該是預先指定的。然而,基線特徵的選擇和呈現通常是相對的。我覺得後一種方法是合適的:如果我們發現,就像在我的試驗中一樣,有一些有趣的特徵可以有效地描述樣本,我們應該可以自由選擇臨時呈現這些值。如果它具有任何價值,則可以進行測試,但通常需要注意:它們不是感興趣的假設,對於顯著和非顯著結果的含義存在混淆的高風險,並且結果更多地反映了樣本量和演示文稿的考慮比任何事實。

可以進行再隨機化,但只能在患者接受治療之前進行

正如我所提到的,分析的樣本通常是安全樣本。然而,對於尚未接受研究治療的患者,重新隨機化是一種大力提倡且理論上一致的方法。這僅適用於執行批量註冊的設置。在這裡,招募並隨機分配了 100 名參與者。例如,如果概率將高比例的老年人分配到一組,那麼可以重新隨機化樣本以平衡年齡。這不能通過順序或交錯登記來完成,這是進行大多數試驗的環境。這是因為登記時間傾向於通過普遍的病例“偏見”(混淆事件和普遍的資格標準)來預測患者狀態。

平衡設計不是有效推理的必要條件

隨機化假設表明,理論上,所有參與者的協變量平均分佈均等。但是,如前所述,在比較 30 個或更多級別時,不平衡的累積概率是不可忽略的。事實上,在考慮整體時,協變量的不平衡可能是無關緊要的。

如果隨機化是公平的,我們可能會看到治療組的年齡有所增加,但對照組的吸煙量有所增加:這兩者都單獨增加了結果的風險。有效和有效的推理所需要的是傾向得分在組之間是平衡的。這是一個弱得多的條件。不幸的是,如果沒有風險模型,就無法檢查傾向是否平衡。然而,很容易看出這種傾向取決於協變量的組合,儘管無法準確顯示,但隨機樣本中傾向不平衡的可能性要小得多。

如果已知風險模型或存在強有力的結果預測因子,則只需調整這些因素即可完成更有效和有效的 RCT,無論它們是否在治療組之間保持平衡

我最喜歡的一篇論文《隨機對照試驗的 7 個神話》討論了這一點。當調整變量對結果有很強的預測作用時,調整會提高效率。事實證明,即使有完美的 50/50 平衡,例如使用阻塞隨機化,或者甚至作為隨機化執行方式的巧合,調整也會縮小 CI,需要更少的參與者來進行同等效力的研究;這降低了成本和風險。令人震驚的是,這樣做的頻率並不高。

無論表 1 顯示什麼,觀察性研究都需要控制混雜因素

隨機化假設消除了混淆。對於非隨機治療,存在混雜。混雜因素是一個變量,它是結果的原因並預測準實驗治療的接受。沒有測試可以確定哪些變量是/是混雜因素。窺視數據以回答這些問題的風險在於,如果沒有完全完美的縱向值測量(即使那樣……),混雜因素實際上與調解者或碰撞者無法區分。調整中介會減弱任何影響,對撞機調整會導致任何類型的偏差。此外,無需針對一組混雜因素進行調整,而是必須刪除後門標準。

例如,在一項關於青少年肺功能和吸煙的研究中:年齡較大的孩子更有可能吸煙,但由於他們更高,他們的肺功能更強。事實證明,僅對高度進行調整就足以消除混淆,因為它滿足後門標準。進一步調整年齡只會降低效率。然而,僅在吸煙者和非吸煙者中檢查表 1 的“平衡”會表明年齡和身高都是“不平衡的”,因此應該加以控制。這是不正確的。

引用自:https://stats.stackexchange.com/questions/332745

comments powered by Disqus