當我們比較控制變量的組時，我們應該使用等價檢驗嗎？

March 10, 2018

在許多考慮治療和結果的論文中，我看到了可能被稱為有害變量（通常是人口統計，有時是醫療狀況）的表格（通常是“表 1”），其中包含顯著性檢驗和諸如“各組大致相似，有XXXXX 無顯著差異，見表”。因此，明確的目標是表明分配到不同治療方法的組是相似的。

然而，在我看來，這可能是“接受空值”，我們應該做（或要求做）是對等價的測試。

這可能適用於隨機試驗或觀察性研究。我在這裡錯過了什麼嗎？

這是一個複雜的問題，它引入了許多相關問題：1) 明確指定假設，2) 了解什麼因果機制（可能）構成假設效應的基礎，以及 3) 呈現的選擇/風格。

你是對的，如果我們應用合理的統計實踐，聲稱“組是相似的”，就必須進行等效性檢驗。但是，等效性檢驗與 NHST 對應物存在相同的問題：功效只是樣本量和比較次數的反映：我們預計會存在差異，但它們對主要分析的程度和影響要重要得多。

當遇到這些情況時，基線比較幾乎總是紅鯡魚。可以應用更好的方法（科學和統計）。在回答此類問題時，我會考慮一些股票概念/回复。

“總計”列比按處理拆分的列更重要；有必要對這些價值觀進行討論。

在臨床試驗中，通常分析*安全樣本。*這是首先接觸、然後同意、然後隨機化並最終暴露於至少一次控製或治療迭代的那些人的子集。在這個過程中，我們面臨不同程度的參與偏見。

這些研究中最重要和最被忽略的方面可能是匯總表 1 的結果。這實現了表 1 的最重要目的：向其他研究人員展示研究樣本對結果適用的更廣泛人群的推廣程度。

當完全無視納入/排除標準和样本的普遍性時，我發現令人驚訝的是，研究人員、讀者和審稿人如何專注於患者特徵內的切線趨勢。

我很慚愧地說我是一名分析師，在一項忽視了這個問題的試驗中。我們招募了患者，然後，由於後勤問題，我們等了將近一年才實施干預。結合圖不僅顯示了這些時期之間的巨大下降，而且樣本發生了變化。結果很大程度上是失業/就業不足，比我們打算接觸的人更老、更健康。我對這項研究的普遍性深表擔憂，但很難遊說讓人們知道這些擔憂。

用於檢測基線特徵不平衡的測試的功效和 I 類錯誤取決於特徵的實際數量

如前所述，提供如此詳細的基線變量列表的目的是提供樣本的完整快照；他們的病史、實驗室、藥物和人口統計數據。這些都是臨床醫生用來向患者推薦治療的所有方面。他們都被認為可以預測結果。但這些因素的數量是驚人的。可以比較多達 30 個不同的變量。I 類錯誤的粗略風險是 1-(1-0.05)^30 = 0.79。如果必須進行測試，建議使用 Bonferroni 或置換校正。

最純粹形式的統計測試意味著是公正的，並且應該是預先指定的。然而，基線特徵的選擇和呈現通常是相對的。我覺得後一種方法是合適的：如果我們發現，就像在我的試驗中一樣，有一些有趣的特徵可以有效地描述樣本，我們應該可以自由選擇臨時呈現這些值。如果它具有任何價值，則可以進行測試，但通常需要注意：它們不是感興趣的假設，對於顯著和非顯著結果的含義存在混淆的高風險，並且結果更多地反映了樣本量和演示文稿的考慮比任何事實。

可以進行再隨機化，但只能在患者接受治療之前進行

正如我所提到的，分析的樣本通常是安全樣本。然而，對於尚未接受研究治療的患者，重新隨機化是一種大力提倡且理論上一致的方法。這僅適用於執行批量註冊的設置。在這裡，招募並隨機分配了 100 名參與者。例如，如果概率將高比例的老年人分配到一組，那麼可以重新隨機化樣本以平衡年齡。這不能通過順序或交錯登記來完成，這是進行大多數試驗的環境。這是因為登記時間傾向於通過普遍的病例“偏見”（混淆事件和普遍的資格標準）來預測患者狀態。

平衡設計不是有效推理的必要條件

隨機化假設表明，理論上，所有參與者的協變量平均分佈均等。但是，如前所述，在比較 30 個或更多級別時，不平衡的累積概率是不可忽略的。事實上，在考慮整體時，協變量的不平衡可能是無關緊要的。

如果隨機化是公平的，我們可能會看到治療組的年齡有所增加，但對照組的吸煙量有所增加：這兩者都單獨增加了結果的風險。有效和有效的推理所需要的是傾向得分在組之間是平衡的。這是一個弱得多的條件。不幸的是，如果沒有風險模型，就無法檢查傾向是否平衡。然而，很容易看出這種傾向取決於協變量的組合，儘管無法準確顯示，但隨機樣本中傾向不平衡的可能性要小得多。

如果已知風險模型或存在強有力的結果預測因子，則只需調整這些因素即可完成更有效和有效的 RCT，無論它們是否在治療組之間保持平衡

我最喜歡的一篇論文《隨機對照試驗的 7 個神話》討論了這一點。當調整變量對結果有很強的預測作用時，調整會提高效率。事實證明，即使有完美的 50/50 平衡，例如使用阻塞隨機化，或者甚至作為隨機化執行方式的巧合，調整也會縮小 CI，需要更少的參與者來進行同等效力的研究；這降低了成本和風險。令人震驚的是，這樣做的頻率並不高。

無論表 1 顯示什麼，觀察性研究都需要控制混雜因素

隨機化假設消除了混淆。對於非隨機治療，存在混雜。混雜因素是一個變量，它是結果的原因並預測準實驗治療的接受。沒有測試可以確定哪些變量是/是混雜因素。窺視數據以回答這些問題的風險在於，如果沒有完全完美的縱向值測量（即使那樣……），混雜因素實際上與調解者或碰撞者無法區分。調整中介會減弱任何影響，對撞機調整會導致任何類型的偏差。此外，無需針對一組混雜因素進行調整，而是必須刪除後門標準。

例如，在一項關於青少年肺功能和吸煙的研究中：年齡較大的孩子更有可能吸煙，但由於他們更高，他們的肺功能更強。事實證明，僅對高度進行調整就足以消除混淆，因為它滿足後門標準。進一步調整年齡只會降低效率。然而，僅在吸煙者和非吸煙者中檢查表 1 的“平衡”會表明年齡和身高都是“不平衡的”，因此應該加以控制。這是不正確的。

引用自：https://stats.stackexchange.com/questions/332745

comments powered by Disqus

當我們比較控制變量的組時，我們應該使用等價檢驗嗎？

“總計”列比按處理拆分的列更重要；有必要對這些價值觀進行討論。

用於檢測基線特徵不平衡的測試的功效和 I 類錯誤取決於特徵的實際數量

可以進行再隨機化，但只能在患者接受治療之前進行

平衡設計不是有效推理的必要條件

如果已知風險模型或存在強有力的結果預測因子，則只需調整這些因素即可完成更有效和有效的 RCT，無論它們是否在治療組之間保持平衡

無論表 1 顯示什麼，觀察性研究都需要控制混雜因素

相關問答

為什麼我們要匹配因果推理與回歸混雜因素？

什麼時候不適合控制變量？

控制回歸模型中的變量與控制研究設計中的變量有什麼區別？