Feature-Selection

使用中值拋光進行特徵選擇

  • March 14, 2011

在我最近閱讀的一篇論文中,我在他們的數據分析部分遇到了以下內容:

然後將數據表拆分為組織和細胞系,將兩個子表分別進行中位數拋光(行和列迭代調整為中位數為 0),然後重新加入單個表。然後,我們最終選擇了在至少三個測試樣本中,其表達與該樣本集中的中位數相差至少 4 倍的基因子集

我不得不說我並沒有真正遵循這裡的推理。我想知道您是否可以幫助我回答以下兩個問題:

  1. 為什麼調整數據集中的中位數是可取的/有幫助的?為什麼要對不同類型的樣品分開做?
  2. 這怎麼不修改實驗數據?這是從大量數據中挑選大量基因/變量的已知方法,還是相當臨時的?

謝謝,

Tukey Median Polish 算法用於微陣列的RMA標準化。您可能知道,微陣列數據非常嘈雜,因此他們需要一種更可靠的方法來估計探針強度,同時考慮到所有探針和微陣列的觀察結果。這是用於標準化跨陣列的探針強度的典型模型。

在哪裡是個轉換後的 PM 強度為上探大批。是背景噪聲,可以假設它們對應於正常線性回歸中的噪聲。但是,分佈假設可能是限制性的,因此我們使用 Tukey Median Polish 來獲得估計和. 這是一種跨陣列歸一化的穩健方法,因為我們希望將信號、探針引起的強度從陣列效應中分離出來,. 我們可以通過對陣列效應進行歸一化來獲得信號對於所有數組。因此,我們只剩下探測效應加上一些隨機噪聲。

我之前引用的鏈接使用 Tukey 中值拋光通過探針效應排名來估計差異表達基因或“有趣”基因。然而,這篇論文已經很老了,可能當時人們還在試圖弄清楚如何分析微陣列數據。Efron 的非參數經驗貝葉斯方法論文發表於 2001 年,但可能沒有被廣泛使用。

然而,現在我們對微陣列(統計)了解很多,並且對它們的統計分析非常確定。

微陣列數據非常嘈雜,而 RMA(使用 Median Polish)是最流行的歸一化方法之一,可能是因為它的簡單性。其他流行和復雜的方法是:GCRMA、VSN。歸一化很重要,因為感興趣的是探針效應而不是陣列效應。

如您所料,分析可能受益於一些利用跨基因信息借用的方法。這些可能包括貝葉斯或經驗貝葉斯方法。可能是您正在閱讀的論文很舊,而這些技術直到那時才出現。

關於您的第二點,是的,他們可能正在修改實驗數據。但是,我認為,這種修改是為了更好的原因,因此是合理的。原因是

a) 微陣列數據非常嘈雜。當興趣是探測效應時,通過 RMA、GCRMA、VSN 等對數據進行歸一化是必要的,並且可以利用數據中的任何特殊結構是好的。但我會避免做第二部分。這主要是因為如果我們事先不知道結構,最好不要強加很多假設。

b) 大多數微陣列實驗本質上是探索性的,也就是說,研究人員試圖縮小到幾組“有趣”的基因,以進行進一步的分析或實驗。如果這些基因有很強的信號,那麼像標準化這樣的修改不應該(基本上)影響最終結果。

因此,修改可能是合理的。但我必須指出,過度標準化可能會導致錯誤的結果。

引用自:https://stats.stackexchange.com/questions/8251

comments powered by Disqus