Machine-Learning

借用信息究竟意味著什麼?

  • December 13, 2018

我經常和他們談論貝葉斯層次模型中的信息借用或信息共享。我似乎無法直接回答這實際上意味著什麼,以及它是否是貝葉斯層次模型所獨有的。我有點明白了:層次結構中的某些級別共享一個公共參數。不過,我不知道這如何轉化為“信息借用”。

  1. “信息借用”/“信息共享”是人們喜歡拋出的流行詞嗎?
  2. 是否有一個封閉形式後驗的例子來說明這種共享現象?
  3. 這是貝葉斯分析獨有的嗎?一般來說,當我看到“信息借用”的例子時,它們只是混合模型。也許我以老式的方式學習了這些模型,但我沒有看到任何共享。

我對開始關於方法的哲學辯論不感興趣。我只是好奇這個詞的用法。

這是一個專門來自經驗貝葉斯(EB)的術語,實際上它所指的概念在真正的貝葉斯推理中並不存在。最初的術語是“借力”,它是由 John Tukey 在 1960 年代創造的,並由 Bradley Efron 和 Carl Morris 在 1970 年代和 1980 年代關於斯坦因悖論和參數 EB 的一系列統計文章中進一步普及。許多人現在使用“信息借用”或“信息共享”作為同一概念的同義詞。您可能會在混合模型的上下文中聽到它的原因是,最常見的混合模型分析具有 EB 解釋。

EB 有許多應用程序並適用於許多統計模型,但上下文始終是您有大量(可能是獨立的)案例,並且您正在嘗試估計每個案例中的特定參數(例如均值或方差)。在貝葉斯推理中,您可以根據每個案例的觀察數據和該參數的先驗分佈對參數進行後驗推斷。在 EB 推理中,參數的先驗分佈是從整個數據案例集合中估計的,然後進行貝葉斯推理的推理。因此,當您估計特定案例的參數時,您既使用該案例的數據,也使用估計的先驗分佈,後者代表“信息”或“強度”

現在您可以看到為什麼 EB 有“借用”但真正的貝葉斯沒有。在真正的貝葉斯中,先驗分佈已經存在,因此不需要乞求或借用。在 EB 中,先驗分佈是根據觀察到的數據本身創建的。當我們對特定案例進行推斷時,我們會使用從該案例中觀察到的所有信息以及來自其他每個案例的一些信息。我們說它只是“借來的”,因為當我們繼續對下一個案例進行推斷時,信息會被返回。

EB 和“信息借用”的概念在統計基因組學中被大量使用,當每個“案例”通常是一個基因或一個基因組特徵時(Smyth,2004;Phipson 等,2016)。

參考

埃夫隆、布拉德利和卡爾莫里斯。斯坦因統計悖論。科學美國人236,沒有。5(1977):119-127。http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf

史密斯,GK (2004)。用於評估微陣列實驗中差異表達的線性模型和經驗貝葉斯方法。遺傳學和分子生物學中的統計應用第 3 卷,第 1 期,第 3 條 。http://www.statsci.org/smyth/pubs/ebayes.pdf

Phipson, B, Lee, S, Majewski, IJ, Alexander, WS 和 Smyth, GK (2016)。穩健的超參數估計可防止高變基因並提高檢測差異表達的能力。應用統計年鑑10, 946-963。 http://dx.doi.org/10.1214/16-AOAS920

引用自:https://stats.stackexchange.com/questions/381761

comments powered by Disqus