隨機遊走到底做了什麼？

March 23, 2015

老實說，我已經閱讀了很多關於這個問題的網站和答案，沒有一個用簡單易懂的語言來解釋它。我想做的是了解隨機遊走的作用，以及它如何用於基因集富集分析。

這裡有一篇發表的論文http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3205944/但是，我無法真正理解。

有人可以用簡單的話解釋一下它的作用嗎？

我將嘗試回答您的第一個問題

隨機遊走是一系列測量，其中系列中任何給定點的值是系列中前一個點的值加上一些隨機量。

例如，假設您在一系列投擲中擲出一枚公平的硬幣，每次硬幣正面朝上時，您將序列變量的前一個值加 1 ，而每次硬幣朝反面時，您從前一個值中減去 1你的串行變量。如果起始值為 0，並且您翻轉以下擲硬幣序列：
T H T T T H H H T T H T H T H
隨機遊走，基於上述這些值將是：
0 -1 0 -1 -2 -3 -2 -3 -1 -2 -2 -1 -2 -1 -2 -1
所以價值是：

的分佈取決於時間，給一個樣本一些有趣的性質跨越不同時期：

**的平均值_未定義。**這似乎違反直覺，因為您可能期望平衡硬幣的正面和反面以零為中心。就目前而言，這是正確的，但零只是一個任意的起始值. 所以沒有真正的意思！

的方差_. 隨著時間（翻轉次數）的增加，方差也會增加。例如，在第一次翻轉（)，可能的值為要么，實際上方差為 1。但在第二次翻轉時 () 可能的值是,要么，並且方差等於 2。對於無限次翻轉（在, 當所有可能值的範圍從到)，方差是無限的。

這兩個事實嚴重破壞了試圖得出關於分佈的推論（而不是對於給定的) 在使用統計推斷的基本工具時僅給出一個樣本。（如何有限估計未定義？有限的怎麼可能估計?)

有許多種隨機遊走，更一般地說，自回歸過程（即任何以某種方式依賴於其先前值的變量）。此處的示例使用了一個簡單的伯努利隨機變量（拋硬幣），但可以：

將正態分佈的隨機值添加到的連續值相反……或者實際上是從任何分佈中抽取的隨機值；

使價值在某個時間點取決於以前的值從多個時間點（例如);

配對的值隨機值為創建二維隨機遊走；

製作一些花哨的功能，一個簡單的例子是，在哪裡, 意味著任何特定時刻的記憶隨著時間的推移而衰減（記憶持續時間越長越近是 1）——根據 Alecos 的評論，這只是“自回歸”（純隨機遊走會);

做很多其他事情來使隨機遊走和/或自回歸過程更加複雜。

但他們都是狄更斯嘗試使用基本方法進行分析。這就是為什麼我們有協整回歸和糾錯模型以及其他時間序列分析技術來處理這類數據（我們有時將其稱為“非整合”、“長期記憶”或“單位根”等標籤，取決於細節）。

“隨機遊走”一詞的起源來自1905 年寫給大自然的一對非常簡短的信件。

參考文獻

Pearson, K. (1905)。致編輯的信：隨機遊走的問題。自然，72（1865）：294。

皮爾遜，K. (1905)。致編輯的信：隨機遊走的問題。自然，72（1867）：342。

引用自：https://stats.stackexchange.com/questions/143074

隨機遊走到底做了什麼？

相關問答

為什麼 RNA-seq 數據的對數轉換會減少 PCA 中解釋方差的數量？

僅知道最小值/最大值的數據的統計方法

我們可以從人工神經網絡中了解人類大腦的哪些信息？

如何找到與第一主成分最相關的變量？

連續變量和分類（名義）變量之間的相關性

這和和z-測試與χ2χ2chi^2- 比較兩組感冒機率的測試