使用術語“比特”來討論以 2 為底的對數似然比是否合適?
我非常迷戀似然比作為量化科學努力中相關證據的一種手段。然而,在實踐中,我發現原始似然比可能變得無法打印,因此我對它們進行了對數轉換,這具有以對稱方式表示支持/反對分母的證據(即絕對對數似然比的值表示證據的強度,符號表示哪個模型(分子或分母)是支持的模型)。現在,對數底的選擇是什麼?大多數可能性指標使用 log-base-e,但這讓我覺得這不是一個對直覺非常友好的基礎。有一段時間我使用 log-base-10,這顯然被稱為“禁令“ Alan Turing 的規模,並且具有可以輕鬆辨別相對數量級證據的良好特性。最近我想到使用 log-base-2 也可能有用,在這種情況下,我認為它可能是合適的使用術語“位”來指代結果值。例如,16 的原始似然比將轉換為分母相對於分子的 4 位證據。但是,我想知道是否使用術語“位” ”違反了它的常規信息論意義。有什麼想法嗎?
我認為這是完全有道理的。(事實上,我在我發表的論文中使用了這個約定;或者如果你更喜歡使用底數的對數,你可以稱它們為“nats”)。
理由如下:擬合模型的對數似然可以看作是“真實”(未知)數據分佈與擬合模型隱含的分佈之間的KL 散度的蒙特卡羅估計。讓表示數據的“真實”分佈,並讓表示分佈(即可能性由模型提供。
最大似然擬合涉及最大化
左側(對數似然,由 # 個數據點縮放) 是右手邊的蒙特卡洛估計,即,因為數據點取自. 所以我們可以重寫
因此,由點數歸一化的對數似然是對(負)KL-divergence 之間的估計和減去(真實)熵. KL 散度具有“位”單位(如果我們使用 log 2),並且可以理解為您需要對數據進行編碼的“額外位”的數量使用基於. (如果,您不需要任何額外的位,因此 KL 散度為零)。
現在:當你取兩個不同模型的對數似然比時,很明顯你最終會得到:
熵條款取消。所以對數似然比(歸一化為) 是對真實分佈的 KL 散度與模型 1 提供的分佈以及模型 2 提供的真實分佈之間差異的估計。因此,它是對編碼數據所需的“額外位”數量的估計與使用模型 1 進行編碼相比,使用模型 2。所以我認為“位”單位是完全合理的。
一個重要的警告:當使用此統計數據進行模型比較時,您應該真正使用在交叉驗證數據上計算的 LLR。由於過度擬合,訓練數據的對數似然通常人為地高(偏愛具有更多參數的模型)。也就是說,該模型為該數據分配的概率高於將其擬合到無限的訓練數據集然後在這些點上進行評估的概率在您的數據集中。所以很多人遵循的程序是:
- 使用訓練數據訓練模型 1 和 2;
- 評估測試數據集的對數似然比,並以比特為單位報告結果數量,作為模型 1 與模型相比改進的“代碼”的度量
在訓練數據上評估的 LLR 通常會給具有更多參數/自由度的模型帶來不公平的優勢。