Data-Transformation

應該向 x 添加多小的數量以避免取零的對數?

  • June 19, 2012

我已經按原樣分析了我的數據。現在我想在記錄所有變量的日誌後查看我的分析。許多變量包含許多零。因此,我添加了少量以避免取零的對數。

到目前為止,我已經添加了 10^-10,實際上沒有任何理由,只是因為我覺得添加一個非常小的數量是可取的,以盡量減少我任意選擇數量的影響。但有些變量大多包含零,因此在記錄時大多為 -23.02。我的變量的取值範圍是 1.33-8819.21,零的頻率也變化很大。因此,我個人對“少量”的選擇對變量的影響非常不同。現在很清楚 10^-10 是一個完全不可接受的選擇,因為所有變量中的大部分方差都來自這個任意的“少量”。

我想知道這樣做更正確的方法是什麼。

也許最好從每個變量的單獨分佈中得出數量?有沒有關於這個“少量”應該有多大的指導方針?

我的分析主要是簡單的 cox 模型,每個變量和年齡/性別作為 IV。變量是各种血脂的濃度,通常具有相當大的變異係數。

編輯:添加變量的最小非零值對我的數據來說似乎很實用。但也許有一個通用的解決方案?

編輯 2:由於零僅表示濃度低於檢測限,也許將它們設置為(檢測限)/2 是否合適?

由於零點僅表示濃度低於檢測限,因此將它們設置為(檢測限)/2 可能是合適的

我只是在輸入我想到的 log 確實(經常)有意義並且可能出現 0 的事情是您進行第二次編輯時的濃度。正如您所說,對於測量的濃度,0 僅表示“我無法測量那麼低的濃度”。

旁注:您的意思是 LOQ 而不是 LOD?

是否設置 0 為 $ \frac{1}{2} $ LOQ 是不是一個好主意取決於:

  • 從這個角度來看 $ \frac{1}{2}\mathrm{LOQ} $ 是您的“猜測”,表示 c 介於 0 和 LOQ 之間,這確實有道理。

但請考慮相應的校準函數:

在此處輸入圖像描述在此處輸入圖像描述

在左側,校準函數在 LOQ 以下產生 c = 0。在右側, $ \frac{1}{2}\mathrm{LOQ} $ 用於代替 0。

  • 但是,如果原始測量值可用,則可能會提供更好的猜測。畢竟,LOQ 通常只是表示相對誤差為 10%。在此之下,測量仍然攜帶信息,但相對誤差變得巨大。

在此處輸入圖像描述

(藍色:LOD,紅色:LOQ)

  • 另一種方法是排除這些測量。這也是合理

的,例如考慮校準曲線。在實踐中,您經常觀察到 sigmoid 形狀:對於低 c,信號 ≈ 常數,中等線性行為,然後是檢測器飽和。 在此處輸入圖像描述

在這種情況下,您可能希望將自己限制在關於濃度明顯處於線性範圍內的陳述中,因為低於和高於其他過程都會嚴重影響結果。

確保您解釋以這種方式選擇數據以及原因。


編輯:什麼是明智的或可以接受的,當然取決於問題。希望我們在這裡談論的是不影響分析的一小部分數據。

也許一個快速而骯髒的檢查是:在排除或不排除數據(或您建議的任何處理)的情況下運行您的數據分析,並查看是否有任何實質性變化。

如果你看到變化,那麼你當然有麻煩了。但是,從分析化學的角度來看,我想說您的問題主要不在於您使用哪種方法來處理數據,而根本問題是分析方法(或其工作範圍)不適合手頭的問題。當然,更好的統計方法可以節省您的時間,但最終“垃圾進,垃圾出”的近似值通常也適用於更花哨的方法。

主題引文:

  • 一位統計學家曾經告訴我:

你(化學家/光譜學家)的問題是你的問題要么太難以至於無法解決,要么太容易以至於解決它們沒有樂趣。

引用自:https://stats.stackexchange.com/questions/30728

comments powered by Disqus