Hypothesis-Testing

如何使用 Python 統計證明列是否具有分類數據

  • March 23, 2018

我在 python 中有一個數據框,我需要在其中找到所有分類變量。檢查列的類型並不總是有效,因為int類型也可以是分類的。

因此,我尋求幫助以找到正確的假設檢驗方法來確定列是否為分類列。

我正在嘗試低於卡方檢驗,但我不確定這是否足夠好

import numpy as np
data = np.random.randint(0,5,100)
import scipy.stats as ss
ss.chisquare(data)

請指教。

簡短的回答:你不能。

沒有統計測試可以告訴您包含 1 到 10 之間的整數的預測器是數字預測器(例如,孩子的數量)還是編碼十個不同的類別。(如果預測變量包含負數,或者最小的數字大於一,或者它跳過整數,這可能會反對它是一種分類編碼 - 或者它可能只是意味著分析師使用了非標準編碼。)

唯一可以確定的方法是利用領域專業知識或數據集的密碼本(應該始終存在)。

引用自:https://stats.stackexchange.com/questions/336261

comments powered by Disqus