Hypothesis-Testing
如何使用 Python 統計證明列是否具有分類數據
我在 python 中有一個數據框,我需要在其中找到所有分類變量。檢查列的類型並不總是有效,因為
int
類型也可以是分類的。因此,我尋求幫助以找到正確的假設檢驗方法來確定列是否為分類列。
我正在嘗試低於卡方檢驗,但我不確定這是否足夠好
import numpy as np data = np.random.randint(0,5,100) import scipy.stats as ss ss.chisquare(data)
請指教。
簡短的回答:你不能。
沒有統計測試可以告訴您包含 1 到 10 之間的整數的預測器是數字預測器(例如,孩子的數量)還是編碼十個不同的類別。(如果預測變量包含負數,或者最小的數字大於一,或者它跳過整數,這可能會反對它是一種分類編碼 - 或者它可能只是意味著分析師使用了非標準編碼。)
唯一可以確定的方法是利用領域專業知識或數據集的密碼本(應該始終存在)。