二進制數據可以是序數嗎?
二進制數據通常被稱為名義上的子類別,尤其是在女性/男性、吸煙者/非吸煙者等示例中。但是,二進制數據具有通過/失敗、正確/錯誤、缺席/存在等值, 似乎給它的值一些權重。這不像在性別的例子中,兩個值是相等的,並且主要在名義上和其他與上下文相關的特徵上有所不同。相反,這種類型的二進制數據清楚地表明一個值意味著什麼,另一個意味著什麼。
在這種區別的情況下,二進制可以被認為是序數嗎?如果是,通常用於此類數據的統計測試是什麼?另外,關於這個案例有什麼有趣的書籍或論文嗎?
二是一個微不足道的數字,幾乎沒有復數,而留給自己的設備的兩分制只需要在它站起來之前進行區分:當只有一個時,思考等間隔或等比是否有意義是沒有必要的要考慮的間隔或比率,或者當一對只能有一個序列時,排名是否有意義;正如@Tim 所解釋的那樣,您可能想要對數據執行的所有操作都不受其表示的影響。
只有對於二進制變量的外部關係,這些事情才重要。Jaccard 指數是衡量兩個個體之間相似性的指標,每個個體具有由二元變量表示的多個屬性;您計算兩者都具有“1”的屬性數量與具有“1”的屬性數量的比率。顯然,編碼為“0”和“1”在這裡並不是任意的(儘管我們可以一次將所有變量都交換一遍,並對 Jaccard 指數的計算進行相應的更改)。這是@ttnphns 談論“序數二分變量”的情況,這似乎很公平。可以在Faith 等人中找到一個例子。(2013 年),“, 6141,其中 Jaccard 指數用於測量不同時間點個體腸道菌群組成的相似性——共同細菌菌株的數量與發現的菌株總數的比率。度量標準的選擇似乎是明智的——為什麼要考慮兩個時間點都不存在的所有不同應變?甚至可以編制一份詳盡的清單嗎?
在變量經常組合成指數、分數或其他任何東西的各種方式中,可能會發現一個更單調的例子。例如,用作描述性統計或回歸中的預測變量。要計算Charlson 合併症指數,您需要將表示心肌梗塞和充血性心力衰竭等疾病的二分變量相加。許多條件用“0”和“1”編碼;但由於偏癱對總分的貢獻為 2,惡性腫瘤為 6,我很想將這些作為區間尺度二分變量。
不用說,在這種情況下如何對齊不同的二進制尺度取決於做出適合手頭工作的決策,而不是以某種方式直覺每個單獨尺度的真實性質——一個編碼為“1”的屬性,用於計算一個 Jaccard 指數可能被編碼為“0”以計算另一個。
上面的段落舉例說明了這種規模類型的業務總是如此。Stevens 指出了數據表示方式的哪些特徵需要被認為是有意義的與您在分析期間執行的操作類型之間的各種關係:
首先,尺度之所以成為可能,僅僅是因為我們可以對對象的方面所做的事情與數列的屬性之間存在某種同構。在處理對象的方面時,我們調用經驗操作來確定相等(分類)、排序以及確定對象方面之間的差異和比率何時相等。傳統的數字系列產生了類似的操作:我們可以識別數字系列的成員並將它們分類。我們知道他們按照慣例給出的順序。我們可以確定相等的差異,如, 和相等的比率, 如 . 數列的這些屬性與我們對對象執行的某些經驗運算之間的同構性允許使用該數列作為模型來表示經驗世界的各個方面。
這是一個重要的一般原則的一個例子:你不希望關於如何寫下來的任意或常規決定對你的結論產生重大影響。
所達到的規模類型取決於所執行的基本經驗操作的特徵。這些操作通常受到被縮放事物的性質和我們選擇的程序的限制,但是,一旦選擇,這些操作將確定最終將產生表 1.1 中列出的一個或另一個比例[名義、序數、間隔和比率]。
因此,例如,您不能在五分制上的平均分數並聲稱刻度點之間的間隔無關緊要:必須給出一些東西(請注意,這很可能是要求而不是平均 - 見例如這裡)。將此禁令與首先需要確定真正的秤類型然後考慮合適的分析方法的規定混淆是錯誤的。請參閱數據類型(名義/有序/間隔/比率)是否真的應該被視為變量類型?.