Dataset

數據類型(名義/有序/間隔/比率)真的應該被視為變量類型嗎?

  • July 9, 2014

例如,這裡是我從標準教科書中得到的定義

變量 - 總體或樣本的特徵。前任。股票價格或測試等級

數據 - 實際觀察值

因此,對於兩列報告 [名稱 | 收入] 列名將是變量和實際觀察值 {dave | 100K} , {吉姆 | 200K} 將是數據

因此,如果我說 [Name] 列是名義數據,而 [income] 是比率數據,那麼我將其描述為一種變量而不是像大多數教科書那樣的一種數據會更準確嗎?我知道這可能是語義,這很好,這就是它的全部。但我擔心我可能會在這裡遺漏一些東西。

史蒂文斯的規模類型學不一定是變量的某些固有特徵,甚至也不一定是數據本身,而是我們如何處理信息——我們用它來表示什麼。

在某些情況下,完全相同的值可能會被視為比率、區間、序數或名義值,具體取決於我們對它的處理方式——這取決於我們賦予這些值的含義,這可能會從一個分析更改為下一個分析。史蒂文斯的類型學有一定的價值,但它並沒有過分規範。

這個關於尺度作為意義的重要性的問題至少可以追溯到 Lord (1953),他提供了一個例子,即同一組數字同時存在名義和區間解釋。

Velleman 和 Wilkinson (1993) 更清楚地說明了這一點,他們提供了一個例子,人們在進入招待會時收到連續編號的門票,其中一張門票會獲得獎品。根據門票上數字的用途,它們在所有四個尺度上都有解釋。

所以,例如“我贏了嗎?” 是一個將數字視為名義數字的問題,而“我是否來得太早而無法獲得中獎彩票?” 是一個將其視為序數的問題;另一方面(我不認為這個在論文中)使用 5 個隨機票號來估計房間裡的人數會將它們視為比率(例如,如果有 4 個隨機抽取的數字得到安慰獎,你總共有 5 個隨機數來估計總出席人數)。

他們爭辯說“好的數據分析不假設數據類型”,“史蒂文斯的類別不描述數據的固定屬性”,“史蒂文斯的類別不足以描述數據規模”和“統計程序不能按照史蒂文斯的標准進行分類”(確實每個語句也是一個章節標題)。

Tukey 在幾個地方也提出了批評(例如,在 Mosteller 的第 5 章和 Tukey 1977 年的著作Data analysis and regression中);Mosteller 和 Tukey 提供了一種類型學 - 名稱等級(有序標籤)、等級 (從 1 開始,可能代表最大或最小)、計數分數(以零和一為界,包括百分比)、計數(非負數)整數)、金額(非負實數)、餘額(無界、正值或負值)。

在我自己的工作中,我見過一些情況,其中嚴重的分析問題是由於人們未能意識到與水平相關的變量(有時稱為“存量”變量)和流量之間的巨大差異- 這些類型的一個簡單示例就是差異在適合於在每個週期序列中的每個儲罐中的實際水量以及流入其中的水量的分析類型中。這些將(在某些情況下)都是 Mosteller 和 Tukey ‘數量‘類型的子類別(在這些相同的情況下,史蒂文斯方案中的兩個比率變量),表明類型學問題可能非常微妙,但仍然可以嚴重影響適當的分析。

PFVelleman 和 L.Wilkinson (1993),

“名義、有序、區間和比率類型學具有誤導性”

,美國統計學家,卷。47號 1 pp.65-72

(工作版本似乎可在此處的第二作者網頁上獲得)

Lord, F. (1953),

“關於足球數字的統計處理”,

美國心理學家第 8頁,第 750-751 頁

(這篇論文的年份在我鏈接到的 Velleman 和 Wilkinson 論文版本的參考文獻中給出錯誤,但在論文正文中正確引用)

引用自:https://stats.stackexchange.com/questions/106393

comments powered by Disqus