哪些誤用的統計術語值得糾正?
統計無處不在;然而,統計術語的常用用法往往不清楚。
術語概率和機率在普通英語中可以互換使用,儘管它們定義明確且數學表達不同。
沒有將可能性一詞與概率分開,通常會使試圖量化乳房 X 光檢查結果為陽性的乳腺癌概率的醫生感到困惑,“哦,胡說八道。我不能這樣做。你應該測試我的女兒;她正在學醫。”
同樣傳播的是使用相關性而不是關聯性。或相關暗示因果關係。
在阿爾·戈爾的著名紀錄片《難以忽視的真相》中,一張幻燈片說明了冰芯的相關性和溫度,將更多的技術工作排除在討論之外:
**問題:**哪些統計術語在沒有數學嚴謹性的情況下使用時會造成解釋問題,因此值得糾正?
對抗語言的轉變可能是徒勞的。但
參數不代表變量
在經典統計中,在這種情況下,精確地從 RA Fisher 開始,他首先使用了具有此含義的術語,參數是要估計的未知常數,例如總體均值或相關性。在數學中,存在相關但不相同的含義,例如以參數方式給出曲線。在許多科學中,參數只是度量(本身是一個具有數學意義的密集術語)、屬性或變量的另一個詞,例如長度或電導率或孔隙率或美德,視情況而定。自然,一個人的身長或美德在被測量之前是未知的。但是有統計頭腦的人可能會被它用於一組這樣的測量而感到困惑。用普通或粗俗的說法,參數(幾乎總是複數)通常表示某事的限制,例如個人關係或政治政策,可能源於最初與perimeter的混淆。以很高的先驗概率假設貝葉斯主義者會用自己的用法為自己說話(感謝@conjugateprior)。
偏斜並不意味著有偏見
一個世紀或更長時間以來,偏度具有特定的統計意義,指的是分佈的不對稱性,無論是通過圖形評估,數字測量,還是理論上假定為信仰或希望問題。在更長的時間裡,或者可以猜測,偏見意味著平均是錯誤的,只要我們知道真相,即一個真實或正確的值——就可以量化為系統誤差。偏斜在日常語言中具有被扭曲或扭曲的常識,因此也具有不正確、錯誤和偏頗的意思。這種感覺(據我所知,只是最近才注意到)已經開始過濾到統計討論中,因此偏度的原始含義有被模糊或淹沒的危險。
相關並不意味著一致
相關性在統計學中吸引了幾種精確的含義,它們的共同點是在某種精確的意義上完美的二元關係:主要情況是線性和單調關係。即使在統計討論中,它也經常被淡化為幾乎任何類型的關係或關聯。相關性不一定意味著一致:因此 $ y = a + bx $ 意味著 Pearson 相關性 $ 1 $ 或者 $ -1 $ 只要 $ b \ne 0 $ , 但協議 $ y = x $ 需要非常嚴格的條件 $ a =0, b= 1 $ .
獨特並不意味著不同
將 data 的不同值稱為unique是很常見的,但unique仍然可以更好地保留為僅出現一次的含義。我自己的猜測是,一些責任源於 Unix [原文如此] 實用程序
uniq
及其模仿者,它們將可能重複的值減少到一個集合,其中每個值都是唯一的。在這個猜測中,使用將程序的輸入和輸出混為一談。(相反,如果我們談論數據中的重複,我們很少將自己限制在恰好出現兩次的雙元上。術語複製在語言上會更有意義,但已被搶先在實驗中故意複製對照;得到的響應值通常完全不同,這很重要。)樣本很少重複
在統計學中,一個樣本包含多個值,重複抽樣是一種很高的理論美德,但很少實踐,除了模擬,這是我們對任何類型的silico偽造的習慣術語。在許多科學中,樣本是一個單一的物體,由水、土壤、沉積物、岩石、血液、組織或其他物質組成的塊、塊或團,從有吸引力到良性到噁心不等;遠非例外,採集許多樣本對於任何嚴肅的分析都可能是必不可少的。在這裡,每個領域的術語對其人民來說都非常有意義,但有時需要翻譯。
錯誤通常並不意味著錯誤;正如 Harold Jeffreys 所指出的,主要的感覺是不穩定的,而不是錯誤的。
然而,我們應該警惕自己的罪過或術語怪癖:
期望值或期望(對於可能結果的平均值)可能根本不是您所期望的,甚至可能是不可能的:在結果為 1 到 6 的情況下公平地擲骰子,期望值為 3.5
回歸不會倒退
靜止並不意味著不動或固定
自信與任何人的精神或心理狀態無關
意義只是有時它的日常意義
精確通常是一個敬語,指的是方便處理的解決方案或計算,而不是適合問題的解決方案或計算
許多人的右偏分佈看起來左偏,反之亦然(偏度的左右術語假設您正在查看類似於常規直方圖的東西,具有水平幅度軸)
之所以稱為對數正態,是因為它是指數正態
但對數正態比正態更正常
高斯分佈是由 De Moivre 發現的
泊松沒有發現泊松,更不用說泊松回歸了
引導程序不會幫助您穿鞋
折刀不切
峰度不是一種醫療狀況
莖葉圖不指植物
虛擬變量是有用的,不是毫無意義或愚蠢的
地球上(或其他任何地方)誰認為異方差性真的是比 不等可變性更可取的術語?
對於不同的群體,健壯現在至少有兩個主要的技術含義,即使在技術討論中,這兩種含義都不會阻止其頻繁使用,僅表示“斷言表現良好”之類的意思
IV現在對於不同的群體至少有兩個主要含義
factor現在對於不同的群體至少有兩個主要含義
normalize和standardize有無數種含義(我們確實需要在那裡進行標準化)
與描述圖表意味著垂直變量與水平變量,除非它意味著相反
並且(最後但並非最不重要的,創造一個短語)統計數據至少具有三個主要含義。
筆記:
- 儘管有任何相反的表現,但我認為這是一個很好的、嚴肅的問題。
- 時尚轉變。到了 20 世紀,似乎很多人(沒有名字,沒有練習,但可以提到 Karl Pearson)只能通過查閱他們的希臘語和拉丁語詞典來發明術語。(不把散點圖歸功於他是不公平的。)但是 RA Fisher 確實劫持了許多預先存在的英語單詞,包括方差、充分性、效率和可能性。最近,JW Tukey 是使用家常話的大師,但很少有人會因為sploms和badmandments沒有流行起來而感到苦惱。
- 一條評論基於對“生命是 […] 乘法而不是加法:對數正態分佈比正態分佈更正態”的回憶。匿名。1962. Bloggins 的工作規則。在 Good, IJ (Ed.)*中,這位科學家推測:部分成熟想法的選集。*倫敦:Heinemann,212-213(引自第 213 頁)。