Confidence-Interval

重新加權美國社區調查多樣性數據將如何影響其誤差範圍?

  • January 10, 2014

背景:我的組織目前根據美國社區調查(美國人口普查局的一項調查項目)將其勞動力多樣性統計數據(例如,殘疾人百分比、女性百分比、退伍軍人百分比)與這些群體的總勞動力可用性進行比較。這是一個不准確的基準,因為我們有一組非常具體的工作,其人口統計數據與整體勞動力不同。例如,假設我的組織主要是工程師。在我所在的州,工程學只有大約 20% 的女性。如果我們將自己與總勞動力基準相比,更像是 50% 的女性,會導致恐慌,“我們只有 20% 的女性,這是一場災難!” 事實上,20% 是我們應該期待的,因為這就是勞動力格局的樣子。

我的目標:我想做的是獲取美國社區調查的職業數據(按多樣性類別),並根據我的業務中的工作構成重新加權。這是社會和社區服務工作者的樣本數據集。我想將列出的這些工作代碼加在一起(因為我們的人行橫道是針對工作組,而不是針對特定工作代碼),然後我想根據我們在該類別中的人數(例如我們的 3,000 社交和社區服務人員),然後我想對所有其他工作組做同樣的事情,將這些數字加在一起,然後除以我們的工人總數。這將給我一個新的重新加權多樣性衡量標準(例如,從 6% 的殘疾人到 2% 的殘疾人)。

我的問題:我如何將誤差範圍擬合到這個最終匯總的基準?我沒有原始人口普查數據集(顯然),但您可以通過將表格頂部的“估計”字段切換到“誤差範圍”來查看我提供的鏈接中每個數字的誤差範圍。我正在處理這些數據的其他同事完全打算忽略誤差範圍,但我擔心我們正在為自己創建一個在統計上毫無意義的基準。經過上述操作後,這些數據是否仍然可用?

2014-01-15 更新

我意識到我沒有回答 Danica 最初的問題,即禁用的間接調整比例的誤差範圍是大於還是小於 ACS 中相同比率的誤差範圍。答案是:如果公司類別比例與州 ACS 比例沒有太大差異,則下面給出的誤差範圍將小於 ACS 誤差範圍。原因:間接率將組織工作類別的人數(或相對比例)視為固定數字。實際上,ACS 對禁用比例的估計需要對這些比例進行估計,並且誤差幅度將增加以反映這一點。

為了說明,將禁用率寫為:

在哪裡是類別中的估計殘疾率在 ACS 中。

另一方面,ACS 估計率實際上是:

在哪裡和分別是人口類別和總體總數, 是類別中的人口比例.

因此,ACS 率的標準誤差會更大,因為需要估計此外.

如果組織類別比例和人口估計比例相差很大,那麼很可能. 在我構建的兩個類別示例中,類別按比例表示和. 估計禁用比例的標準誤為.

如果我認為 0.7345 和 0.2655 是固定值和(間接調整法),, 小多了。如果相反,和, , 大致相同 在極端和,. 如果組織和人口類別的比例差異如此之大,我會感到驚訝。如果他們不這樣做,我認為使用 ACS 誤差範圍作為對真實誤差範圍的保守估計是安全的,可能非常保守。

2014-01-14 更新

簡短的回答

在我看來,在沒有 CI 或誤差範圍(CI 長度的一半)的情況下呈現這樣的統計數據是不負責任的。要計算這些,您需要下載並分析 ACS 公用微數據樣本 (PUMS) ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ )。

長答案

這實際上並不是對 ACS 的重新加權。它是間接標準化的一個版本,是流行病學中的標準程序(谷歌或查看任何 Epi 文本)。在這種情況下,州 ACS 工作(類別)殘疾率由組織工作類別員工人數加權。這將計算組織中的預期殘障人數E,可以將其與觀察到的人數進行比較O。比較的常用指標是標準化比率R= (O/E)。(通常的術語是“SMR”,表示“標準化死亡率”,但這裡的“結果”是殘疾。)。R也是觀察到的殘疾率(O/n)與間接標準化率的比值(E/n),其中n是組織的員工人數。

在這種情況下,似乎只需要Eor的 CI E/n,所以我將從以下開始:

如果

n_i = the organization employee count in job category i

p_i = disability rate for job category i in the ACS

然後

E = sum (n_i p_i)

的方差E為:

var(E) = nn' V nn

其中nn是組織類別計數的列向量,V是 ACS 類別殘疾率的估計方差-協方差矩陣。

此外,瑣碎, se(E) = sqrt(var(E))se(E/n) = se(E)/n

E 的 90% CI 是

 E ± 1.645 SE(E)

除以n得到 的 CI E/n

要進行估算var(E),您需要下載和分析 ACS 公用微數據樣本 (PUMS) 數據 ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ )。

我只能說var(E)Stata中的計算過程。由於我不知道您是否可以使用,我將推遲詳細信息。然而,了解 R 或(可能)SAS 的調查能力的人也可以提供上述等式的代碼。

比率的置信區間R

的置信區間R通常基於 的泊松假設O,但該假設可能不正確。

我們可以考慮OE是獨立的,所以

log R = log(O) - log(E) ->

var(log R) = var(log O) + var(log(E))

var(log(E))可以在計算 之後再計算一個 Stata 步驟var(E)

在泊松獨立假設下:

var(log O) ~ 1/E(O).

像 Stata 這樣的程序可以擬合負二項式模型或廣義線性模型,並為您提供更準確的方差項。

大約 90% CIlog R

log R ± 1.645 sqrt(var(log R))

並且端點可以取冪以獲得R.

引用自:https://stats.stackexchange.com/questions/81885

comments powered by Disqus