重新加權美國社區調查多樣性數據將如何影響其誤差範圍？

January 10, 2014

背景：我的組織目前根據美國社區調查（美國人口普查局的一項調查項目）將其勞動力多樣性統計數據（例如，殘疾人百分比、女性百分比、退伍軍人百分比）與這些群體的總勞動力可用性進行比較。這是一個不准確的基準，因為我們有一組非常具體的工作，其人口統計數據與整體勞動力不同。例如，假設我的組織主要是工程師。在我所在的州，工程學只有大約 20% 的女性。如果我們將自己與總勞動力基準相比，更像是 50% 的女性，會導致恐慌，“我們只有 20% 的女性，這是一場災難！” 事實上，20% 是我們應該期待的，因為這就是勞動力格局的樣子。

我的目標：我想做的是獲取美國社區調查的職業數據（按多樣性類別），並根據我的業務中的工作構成重新加權。這是社會和社區服務工作者的樣本數據集。我想將列出的這些工作代碼加在一起（因為我們的人行橫道是針對工作組，而不是針對特定工作代碼），然後我想根據我們在該類別中的人數（例如我們的 3,000 社交和社區服務人員），然後我想對所有其他工作組做同樣的事情，將這些數字加在一起，然後除以我們的工人總數。這將給我一個新的重新加權多樣性衡量標準（例如，從 6% 的殘疾人到 2% 的殘疾人）。

我的問題：我如何將誤差範圍擬合到這個最終匯總的基準？我沒有原始人口普查數據集（顯然），但您可以通過將表格頂部的“估計”字段切換到“誤差範圍”來查看我提供的鏈接中每個數字的誤差範圍。我正在處理這些數據的其他同事完全打算忽略誤差範圍，但我擔心我們正在為自己創建一個在統計上毫無意義的基準。經過上述操作後，這些數據是否仍然可用？

2014-01-15 更新

我意識到我沒有回答 Danica 最初的問題，即禁用的間接調整比例的誤差範圍是大於還是小於 ACS 中相同比率的誤差範圍。答案是：如果公司類別比例與州 ACS 比例沒有太大差異，則下面給出的誤差範圍將小於 ACS 誤差範圍。原因：間接率將組織工作類別的人數（或相對比例）視為固定數字。實際上，ACS 對禁用比例的估計需要對這些比例進行估計，並且誤差幅度將增加以反映這一點。

為了說明，將禁用率寫為：

在哪裡是類別中的估計殘疾率在 ACS 中。

另一方面，ACS 估計率實際上是：

在哪裡和分別是人口類別和總體總數，是類別中的人口比例.

因此，ACS 率的標準誤差會更大，因為需要估計此外.

如果組織類別比例和人口估計比例相差很大，那麼很可能. 在我構建的兩個類別示例中，類別按比例表示和. 估計禁用比例的標準誤為.

如果我認為 0.7345 和 0.2655 是固定值和（間接調整法），，小多了。如果相反，和, , 大致相同在極端和,. 如果組織和人口類別的比例差異如此之大，我會感到驚訝。如果他們不這樣做，我認為使用 ACS 誤差範圍作為對真實誤差範圍的保守估計是安全的，可能非常保守。

2014-01-14 更新

簡短的回答

在我看來，在沒有 CI 或誤差範圍（CI 長度的一半）的情況下呈現這樣的統計數據是不負責任的。要計算這些，您需要下載並分析 ACS 公用微數據樣本 (PUMS) ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ )。

長答案

這實際上並不是對 ACS 的重新加權。它是間接標準化的一個版本，是流行病學中的標準程序（谷歌或查看任何 Epi 文本）。在這種情況下，州 ACS 工作（類別）殘疾率由組織工作類別員工人數加權。這將計算組織中的預期殘障人數E，可以將其與觀察到的人數進行比較O。比較的常用指標是標準化比率R= (O/E)。（通常的術語是“SMR”，表示“標準化死亡率”，但這裡的“結果”是殘疾。）。R也是觀察到的殘疾率(O/n)與間接標準化率的比值(E/n)，其中n是組織的員工人數。

在這種情況下，似乎只需要Eor的 CI E/n，所以我將從以下開始：

如果
n_i = the organization employee count in job category i

p_i = disability rate for job category i in the ACS
然後
E = sum (n_i p_i)
的方差E為：
var(E) = nn' V nn
其中nn是組織類別計數的列向量，V是 ACS 類別殘疾率的估計方差-協方差矩陣。

此外，瑣碎， se(E) = sqrt(var(E))和se(E/n) = se(E)/n。

E 的 90% CI 是
 E ± 1.645 SE(E)
除以n得到的 CI E/n。

要進行估算var(E)，您需要下載和分析 ACS 公用微數據樣本 (PUMS) 數據 ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ )。

我只能說var(E)Stata中的計算過程。由於我不知道您是否可以使用，我將推遲詳細信息。然而，了解 R 或（可能）SAS 的調查能力的人也可以提供上述等式的代碼。

比率的置信區間R

的置信區間R通常基於的泊松假設O，但該假設可能不正確。

我們可以考慮O和E是獨立的，所以
log R = log(O) - log(E) ->

var(log R) = var(log O) + var(log(E))
var(log(E))可以在計算之後再計算一個 Stata 步驟var(E)。

在泊松獨立假設下：
var(log O) ~ 1/E(O).
像 Stata 這樣的程序可以擬合負二項式模型或廣義線性模型，並為您提供更準確的方差項。

大約 90% CIlog R為
log R ± 1.645 sqrt(var(log R))
並且端點可以取冪以獲得R.

引用自：https://stats.stackexchange.com/questions/81885

comments powered by Disqus

重新加權美國社區調查多樣性數據將如何影響其誤差範圍？

2014-01-15 更新

2014-01-14 更新

相關問答

指數分佈的隨機變量的指數分佈？

採樣自𝑥2𝜙(𝑥)X2φ(X)x^2phi(x)?

現實世界問題中的隨機抽樣和獨立性

如果非隨機樣本與隨機樣本相同怎麼辦？

為什麼對數概率有用？

為什麼簡單隨機抽樣需要“排序”[關閉]