どのような場合に有意標本からの一般化は説得力を持つか

太郎丸博 (京都大学)

2022/5/29

1 問題:有意標本の性質

学問的背景

着想の経緯

この研究の目的

なお

私が主張したいこと

  1. NPS でも有意標本誤差 (NPSE) は、母SD に比例
  2. NPS でも強い仮定をおけば NPSE \(= \sqrt{a^2 + b/N}\)(PS (単純無作為抽出) の場合 \(a=0, \ b=\)母分散で標準誤差に一致) になると証明できる(\(a, \ b\) については時間があれば解説)

2 有意標本誤差と母標準偏差の関係

架空例による直感的な解説

有意標本誤差の定義と定理

\(Y\) という変数の母平均 \(\bar Y\) を推測したい。母集団から \(N\) 個の事例 \(i \; (i = 1, \; ..., \; N)\) を有意抽出する。これを \(M\) 回繰り返す。\(M\)は非常に大きい。\(j\) 番目の標本の \(Y\) の平均を \(\bar Y_j \; (j = 1, \; ..., \; M)\)\(j\) 番目の標本の \(i\) 番目の事例の \(Y\) の値を \(Y_{ij}\) とすると、 \[ \bar Y_j = \frac{\sum_{i=1}^N Y_{ij}}{N} \tag{2.1} \] である。また、有意標本誤差 \(\mathrm{s}(Y)\) は、 \[ \mathrm{s}(Y) =\sqrt{\frac{\sum_{j=1}^M \left( \bar Y_j - \bar Y \right) ^ 2}{M - 1}} \tag{2.2} \] と定義する。ここで証明したいのは以下の定理。

定理1: \(\mathrm{s}(aY)= |a| \times \mathrm{s}(Y) \qquad\)

図解(図2)

image figure

定理1の証明 skip

\(Y\)\(a\) 倍すると、その平均も \(a\) 倍になる。すなわち、 \[ \overline{aY} =a \times \bar{Y} \tag{2.3} \] である。同様に、 \[ \overline{a Y_j} = \frac{\sum_{i=1}^N a Y_{ij}}{N} = a \times \frac{\sum_{i=1}^N Y_{ij}}{N} = a \times \bar Y_j \tag{2.4} \] である。 それゆえ、以下のように \(Y\)\(a\)倍すると、有意標本誤差も \(|a|\) 倍になる。 \[ \begin{array}{ll} \mathrm{s}(aY) &= \sqrt{\frac{\sum_{j=1}^M \left( \overline{aY_j} - \overline{ a Y} \right) ^ 2}{M - 1}} = \sqrt{\frac{\sum_{j=1}^M \left( a \times \overline{ Y_j} - a \times \overline{ Y} \right) ^ 2}{M - 1}}\\ &= \sqrt{\frac{ a ^2 \sum_{j=1}^M \left(\overline{ Y_j} - \overline{ Y} \right) ^ 2}{M - 1}} = |a| \sqrt{\frac{\sum_{j=1}^M \left(\overline{ Y_j} - \overline{ Y} \right) ^ 2}{M - 1}} = |a| \times \mathrm{s}(Y) \tag{2.5} \end{array} \]

以上で証明終わり。

定理1 の含意

3 有意標本とサンプル・サイズ

定理2

変数 \(Y\) の平均が \(\bar Y\) である母集団でから抽出した \(j\) 番目の標本の \(i\) 番目の事例の \(Y\) の値を \(Y_{ij}\) とする。また、 \[ Y_{ij} = \bar Y + a + \epsilon_{ij} \tag{3.1} \] と仮定する。ただし、\(a\) は定数、\(\epsilon_{ij}\)は平均がゼロ、標準偏差が\(\sigma_{\epsilon_{ij}}\)、確率質量が \(p\) の離散確率変数で、independently and identically distributed (iid) だと仮定する。これらの仮定が満たされるとき、 \[ \mathrm{s}(Y) = \sqrt{a ^ 2 + \frac{\sigma^2_{\epsilon_{ij}}}{N}} \] である。

定理2の例示:シミュレーションの説明(図3)

全国の25~34歳の事務職の月収の母平均が 19.7万円で、図1のように分布しているとする。有意抽出する際に収入の高い人ほど抽出しやすく (\(a =\) 6.9)、その際のばらつきは母標準偏差 (10.3) よりも大きい (\(\sigma_{\epsilon_{ij}} =\) 12.7)とする。このときサンプルサイズを増やしていくと標本平均がどのように変化するのか示したのが次のスライドのグラフである。

定理の例示:シミュレーションの結果(図4)

サンプルサイズが小さいと、もともと偏った抽出をしている上にさらに偶然母平均から離れてしまうことがあるため、有意標本誤差を大きくしてしまう。サンプルサイズが増えると偶然母平均に近い標本平均を得ることがなくなるかわりに、母平均\(+a\)よりも大きな標本平均を得ることも減るため、有意標本誤差を縮小させる。

定理2の含意・議論

おまけ : PSの(有意?)標本誤差 skip

定理3

PSの場合、(有意?)標本誤差は標準誤差に一致する。

証明

標準誤差とは標本平均の標準偏差である。PSの場合、標本平均の期待値は母平均と一致する\(E(\bar Y_j) = \bar Y\)。これを式 (2.2) に代入すると、 \[ \mathrm{s}(Y) =\sqrt{\frac{\sum_{j=1}^M \left( \bar Y_j - E(\bar Y_j) \right) ^ 2}{M - 1}} \tag{2.5} \] だが、式 (2.5) は\(\bar Y_j\)の標準偏差、すなわち標準誤差に近似する。

以上で証明終わり。

4 まとめと議論

まとめ

議論

補論

定理2の証明

\(Y_{ij}\) の期待値は、\(\bar Y + a\) だから、確率変数の標準偏差の定義より、標準偏差は \[ \sigma_{Y_{ij}}=\sqrt{\sum p \left(Y_{ij} - (\bar Y + a)\right) ^ 2} \] である。これに式 (3.1) を代入して、 \[ \sigma_{Y_{ij}}=\sqrt{\sum p (\bar Y + a + \epsilon_{ij} - \bar Y - a) ^ 2} = \sqrt{\sum p \epsilon_{ij} ^ 2} = \sigma_{\epsilon_{ij}} \tag{7.2} \] である。このとき標本平均 \(\bar Y_j\) の期待値は \(\bar Y + a\) なので、、 \[ \bar Y_j = \bar Y + a + r_j \tag{7.3} \] ただし、\(r_j\) は平均がゼロ、標準偏差が\(\sigma_{r_j}\)の正規分布に従う確率変数である。標準誤差の公式より、 \[ \sigma_{r_j} = \sigma_{\epsilon_{ij}}/\sqrt{N} \tag{7.4} \] である。

標本誤差は、式 (2.2) に式 (7.3)を代入して \[ \begin{align} \mathrm{s}(Y) & = \sqrt{\frac{\sum_{j=1}^M \left(\bar Y + a + r_j - \bar Y \right) ^ 2}{M - 1}} = \sqrt{\frac{\sum_{j=1}^M \left(a + r_j \right) ^ 2}{M - 1}} \\ & = \sqrt{\frac{\sum_{j=1}^M \left(a ^ 2 + 2 a r_j + r_j ^ 2 \right)}{M - 1}} = \sqrt{\frac{M a ^ 2}{M-1} + \frac{2 a \sum_{j=1}^M r_j}{M-1} + \frac{\sum_{j=1}^M r_j ^ 2 }{M - 1}} \tag{7.5} \end{align} \]

\(M/(M-1) \approx 1\)\(r_j\) の期待値は 0 であるから、\(\sum_{j=1}^M r_j \approx 0\) である。また上の式の 3番めの項は \(r_j\) の分散 \(\sigma ^ 2_{r_j}\) であるが、式 (7.4) より \(\sigma ^ 2_{r_j} = \sigma ^ 2_{\epsilon_{ij}}/N\) だから、これらを上の式の三つの項にそれぞれ代入して、 \[ \mathrm{s}(Y) = \sqrt{a ^ 2 + 0 + \frac{\sigma^2_{\epsilon_{ij}}}{N}} = \sqrt{a ^ 2 + \frac{\sigma^2_{\epsilon_{ij}}}{N}} \tag{7.6} \] である。以上で証明終わり。

inserted by FC2 system