太郎丸博 (京都大学)
2022/5/29
なお
\(Y\) という変数の母平均 \(\bar Y\) を推測したい。母集団から \(N\) 個の事例 \(i \; (i = 1, \; ..., \; N)\) を有意抽出する。これを \(M\) 回繰り返す。\(M\)は非常に大きい。\(j\) 番目の標本の \(Y\) の平均を \(\bar Y_j \; (j = 1, \; ..., \; M)\)、 \(j\) 番目の標本の \(i\) 番目の事例の \(Y\) の値を \(Y_{ij}\) とすると、 \[ \bar Y_j = \frac{\sum_{i=1}^N Y_{ij}}{N} \tag{2.1} \] である。また、有意標本誤差 \(\mathrm{s}(Y)\) は、 \[ \mathrm{s}(Y) =\sqrt{\frac{\sum_{j=1}^M \left( \bar Y_j - \bar Y \right) ^ 2}{M - 1}} \tag{2.2} \] と定義する。ここで証明したいのは以下の定理。
定理1: \(\mathrm{s}(aY)= |a| \times \mathrm{s}(Y) \qquad\)
\(Y\) を \(a\) 倍すると、その平均も \(a\) 倍になる。すなわち、 \[ \overline{aY} =a \times \bar{Y} \tag{2.3} \] である。同様に、 \[ \overline{a Y_j} = \frac{\sum_{i=1}^N a Y_{ij}}{N} = a \times \frac{\sum_{i=1}^N Y_{ij}}{N} = a \times \bar Y_j \tag{2.4} \] である。 それゆえ、以下のように \(Y\) を\(a\)倍すると、有意標本誤差も \(|a|\) 倍になる。 \[ \begin{array}{ll} \mathrm{s}(aY) &= \sqrt{\frac{\sum_{j=1}^M \left( \overline{aY_j} - \overline{ a Y} \right) ^ 2}{M - 1}} = \sqrt{\frac{\sum_{j=1}^M \left( a \times \overline{ Y_j} - a \times \overline{ Y} \right) ^ 2}{M - 1}}\\ &= \sqrt{\frac{ a ^2 \sum_{j=1}^M \left(\overline{ Y_j} - \overline{ Y} \right) ^ 2}{M - 1}} = |a| \sqrt{\frac{\sum_{j=1}^M \left(\overline{ Y_j} - \overline{ Y} \right) ^ 2}{M - 1}} = |a| \times \mathrm{s}(Y) \tag{2.5} \end{array} \]
以上で証明終わり。
変数 \(Y\) の平均が \(\bar Y\) である母集団でから抽出した \(j\) 番目の標本の \(i\) 番目の事例の \(Y\) の値を \(Y_{ij}\) とする。また、 \[ Y_{ij} = \bar Y + a + \epsilon_{ij} \tag{3.1} \] と仮定する。ただし、\(a\) は定数、\(\epsilon_{ij}\)は平均がゼロ、標準偏差が\(\sigma_{\epsilon_{ij}}\)、確率質量が \(p\) の離散確率変数で、independently and identically distributed (iid) だと仮定する。これらの仮定が満たされるとき、 \[ \mathrm{s}(Y) = \sqrt{a ^ 2 + \frac{\sigma^2_{\epsilon_{ij}}}{N}} \] である。
全国の25~34歳の事務職の月収の母平均が 19.7万円で、図1のように分布しているとする。有意抽出する際に収入の高い人ほど抽出しやすく (\(a =\) 6.9)、その際のばらつきは母標準偏差 (10.3) よりも大きい (\(\sigma_{\epsilon_{ij}} =\) 12.7)とする。このときサンプルサイズを増やしていくと標本平均がどのように変化するのか示したのが次のスライドのグラフである。
サンプルサイズが小さいと、もともと偏った抽出をしている上にさらに偶然母平均から離れてしまうことがあるため、有意標本誤差を大きくしてしまう。サンプルサイズが増えると偶然母平均に近い標本平均を得ることがなくなるかわりに、母平均\(+a\)よりも大きな標本平均を得ることも減るため、有意標本誤差を縮小させる。
PSの場合、(有意?)標本誤差は標準誤差に一致する。
標準誤差とは標本平均の標準偏差である。PSの場合、標本平均の期待値は母平均と一致する\(E(\bar Y_j) = \bar Y\)。これを式 (2.2) に代入すると、 \[ \mathrm{s}(Y) =\sqrt{\frac{\sum_{j=1}^M \left( \bar Y_j - E(\bar Y_j) \right) ^ 2}{M - 1}} \tag{2.5} \] だが、式 (2.5) は\(\bar Y_j\)の標準偏差、すなわち標準誤差に近似する。
以上で証明終わり。
\(Y_{ij}\) の期待値は、\(\bar Y + a\) だから、確率変数の標準偏差の定義より、標準偏差は \[ \sigma_{Y_{ij}}=\sqrt{\sum p \left(Y_{ij} - (\bar Y + a)\right) ^ 2} \] である。これに式 (3.1) を代入して、 \[ \sigma_{Y_{ij}}=\sqrt{\sum p (\bar Y + a + \epsilon_{ij} - \bar Y - a) ^ 2} = \sqrt{\sum p \epsilon_{ij} ^ 2} = \sigma_{\epsilon_{ij}} \tag{7.2} \] である。このとき標本平均 \(\bar Y_j\) の期待値は \(\bar Y + a\) なので、、 \[ \bar Y_j = \bar Y + a + r_j \tag{7.3} \] ただし、\(r_j\) は平均がゼロ、標準偏差が\(\sigma_{r_j}\)の正規分布に従う確率変数である。標準誤差の公式より、 \[ \sigma_{r_j} = \sigma_{\epsilon_{ij}}/\sqrt{N} \tag{7.4} \] である。
標本誤差は、式 (2.2) に式 (7.3)を代入して \[ \begin{align} \mathrm{s}(Y) & = \sqrt{\frac{\sum_{j=1}^M \left(\bar Y + a + r_j - \bar Y \right) ^ 2}{M - 1}} = \sqrt{\frac{\sum_{j=1}^M \left(a + r_j \right) ^ 2}{M - 1}} \\ & = \sqrt{\frac{\sum_{j=1}^M \left(a ^ 2 + 2 a r_j + r_j ^ 2 \right)}{M - 1}} = \sqrt{\frac{M a ^ 2}{M-1} + \frac{2 a \sum_{j=1}^M r_j}{M-1} + \frac{\sum_{j=1}^M r_j ^ 2 }{M - 1}} \tag{7.5} \end{align} \]
\(M/(M-1) \approx 1\)、\(r_j\) の期待値は 0 であるから、\(\sum_{j=1}^M r_j \approx 0\) である。また上の式の 3番めの項は \(r_j\) の分散 \(\sigma ^ 2_{r_j}\) であるが、式 (7.4) より \(\sigma ^ 2_{r_j} = \sigma ^ 2_{\epsilon_{ij}}/N\) だから、これらを上の式の三つの項にそれぞれ代入して、 \[ \mathrm{s}(Y) = \sqrt{a ^ 2 + 0 + \frac{\sigma^2_{\epsilon_{ij}}}{N}} = \sqrt{a ^ 2 + \frac{\sigma^2_{\epsilon_{ij}}}{N}} \tag{7.6} \] である。以上で証明終わり。