学問的背景

サンプリング理論は無作為標本 (PS) が前提
しかし、多くの学問分野が有為標本を活用、例えば、
- 世界中のマウスから無作為抽出して実験に使う医者はいない
- 世界中の患者の中から無作為抽出して治験への協力を依頼する医者はいない
- 世界中のカブトムシから… 以下同様にいくらでも例は考えられる
有意標本 (NPS) の性質の理解は、それらの研究成果を理解する上で重要

着想の経緯

卒論ゼミで「何人インタビューすればいいんですか」と聞かれて誰も答えられない
質的研究の教科書を読むと「1事例でいい」とか「ケースバイケース」とか書かれている
- 一般化しなくていいなら一事例でもいいが、質的研究でも一般化したいことは多い
- 超レアな情報なら一事例でも貴重だが、そんな情報滅多に得られない
- 必要な標本サイズがケースバイケースなのは PS も同じだが、具体的にどんな場合にどれぐらいサイズがあると、どれぐらいの誤差が生じるのか知りたい

この研究の目的

母集団における平均値（以下、母平均と略称）を推測する際に、標本サイズと母集団での標準偏差（以下、母SDと略称）が有意標本誤差（NPSE, 後で定義）にどう影響するか明らかに。

なお

平均について成り立つ議論は比率についてもほぼ成り立つ
この議論はいわゆる質的・量的データの両方にあてはまるはず

私が主張したいこと

NPS でも有意標本誤差 (NPSE) は、母SD に比例
NPS でも強い仮定をおけば NPSE \(= \sqrt{a^2 + b/N}\)（PS (単純無作為抽出) の場合 \(a=0, \ b=\)母分散で標準誤差に一致) になると証明できる（\(a, \ b\) については時間があれば解説）

1 については次節で証明。
2 については有意標本でも independently and identically distributed (iid) という条件をつけて証明

2 有意標本誤差と母標準偏差の関係

架空例による直感的な解説

京都府の大卒職員の初任給と日本全体の事務職員の月収では、有意抽出時の誤差が小さいのは前者だろう。
下図のようにそれぞれの母集団で月収が分布する場合、府職員は誰を抽出しても大差ないデータが得られるが、全国の事務職だと人によって月収がだいぶ違うから

図1 京都府職員の大卒初任給と全国の事務職の月収の分布

有意標本誤差の定義と定理

\(Y\) という変数の母平均 \(\bar Y\) を推測したい。母集団から \(N\) 個の事例 \(i \; (i = 1, \; ..., \; N)\) を有意抽出する。これを \(M\) 回繰り返す。\(M\)は非常に大きい。\(j\) 番目の標本の \(Y\) の平均を \(\bar Y_j \; (j = 1, \; ..., \; M)\)、 \(j\) 番目の標本の \(i\) 番目の事例の \(Y\) の値を \(Y_{ij}\) とすると、 \[ \bar Y_j = \frac{\sum_{i=1}^N Y_{ij}}{N} \tag{2.1} \] である。また、有意標本誤差 \(\mathrm{s}(Y)\) は、 \[ \mathrm{s}(Y) =\sqrt{\frac{\sum_{j=1}^M \left( \bar Y_j - \bar Y \right) ^ 2}{M - 1}} \tag{2.2} \] と定義する。ここで証明したいのは以下の定理。

定理1: \(\mathrm{s}(aY)= |a| \times \mathrm{s}(Y) \qquad\)

図解（図2）

同じサイズの有意標本をたくさん作って、それぞれの標本平均を計算し、標本平均と母平均の差の平均的な大きさが有意標本誤差。
無作為標本の場合の標準誤差を有意標本に一般化したのが有意標本誤差

image figure

定理１の証明 skip

\(Y\) を \(a\) 倍すると、その平均も \(a\) 倍になる。すなわち、 \[ \overline{aY} =a \times \bar{Y} \tag{2.3} \] である。同様に、 \[ \overline{a Y_j} = \frac{\sum_{i=1}^N a Y_{ij}}{N} = a \times \frac{\sum_{i=1}^N Y_{ij}}{N} = a \times \bar Y_j \tag{2.4} \] である。それゆえ、以下のように \(Y\) を\(a\)倍すると、有意標本誤差も \(|a|\) 倍になる。 \[ \begin{array}{ll} \mathrm{s}(aY) &= \sqrt{\frac{\sum_{j=1}^M \left( \overline{aY_j} - \overline{ a Y} \right) ^ 2}{M - 1}} = \sqrt{\frac{\sum_{j=1}^M \left( a \times \overline{ Y_j} - a \times \overline{ Y} \right) ^ 2}{M - 1}}\\ &= \sqrt{\frac{ a ^2 \sum_{j=1}^M \left(\overline{ Y_j} - \overline{ Y} \right) ^ 2}{M - 1}} = |a| \sqrt{\frac{\sum_{j=1}^M \left(\overline{ Y_j} - \overline{ Y} \right) ^ 2}{M - 1}} = |a| \times \mathrm{s}(Y) \tag{2.5} \end{array} \]

以上で証明終わり。

定理1 の含意

\(aY\) の母SD は、\(Y\) の母SD の \(a\) 倍だから、注目している変数の母集団でのばらつきが小さいほど、有意標本誤差も小さくなると考えてよい
内部での多様性が小さい集団に焦点を当てるほど、標本誤差は小さくなると期待できる。例えば、内閣支持率を研究する場合、日本人一般 \(>\) 日本の文学部の教員 \(>\) 京大文学部の教員
NPS による少数事例の研究からの一般化は、母SD が小さいほど説得力を増す

3 有意標本とサンプル・サイズ

定理2

変数 \(Y\) の平均が \(\bar Y\) である母集団でから抽出した \(j\) 番目の標本の \(i\) 番目の事例の \(Y\) の値を \(Y_{ij}\) とする。また、 \[ Y_{ij} = \bar Y + a + \epsilon_{ij} \tag{3.1} \] と仮定する。ただし、\(a\) は定数、\(\epsilon_{ij}\)は平均がゼロ、標準偏差が\(\sigma_{\epsilon_{ij}}\)、確率質量が \(p\) の離散確率変数で、independently and identically distributed (iid) だと仮定する。これらの仮定が満たされるとき、 \[ \mathrm{s}(Y) = \sqrt{a ^ 2 + \frac{\sigma^2_{\epsilon_{ij}}}{N}} \] である。

定理2の例示：シミュレーションの説明（図3）

全国の25～34歳の事務職の月収の母平均が 19.7万円で、図1のように分布しているとする。有意抽出する際に収入の高い人ほど抽出しやすく (\(a =\) 6.9)、その際のばらつきは母標準偏差 (10.3) よりも大きい（\(\sigma_{\epsilon_{ij}} =\) 12.7)とする。このときサンプルサイズを増やしていくと標本平均がどのように変化するのか示したのが次のスライドのグラフである。

定理の例示：シミュレーションの結果（図4）

サンプルサイズが小さいと、もともと偏った抽出をしている上にさらに偶然母平均から離れてしまうことがあるため、有意標本誤差を大きくしてしまう。サンプルサイズが増えると偶然母平均に近い標本平均を得ることがなくなるかわりに、母平均\(+a\)よりも大きな標本平均を得ることも減るため、有意標本誤差を縮小させる。

定理2の含意・議論

\(N\)が大きくなるほど有意標本誤差は小さくなるが、これはこの概念をどう定義するかに依存する。例えば、以下のように定義すると定理2は成り立たないと思う。 \[ \mathrm{s}(Y) = \frac{\sum_{j=1}^M \left| \bar Y_j - \bar Y \right|}{M - 1} \tag{3} \]
無作為抽出と比較したときの有意標本誤差の大きさは、\(|a|\)と\(\sigma_{\epsilon_{ij}}\)に依存するので一概には言えない。
無作為標本の場合、\(a=0\)、\(\sigma_{\epsilon_{ij}}=\sigma_Y\)である。
ふつうの有意抽出の場合、\(a=0\) を実現するのは困難であり、むやみに \(\sigma_{\epsilon_{ij}}\) を小さくしようとするのも得策とは言えない。似たような事例をわざと集めれば、\(\sigma_{\epsilon_{ij}}\) は小さくなるが、\(|a|\) が大きくなってしまう恐れがある。
しかし、繰り返すが母SD がほぼゼロなら偏った少数の事例からの推測でも標本誤差はほぼゼロになる。

おまけ : PSの（有意？）標本誤差 skip

定理3

PSの場合、（有意？）標本誤差は標準誤差に一致する。

証明

標準誤差とは標本平均の標準偏差である。PSの場合、標本平均の期待値は母平均と一致する\(E(\bar Y_j) = \bar Y\)。これを式 (2.2) に代入すると、 \[ \mathrm{s}(Y) =\sqrt{\frac{\sum_{j=1}^M \left( \bar Y_j - E(\bar Y_j) \right) ^ 2}{M - 1}} \tag{2.5} \] だが、式 (2.5) は\(\bar Y_j\)の標準偏差、すなわち標準誤差に近似する。

以上で証明終わり。

4 まとめと議論

まとめ

NPS でも母分散が小さいほど有意標本誤差は小さくなる
iid を仮定すればサンプルサイズが大きいほど有意標本誤差は小さくなる

議論

繰り返すが、標本への一般化が目的とは限らないし、一事例でも貴重な情報はある。何が研究の目的かはっきりさせるべき
質的研究では、初期に得た情報をもとに母集団の範囲を変更させたり、分類の仕方を変更するのが一般的？
また、研究対象に対する十分な知識があれば、母集団を母SDの小さいグループに分類し、その分類ごとに平均を計算することもできよう。
- 例えばA社における従業員のスーツ着用率が職種によって大きく異なることがわかれば、職種別にスーツ着用率を調べればよい。

定理2の証明

\(Y_{ij}\) の期待値は、\(\bar Y + a\) だから、確率変数の標準偏差の定義より、標準偏差は \[ \sigma_{Y_{ij}}=\sqrt{\sum p \left(Y_{ij} - (\bar Y + a)\right) ^ 2} \] である。これに式 (3.1) を代入して、 \[ \sigma_{Y_{ij}}=\sqrt{\sum p (\bar Y + a + \epsilon_{ij} - \bar Y - a) ^ 2} = \sqrt{\sum p \epsilon_{ij} ^ 2} = \sigma_{\epsilon_{ij}} \tag{7.2} \] である。このとき標本平均 \(\bar Y_j\) の期待値は \(\bar Y + a\) なので、、 \[ \bar Y_j = \bar Y + a + r_j \tag{7.3} \] ただし、\(r_j\) は平均がゼロ、標準偏差が\(\sigma_{r_j}\)の正規分布に従う確率変数である。標準誤差の公式より、 \[ \sigma_{r_j} = \sigma_{\epsilon_{ij}}/\sqrt{N} \tag{7.4} \] である。

標本誤差は、式 (2.2) に式 (7.3)を代入して \[ \begin{align} \mathrm{s}(Y) & = \sqrt{\frac{\sum_{j=1}^M \left(\bar Y + a + r_j - \bar Y \right) ^ 2}{M - 1}} = \sqrt{\frac{\sum_{j=1}^M \left(a + r_j \right) ^ 2}{M - 1}} \\ & = \sqrt{\frac{\sum_{j=1}^M \left(a ^ 2 + 2 a r_j + r_j ^ 2 \right)}{M - 1}} = \sqrt{\frac{M a ^ 2}{M-1} + \frac{2 a \sum_{j=1}^M r_j}{M-1} + \frac{\sum_{j=1}^M r_j ^ 2 }{M - 1}} \tag{7.5} \end{align} \]

\(M/(M-1) \approx 1\)、\(r_j\) の期待値は 0 であるから、\(\sum_{j=1}^M r_j \approx 0\) である。また上の式の 3番めの項は \(r_j\) の分散 \(\sigma ^ 2_{r_j}\) であるが、式 (7.4) より \(\sigma ^ 2_{r_j} = \sigma ^ 2_{\epsilon_{ij}}/N\) だから、これらを上の式の三つの項にそれぞれ代入して、 \[ \mathrm{s}(Y) = \sqrt{a ^ 2 + 0 + \frac{\sigma^2_{\epsilon_{ij}}}{N}} = \sqrt{a ^ 2 + \frac{\sigma^2_{\epsilon_{ij}}}{N}} \tag{7.6} \] である。以上で証明終わり。

どのような場合に有意標本からの一般化は説得力を持つか

1 問題：有意標本の性質

学問的背景

着想の経緯

この研究の目的

私が主張したいこと

2 有意標本誤差と母標準偏差の関係

架空例による直感的な解説

有意標本誤差の定義と定理

図解（図2）

定理１の証明 skip

定理1 の含意

3 有意標本とサンプル・サイズ

定理2

定理2の例示：シミュレーションの説明（図3）

定理の例示：シミュレーションの結果（図4）

定理2の含意・議論

おまけ : PSの（有意？）標本誤差 skip

定理3

証明

4 まとめと議論

まとめ

議論

補論

定理2の証明