以下の条件を満たす、母平均の\(95\)%信頼区間を考える。
この問題を考えるにあたって、以下の性質を利用する。
- 確率変数\(X_1,X_2,\cdots,X_n\)は互いに独立で、平均\(μ\),分散\(σ^2\)の分布に従うとすると、標本平均\(\bar{X}=\displaystyle \frac{1}{n} \sum_{i=1}^{n}X_i\)について\(E(\bar{X})=μ\),\(V(\bar{X})=\displaystyle \frac{σ^2}{n}\)である。
- 母集団分布が平均\(μ\),分散\(σ^2\)の正規分布(各\(i\)で\(X_i~N(μ,σ^2)\))のとき、正規分布の再生性により\(n\)の大きさに関係なく、標本平均\(\bar{X}=\displaystyle \frac{1}{n} \sum_{i=1}^{n}X_i\)は平均\(μ\),分散\(\displaystyle \frac{σ^2}{n}\)の正規分布に従う。これを式で表すと、\(\bar{X}~N(μ,\displaystyle \frac{σ^2}{n})\)となる。
利用する性質①
利用する性質①「確率変数\(X_1,X_2,\cdots,X_n\)は互いに独立で、平均\(μ\),分散\(σ^2\)の分布に従うとすると、標本平均\(\bar{X}=\displaystyle \frac{1}{n} \sum_{i=1}^{n}X_i\)について\(E(\bar{X})=μ\),\(V(\bar{X})=\displaystyle \frac{σ^2}{n}\)である。」は、以下のように示すことができる。
\[
\begin{eqnarray}
E(\bar{X}) &=& \displaystyle E \left( \frac{X_1+X_2+\cdots+X_n}{n} \right) = \frac{1}{n} \times E(X_1+X_2+\cdots+X_n) \\
&=& \displaystyle \frac{1}{n} \times (E(X_1)+E(X_2)+\cdots+E(X_n)) = \frac{1}{n} \times (μ+μ+\cdots+μ) \\
&=& \frac{1}{n} \times nμ = μ \\
V(\bar{X}) &=& \displaystyle V \left( \frac{X_1+X_2+\cdots+X_n}{n} \right) = \frac{1}{n^2} \times V(X_1+X_2+\cdots+X_n) \\
&=& \displaystyle \frac{1}{n^2} \times (V(X_1)+V(X_2)+\cdots+V(X_n)) = \frac{1}{n^2} \times (σ^2+σ^2+\cdots+σ^2) \\
&=& \frac{1}{n^2} \times nσ^2 = \frac{σ^2}{n}
\end{eqnarray}
\]
上記計算には、\(E(X+Y)=E(X)+E(Y)\)と、確率変数\(X,Y\)が互いに独立である場合に\(V(X+Y)=V(X)+V(Y)\)であることを利用している。
これらの公式は、以下のサイトを参照のこと。
https://toketarou.com/expectation/
利用する性質②
利用する性質②「母集団分布が平均\(μ\),分散\(σ^2\)の正規分布(各\(i\)で\(X_i~N(μ,σ^2)\))のとき、正規分布の再生性により\(n\)の大きさに関係なく、標本平均\(\bar{X}=\displaystyle \frac{1}{n} \sum_{i=1}^{n}X_i\)は平均\(μ\),分散\(\displaystyle \frac{σ^2}{n}\)の正規分布に従う。これを式で表すと、\(\bar{X}~N(μ,\displaystyle \frac{σ^2}{n})\)となる。」は、以下に記載の「正規分布の再生性(\(n\)変数の場合)」を利用している。
母平均の\(95\)%信頼区間の手動計算
この記事の冒頭に記載した例題の、母平均の\(95\)%信頼区間を計算した結果は、以下の通り。
\[
\begin{eqnarray}
\bar{X} &=& \displaystyle \frac{1}{n}\sum_{i=1}^{n}X_i = \frac{1}{10}\sum_{i=1}^{10}X_i \\
&=& \frac{1}{10}(126 + 224 + 34 + 25 + 199 + 89 + 178 + 14 + 38 + 11) \\
&=& \displaystyle \frac{1}{10} \times 938 = 93.8 \\
V(\bar{X}) &=& \displaystyle \frac{σ^2}{n} = \frac{5560}{10} = 556
\end{eqnarray}
\]
\(\bar{X}~N(μ,\displaystyle \frac{σ^2}{n})\)で、\(95\)%の範囲内に収まる\(μ\)を算出するが、それを計算するには、\(\bar{X}\)を標準化した上で、標準正規分布表から算出する。
標準化と標準正規分布表については、それぞれ以下を参照のこと。
●標準化
●標準正規分布表
https://www.coronasha.co.jp/np/data/docs1/978-4-339-06128-4_2.pdf
\(\bar{X}\)を標準化すると、\(\displaystyle \frac{\bar{X}-μ}{\displaystyle \sqrt{\frac{σ^2}{n}}}\)となるので、これが標準正規分布\(N(0, 1)\)に従う。
\(\displaystyle \frac{\bar{X}-μ}{\displaystyle \sqrt{\frac{σ^2}{n}}}\)が\(95\)%の範囲内に収まるようにするには、
標準正規分布表より\(0.95÷2=0.4750\)となる\(z=1.96\)の値を読み取って、
\(-1.96 ≦ \displaystyle \frac{\bar{X}-μ}{\displaystyle \sqrt{\frac{σ^2}{n}}} ≦ 1.96\)となればよいので、
\(\bar{X}=93.8,\displaystyle \frac{σ^2}{n}=556\)を代入し計算すると、以下のようになる。
\[
\begin{eqnarray}
-1.96 &≦& \displaystyle \frac{93.8-μ}{\sqrt{556}} ≦ 1.96 \\
-1.96 \times \sqrt{556} &≦& 93.8 – μ ≦ 1.96 \times \sqrt{556} \\
-1.96 \times \sqrt{556} – 93.8 &≦& -μ ≦ 1.96 \times \sqrt{556} – 93.8 \\
1.96 \times \sqrt{556} + 93.8 &≧& μ ≧ -1.96 \times \sqrt{556} + 93.8 \\
-1.96 \times \sqrt{556} + 93.8 &≦& μ ≦ 1.96 \times \sqrt{556} + 93.8 \\
-1.96 \times 23.57965\cdots + 93.8 &≦& μ ≦ 1.96 \times 23.57965\cdots + 93.8
\end{eqnarray}
\]
上記計算を行い小数第二位を四捨五入すると、\(47.6 ≦ μ ≦ 140.0\)となる。
母平均の\(95\)%信頼区間のプログラムによる計算
この記事の冒頭に記載した例題の、母平均の\(95\)%信頼区間を計算した結果をプログラムで計算した結果は、以下の通り。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 | import numpy as np from scipy import stats # 無作為に選択した10都道府県のデータ(標本)とそのデータ数を表示 sample_mean_list = [126, 224, 34, 25, 199, 89, 178, 14, 38, 11] sample_mean_list_cnt = len(sample_mean_list) print("*** 無作為に選択した10都道府県のデータとそのデータ数、与えられた母分散 ***") print("無作為に選択した都道府県のデータ(標本):", sample_mean_list) print(f"無作為に選択した都道府県のデータ(標本)のデータ数:{sample_mean_list_cnt}") # 与えられた母分散を表示 population_variance = 5560 print(f"与えられた母分散:{population_variance}") print() # 無作為に選択した10都道府県のデータから、標本平均・標本分散を算出 sample_mean_list_mean = np.mean(sample_mean_list) sample_mean_list_var = population_variance / sample_mean_list_cnt print("*** 無作為に選択した10都道府県のデータから算出した、標本平均・標本分散 ***") print(f"標本平均:{sample_mean_list_mean}") print(f"標本分散:{sample_mean_list_var}") print() # 正規分布に従う95%信頼区間の母平均の下限値と上限値を求める # confidence:信頼係数、loc:標本平均・scale:標本の標準偏差 low, up = stats.norm.interval(confidence=0.95, loc=sample_mean_list_mean , scale=np.sqrt(sample_mean_list_var)) print("*** 正規分布に従う95%信頼区間の母平均の下限値~上限値 ***") print(f"下限値:{low}~上限値:{up}") |
要点まとめ
- 確率変数\(X_1,X_2,\cdots,X_n\)は互いに独立で、平均\(μ\),分散\(σ^2\)の分布に従うとすると、標本平均\(\bar{X}=\displaystyle \frac{1}{n} \sum_{i=1}^{n}X_i\)について\(E(\bar{X})=μ\),\(V(\bar{X})=\displaystyle \frac{σ^2}{n}\)である。
- 母集団分布が平均\(μ\),分散\(σ^2\)の正規分布(各\(i\)で\(X_i~N(μ,σ^2)\))のとき、正規分布の再生性により\(n\)の大きさに関係なく、標本平均\(\bar{X}=\displaystyle \frac{1}{n} \sum_{i=1}^{n}X_i\)は平均\(μ\),分散\(\displaystyle \frac{σ^2}{n}\)の正規分布に従う。これを式で表すと、\(\bar{X}~N(μ,\displaystyle \frac{σ^2}{n})\)となる。
- 母集団が正規分布に従い母分散が既知の場合、母平均の\(95\)%信頼区間を計算するには、標本平均\(\bar{X}=\displaystyle \frac{1}{n} \sum_{i=1}^{n}X_i\)を標準化し、\(\displaystyle \frac{\bar{X}-μ}{\displaystyle \sqrt{\frac{σ^2}{n}}}\)が\(-1.96\)以上\(1.96\)以下の範囲に収まる\(μ\)を計算すればよい。