母集団が正規分布に従い母分散が既知の場合の区間推定で母平均を求めてみた

以下の条件を満たす、母平均の\(95\)%信頼区間を考える。

出所：統計WEB_母平均の信頼区間の求め方(母分散既知)

この問題を考えるにあたって、以下の性質を利用する。

確率変数\(X_1,X_2,\cdots,X_n\)は互いに独立で、平均\(μ\),分散\(σ^2\)の分布に従うとすると、標本平均\(\bar{X}=\displaystyle \frac{1}{n} \sum_{i=1}^{n}X_i\)について\(E(\bar{X})=μ\),\(V(\bar{X})=\displaystyle \frac{σ^2}{n}\)である。
母集団分布が平均\(μ\),分散\(σ^2\)の正規分布(各\(i\)で\(X_i～N(μ,σ^2)\))のとき、正規分布の再生性により\(n\)の大きさに関係なく、標本平均\(\bar{X}=\displaystyle \frac{1}{n} \sum_{i=1}^{n}X_i\)は平均\(μ\),分散\(\displaystyle \frac{σ^2}{n}\)の正規分布に従う。これを式で表すと、\(\bar{X}～N(μ,\displaystyle \frac{σ^2}{n})\)となる。

利用する性質①

利用する性質①「確率変数\(X_1,X_2,\cdots,X_n\)は互いに独立で、平均\(μ\),分散\(σ^2\)の分布に従うとすると、標本平均\(\bar{X}=\displaystyle \frac{1}{n} \sum_{i=1}^{n}X_i\)について\(E(\bar{X})=μ\),\(V(\bar{X})=\displaystyle \frac{σ^2}{n}\)である。」は、以下のように示すことができる。
\[
\begin{eqnarray}
E(\bar{X}) &=& \displaystyle E \left( \frac{X_1+X_2+\cdots+X_n}{n} \right) = \frac{1}{n} \times E(X_1+X_2+\cdots+X_n) \\
&=& \displaystyle \frac{1}{n} \times (E(X_1)+E(X_2)+\cdots+E(X_n)) = \frac{1}{n} \times (μ+μ+\cdots+μ) \\
&=& \frac{1}{n} \times nμ = μ \\
V(\bar{X}) &=& \displaystyle V \left( \frac{X_1+X_2+\cdots+X_n}{n} \right) = \frac{1}{n^2} \times V(X_1+X_2+\cdots+X_n) \\
&=& \displaystyle \frac{1}{n^2} \times (V(X_1)+V(X_2)+\cdots+V(X_n)) = \frac{1}{n^2} \times (σ^2+σ^2+\cdots+σ^2) \\
&=& \frac{1}{n^2} \times nσ^2 = \frac{σ^2}{n}
\end{eqnarray}
\]

上記計算には、\(E(X+Y)=E(X)+E(Y)\)と、確率変数\(X,Y\)が互いに独立である場合に\(V(X+Y)=V(X)+V(Y)\)であることを利用している。

これらの公式は、以下のサイトを参照のこと。
https://toketarou.com/expectation/

利用する性質②

利用する性質②「母集団分布が平均\(μ\),分散\(σ^2\)の正規分布(各\(i\)で\(X_i～N(μ,σ^2)\))のとき、正規分布の再生性により\(n\)の大きさに関係なく、標本平均\(\bar{X}=\displaystyle \frac{1}{n} \sum_{i=1}^{n}X_i\)は平均\(μ\),分散\(\displaystyle \frac{σ^2}{n}\)の正規分布に従う。これを式で表すと、\(\bar{X}～N(μ,\displaystyle \frac{σ^2}{n})\)となる。」は、以下に記載の「正規分布の再生性(\(n\)変数の場合)」を利用している。

出所：正規分布の再生性(n変数の場合)

「Envader」はLinuxコマンドやDatabase SQL等のスキルを、環境構築不要で習得できる学習サイトだった「Envader」は、ITエンジニアとしてよく使うLinuxコマンドやDatabase SQL等のスキルを、解説を読んだ上で、問題を解き...

母平均の\(95\)%信頼区間の手動計算

この記事の冒頭に記載した例題の、母平均の\(95\)%信頼区間を計算した結果は、以下の通り。
\[
\begin{eqnarray}
\bar{X} &=& \displaystyle \frac{1}{n}\sum_{i=1}^{n}X_i = \frac{1}{10}\sum_{i=1}^{10}X_i \\
&=& \frac{1}{10}(126 + 224 + 34 + 25 + 199 + 89 + 178 + 14 + 38 + 11) \\
&=& \displaystyle \frac{1}{10} \times 938 = 93.8 \\
V(\bar{X}) &=& \displaystyle \frac{σ^2}{n} = \frac{5560}{10} = 556
\end{eqnarray}
\]
\(\bar{X}～N(μ,\displaystyle \frac{σ^2}{n})\)で、\(95\)%の範囲内に収まる\(μ\)を算出するが、それを計算するには、\(\bar{X}\)を標準化した上で、標準正規分布表から算出する。

標準化と標準正規分布表については、それぞれ以下を参照のこと。

　●標準化

回帰直線を求める際にデータを標準化してみたこのブログの以下の記事で、最小2乗法と最急降下法を用いて回帰直線を求めている。 https://www.purin-it.co...

　●標準正規分布表
https://www.coronasha.co.jp/np/data/docs1/978-4-339-06128-4_2.pdf

\(\bar{X}\)を標準化すると、\(\displaystyle \frac{\bar{X}-μ}{\displaystyle \sqrt{\frac{σ^2}{n}}}\)となるので、これが標準正規分布\(N(0, 1)\)に従う。
\(\displaystyle \frac{\bar{X}-μ}{\displaystyle \sqrt{\frac{σ^2}{n}}}\)が\(95\)%の範囲内に収まるようにするには、
標準正規分布表より\(0.95÷2=0.4750\)となる\(z=1.96\)の値を読み取って、
\(-1.96 ≦ \displaystyle \frac{\bar{X}-μ}{\displaystyle \sqrt{\frac{σ^2}{n}}} ≦ 1.96\)となればよいので、
\(\bar{X}=93.8,\displaystyle \frac{σ^2}{n}=556\)を代入し計算すると、以下のようになる。
\[
\begin{eqnarray}
-1.96 &≦& \displaystyle \frac{93.8-μ}{\sqrt{556}} ≦ 1.96 \\
-1.96 \times \sqrt{556} &≦& 93.8 – μ ≦ 1.96 \times \sqrt{556} \\
-1.96 \times \sqrt{556} – 93.8 &≦& -μ ≦ 1.96 \times \sqrt{556} – 93.8 \\
1.96 \times \sqrt{556} + 93.8 &≧& μ ≧ -1.96 \times \sqrt{556} + 93.8 \\
-1.96 \times \sqrt{556} + 93.8 &≦& μ ≦ 1.96 \times \sqrt{556} + 93.8 \\
-1.96 \times 23.57965\cdots + 93.8 &≦& μ ≦ 1.96 \times 23.57965\cdots + 93.8
\end{eqnarray}
\]
上記計算を行い小数第二位を四捨五入すると、\(47.6 ≦ μ ≦ 140.0\)となる。

母平均の\(95\)%信頼区間のプログラムによる計算

この記事の冒頭に記載した例題の、母平均の\(95\)%信頼区間を計算した結果をプログラムで計算した結果は、以下の通り。

import numpy as np
from scipy import stats

# 無作為に選択した10都道府県のデータ(標本)とそのデータ数を表示
sample_mean_list = [126, 224, 34, 25, 199, 89, 178, 14, 38, 11]
sample_mean_list_cnt = len(sample_mean_list)
print("*** 無作為に選択した10都道府県のデータとそのデータ数、与えられた母分散 ***")
print("無作為に選択した都道府県のデータ(標本)：", sample_mean_list)
print(f"無作為に選択した都道府県のデータ(標本)のデータ数：{sample_mean_list_cnt}")

# 与えられた母分散を表示
population_variance = 5560
print(f"与えられた母分散：{population_variance}")
print()

# 無作為に選択した10都道府県のデータから、標本平均・標本分散を算出
sample_mean_list_mean = np.mean(sample_mean_list)
sample_mean_list_var = population_variance / sample_mean_list_cnt
print("*** 無作為に選択した10都道府県のデータから算出した、標本平均・標本分散 ***")
print(f"標本平均：{sample_mean_list_mean}")
print(f"標本分散：{sample_mean_list_var}")
print()

# 正規分布に従う95%信頼区間の母平均の下限値と上限値を求める
# confidence：信頼係数、loc：標本平均・scale：標本の標準偏差
low, up = stats.norm.interval(confidence=0.95, loc=sample_mean_list_mean
                              , scale=np.sqrt(sample_mean_list_var))
print("*** 正規分布に従う95%信頼区間の母平均の下限値～上限値 ***")
print(f"下限値：{low}～上限値：{up}")

要点まとめ

確率変数\(X_1,X_2,\cdots,X_n\)は互いに独立で、平均\(μ\),分散\(σ^2\)の分布に従うとすると、標本平均\(\bar{X}=\displaystyle \frac{1}{n} \sum_{i=1}^{n}X_i\)について\(E(\bar{X})=μ\),\(V(\bar{X})=\displaystyle \frac{σ^2}{n}\)である。
母集団分布が平均\(μ\),分散\(σ^2\)の正規分布(各\(i\)で\(X_i～N(μ,σ^2)\))のとき、正規分布の再生性により\(n\)の大きさに関係なく、標本平均\(\bar{X}=\displaystyle \frac{1}{n} \sum_{i=1}^{n}X_i\)は平均\(μ\),分散\(\displaystyle \frac{σ^2}{n}\)の正規分布に従う。これを式で表すと、\(\bar{X}～N(μ,\displaystyle \frac{σ^2}{n})\)となる。
母集団が正規分布に従い母分散が既知の場合、母平均の\(95\)%信頼区間を計算するには、標本平均\(\bar{X}=\displaystyle \frac{1}{n} \sum_{i=1}^{n}X_i\)を標準化し、\(\displaystyle \frac{\bar{X}-μ}{\displaystyle \sqrt{\frac{σ^2}{n}}}\)が\(-1.96\)以上\(1.96\)以下の範囲に収まる\(μ\)を計算すればよい。