繰り返しのある一元配置実験結果の単回帰分析方法(その1:2つの方法で導出される回帰直線式)

繰り返しのある一元配置実験を行うとする。
水準が x_1 x_1、…、 x_mの合計 m個あり、
それぞれについて n回繰り返し評価を行った結果、
 y_{11} y_{12}、… y_{1n} y_{21} y_{22}、…、 y_{mn}
の、合計 mn個の結果を得たとする。
また、各水準の結果の平均 \displaystyle \overline{y_i}=\frac{1}{n}\sum_{j=1}^{n}y_{ij}を計算する。

表にまとめると以下のようになる。

1回目 2回目 n回目 平均
 x_1  y_{11}  y_{12}  y_{1n}  \overline{y_1}
 x_2  y_{21}  y_{22}  y_{2n}  \overline{y_2}
 x_m  y_{m1}  y_{m2}  y_{mn}  \overline{y_m}

今、 xを説明変数、 yを目的変数とする単回帰分析を行いたい。
モデル式を y_{ij}=\mu_i +  \varepsilon_{ij}とし、 \varepsilon_{ij}は互いに独立に N(0, \sigma^2)に従うこととする。

このとき、単回帰分析の方法として、

  1.  x_i y_{ij}をペアとする mn個のデータを用いる方法
  2.  x_i \overline{y_i}をペアとする m個のデータを用いる方法

の2種類の方法が考えられる。

この2種類の方法にはどのような違いがあるのかを確認する。

なお、本記事は、永田靖『入門 統計解析法』を大いに参考にしています。

母回帰係数の推定値 \hat \beta_1

母回帰係数 \beta_1の推定値 \hat \beta_1について考える。
 \hat \beta_1は、 x yの偏差積和 S_{xy}と、 xの偏差平方和 S_{xx}を用いて、
 \displaystyle \hat \beta_1 = \frac{S_{xy}}{S_{xx}}で求めることができる。

 x_i y_{ij}をペアとする mn個のデータを用いる方法の場合

 \displaystyle \bar x = \frac{1}{m} \sum_{i=1}^m x_i \displaystyle \bar y = \frac{1}{mn} \sum_{i=1}^m \sum_{j=1}^n y_{ij}とすると、
 \displaystyle S_{xy} = \sum_{i=1}^m \sum_{j=1}^n (x_i - \bar x)(y_{ij} - \bar y) = \sum_{i=1}^m \sum_{j=1}^n x_i y_{ij} - \frac{1}{mn}(\sum_{i=1}^m \sum_{j=1}^n x_i)(\sum_{i=1}^m \sum_{j=1}^n y_{ij})
 \displaystyle S_{xx} = \sum_{i=1}^m \sum_{j=1}^n (x_i - \bar x)^2 = \sum_{i=1}^m \sum_{j=1}^n x_i^2 - \frac{1}{mn}(\sum_{i=1}^m \sum_{j=1}^n x_i)^2
となる。

 \displaystyle S_{xy}の各項について、さらに式変形をすると、
 \displaystyle \sum_{i=1}^m \sum_{j=1}^n x_i y_{ij} = \sum_{i=1}^m x_i \sum_{j=1}^n y_{ij} = n \sum_{i=1}^m x_i \overline{y_i}
 \displaystyle \frac{1}{mn}(\sum_{i=1}^m \sum_{j=1}^n x_i)(\sum_{i=1}^m \sum_{j=1}^n y_{ij}) = \frac{1}{mn} (mn \bar x)(mn \bar y) = mn \bar x \bar y
となるので、
 \displaystyle S_{xy} = n(\sum_{i=1}^m x_i \overline{y_i} - m \bar x \bar y)
となる。

また、 \displaystyle S_{xx}についてもさらに式変形をすることで、
 \displaystyle S_{xx} = n(\sum_{i=1}^m x_i^2 - m{\bar x}^2)
となる。

 x_i \overline{y_i}をペアとする m個のデータを用いる方法の場合

先述の S_{xy} S_{xx}と区別するため、それぞれにダッシュ(プライム)を付けて、 {S_{xy}}' {S_{xx}}'とする。
 \displaystyle {S_{xy}}' = \sum_{i=1}^m (x_i - \bar x)(\overline{y_i} - \bar y) = \sum_{i=1}^m x_i \overline{y_i} - \frac{1}{m}(\sum_{i=1}^m x_i)(\sum_{i=1}^m \overline{y_i})
 \displaystyle {S_{xx}}' = \sum_{i=1}^m (x_i - \bar x)^2 = \sum_{i=1}^m x_i^2 - \frac{1}{m}(\sum_{i=1}^m x_i)^2
それぞれを、さらに式変形することで、
 \displaystyle {S_{xy}}' = \sum_{i=1}^m x_i \overline{y_i} - m \bar x \bar y
 \displaystyle {S_{xx}}' = \sum_{i=1}^m x_i^2 - m{\bar x}^2
となる。

以上の計算から、
 \displaystyle S_{xy} = n{S_{xy}}'
 \displaystyle S_{xx} = n{S_{xx}}'
の関係があることがわかる。
したがって、どちらの場合であっても、 \hat \beta_1の値は同一にあることがわかる。

母切片の推定値 \hat \beta_0

母切片 \beta_0の推定値 \hat \beta_0は、
 \hat \beta_0 = \bar y - \hat \beta_1 \bar x
から算出される。
したがって、どちらの方法であっても \hat \beta_1の値が同一である以上、
 \hat \beta_0についても、どちらの方法であっても値は同一となる。

結論

母回帰係数、母切片ともに、どちらの方法で求めても同じ値が得られるということは、
これらの期待値 E[\hat \beta_1]、 E[\hat \beta_0]や分散 V[\hat \beta_1]、 V[\hat \beta_0]についても、
どちらの方法であっても同一である。

したがって、

  1.  x_i y_{ij}をペアとする mn個のデータを用いる方法
  2.  x_i \overline{y_i}をペアとする m個のデータを用いる方法

のどちらの方法であっても、得られる回帰直線式 y = \hat \beta_0 + \hat \beta_1 xは同じである。

続き
stacked-tip.hateblo.jp