繰り返しのある一元配置実験結果の単回帰分析方法(その2:2つの方法で導出される寄与率)

前回の記事では、繰り返しのある一元配置実験の結果に対して単回帰分析を行う際、データ処理の方法として2つの方法を紹介した。
いずれの方法であっても、得られる回帰直線式は同じであることを示した。
stacked-tip.hateblo.jp

分散分析や寄与率(決定係数) R^2は?

単回帰分析をする際には、回帰式の有意性を判断するために、分散分析結果や寄与率 R^2を確認する。
回帰直線式が同一であっても、分散分析結果や寄与率に差があると、実用上は解析結果の意味が変わってしまうことになる。

分散分析表は、以下のようにまとめる。

要因 平方和 S 自由度 \phi 平均平方 V  F_0
 R  S_R  \phi_R  V_R=S_R / \phi_R  V_R / V_e
 e  S_e  \phi_e  V_e=S_e / \phi_e
 S_T  \phi_T

ここで算出された F_0を、 F(\phi_R, \phi_e)_\alpha \alphaは危険率)と比較して、帰無仮説 H_0を棄却するかどうかを決める。

また、寄与率 R^2は次の式から算出する。
 \displaystyle R^2 = \frac{S_R}{S_T}

以下、2つの方法で分散分析結果や寄与率に差があるか確認する。
結論から言えば、2つの方法で、総平方和 S_Tに差がある。
また、自由度も異なるため、

 x_i y_{ij}をペアとする mn個のデータを用いる方法の場合

総平方和 S_Tは、
 \displaystyle S_T = S_{yy} = \sum_{i=1}^m \sum_{j=1}^n (y_{ij} - \bar y)^2 = \sum_{i=1}^m \sum_{j=1}^n y_{ij}^2 - \frac{1}{mn}(\sum_{i=1}^m \sum_{j=1}^n y_{ij})^2
となる。これは、さらに式変形することで、
 \displaystyle S_T = \sum_{i=1}^m \sum_{j=1}^n y_{ij}^2 - mn \bar y^2
となる。
また、回帰による平方和 S_Rは、
 \displaystyle S_R = \frac{{S_{xy}}^2}{S_{xx}}
であり、残差平方和 S_e
 \displaystyle S_e = S_T - S_R
で求めることができる。
これらの平方和の自由度は、それぞれ
 \phi_T = mn - 1
 \phi_R = 1
 \phi_e = \phi_T - \phi_R = mn - 2
である。

 x_i \overline{y_i}をペアとする m個のデータを用いる方法の場合

前節の各統計量と区別するため、それぞれにダッシュ(プライム)を付けて表記する。
総平方和 {S_T}'は、
 \displaystyle {S_T}' = {S_{yy}}' = \sum_{i=1}^m (\overline{y_i} - \bar y)^2 = \sum_{i=1}^m \overline{y_i}^2 - \frac{1}{m}(\sum_{i=1}^m \overline{y_i})^2
となる。これは、さらに式変形することで、
 \displaystyle {S_T}' = \sum_{i=1}^m \overline{y_i}^2 - m \bar y ^2
となる。
また、回帰による平方和 {S_R}'は、
 \displaystyle {S_R}' = \frac{{{S_{xy}}'}^2}{{S_{xx}}'}
であり、残差平方和 {S_e}'
 \displaystyle {S_e}' = {S_T}' - {S_R}'
で求めることができる。
これらの平方和の自由度は、それぞれ
 {\phi_T}' = m - 1
 {\phi_R}' = 1
 {\phi_e}' = {\phi_T}' - {\phi_R}' = m - 2
である。

ここまでの結果を表にまとめて比較する。

統計量 方法1 方法2
総平方和  \displaystyle S_T = \sum_{i=1}^m \sum_{j=1}^n y_{ij}^2 - mn \bar y^2  \displaystyle {S_T}' = \sum_{i=1}^m \overline{y_i}^2 - m \bar y ^2
回帰による平方和  \displaystyle S_R = \frac{{S_{xy}}^2}{S_{xx}}  \displaystyle {S_R}' = \frac{{{S_{xy}}'}^2}{{S_{xx}}'}
残差平方和  \displaystyle S_e = S_T - S_R  \displaystyle {S_e}' = {S_T}' - {S_R}'

ここで、以下の不等式が成り立つことを利用する。

 n個の実数 a_1 a_2、…、 a_nがあるとき、
 \displaystyle \sum_{i=1}^n a_i^2 \geq \frac{1}{n} \left( \sum_{i=1}^n a_i \right)^2
が成り立つ。

証明は、以下の記事を参照のこと。
stacked-tip.hateblo.jp

この不等式を用いると、
 \displaystyle \sum_{j=1}^n y_{ij}^2 \geq \frac{1}{n} \left( \sum_{j=1}^n y_{ij} \right)^2
が成り立つことがわかる。

これを用いると、
 \displaystyle S_T - n{S_T}'
 \displaystyle = \left(\sum_{i=1}^m \sum_{j=1}^n y_{ij}^2 - mn \bar y^2 \right) - n \left( \sum_{i=1}^m \overline{y_i}^2 - m \bar y ^2 \right)
 \displaystyle = \sum_{i=1}^m \sum_{j=1}^n y_{ij}^2 - n \sum_{i=1}^m \overline{y_i}^2
 \displaystyle = \sum_{i=1}^m \sum_{j=1}^n y_{ij}^2 - n \sum_{i=1}^m \left( \frac{1}{n} \sum_{j=1}^n y_{ij} \right)^2
 \displaystyle = \sum_{i=1}^m \left\{ \sum_{j=1}^n y_{ij}^2 - \frac{1}{n} \left( \sum_{j=1}^n y_{ij} \right)^2 \right\} \geq 0
となり、
 \displaystyle S_T \geq n{S_T}'
が証明できる。

前回の記事で示した
 \displaystyle S_{xx} = n{S_{xx}}'
 \displaystyle S_{xy} = n{S_{xy}}'
を用いると、
 \displaystyle S_R = \frac{{S_{xy}}^2}{S_{xx}} = \frac{({nS_{xy}}')^2}{{nS_{xx}}'} = n \frac{{S_{xy}}'^2}{{S_{xx}}'} = n {S_R}'
となる。寄与率は、
 \displaystyle R^2 = \frac{S_R}{S_T} \leq \frac{n{S_R}'}{n{S_T}'} = {R^2}'
となり、
 \displaystyle R^2 \leq {R^2}'
であることがわかる。