平均値を使っていい時と、いけない時(変数・尺度の種類と使用できる分析手法)

ひょんなことから、統計検定2級でも受けようかしらと考え、テキストを買ってきました。

世間では「統計学が最強の学問である」がロングセラーになっていますが、
統計検定は余り流行っていないようで、まだまだ世間での統計学に対する
興味関心は低いのかもしれません。

さて、このテキストの一番最初の項目は「変数の分類」で、
名義尺度とか、比例尺度とか、そういうところのお話からありましたので、
そこを読んで思ったことを書いてみようかと。
勿論、主題はタイトルにある通り「平均値を使っていい時と、いけない時」です。

量的変数・質的変数

大学の実践的統計学の授業では、必ずこの話が出ると思います。

  • 量的変数:量を表している変数で、四則計算の結果に統計的に意味がある。
  • 質的変数:質を表している変数で、記号や言葉等で示されることが多い。たとえ数字で示されていても、それらを四則計算した結果に統計的な意味はない。

更に、変数の持つ性質から、これらを4つに分類することができる。

  • 名義尺度:カテゴリーの分類にしか使用できず、カテゴリー間に数学的な順序関係はない変数の尺度。多くの場合、それらの変数は言葉で表される(「男」「女」や、「東京都」「神奈川県」など)。
  • 順序尺度:変数に順序関係がある尺度。多くの場合数値で表されるが、記号等で表現されることもある(「A判定」「B判定」など)。
  • 間隔尺度:変数に順序関係があり、かつ、どの隣接する変数を取っても、その差分が同一であるときの尺度。数学的に連続であるが、その尺度に比例関係が導入できない尺度。
  • 比例尺度:変数に順序関係があり、かつ、どの隣接する変数を取っても、その差分が同一であり、更に、比例関係が導入できる尺度。

上記の分類は、その変数に対して統計処理を行う際に大変重要である。
なぜなら、変数の種類によって、使用してよい分析手法と、
使用してはいけない分析手法があるからである。
特に、使用してはいけない分析手法というのが、
使用しようと思っても使用できない分析手法だけではなく、
機械的に計算することで使用することはできるが、
そこに統計的な正しさはない分析手法を含んでいる
ことが問題になる。
つまり、使用方法を誤ると、統計的な手法を使っているのに、
統計的に正しくない結果を導きかねないということだ。

各尺度について、それぞれで使用できる統計的分析手法を以下の表にまとめる。
これを見ると、名義尺度で使用できる分析手法はそれ以外の尺度でも使え、
名義尺度で使用できないが順序尺度で使用できる分析手法は、他の2つの尺度でも使用できる、
と言うように、包含関係になっていることがわかる。

変数 尺度 度数 最頻値 中央値 四分位数 ヒストグラム (算術)平均 分散 標準偏差 差の比較 変動係数 幾何平均 比の比較
質的変数 名義尺度 × × × × × × × × × ×
質的変数 順序尺度 × × × × × × ×
量的変数 間隔尺度 × × ×
量的変数 比例尺度

テキストにはない分析手法もいくつか足してみた(間違いがありましたらご教授下さい)。

さて、自分で調査なり実験なりを計画する際に、
そこで扱う測定項目が、果たしてどの尺度に該当するのかを考えるのは
とても大切なことであることが、ここまで来ると理解できる。

特に、多くの理系の人たちのように、
原則的に比例尺度の量的変数で表現できる物理現象を解析対象とするのではなく、
アンケートなどで得られたデータを解析する人文系や認知科学系の人たちにとっては、
自分たちの扱う測定項目はどの尺度に該当するのか、
という問題は、評価結果を左右するとても大事な問題である。

そして、上記のように、変数や尺度によって使用できる分析手法が異なり、
しかも、それらが包含関係のようになっていることを踏まえると、
データ収集者は、できるだけ多くの分析手法が使えるように、
名義尺度よりは順序尺度を、順序尺度よりは間隔尺度を、間隔尺度よりは比例尺度を
変数として採用したいと考えるのは自然である。
実際、平均という分析手法をとっても、
これが使えるのは量的変数だけであり、質的変数であれば使用することができないのである。
そして、万一これを見誤って、順序変数に対して平均を算出してしまうと、
その算出結果は統計学的に正しくないことになり、
解析の信憑性、ひいては、結論の信憑性をも揺るがすことになるのである。


次回はこのあたりについて、特にアンケート項目を構成する際の注意点について述べる。

次回:平均値を使っていい時と、いけない時(アンケート結果と等間隔性)