重回帰分析とは【用語集】

重回帰分析とは

重回帰分析（じゅうかいきぶんせき）は、多変量解析の一つ。回帰分析の独立変数が複数になったもの。適切な変数を複数選択することで、計算しやすく誤差の少ない予測式を作ることができる。

一般的によく使われている最小二乗法、線形モデルの重回帰は、数学的には線形分析の一種であり、分散分析などと数学的に類似している。

==結果の見方==
中学生を対象に調査を行いその結果を重回帰分析したところ下の式が得られたとする。

:中学で勉強した時間数 * 3 + 小学生の時代の塾の学習時間数 * 5 + 20 = 知っている英単語の数

この場合、Aさんが中学で100時間、小学生時代20時間勉強していたら 100 * 3 + 20 * 5 + 20 = 英単語420語を知っているという計算になる。中学で1時間勉強すると平均的には3単語を覚えているという解釈ができる。

ここでは*3や*5という数値を重回帰分析で計算・算出するが、あくまで平均的な値であり個々のサンプルにおいてその通りに一致するとは限らない。例えば、Aさんの英単語数は420語ではなく、実際には450語かもしれない。全体の平均を取ると、3や5という値を取ると全体が最もうまく説明できデータによく適合するということから出てきた数値になる。

また英単語数を決めるのが勉強時間だという関係は、分析者が自分で決めるため絶対的なものではない。あくまで勉強時間が独立変数（説明変数）だと仮定した上で分析している。そのため、予測を行うことはできてもその方向に因果関係があることは保証されない。

==多重共線性==
独立変数（説明変数）を選択する際、マーケティングやアンケートでよく使う一般的な重回帰の場合、複数の説明変数同士は無相関係数|相関という仮定が入っている。そのため、説明変数同士が関連性の高い場合、多重共線性と呼ばれる状態になるため、係数が直感に反する値になることがある。

例えば、小学校での定期テスト得点から重回帰で分析する場合、理科の点数を従属変数に、数学と国語とを説明変数にした場合、数学が増えると理科の点数が増え、国語の点数が高ければ理科の点数が減るといった意味の係数が出ることがある。これは数学と国語との点数の間に強い相関がある（一般に、どちらの成績も学習習慣や知能の影響を強く受ける）ことで起こりうる。この場合のように説明変数間の相関が高いと係数が不安定になりやすい。

実務的対応としては、一方を除いて分析するのが最も手軽である。また、数学と国語の平均点と、数学と国語の得点の差というように和と差に数字を加工すると、この二つは相関がたいてい低く、かつ解釈しやすい。数学と国語の得点の差は、数学の方が高い生徒の方が理科の点数が高い傾向があるというように理解できるためである。ただし、このような正の相関を持つ変数同士の差得点は元の変数よりも信頼性が落ちるので、サンプル数を増やすなどの対応が求められる。

また、適切な予測力を実質的には持たない変数であっても、説明変数に加えると予測式自体の説明力（R2）は上がることが多い。そのため、単なるR2ではなく、その分を調整した修正R2を参照する、ステップワイズ法等で投入する説明変数を取捨選択する、赤池情報量規準|AICを見るなどの対応が求められる。