相関係数の式の導出

変量 $x$ ， $y$ の相関係数は

$r = \frac{σ_{x y}}{σ_{x} σ_{y}}$

$σ_{x y} = \frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \bar{x}) (y_{i} - \bar{y})$ （ $x$ ， $y$ の共分散）

$σ_{x} = \sqrt{\frac{1}{n} \sum_{i = 1}^{n} {(x_{i} - \bar{x})}^{2}}$ （ $x$ の標準偏差）

$σ_{y} = \sqrt{\frac{1}{n} \sum_{i = 1}^{n} {(x_{i} - \bar{x})}^{2}}$ （ $y$ の標準偏差）

である．

■相関係数の式の導出

2種類の変量の間の関係を示す相関図において，点がある直線の近くに集まるとき，2種類の変量の間には相関があるという．

2種類の変量 $x$ と $y$ を標準化した

$u_{i} = \frac{x_{i} - \bar{x}}{σ_{x}}$ ， $v_{i} = \frac{y_{i} - \bar{y}}{σ_{y}}$

の相関の程度を以下のようにして調べることにする．標準化するのは数式の取り扱いを簡単なするためである．2種類の変量 $u_{i}$ , $v_{i}$ の相関図の点は， $v = a u + b$ で表される直線の近くに集まる傾向があると仮定する．この直線と，実際の変量との差の2乗和 $Δ^{2}$

$Δ^{2} = \sum_{i = 1}^{n} d_{i}^{2} = \sum_{i = 1}^{n} {v_{i} - (a u_{i} + b)}^{2}$

を計算してみる．(参考：最小ニ乗法)

$Δ^{2}$ の値が大きいと多くの変量が直線から離れており相関が弱く， $Δ^{2}$ の値が小さいと変量が直線の近くに集まっており相関が強いと判断できる．

$Δ^{2} = \sum_{i = 1}^{n} d_{i}^{2} = \sum_{i = 1}^{n} {v_{i} - (a u_{i} + b)}^{2}$

$= \sum_{i = 1}^{n} {v_{i}^{2} - 2 v_{i} (a u_{i} + b) + {(a u_{i} + b)}^{2}}$

$= \sum_{i = 1}^{n} (v_{i}^{2} - 2 u_{i} v_{i} a - 2 v_{i} b + u_{i}^{2} a^{2} + 2 u_{i} a b + b^{2})$

$= \sum_{i = 1}^{n} v_{i}^{2} - 2 (\sum_{i = 1}^{n} u_{i} v_{i}) a - 2 (\sum_{i = 1}^{n} v_{i}) b$ $+ (\sum_{i = 1}^{n} u_{i}^{2}) a^{2}$ $+ 2 (\sum_{i = 1}^{n} u_{i}) a b$ $+ (\sum_{i = 1}^{n} 1) b^{2}$

$= n - 2 (\sum_{i = 1}^{n} u_{i} v_{i}) a - 0 + n a^{2} + 0 + n b^{2}$

∵　 $\sum_{i = 1}^{n} u_{i} = 0$ ， $\sum_{i = 1}^{n} v_{i} = 0$ ， $\sum_{i = 1}^{n} u_{i}^{2} = 1$ ， $\sum_{i = 1}^{n} v_{i}^{2} = 1$

$= n a^{2} - 2 (\sum_{i = 1}^{n} u_{i} v_{i}) a + n b^{2} + n$

$a$ と $b$ の2次関数となっている．この関数を $a$ , $b$ の順に平方完成する．

$= n {a - \frac{1}{n} \sum_{i = 1}^{n} u_{i} v_{i}}^{2} + n b^{2} + n - \frac{1}{n} {(\sum_{i = 1}^{n} u_{i} v_{i})}^{2}$

$= n {a - \frac{1}{n} \sum_{i = 1}^{n} u_{i} v_{i}}^{2} + n b^{2}$ $+ n {1 - {(\frac{1}{n} \sum_{i = 1}^{n} u_{i} v_{i})}^{2}}$

$Δ^{2}$ は

$a = \frac{1}{n} \sum_{i = 1}^{n} u_{i} v_{i}$ ， $b = 0$

のとき最小となり，最小値 $Δ_{\min}^{2}$ は

$n {1 - {(\frac{1}{n} \sum_{i = 1}^{n} u_{i} v_{i})}^{2}}$

となる．

この時，原点を通る直線 $v = (\frac{1}{n} \sum_{i = 1}^{n} u_{i} v_{i}) u$ の回りに最も集まっているといえる．

最小値は， $\frac{1}{n} \sum_{i = 1}^{n} u_{i} v_{i}$ の値に依存しており， $\frac{1}{n} \sum_{i = 1}^{n} u_{i} v_{i} = \pm 1$ のとき，最小値は $0$ となり，すべての変量が直線 $v = (\frac{1}{n} \sum_{i = 1}^{n} u_{i} v_{i}) u$ 上に存在することになる．

この $\frac{1}{n} \sum_{i = 1}^{n} u_{i} v_{i}$ の値を相関係数 $r$ と定義している．この相関係数を， $x$ ， $y$ を使って表すと

$r = \frac{1}{n} \sum_{i = 1}^{n} u_{i} v_{i}$ $= \frac{1}{n} \sum_{i = 1}^{n} \frac{x_{i} - \bar{x}}{σ_{x}} \cdot \frac{y_{i} - \bar{y}}{σ_{y}}$ $= \frac{\frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \bar{x}) (y_{i} - \bar{y})}{σ_{x} σ_{y}}$ $= \frac{σ_{x y}}{σ_{x} σ_{y}}$

ここで， $\frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \bar{x}) (y_{i} - \bar{y}) = σ_{x y}$ 共分散と定義している．

となり冒頭の式になる．

●最小値 $Δ_{\min}^{2}$ について考えてみる

$Δ^{2} ≧ 0$ より

$n {1 - {(\frac{1}{n} \sum_{i = 1}^{n} u_{i} v_{i})}^{2}} ≧ 0$

$n {{(\frac{1}{n} \sum_{i = 1}^{n} u_{i} v_{i})}^{2} - 1} ≦ 0$

$n {(\frac{1}{n} \sum_{i = 1}^{n} u_{i} v_{i}) - 1} {(\frac{1}{n} \sum_{i = 1}^{n} u_{i} v_{i}) + 1} ≦ 0$

よって

$- 1 ≦ \frac{1}{n} \sum_{i = 1}^{n} u_{i} v_{i} ≦ 1$ ⇒　 $- 1 ≦ r ≦ 1$

$Δ_{\min}^{2}$ の最大値は $n$ で最小値は $0$ となる．

ホーム>>カテゴリー分類>>確率統計>>相関係数

最終更新日： 2025年2月5日

相関係数の式の導出

■相関係数の式の導出

●最小値 Δ min 2 について考えてみる

●最小値 $Δ_{\min}^{2}$ について考えてみる