|
|||||||||||||
|
|||||||||||||
|
変量 x , y の相関係数は
r=σxyσxσy
σxy=1nn∑i=1(xi−ˉx)(yi−ˉy) ( x , y の共分散)
σx=√1nn∑i=1(xi−ˉx)2 ( x の標準偏差)
σy=√1nn∑i=1(xi−ˉx)2 ( y の標準偏差)
である.
2種類の変量の間の関係を示す相関図において,点がある直線の近くに集まるとき,2種類の変量の間には相関があるという.
2種類の変量 x と y を標準化した
ui=xi−ˉxσx , vi=yi−ˉyσy
の相関の程度を以下のようにして調べることにする.標準化するのは数式の取り扱いを簡単なするためである.2種類の変量 ui , vi の相関図の点は, v=au+b で表される直線の近くに集まる傾向があると仮定する.この直線と,実際の変量との差の2乗和 Δ2
Δ2=n∑i=1d2i=n∑i=1{vi−(aui+b)}2
を計算してみる.(参考:最小ニ乗法)
Δ2 の値が大きいと多くの変量が直線から離れており相関が弱く, Δ2 の値が小さいと変量が直線の近くに集まっており相関が強いと判断できる.
Δ2=n∑i=1d2i=n∑i=1{vi−(aui+b)}2
=n∑i=1{v2i−2vi(aui+b)+(aui+b)2}
=n∑i=1(v2i−2uivia−2vib+u2ia2+2uiab+b2)
=n∑i=1v2i−2(n∑i=1uivi)a−2(n∑i=1vi)b +(n∑i=1u2i)a2 +2(n∑i=1ui)ab +(n∑i=11)b2
=n−2(n∑i=1uivi)a−0+na2+0+nb2
∵ n∑i=1ui=0 , n∑i=1vi=0 , n∑i=1u2i=1 , n∑i=1v2i=1
=na2−2(n∑i=1uivi)a+nb2+n
a と b の2次関数となっている.この関数を a , b の順に平方完成する.
=n{a−1nn∑i=1uivi}2+nb2+n−1n(n∑i=1uivi)2
=n{a−1nn∑i=1uivi}2+nb2 +n{1−(1nn∑i=1uivi)2}
Δ2 は
a=1nn∑i=1uivi , b=0
のとき最小となり,最小値 Δ2min は
n{1−(1nn∑i=1uivi)2}
となる.
この時,原点を通る直線 v=(1nn∑i=1uivi)u の回りに最も集まっているといえる.
最小値は, 1nn∑i=1uivi の値に依存しており, 1nn∑i=1uivi=±1 のとき,最小値は 0 となり,すべての変量が直線 v=(1nn∑i=1uivi)u 上に存在することになる.
この 1nn∑i=1uivi の値を相関係数 r と定義している.この相関係数を, x , y を使って表すと
r=1nn∑i=1uivi =1nn∑i=1xi−ˉxσx⋅yi−ˉyσy =1nn∑i=1(xi−ˉx)(yi−ˉy)σxσy =σxyσxσy
ここで, 1nn∑i=1(xi−ˉx)(yi−ˉy)=σxy 共分散と定義している.
となり冒頭の式になる.
Δ2≧0 より
n{1−(1nn∑i=1uivi)2}≧0
n{(1nn∑i=1uivi)2−1}≦0
n{(1nn∑i=1uivi)−1}{(1nn∑i=1uivi)+1}≦0
よって
−1≦1nn∑i=1uivi≦1 ⇒ −1≦r≦1
Δ2min の最大値は n で最小値は 0 となる.
最終更新日: 2025年2月5日