相关系数

本文最后更新于:2025年4月24日 下午

相关系数的引入理解

对于成对数据的相关性强弱问题,可以从定性的角度观察散点图直观的感知,当然定量进行研究就需要引入一个新的量——相关系数

对于数据

\[ (x_1,y_1),(x_2,y_2),...,(x_n,y_n) \]

  • 进行“中心化”处理:先将其平移到以\((\overline{x},\overline{y})\)为中心的坐标系下,得到一组新的数据

\[ (x_1-\overline{x},y_1-\overline{y}),(x_2-\overline{x},y_2-\overline{y}),...,(x_n-\overline{x},y_n-\overline{y}) \]

  • 中心化处理对散点图的影响:正相关的散点图平移后,大部分点分布在一、三象限;负相关的散点图平移后,大部分点分布在二、四象限。

  • 中心化处理对回归直线的影响:由于回归直线一定经过\((\overline{x},\overline{y})\),则平移后的回归直线一定经过原点\((0,0)\),假设所有的点都在回归直线上,即相关性最强(函数关系),因此有

\[ y_i-\overline{y}=k(x_i-\overline{x}) \]

也就是说对于以下两个\(n\)维向量共线

\[ \overrightarrow{X}=(x_1-\overline{x},x_2-\overline{x},...,x_n-\overline{x})\\ \overrightarrow{Y}=(y_1-\overline{y},y_2-\overline{y},...,y_n-\overline{y}) \]

倘若有些点不在回归直线上,则会造成以上两个向量的不共线,使得两个向量之间产生夹角\(\theta\),因此我们可以用夹角\(\theta\) 大小来衡量相关程度的强弱:显然若\(\theta=0^{\circ}\),则正相关性最强;若\(\theta=180^{\circ}\),则负相关性最强

\[ r=\cos\theta=\dfrac{\sum\limits_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})}{\sqrt{\sum\limits_{i=1}^n(x_i-\overline{x})^2}\cdot\sqrt{\sum\limits_{i=1}^n(y_i-\overline{y})^2}} \]

相关系数的取值范围及意义:

\(r\in[-1,1]\)

\(r=0\)表示没有相关关系

\(|r|=1\)表示函数关系

\(|r|\)越大,则相关性越强

相关系数与回归直线斜率\(\widehat{b}\)的关系:

\[ \widehat{b}=\dfrac{\overrightarrow{X}\cdot\overrightarrow{Y}} {|\overrightarrow{X}|^2}=\dfrac{|\overrightarrow{X}||\overrightarrow{Y}| \cos\theta}{|\overrightarrow{X}|^2}= r\cdot \dfrac{\sigma_y}{\sigma_x} \]


相关系数
https://andyppang.github.io/2022/03/03/相关系数/
作者
pl
发布于
2022年3月3日
许可协议