相关系数
本文最后更新于:2025年4月24日 下午
相关系数的引入理解
对于成对数据的相关性强弱问题,可以从定性的角度观察散点图直观的感知,当然定量进行研究就需要引入一个新的量——相关系数
对于数据
\[ (x_1,y_1),(x_2,y_2),...,(x_n,y_n) \]
- 进行“中心化”处理:先将其平移到以\((\overline{x},\overline{y})\)为中心的坐标系下,得到一组新的数据
\[ (x_1-\overline{x},y_1-\overline{y}),(x_2-\overline{x},y_2-\overline{y}),...,(x_n-\overline{x},y_n-\overline{y}) \]
中心化处理对散点图的影响:正相关的散点图平移后,大部分点分布在一、三象限;负相关的散点图平移后,大部分点分布在二、四象限。
中心化处理对回归直线的影响:由于回归直线一定经过\((\overline{x},\overline{y})\),则平移后的回归直线一定经过原点\((0,0)\),假设所有的点都在回归直线上,即相关性最强(函数关系),因此有
\[ y_i-\overline{y}=k(x_i-\overline{x}) \]
也就是说对于以下两个\(n\)维向量共线
\[ \overrightarrow{X}=(x_1-\overline{x},x_2-\overline{x},...,x_n-\overline{x})\\ \overrightarrow{Y}=(y_1-\overline{y},y_2-\overline{y},...,y_n-\overline{y}) \]
倘若有些点不在回归直线上,则会造成以上两个向量的不共线,使得两个向量之间产生夹角\(\theta\),因此我们可以用夹角\(\theta\) 大小来衡量相关程度的强弱:显然若\(\theta=0^{\circ}\),则正相关性最强;若\(\theta=180^{\circ}\),则负相关性最强
\[ r=\cos\theta=\dfrac{\sum\limits_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})}{\sqrt{\sum\limits_{i=1}^n(x_i-\overline{x})^2}\cdot\sqrt{\sum\limits_{i=1}^n(y_i-\overline{y})^2}} \]
相关系数的取值范围及意义:
\(r\in[-1,1]\)
\(r=0\)表示没有相关关系
\(|r|=1\)表示函数关系
\(|r|\)越大,则相关性越强
相关系数与回归直线斜率\(\widehat{b}\)的关系:
\[ \widehat{b}=\dfrac{\overrightarrow{X}\cdot\overrightarrow{Y}} {|\overrightarrow{X}|^2}=\dfrac{|\overrightarrow{X}||\overrightarrow{Y}| \cos\theta}{|\overrightarrow{X}|^2}= r\cdot \dfrac{\sigma_y}{\sigma_x} \]