上QQ阅读APP看书,第一时间看更新
9.4 重新配对
前面说过,按照定义,相关系数的值位于闭区间[-1,+1]。然而,但是很多人不知道X和Y的形态(分布)并不一定限定在这个定义区间[1]。具体而言,X和Y的数据本身的形态是不一样的,相关系数区间的大小要比定义的相关系数区间小一些。显然,较小的相关系数区间需要计算经调整的相关系数(见9.5节)。
重新配对的过程决定了实际相关系数区间的大小。重新配对用到原来的X-Y数据对生成新的X-Y重新配对后的数据对,这些重新配对后的数据生成了最强的正相关和负相关关系,继而确定了实际相关系数的区间大小。重新配对的基本要素包括:
1)最强的正相关来自最大的X值和最大的Y值配对;次大的X值和次大的Y值;直到最小的X值和最小的Y值,以此类推。
2)最强的负相关来自最大的X值和最小的Y值配对;次大的X值和次小的Y值;最小的X值和最大的Y值,以此类推。
继续看表9.1中的数据,我重新配对了表9.2的X-Y数据,得到
rX,Y(负配对)=-0.99
及
rX,Y(正配对)=+0.99
表9.2 表9.1数据的重新配对(X,Y)
为完整起见,我做了一幅重新配对的散点图。不幸的是,由于样本数太少,这幅图没有太大用处。负配对和正配对数据的散点图分别为图9.2和图9.3。
图9.2 rnegY和rnegX负配对散点图
图9.3 rposY和rposX正配对散点图
由于R平方调整了,所以相关系数也因X和Y数据的形态而发生改变,调整后的相关系数实际区间是[-0.99,+0.90]。我们在下一节讨论这个区间的计算过程。
[1] 我看到的第一个给出这个限制的文献是在图基EDA,1977。其实更早之前我就知道——在读研究生时,我就这样猜想,只是无法提供比EDA更早的参考资料。