9.4 重新配对_统计挖掘与机器学习：大数据预测建模和分析技术（原书第3版）-QQ阅读男生都市网

上QQ阅读APP看书，第一时间看更新

9.4　重新配对

前面说过，按照定义，相关系数的值位于闭区间[-1，+1]。然而，但是很多人不知道X和Y的形态（分布）并不一定限定在这个定义区间[1]。具体而言，X和Y的数据本身的形态是不一样的，相关系数区间的大小要比定义的相关系数区间小一些。显然，较小的相关系数区间需要计算经调整的相关系数（见9.5节）。

重新配对的过程决定了实际相关系数区间的大小。重新配对用到原来的X-Y数据对生成新的X-Y重新配对后的数据对，这些重新配对后的数据生成了最强的正相关和负相关关系，继而确定了实际相关系数的区间大小。重新配对的基本要素包括：

1）最强的正相关来自最大的X值和最大的Y值配对；次大的X值和次大的Y值；直到最小的X值和最小的Y值，以此类推。

2）最强的负相关来自最大的X值和最小的Y值配对；次大的X值和次小的Y值；最小的X值和最大的Y值，以此类推。

继续看表9.1中的数据，我重新配对了表9.2的X-Y数据，得到

r_X,Y（负配对）=-0.99

及

r_X,Y（正配对）=+0.99

表9.2　表9.1数据的重新配对（X，Y）

为完整起见，我做了一幅重新配对的散点图。不幸的是，由于样本数太少，这幅图没有太大用处。负配对和正配对数据的散点图分别为图9.2和图9.3。

图9.2　rnegY和rnegX负配对散点图

图9.3　rposY和rposX正配对散点图

由于R平方调整了，所以相关系数也因X和Y数据的形态而发生改变，调整后的相关系数实际区间是[-0.99，+0.90]。我们在下一节讨论这个区间的计算过程。

[1] 我看到的第一个给出这个限制的文献是在图基EDA，1977。其实更早之前我就知道——在读研究生时，我就这样猜想，只是无法提供比EDA更早的参考资料。