R语言多元回归。4个自变量全部不显著。但整体F显著。只需要深度解释原因。不需要任何纠错

本人初学R语言-海外研究生就读。教授的题目背景是4个不同的能力测试分数作为自变量，1个绩效分数作为因变量。（XY都是score的数字分数）探求哪个能力测试和绩效成绩最相关。100+样本数量

多元回归后-出现如标题的问题。教授表示这就是想要同学们探索的问题。

查阅资料后，怀疑是多重现性或者是残值问题-用VIF和一些残值程序-包括数据分布是否正态。数据测试完后-全部没有问题。数据分布的很好，无多重现性，也没有残值问题。

又怀疑是否是这4个因变量之间是否高度相关-导致多元回归时候互相抵消了显著性。为此各自做了相关分析，4个变量互相之间最高的相关系数也就0.5。似乎这个原因站不住脚跟。

我突发奇想自己组合了4个因变量可能存在的线性组合-如123、124、234；23；12、14之类的多元回归。发现每一种回归下-各个因变量都显示不同的显著性。另外，我还做了4个一元回归，全部各自高度显著。

这个题目的背景是建立在EFA下的-EFA的结果跑出来建议是4个Factors-正好对应了题目数据里4个能力测试的类别。一共40道题目的分数-所以分成4个因子应该是没问题的（如果能指出倪端，欢迎）

本人问题就是想要请求各位帮忙解释这个现象的原因。教授是刻意设置这个结果，所以不需要纠错，或者更改某种模型-只希望一个合理的解释-最好联系到背景，这4个能力测试的设置是否真的能够预测绩效分数，或者和绩效分数高度相关。所以请求指点一下，最好附上一些重要理论或是文献！我会深入学习！

本来清明节后工作挺忙的，结果意外的一切正常，上班摸鱼期间看到了你的提问，想尝试用心答一下。
你想知道标题的原因？这个原因是想说，照你的理解F检验通过的话，那么4个自变量也应该是显著的对吧。

首先我想解释下多元回归中F检验的意义，我觉得你可能要先明确这一点，F检验中，我们本身是想让其支持备择假设H1而拒绝H0，但犯第一类错误下拒绝了H0，意味着你只能认定肯定有解释变量X1X2X3X4与Y存在回归关系，因为F检验的H0假设是认为k-1个解释变量都不与y存在回归关系。一般的操作过程是F检验通过后，进一步对各变量做t检验以确定哪些X是重要的解释变量。
显然你第一步是成功的，但第二步没有找到一个通过的t。读到此处，我开始质疑你的初始假设条件是否支持你做F检验，即F检验，它可靠吗？
标题里是多元回归的内容，下方的各种建模尝试我看到都是在进行线性建模，那么我首先认为你需要做的是多元线性回归。
我首先说结论吧，基于你给出的结果，因变量间存在着中度的相关性（0.5其实很高了），也就是犯了多重共线性的问题。

那么我先尝试不借助任何统计论证去解释你的这个结果。从业务端看这种问题可以猜想是不是你的能力测试间并不相互独立（其实可以简单暴力的归结为聪明人做什么测试都得心应手，而蠢人干什么可能都差点意思），那么毫无疑问测试分数间是有相关性存在的。而且对应你的Y是某项绩效分数，也可以用这样的业务常识去佐证。毕竟优秀的人绩效也不会差，对吧。

那么为什么会在线性组合之后关系反而弱化了？

我曾经给同事们设计过一项变态的问卷，那份问卷分AB卷，简单弱化概念就是这份问卷可以真实反映做题人的IQ水平，但A卷是得分越高IQ越高，B卷是得分越低IQ越高（B卷是我小时候看武林外传李大嘴做测试题的灵机一动），虽然我们没有让每一个受试者把AB卷各答一遍，但我们还是拿到了每个人的得分。你可以看到，IQ与A高度正线性相关，IQ与B高度负线性相关，但IQ与A+B的多项式就显得不那么相关了（如果我们真的让每个人都做了A和B）。我想这个例子有助于你的进一步思考。

接着聊聊统计论证吧。其实在统计学的世界里，回归问题有大量变量间相关，自相关问题多出现在时间序列的分析过程中。在应对这种问题时，因为你的基础假设条件不满足线性回归，也就意味着你的方法其实全部失效了。（很残忍对不对。。。）要想研究这种问题，就必须重新构筑变量，或者重新研判变量间关系，即使牺牲一部分的信息量，也要保证你的多元线性模型能够更好的拟合。（我猜想这部分可能会以EFA过程反驳我，别急，看下去，毕竟我也没看到你的KMO和barrlet不是吗。）写到此处我忽然想起一篇我多年前的学年论文博客，你可以参考下面对线性相关时，如何处理能够使得结果可行。https://blog.csdn.net/lixiaomie01/article/details/80395065
针对其中的几个点我想我其实没有给你思路，只是告诉了你我不认可的论点，但是统计论证到此处，我无法站在你不可靠的假设条件下做论证，我更希望你尝试下新的方法吧，box-cox变化下，或者lasso试试。
期待你的新结果反馈。

要理解这一点，可以参考最小二乘几何。
X与y的唯一方差相关。这意味着当控制其他变量时，X和Y是相关的，而不是单独的。
Y的唯一方差不同于总方差。那么其他变量的方差是多少呢?
当你有高度相关的变量时就会发生这种情况。
有一个例子是通过鞋码来预测体重。你可以用左右鞋码同样准确地预测体重。合在一起是行不通的。

RSS = 3:10 #正确的鞋码
LSS = rnorm(RSS, RSS, 0.1) #RSS右脚鞋码和左脚鞋码类似
cor(LSS, RSS) #相关~ 0.99

weights = 120 + rnorm(RSS, 10*RSS, 10)

m = lm(weights ~ LSS + RSS)

##f值非常小，但LSS和RSS都不显著
summary(m)

##分别拟合RSS和LSS得到了显著的结果。
summary(lm(weights ~ LSS))

进来学习一下

看的一脸懵逼，还是不回答了，我反正答不了，换下一个