R语言多元回归。4个自变量全部不显著。但整体F显著。只需要深度解释原因。不需要任何纠错

本人初学R语言-海外研究生就读。教授的题目背景是4个不同的能力测试分数作为自变量,1个绩效分数作为因变量。(XY都是score的数字分数)探求哪个能力测试和绩效成绩最相关。100+样本数量

多元回归后-出现如标题的问题。教授表示这就是想要同学们探索的问题。

查阅资料后,怀疑是多重现性或者是残值问题-用VIF和一些残值程序-包括数据分布是否正态。数据测试完后-全部没有问题。数据分布的很好,无多重现性,也没有残值问题

又怀疑是否是这4个因变量之间是否高度相关-导致多元回归时候互相抵消了显著性。为此各自做了相关分析,4个变量互相之间最高的相关系数也就0.5。似乎这个原因站不住脚跟。

我突发奇想自己组合了4个因变量可能存在的线性组合-如123、124、234;23;12、14之类的多元回归。发现每一种回归下-各个因变量都显示不同的显著性。另外,我还做了4个一元回归,全部各自高度显著。

这个题目的背景是建立在EFA下的-EFA的结果跑出来建议是4个Factors-正好对应了题目数据里4个能力测试的类别。一共40道题目的分数-所以分成4个因子应该是没问题的(如果能指出倪端,欢迎)

本人问题就是想要请求各位帮忙解释这个现象的原因。教授是刻意设置这个结果,所以不需要纠错,或者更改某种模型-只希望一个合理的解释-最好联系到背景,这4个能力测试的设置是否真的能够预测绩效分数,或者和绩效分数高度相关。所以请求指点一下,最好附上一些重要理论或是文献!我会深入学习!

本来清明节后工作挺忙的,结果意外的一切正常,上班摸鱼期间看到了你的提问,想尝试用心答一下。
你想知道标题的原因?这个原因是想说,照你的理解F检验通过的话,那么4个自变量也应该是显著的对吧。

首先我想解释下多元回归中F检验的意义,我觉得你可能要先明确这一点,F检验中,我们本身是想让其支持备择假设H1而拒绝H0,但犯第一类错误下拒绝了H0,意味着你只能认定肯定有解释变量X1X2X3X4与Y存在回归关系,因为F检验的H0假设是认为k-1个解释变量都不与y存在回归关系。一般的操作过程是F检验通过后,进一步对各变量做t检验以确定哪些X是重要的解释变量。
显然你第一步是成功的,但第二步没有找到一个通过的t。读到此处,我开始质疑你的初始假设条件是否支持你做F检验,即F检验,它可靠吗?
标题里是多元回归的内容,下方的各种建模尝试我看到都是在进行线性建模,那么我首先认为你需要做的是多元线性回归。
我首先说结论吧,基于你给出的结果,因变量间存在着中度的相关性(0.5其实很高了),也就是犯了多重共线性的问题。

那么我先尝试不借助任何统计论证去解释你的这个结果。从业务端看这种问题可以猜想是不是你的能力测试间并不相互独立(其实可以简单暴力的归结为聪明人做什么测试都得心应手,而蠢人干什么可能都差点意思),那么毫无疑问测试分数间是有相关性存在的。而且对应你的Y是某项绩效分数,也可以用这样的业务常识去佐证。毕竟优秀的人绩效也不会差,对吧。

那么为什么会在线性组合之后关系反而弱化了?

我曾经给同事们设计过一项变态的问卷,那份问卷分AB卷,简单弱化概念就是这份问卷可以真实反映做题人的IQ水平,但A卷是得分越高IQ越高,B卷是得分越低IQ越高(B卷是我小时候看武林外传李大嘴做测试题的灵机一动),虽然我们没有让每一个受试者把AB卷各答一遍,但我们还是拿到了每个人的得分。你可以看到,IQ与A高度正线性相关,IQ与B高度负线性相关,但IQ与A+B的多项式就显得不那么相关了(如果我们真的让每个人都做了A和B)。我想这个例子有助于你的进一步思考。

接着聊聊统计论证吧。其实在统计学的世界里,回归问题有大量变量间相关,自相关问题多出现在时间序列的分析过程中。在应对这种问题时,因为你的基础假设条件不满足线性回归,也就意味着你的方法其实全部失效了。(很残忍对不对。。。)要想研究这种问题,就必须重新构筑变量,或者重新研判变量间关系,即使牺牲一部分的信息量,也要保证你的多元线性模型能够更好的拟合。(我猜想这部分可能会以EFA过程反驳我,别急,看下去,毕竟我也没看到你的KMO和barrlet不是吗。)写到此处我忽然想起一篇我多年前的学年论文博客,你可以参考下面对线性相关时,如何处理能够使得结果可行。https://blog.csdn.net/lixiaomie01/article/details/80395065
针对其中的几个点我想我其实没有给你思路,只是告诉了你我不认可的论点,但是统计论证到此处,我无法站在你不可靠的假设条件下做论证,我更希望你尝试下新的方法吧,box-cox变化下,或者lasso试试。
期待你的新结果反馈。

要理解这一点,可以参考最小二乘几何。
X与y的唯一方差相关。这意味着当控制其他变量时,X和Y是相关的,而不是单独的。
Y的唯一方差不同于总方差。那么其他变量的方差是多少呢?
当你有高度相关的变量时就会发生这种情况。
有一个例子是通过鞋码来预测体重。你可以用左右鞋码同样准确地预测体重。合在一起是行不通的。

RSS = 3:10 #正确的鞋码
LSS = rnorm(RSS, RSS, 0.1) #RSS右脚鞋码和左脚鞋码类似
cor(LSS, RSS) #相关~ 0.99

weights = 120 + rnorm(RSS, 10*RSS, 10)

m = lm(weights ~ LSS + RSS)

##f值非常小,但LSS和RSS都不显著
summary(m)

##分别拟合RSS和LSS得到了显著的结果。
summary(lm(weights ~ LSS))

进来学习一下

看的一脸懵逼,还是不回答了,我反正答不了,换下一个