多个自变量对一个因变量有两个数 显著性差异影响,如...

多个自变量,一个因变量。不知道该用什么方法做分析?_matlab吧_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名:今日本吧第个签到,本吧因你更精彩,明天继续来努力!
本吧签到人数:0成为超级会员,使用一键签到本月漏签0次!成为超级会员,赠送8张补签卡连续签到:天&&累计签到:天超级会员单次开通12个月以上,赠送连续签到卡3张
关注:129,338贴子:
多个自变量,一个因变量。不知道该用什么方法做分析?收藏
本人毕设设计做到数据处理。现在时间序列数据抽取特征之后有多个自变量(10个左右),一个因变量(结果)。不知道用matlab什么方法分析哪些重要的自变量会产生因变量(结果)。最后想得到一个模式,模式构成的元素是重要的自变量+因变量。或用SPSS哪个方法分析。
纸屏这一本,联想YOGA系列全新笔记本张天爱期待与你相遇,官网立即购买!
我已经用SPSS算显著性方法计算出来只有4个自变量显著性特别高,所以说利用4个自变量和1个因变量怎么发现关系或者说发现模式?
利用支持向量机发现模式,请问有人知道吗?
本人毕设设计做到数据处理。现在时间序列数据抽取特征之后有多个自变量(10个左右),一个因变量(结果)。不知道用matlab什么方法分析哪些重要的自变量会产生因变量(结果)。最后想得到一个模式,模式构成的元素是重要的自变量+因变量。或用SPSS哪个方法分析。
登录百度帐号推荐应用
为兴趣而生,贴吧更懂你。或 上传我的文档
 下载
 收藏
该文档贡献者很忙,什么也没留下。
 下载此文档
正在努力加载中...
统计学思考题答案
下载积分:2000
内容提示:统计学思考题答案
文档格式:DOC|
浏览次数:14|
上传日期: 00:03:45|
文档星级:
该用户还上传了这些文档
统计学思考题答案
官方公共微信这样的结果可信度高吗?PS:新增的控制变量具有一定必要性,但内在上可能和要观测的变量有一定相关度;回归方法是普通的GLS.
谢邀。先挖坑占位。本人非统计非计量科班出身,请专业人士轻拍。首先,我建议楼主一要谨慎选择控制变量,二要重新回顾一下你的理论和假说。增加控制变量的目的有两个:(1)排除虚假关系(spurious relationship);(2)控制变量是自变量(X)作用于因变量(Y)的制约条件。在解释结果钱,需要仔细思考为什么要添加这个控制变量(而不是其他控制变量);有什么理论或实践中的证据支持你选择的这个变量作为你的控制变量。再确定,还应该仔细检查数据中所有变量的赋值(coding)、样本的缺失值、具体选择的模型是否合适、以及程序的代码是否正确。如果都没有问题的话, 亦或者我们只是在讨论线性回归中最简单的多变量关系的话,那么就有可能是以下的情况:1. 两个自变量间存在多重共线性(multicollinearity),即存在高度相关关系。这违反线性回归“自变量之间互相独立”的基本假设。借用一个网上的例子:api00:因变量,孩子的学术表现; acs_k3:自变量,孩子的某项基本能力;grad_sch,col_grad,some_col分别代表父母的教育水平(研究教育、本科教育、一些大学教育)在第一个回归方程的结果里,可以看见acs_k3的p-value是0.002,,标准误差是3.66。结果显著。在第一个回归方程的结果里,可以看见acs_k3的p-value是0.002,,标准误差是3.66。结果显著。下面,看看添加了多一个自变量(avg_ed,样本中孩子父母的平均教育水平):(来源:)第二个回归方程里的acs_k3结果看上去也显著(而且标准误差更小,R平方更大了)。但是第二个方程的结果是不能接受的:因为avg_ed这个变量实际上和其他三个关于父母教育的变量高度相关。所以这种情况下,结果不可行,这个模型也是错误的。顺便一提stata里测试共线性的两个命令:vif和collin。2. 如果两个变量是独立的,那么有可能是:(1)新添加的变量可能吸收(或减弱了)部分的剩余方差(residual variability,即不能被任何因素解释的误差)。这个帖子里有三个非常好的答案(尤其是第四个,非常有意思),建议楼主看一下。我迟点再翻译解释一下。(2)新添加的变量是抑制变量。抑制变量这一块我不太懂怎么解释,求统计的朋友出来解释一下。3. 你的“控制变量”实际上并不是控制变量,而是一个会影响原先那个自变量作用于因变量的制约条件。借用一个通俗的例子:通过一群人的年龄、性别等数据来预测他们的身高。假设我们先假设:男性比女性高,所以可以建立了一个简单模型:用性别来预测身高。很显然,结果应该是不显著的(5岁的正太怎么可能高过20岁的少女啊)。那么,如果我们加入年龄(或父母的身高,或人种)这个自变量进入模型,我们就会发现:年龄和性别都同时结果显著了。这个结果可信吗?我们能得出什么结论呢?结论就是一开始所假设的模型太简单了,用来预测身高的信息太少了,所以原来的简单模型预测不准确。年龄不是影响身高的最重要因素。这种情况下,你要完全修改你的理论和假说,建立一个更加完全的模型。
反对 &a data-hash=&c99038c2eccb11c622e29948eaadd4a7& href=&///people/c99038c2eccb11c622e29948eaadd4a7& class=&member_mention& data-editable=&true& data-title=&@DY Lancelot& data-hovercard=&p$b$c99038c2eccb11c622e29948eaadd4a7&&@DY Lancelot&/a&的答案&br&首先,线性回归没有“&b&自变量之间互相独立&/b&”这个基本假设,高斯马尔科夫假定只要求任何两个不能完全线性相关,换言之,只要不完全相关就不会影响估计值的BLUE性。&br&多重共线性不好,只是因为它会导致估计量标准差被高估,使得显著性等参数不可信。&br&所以多重共线性是有成本的,但不足以构成拒绝添加一些变量的充分理由。&br&&br&你举的那个例子,avg_ed变量的确不应该添加,但这不是因为多重共线性,而是因为它所包含的信息——父母受教育水平——已经被完全包含在其他几个变量中了,因而从理论上说,添加这个变量没有好处。因而在权衡取舍之后,我们不应当添加这个变量。&br&&br&相反,如果某个变量包含了重要的信息,从理论上讲就与被解释变量十分相关,那我们就绝不能因为多重共线性就从回归中剔除掉它。&br&&br&回到题主的例子。从题主给出的信息看,这新变量必须添加。&br&原因很简单,题主说它有一定必要性,亦即它与被解释变量相关;然后它又与要观测的变量相关。在这种情况下,如果不在回归中纳入这么变量,那就意味着它被遗漏在残差项中,会造成残差与被解释变量相关。这将直接导致回归结果有偏,这是远比多重共线性更严重的问题,这才是计量最忌讳的问题。
反对 的答案 首先,线性回归没有“自变量之间互相独立”这个基本假设,高斯马尔科夫假定只要求任何两个不能完全线性相关,换言之,只要不完全相关就不会影响估计值的BLUE性。 多重共线性不好,只是因为它会导致估计量标准差被高估,使得显著性…
谢 &a class=&member_mention& href=&///people/e24ec806ded& data-editable=&true& data-title=&@冯子宁& data-hash=&e24ec806ded& data-hovercard=&p$b$e24ec806ded&&@冯子宁&/a& 邀,但我不懂计量啊←_←。从之前的回答和提问时间看,题主应该已经把问题解决了。我来从我学过的回归分析的角度稍微补充一下吧。&br&首先考虑到统计推断主要是扯谈,变量取舍还是要从模型出发。既然题主认为从模型上考虑,新加入的变量有添加的必要性,那自然可以基于添加变量后的模型进行分析。&br&添加新变量以后原有的某个自变量从不显著变为显著,的确是一很容易出现的情况。当新添加的自变量与原有的自变量正交时,这种情况尤其容易发生。通过简单的分析,可以发现在新增自变量和原有自变量正交时,原有自变量的F值(t值)总是会增大。&br&考虑应变量&img src=&///equation?tex=Y& alt=&Y& eeimg=&1&&和两个分别由若干自变量张成的空间&img src=&///equation?tex=X_2& alt=&X_2& eeimg=&1&&和&img src=&///equation?tex=X_1& alt=&X_1& eeimg=&1&&. 分别记&img src=&///equation?tex=X_1%2CX_2& alt=&X_1,X_2& eeimg=&1&&上的投影矩阵为&img src=&///equation?tex=P_1%2CP_2& alt=&P_1,P_2& eeimg=&1&&. 模型1是&img src=&///equation?tex=Y%5Csim+X_1& alt=&Y\sim X_1& eeimg=&1&&,模型2为&img src=&///equation?tex=Y%5Csim+X_2%2BX_1& alt=&Y\sim X_2+X_1& eeimg=&1&&. 回忆起最小二乘无非是(某种度规下)应变量在自变量张成的空间上的垂直投影。而F值则是投影长度与垂直距离之比的平方。那么模型1中的F值为&br&&img src=&///equation?tex=F_1%3D%5Cfrac%7B%7CP_1Y%7C%5E2%7D%7B%7C%28I-P_1%29Y%7C%5E2%7D%3D%5Cfrac%7B%7CP_1Y%7C%5E2%7D%7B%7C%28I-P%29Y%7C%5E2%2B%7C%28P-P_1%29Y%7C%5E2%7D%2C& alt=&F_1=\frac{|P_1Y|^2}{|(I-P_1)Y|^2}=\frac{|P_1Y|^2}{|(I-P)Y|^2+|(P-P_1)Y|^2},& eeimg=&1&&&br&其中&img src=&///equation?tex=P& alt=&P& eeimg=&1&&为&img src=&///equation?tex=X_1%2BX_2& alt=&X_1+X_2& eeimg=&1&&上的投影矩阵。模型2中&img src=&///equation?tex=X_1& alt=&X_1& eeimg=&1&&的F值为&br&&img src=&///equation?tex=F_2%3D%5Cfrac%7B%7C%28P-P_2%29Y%7C%5E2%7D%7B%7C%28I-P%29Y%7C%5E2%7D.& alt=&F_2=\frac{|(P-P_2)Y|^2}{|(I-P)Y|^2}.& eeimg=&1&&&br&若&img src=&///equation?tex=X_1& alt=&X_1& eeimg=&1&&与&img src=&///equation?tex=X_2& alt=&X_2& eeimg=&1&&正交,则&img src=&///equation?tex=P-P_2%3DP_1& alt=&P-P_2=P_1& eeimg=&1&&. 那么显然&img src=&///equation?tex=F_1%3CF_2& alt=&F_1&F_2& eeimg=&1&&. 如果两个模型的残差自由度相差不大,&img src=&///equation?tex=X_1& alt=&X_1& eeimg=&1&&在模型2中很容易比在模型1中显著。&br&我们也可以通过简单的几何分析来看看两个自变量间成任意角度时F值的变化情况。&br&&img src=&/fd5e478fce291aea479adb3_b.png& data-rawheight=&652& data-rawwidth=&1150& class=&origin_image zh-lightbox-thumb& width=&1150& data-original=&/fd5e478fce291aea479adb3_r.png&&如图表示的是&img src=&///equation?tex=Y%5Csim+X_2%2BX_1& alt=&Y\sim X_2+X_1& eeimg=&1&&的模型,其中自变量&img src=&///equation?tex=X_1%2CX_2& alt=&X_1,X_2& eeimg=&1&&都是单个向量(右图为左图在自变量所张成的平面上的部分)。令两个自变量间的夹角为&img src=&///equation?tex=%5Ctheta%3D%5Ctheta_1%2B%5Ctheta_2& alt=&\theta=\theta_1+\theta_2& eeimg=&1&&. 我们看到&img src=&///equation?tex=%7CP_1Y%7C%3D%7CPY%7C%5Ccos%5Ctheta_1& alt=&|P_1Y|=|PY|\cos\theta_1& eeimg=&1&&, &img src=&///equation?tex=%7C%28P-P_1%29Y%7C%3D%7CPY%7C%5Csin%5Ctheta_1& alt=&|(P-P_1)Y|=|PY|\sin\theta_1& eeimg=&1&&, &img src=&///equation?tex=%7C%28P-P_2%29Y%7C%3D%7CPY%7C%5Csin%28%5Ctheta-%5Ctheta_1%29& alt=&|(P-P_2)Y|=|PY|\sin(\theta-\theta_1)& eeimg=&1&&. 则&br&&img src=&///equation?tex=F_1%3D%5Cfrac%7B%5Ccos%5E2%5Ctheta_1%7D%7B1%2FF%2B%5Csin%5E2%5Ctheta_1%7D%2CF_2%3D%5Cfrac%7B%5Csin%5E2%28%5Ctheta-%5Ctheta_1%29%7D%7B1%2FF%7D& alt=&F_1=\frac{\cos^2\theta_1}{1/F+\sin^2\theta_1},F_2=\frac{\sin^2(\theta-\theta_1)}{1/F}& eeimg=&1&&,&br&其中&img src=&///equation?tex=F%3D%5Cfrac%7B%7CPY%7C%5E2%7D%7B%7C%28I-P%29Y%7C%5E2%7D& alt=&F=\frac{|PY|^2}{|(I-P)Y|^2}& eeimg=&1&&是整个模型2的F值。当&img src=&///equation?tex=%5Ctheta%3D%5Cpi%2F2& alt=&\theta=\pi/2& eeimg=&1&&时,&br&&img src=&///equation?tex=F_2%3D%5Cfrac%7B%5Ccos%5E2%5Ctheta_1%7D%7B1%2FF%7D%2C& alt=&F_2=\frac{\cos^2\theta_1}{1/F},& eeimg=&1&&&br&&img src=&///equation?tex=F_1%2FF_2& alt=&F_1/F_2& eeimg=&1&&随着&img src=&///equation?tex=%5Ctheta_1& alt=&\theta_1& eeimg=&1&&接近&img src=&///equation?tex=%5Cpi%2F2& alt=&\pi/2& eeimg=&1&&而减小。也就是说在&img src=&///equation?tex=X_1%2CX_2& alt=&X_1,X_2& eeimg=&1&&正交时,&img src=&///equation?tex=X_1& alt=&X_1& eeimg=&1&&相对于&img src=&///equation?tex=X_2& alt=&X_2& eeimg=&1&&对应变量的解释力越差,越容易出现增加自变量后F值增大的情况。这在实际研究中可能值得重视(不了解,也可能不,毕竟统计推断主要是扯谈)。&br&现以&img src=&///equation?tex=F%3DF_%7B0.05%2C+2%2C+1%7D%5Capprox18.5& alt=&F=F_{0.05, 2, 1}\approx18.5& eeimg=&1&&为例,描绘一下&img src=&///equation?tex=F& alt=&F& eeimg=&1&&固定时,两个模型的&img src=&///equation?tex=X_1& alt=&X_1& eeimg=&1&&的F值之差和p值之差在不同的&img src=&///equation?tex=%5Ctheta& alt=&\theta& eeimg=&1&&下随&img src=&///equation?tex=%5Ctheta_1& alt=&\theta_1& eeimg=&1&&的变化情况。&br&&img src=&/b87dabf3bd3f222452afcd5d92e00a57_b.png& data-rawheight=&539& data-rawwidth=&861& class=&origin_image zh-lightbox-thumb& width=&861& data-original=&/b87dabf3bd3f222452afcd5d92e00a57_r.png&&&br&并不知道为什么图片上传完会那么丑。。。从上图可以看到,在很多情况下,&img src=&///equation?tex=F_1& alt=&F_1& eeimg=&1&&是确实比&img src=&///equation?tex=F_2& alt=&F_2& eeimg=&1&&小的。多个&img src=&///equation?tex=%5Ctheta& alt=&\theta& eeimg=&1&&下&img src=&///equation?tex=F_2-F_1+%5Csim+%5Ctheta_1& alt=&F_2-F_1 \sim \theta_1& eeimg=&1&&曲线的包络也显示了这一情况:&img src=&/4972bbd74a56f90cfeb4c_b.png& data-rawheight=&539& data-rawwidth=&861& class=&origin_image zh-lightbox-thumb& width=&861& data-original=&/4972bbd74a56f90cfeb4c_r.png&&&br&&img src=&/f3259e97aceb7cd39e6d_b.png& data-rawheight=&539& data-rawwidth=&861& class=&origin_image zh-lightbox-thumb& width=&861& data-original=&/f3259e97aceb7cd39e6d_r.png&&&br&而两个模型下&img src=&///equation?tex=X_1& alt=&X_1& eeimg=&1&&的p值比如上图。当&img src=&///equation?tex=p_2-p_1%3C0& alt=&p_2-p_1&0& eeimg=&1&&时,模型2中的&img src=&///equation?tex=X_1& alt=&X_1& eeimg=&1&&比模型1中的更为显著。在三种&img src=&///equation?tex=%5Ctheta& alt=&\theta& eeimg=&1&&下,当&img src=&///equation?tex=%5Ctheta_1& alt=&\theta_1& eeimg=&1&&接近&img src=&///equation?tex=%5Cpi%2F2& alt=&\pi/2& eeimg=&1&&(即&img src=&///equation?tex=X_1& alt=&X_1& eeimg=&1&&相对于&img src=&///equation?tex=X_2& alt=&X_2& eeimg=&1&&对模型解释力不强的时候)模型2中&img src=&///equation?tex=X_1& alt=&X_1& eeimg=&1&&的显著性都会较模型1增强。&img src=&/bedb4fb514afaac_b.png& data-rawheight=&539& data-rawwidth=&861& class=&origin_image zh-lightbox-thumb& width=&861& data-original=&/bedb4fb514afaac_r.png&&多个&img src=&///equation?tex=%5Ctheta& alt=&\theta& eeimg=&1&&下&img src=&///equation?tex=p_2-p_1+%5Csim+%5Ctheta_1& alt=&p_2-p_1 \sim \theta_1& eeimg=&1&&曲线的包络也显示了这一情况。&br&综上所述,题主描述的情况确属正常。值不值得警惕可能要看对模型的解释符不符合具体学科的逻辑了。
邀,但我不懂计量啊←_←。从之前的回答和提问时间看,题主应该已经把问题解决了。我来从我学过的回归分析的角度稍微补充一下吧。 首先考虑到统计推断主要是扯谈,变量取舍还是要从模型出发。既然题主认为从模型上考虑,新加入的变量有添加的必…
已有帐号?
无法登录?
社交帐号登录(百度传课网)
第三方登录:用SPSS一个分析,有一个因变量和N个自变量,先做相关性发现有很多自变量与因变量有关,相关性也比较高。用SPSS一个分析,有一个因变量和N个自变量,先做相关性发现-知识宝库
你可能对下面的信息感兴趣

我要回帖

更多关于 两个数 显著性差异 的文章

 

随机推荐