多重线性回归的自变量可以是分类变量吗

2024-05-12 08:04

1. 多重线性回归的自变量可以是分类变量吗

　　可以。
　　多重线性回归是用回归方程描述一个因变量与多个自变量的依存关系，简称多重回归，其基本形式为：Y= a + bX1+CX2+***+NXn。
　　分类变量是指地理位置、人口统计等方面的变量，其作用是将调查响应者分群。描述变量是描述某一个客户群与其他客户群的区别。大部分分类变量也就是描述变量。

多重线性回归的自变量可以是分类变量吗

2. 多元线性回归分析可以应用在哪些方面

（1）确定几个特定的变量之间是否存在相关关系，如果存在的话，找出它们之间合适的数学表达式； 
（2）根据一个或几个变量的值，预测或控制另一个变量的取值，并且可以知道这种预测或控制能达到什么样的精确度； 
（3）进行因素分析。
例如在对于共同影响一个变量的许多变量（因素）之间，找出哪些是重要因素，哪些是次要因素，这些因素之间又有什么关系等等。

多元线性回归简介
在回归分析中，如果有两个或两个以上的自变量，就称为多元回归。事实上，一种现象常常是与多个因素相联系的，由多个自变量的最优组合共同来预测或估计因变量，比只用一个自变量进行预测或估计更有效，更符合实际。因此多元线性回归比一元线性回归的实用意义更大。
以上内容参考百度百科-多元线性回归

3. 多元线性回归的自变量必须是计量资料吗

相信对于多重线性回归这种方法大家并不陌生，但是大家在使用中一定会有很多问题，那么本期小编就将平时大家疑惑多的问题进行集合，统一解答给大家，希望对大家有所帮助！

1多重线性回归与多元线性回归傻傻分不清？
这个问题好多学统计的同学在刚开始也会犯错误，这里主要是对多元和多重的理解上有问题，“重”实质上指代的是多因素，即自变量个数，所以多重线性回归实际上指因变量为一个、自变量为多个的线性回归分析。“元”指代的是分析变量个数，常见的多元分析有单因素设计多元定量资料差异性分析，指代的一个自变量因素与多个相关的因变量之间的差异性分析。但是在现在的教材课本上多元线性回归与多重线性回归实际上同一概念，均分析一个应变量与多个自变量之间的的线性关系，只不过版本不同叫法不同，小编建议大家还是记多重线性回归比较好，以便于前面的分类系统统一。

2多重线性回归自变量只能是计量资料吗？
这个问题，已经有不少同学问我了，多重线性回归要求因变量Y的取值是一个近似服从正态分布的连续性随机变量，自变量是一系列互相独立的定量变量或定性变量。因此自变量是可以为定性变量（即分类资料如性别），但因变量Y是服从正态分布的连续性随机变量。

3自变量为定性变量可直接带入方程吗？
这个问题是大家疑惑的，不少朋友担心，分类变量带入方程，结果该怎样解释！这里给大家做详细解释，定性资料大致分为以下几种情况，二分类、多分类、有序分类。对于二分类资料可直接带入方程（如性别男定义为1，女定义为0），那么在方程中的回归系数就表示男与女相比的情况。多分类时，我们需要做哑变量处理，四分类可得到3个哑变量，因为会选定一个作为参照组，结果解释时各哑变量的结果表示与参照组比较的结果。有序分类时，可先将变量做计量资料带入模型，判断是否存在线性关系，若不存在线性关系再做哑变量处理，解释时同上。

4如何设置哑变量？
这里我们举例说明，我们以A、B、AB、O四种血型四分类变量做哑变量处理（哑变量的个数为分类变量的水平数减一），设置如下表，代入模型时直接代入X1、X2、X3即可。



5自变量筛选的方法是不是逐步法最好呢？
这个是小编本科前经常犯的错误，在深度学习后发现每种方法都有它的弊端，以前认为逐步法是前进法跟后退法的结合，那自然以为它是做好的，其实不然，在逐步法中，当有P个自变量入选后，选第p+1个自变量时，对它来说前P个自变量的组合不一定是最优组合。对于每种方法我就不一一展开了，没有绝对的好方法，一般来说，逐步回归法和最优回归子集法较好，那么对于给定的资料而言，最保险的就是尝试多种变量筛选方法，从中选择最优模型。

6如何判定多重线性回归模型的优劣呢？
这个问题是个比较复杂的问题，小编参考了教材。最终归纳如下，较优模型满足标准：

（1）拟合的多重线性回归方程在整体上有统计学意义

（2） 多重回归方程中各参数估计值假设检验结果有统计学意义

（3） 多重回归方程中各回归参数的正负号与专业上的含义相符合

（4）根据多重回归方程计算出因变量所有预测值在专业上有意义

（5）若有多个较好的多重回归方程时，残差平方和较小且多重回归方程中所含的自变量个数又较少者为最佳

（6）从实际角度来看，自变量取值越容易越好

7多重共线性是什么鬼，该怎么判断？
多重共线性大家在做回归时可能听说过，但大家多数却选择跳过。所谓多重共线性是指一些自变量之间存在较强的线性关系，不满足多重线性回归中自变量相互独立的要求。会引起方程的不稳定，增加或减少某几个观察值，估计值可能发生很大的变化。也可能造成估计值的正负符合与客观实际不一致的情况。那么如何判定共线性呢，主要通过以下方法：a.用条件数（K）和方差分量进行共线性诊断（此步骤可在SAS中操作）K>=0且K=10且K30存在严重的多重共线性。b.利用方差膨胀因子（VIF）进行共线性诊断，但目前尚无标准的临界值，有人根据经验，当VIF>10时，就有严重的多重共线性存在。

8多重共线性怎么处理？
多重共线性的处理比较复杂，通常有以下方法：a.精简变量法：简单粗暴的方法在自变量中剔除造成共线性的自变量，重新建立回归方程；b.逐步回归判别法：用逐步回归建立回归方程，包含的自变量间不存在多重共线性（请教老师说不准确）；C.主成分回归法：利用主成分分析将存在共线性的自变量合成主成分变量，再与应变量建立回归方程，由于主成分之间互不相关，因此可以避免多重共线性问题。此外还有一些复杂方法如岭回归、偏最小二乘法、特征根法等。

9异常值如何诊断？
若个别观测点于多数观测点偏离很远，它们可能会对回归的估计以及其他推断产生很大影响，这种点称之为异常点。在SAS里有两种简单方法方便检测：a.利用学生化残差统计量，当该统计量的绝对值大于2时，所对应的观测值可能是异常点；b.利用残差图进行异常值诊断，在残差图中，如果各散点随机均匀散布在直线y=0的上下两侧，说明资料满足假设，若有特别趋势，则需要考虑因变量与自变量之间的关系可能是非线性、方差不齐等情况。

10发现异常值该如何处理？
若发现异常值，此时需要认真核对原始数据，若属于抄写或输入人为错误，应当纠正；若非人为过失所导致，需要做敏感性分析，即将该异常点剔除前后各做一个最好的回归方程，并对最终的结果做比较分析。若不一致，进一步探究原因，最好在此点上补做试验，以便进一步确认。

多元线性回归的自变量必须是计量资料吗

4. 用SPSS做多元线性回归分析，总共三个自变量，一个因变量，想弄清楚自变量对因变量的影响程度

首先来回答你的问题：
1. 非标准化系数就是回归方程的斜率，表示每个自变量变化1个单位，因变量相应变化多少个单位，该系数与自变量所取的单位有关，一般不用来衡量自变量的影响力大小。
2. 标准化系数消除了自变量单位的影响，其大小可以衡量每个自变量对因变量的影响力之大小，一般来说，标准化系数的绝对值越大，该自变量对因变量的影响力就越大。


其次，大致给你提出点分析和建议（2-4条的前提是样本量够大）：
1. 样本太小，只有5组数据，得到的结果往往不可靠，强烈建议增大样本量，否则统计分析可能毫无意义，甚至造成错误。
2. 从自变量t检验结果来看，“其来石含量”与“颈部密度”对应的sig值均超过了0.05，用统计专业的话来说，这意味着“在0.05的显著性水平下，这两个自变量与因变量不显著相关”，通俗的说，在自变量平均孔径存在的前提下，这两个变量基本可以排除出方程了。

3. 从偏相关性来看，3个自变量之间有极强的相关性（或共线性），因为强相关的自变量往往会导致不合理的统计分析结果，因此理论上他们不可以一起放入方程。
4. 建议你在做多元线性回归分析的时候采用多元逐步回归，这样可以按自变量影响力的大小自动排除强相关的变量，也可以自动排除对因变量无显著影响的自变量，从而得到更可靠的分析结果。

5. 有一个解释变量显著不等于多元线性回归模型的方程显著

第一，在一元线性回归的情况下，由于只有一个系数需要检验，所以回归方程的F检验与系数的T检验的结果是一直的。

第二，在多元线性回归的情况下，方程总体的线性关系检验不一定与回归系数检验结果一致。通常的情况是，方程的总体线性关系是显著的，但是某个变量的影响却并不显著。

因为，方程总体的线性关系显著性F检验的备择假设是估计参数不全为0，所以当某个参数的t检验通过（即拒绝零假设，参数不为0），则很可能影响到总体线性检验拒绝零假设。

回归模型（regression model）对统计关系进行定量描述的一种数学模型。如多元线性回归的数学模型可以表示为y=β0+β1*x+εi，式中，β0，β1，…，βp是p+1个待估计的参数，εi是相互独立且服从同一正态分布N(0,σ2)的随机变量，y是随机变量；x可以是随机变量，也可以是非随机变量，βi称为回归系数，表征自变量对因变量影响的程度。【摘要】
有一个解释变量显著不等于多元线性回归模型的方程显著【提问】
第一，在一元线性回归的情况下，由于只有一个系数需要检验，所以回归方程的F检验与系数的T检验的结果是一直的。

第二，在多元线性回归的情况下，方程总体的线性关系检验不一定与回归系数检验结果一致。通常的情况是，方程的总体线性关系是显著的，但是某个变量的影响却并不显著。

因为，方程总体的线性关系显著性F检验的备择假设是估计参数不全为0，所以当某个参数的t检验通过（即拒绝零假设，参数不为0），则很可能影响到总体线性检验拒绝零假设。

回归模型（regression model）对统计关系进行定量描述的一种数学模型。如多元线性回归的数学模型可以表示为y=β0+β1*x+εi，式中，β0，β1，…，βp是p+1个待估计的参数，εi是相互独立且服从同一正态分布N(0,σ2)的随机变量，y是随机变量；x可以是随机变量，也可以是非随机变量，βi称为回归系数，表征自变量对因变量影响的程度。【回答】
那这句话到底是对的还是错误的呢【提问】
根据您的描述，t检验可能影响F检验，但是题目说的是等于，而且是在多元回归方程中【提问】
多元线性回归模型中,如果方程的总体线性关系是显著的,并不能说明每个解释变量对被解释变量的影响都是显著的,必须对每个解释变量进行显著性检验【回答】

有一个解释变量显著不等于多元线性回归模型的方程显著

6. 多元线性回归分析有什么作用？通常可以得到那些结果

多元回归分析：一种统计分析方法

7. 多元线性回归分析中为消除其他变量的影响真实反映某两个变量的相关性需计算偏

多元线性回归分析也称为复线性回归分析它是一元线性回归分析或简单线性回归分析的推广，它研究的是一组自变量如何直接影响一个因变量。这里的自变量指的是能独立自由变化的变量，一般用x表示;因变量y指的是非独立的、受其它变量影响的变量，一般用y表示。由于多元线性回归分析(包括一元线性回归分析)仅涉及到一个因变量，所以有时也称为单变量线性回归分析。【摘要】
多元线性回归分析中为消除其他变量的影响真实反映某两个变量的相关性需计算偏【提问】
多元线性回归分析也称为复线性回归分析它是一元线性回归分析或简单线性回归分析的推广，它研究的是一组自变量如何直接影响一个因变量。这里的自变量指的是能独立自由变化的变量，一般用x表示;因变量y指的是非独立的、受其它变量影响的变量，一般用y表示。由于多元线性回归分析(包括一元线性回归分析)仅涉及到一个因变量，所以有时也称为单变量线性回归分析。【回答】

多元线性回归分析中为消除其他变量的影响真实反映某两个变量的相关性需计算偏

8. 多元线性回归分析中为消除其他变量的影响真实反映某两个变量的相关性需计算偏

错【摘要】
多元线性回归分析中为消除其他变量的影响真实反映某两个变量的相关性需计算偏【提问】
错【回答】
多元线性回归分析中为消除其他变量的影响真实反映某两个变量的相关性需计算偏是错的【回答】
【提问】
【提问】
打字哦亲【回答】
变量间总体相关系数的理论真值通常是未知的，只能根据样本数据计算样本相关系数。在有样本相关系数，在一定把握程度下，推断出总体相关系数 【提问】
对吗【提问】
错【回答】
判断抽样的误差大小很大程度上依赖于研究者对调查对象的了解程度，判断水平以及对结果的解释 【提问】
是的【回答】
异众比率主要用于测度分类数据的离散程度，而四分位数则主要用于测度定距和定比数据的离散程度 【提问】
错【回答】