已知相关系数A为-0.40,相关系数B为+0.40,说明两者的相关程度

2024-05-16 03:18

1. 已知相关系数A为-0.40,相关系数B为+0.40,说明两者的相关程度

已知相关系数A为-0.40,相关系数B为+0.40,说明两者的相关程度较小【摘要】
已知相关系数A为-0.40,相关系数B为+0.40,说明两者的相关程度【提问】
已知相关系数A为-0.40,相关系数B为+0.40,说明两者的相关程度较小【回答】
扩展资料通常情况下,相关系数越大,犯错误虑越小,也就是两者的关联性更大.【回答】
A.  前者比后者小0.80B.  前者比后者小一倍C.  相等D.  前者比后者大【提问】
不好意思。有4个选项【提问】
是哪个呢【提问】
选A【回答】

已知相关系数A为-0.40,相关系数B为+0.40,说明两者的相关程度

2. 两个变量之间的相关性用相关系数来表示是对是错

是不对的。
相关系数r是根据样本数据计算的度量两个变量之间线性关系强度的统计量。如果相关系数r=0,说明两个变量之间不存在线性相关关系。并不说明变量之间不存在其它相关关系,比如非线性相关关系。
Pearson相关系数的适用条件:
1、适用于线性相关的情形,对于曲线相关等更为复杂的情形、积差相关系数的大小并不能代表相关性的强弱。
2、无明显异常值,存在极端值则予剔除或转换。
3、变量呈双变量正态分布,如各自服从正态分布两个变量计算Pearson相关系数、假阳率偏高一点。

扩展资料

利用样本相关系数推断总体中两个变量是否相关,可以用t 统计量对H0假设(即二者相关系数为0)进行检验。若t检验显著,则拒绝原假设,即两个变量是线性相关的;反之,则不能拒绝原假设,即两个变量不是线性相关的。
r的取值为,-1~+1。r>0表明两个变量是正相关,即一个变量的值越大,另一个变量的值也会越大;r<0表明两个变量是负相关,即一个变量的值越大另一个变量的值反而会越小。
r 的绝对值越大,则两变量相关性越强。若r=0,表明两个变量间不是线性相关,但可能存在其他方式的相关(比如曲线方式)。
(1)一般认为:|r|≥0.8时,可认为两变量间高度相关;0.5≤|r|<0.8,可认为两变量中度相关;0.3≤|r|<0.5,可认为两变量低度相关;|r|<0.3,可认为两变量基本不相关。
(2)也有认为:|r|≥0.8时,可认为两变量间极高度相关;0.6≤|r|<0.8,可认为两变量高度相关;0.4≤|r|<0.6,可认为两变量中度相关;0.2≤|r|<0.4,可认为两变量低度相关;|r|<0.2,可认为两变量基本不相关。
(3)还有认为:|r|≥0.7时,可认为两变量间强相关;0.4≤|r|<0.7,可认为两变量中度相关;0.2≤|r|<0.4,可认为两变量弱相关;|r|<0.2,可认为两变量极弱相关或不相关。
参考资料来源:百度百科-相关系数

3. 可否用相关性分析的相关系数来加权平均

需要注意的是,组合风险越小不代表说小于单个证券的风险。。。

证券间的相关系数是用来分析评判证券投资组合的风险,相关系数等于1,组合风险等于各个证券风险的加权平均数;相关系数小于1,组合风险小于各个证券风险的加权平均数;即任何时候,只要信加入的资产与现有组合的相关系数小于1,都会是该组合收益。

相关系数介于0-1时,得不到一个不卖空的组合使得其风险小于单个证券的风险,得知相关系数不是负相关,自然会增加风险:上面说组合相关系数小于1会降低风险,意思是降低该投资组合的风险,
(证券组合理论认为,证券组合的风险随着组合所包含证券数量的增加而降低,尤其是证券间关联性极低的多元化证券组合可以有效的降低非系统风险,使证券组合的投资风险趋向于市场平均风险水平。因此,组合管理强调构成组合的证券应多元化。在不卖空的情况下,证券组合的风险越小,特别是负完全相关的情况下,可获得无风险组合。在不卖空的情况下,组合降低风险的程度由证券间的关联程度决定。)
从组合线的形状来看,相关系数越小,在不卖空的情况下,证券组合的风险越小,特别是负完全相关的情况下,可获得无风险组合。在不卖空的情况下,组合降低风险的程度由证券间的关联程度决定

可否用相关性分析的相关系数来加权平均

4. 变量之间的相关程度越低,则相关系数的数值( )

由相关系数r的绝对值越趋近于1,相关性越强;越趋近于0,相关性越弱,可得C正确.故选:C.
相关系数越大,说明两个变量之间的关系就越强。
样本的简单相关系数一般用r表示,
r的取值在-1与+1之间,若r>0,表明两个变量是正相关,即一个变量的值越大,另一个变量的值也会越大;若r<0,表明两个变量是负相关,即一个变量的值越大另一个变量的值反而会越小。

r 的绝对值越大表明相关性越强,要注意的是这里并不存在因果关系。若r=0,表明两个变量间不是线性相关,但有可能是其他方式的相关(比如曲线方式)。
利用样本相关系数推断总体中两个变量是否相关,可以用t 统计量对总体相关系数为0的原假设进行检验。若t 检验显著,则拒绝原假设,即两个变量是线性相关的;若t 检验不显著,则不能拒绝原假设,即两个变量不是线性相关。
扩展资料
一些实际工作者用非居中的相关系数(与Pearson系数不相兼容)。
例如:
假设五个国家的国民生产总值分别是1、2、3、5、8(单位10亿美元),又假设这五个国家的贫困比例分别是11%、12%、13%、15%、18%。
则有两个有序的包含5个元素的向量x、y:x = (1, 2, 3, 5, 8) 、 y = (0.11, 0.12, 0.13, 0.15, 0.18) 使用一般的方法来计算向量间夹角(参考数量积)。

5. 相关系数对相关性的判断带有较强的主观性

相关系数对相关性的判断带有较强的主观性:正确
相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母 r 表示。由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数。
相关表和相关图可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度。相关系数是用以反映变量之间相关关系密切程度的统计指标。

相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。需要说明的是,皮尔逊相关系数并不是唯一的相关系数,但是最常见的相关系数,以下解释都是针对皮尔逊相关系数。
依据相关现象之间的不同特征,其统计指标的名称有所不同。
如将反映两变量间线性相关关系的统计指标称为相关系数(相关系数的平方称为判定系数);将反映两变量间曲线相关关系的统计指标称为非线性相关系数、非线性判定系数;将反映多元线性相关关系的统计指标称为复相关系数、复判定系数等。

相关系数对相关性的判断带有较强的主观性

6. 正确选择相关性分析的统计方法

转自: https://www.medsci.cn/article/show_article.do?id=55c91839569a 
  
 相关性分析主要用于:(1)判断两个或多个变量之间的统计学关联;(2)如果存在关联,进一步分析关联强度和方向。
  
 那么,什么样的研究可以进行相关性分析呢?我们在这里列举了几个相关性研究的例子供大家参考:
  
 确定要进行相关性分析后,对两个变量或多个变量进行相关性分析所采取的统计方法是不同的。那么,怎么判断研究变量的数量呢?
  
 我们分别就两个变量的研究和三个及以上变量的研究进行了举例,帮助大家理解。同时,我们也对例子中变量数据类型进行了描述(如,连续变量、二分类变量、无序分类变量和有序分类变量)。
  
 确定拟分析变量之间的相关性后,我们需要判断变量的数据类型。
  
 变量的数据类型主要分为连续变量、二分类变量、无序分类变量和有序分类变量4类。拟分析的变量可以同属于一个数据类型,也可以分属不同的数据类型。根据这两个变量数据类型的不同,应采用的统计分析方法也不同。
  
 连续变量是指对连续的指标测量所得到的数值,比如体重。其特点是等距区间的差异相同,例如体重在50kg-60kg之间的差异与60kg-70kg之间的差异相同。连续变量的示例如下:
  
 有序分类变量可以有两个或者多个已排序的类别。举例来说,如果某患者的治疗结果是“痊愈”、“好转”、“不变”或者“恶化”。这就是一个有序分类变量,因为可以对四个类别进行排序。
  
 需要注意的是,虽然我们可以对有序分类变量的类别排序,但还需要判断这种类别排序是不是等距的。例如,用各年龄段的近似中位数代表年龄类别,即24(18-30)岁、40(31-50)岁、60(51-70)岁、80(70岁以上)岁,可以将年龄视为定距变量。
  
 但将患者的诊疗结果“痊愈”、“好转”、“无变化”或者“恶化”就不能认为是等距的,换句话说,不能认为“好转”是“无变化”的2倍;也不能认为“痊愈”和“好转”的差异与“不变”和“恶化很满意”的差异一样,即有序分类变量各类别之间不是可能是定距、也可能不是定距的,这是与连续变量的根本不同。有序分类变量的示例如下:
  
 患者对医疗效果的满意程度,用5类测量:1-非常不满意、2-不满意、3-一般、4-满意、5-非常满意
  
 对疾病的疗效:用4类测量:1-痊愈、2-好转、3-不变、4-变差
  
 BMI指数是一种用于评估体重水平的指标。一般来说,BMI是连续变量(例如BMI为23.7或BMI为34.1),但按以下方式分类时可以视为有序分类变量:体重过轻(BMI小于18.5)、健康/正常体重(BMI在18.5—23.9之间)、超重(BMI在24—27.9之间)和肥胖(BMI大于28)。
  
 二分类变量是只有两个类别的分类变量。二分类变量的类别之间没有顺序,不能像有序分类变量的类别那样进行排序。比如,性别变量就是一个二分类变量,可以分为“男性”和“女性”两个分类。再如,罹患心脏病也是一个二分类变量,分为“是”和“否”两个分类。
  
 二分类变量类别是互斥的,一个研究对象不能同时分属于两个类别,比如一个人不能同时是男性或者女性,也不能同时患有心脏病又没有心脏病。二分类变量的示例如下:
  
 性别,两个类别:男性或女性
  
 罹患心脏病,两个类别:是或否
  
 研究分组,两个类别:实验组或对照组
  
 无序分类变量是具有三个及以上类别的分类变量。无序分类变量的类别之间没有内在顺序,也不能像有序分类变量类别那样进行排序。比如,出行方式是一个典型的无序分类变量,可以分为自行车、自驾、出租车、地铁或公交5个类别。无序分类变量的类别也是互斥的,一个研究对象不能同时分属于不同的类别,比如一次出行不能同时坐地铁又自己开车。无序分类变量的示例如下:
  
 手机品牌,四个类别:苹果、三星、华为或其他
  
 头发的颜色,五个类别:棕色、黑色、金色、红色或者灰色
  
 民族,七个类别:汉族、回族、蒙古族、满族、维吾尔族、朝鲜族或其他
  
 自变量也称为预测变量或解释变量,因变量也称为应答变量或结局变量。两者的区分在于,自变量可以影响因变量,因变量的值取决于对应自变量的值。也可以用因果关系来区分自变量和因变量,即自变量的变化导致了因变量的变化(但自变量和因变量之间并不一定真的存在因果关系)。自变量是对因变量的描述,而因变量可以被自变量所解释。
  
 研究设计也可以帮助我们区分自变量和因变量。举例来说,我们计划开展一项研究分析不同剂量药物的治疗效果,治疗药物就是这个研究的自变量,治疗效果则是因变量。
  
 比如我们想知道抗感染药物剂量(1.5 mg / d、4 mg /d或者 8 mg/d)与患者发热时长的关系,抗感染药物剂量就是自变量,因为这个剂量的是由研究者干预产生的,且很可能是发热时长差异的原因;而同时发热时长就是这项研究的因变量。
  
 横断面调查并不区分自变量和因变量。举例来说,研究者根据问卷调查研究对象的工作效率(1-5类:1代表非常高效、5代表非常低效)和锻炼情况(1-4类:1代表经常锻炼、4代表不锻炼)的关系。
  
 在该研究中,受调查者的工作效率和锻炼情况并不存在明确的因果关系,因为效率高可能意味着受调查者有更多的锻炼时间,而反之经常锻炼可能也会提高工作效率。因此,我们就不区分该研究的自变量和因变量。
  
 本文先说说研究中涉及两个变量的情况。
  
 Pearson相关用于评估两个连续变量之间的线性关联强度。这种统计方法本身不区分自变量和因变量,但如果您根据研究背景已经对变量进行了区分,我们仍可以采用该方法判断相关性。
  
 Pearson相关不区分自变量和因变量。虽然这不影响我们采用Pearson相关分析两个连续变量的相关性,但如果还是想通过统计方法区分一下,可以采用线性回归。
  
 这里还需要判断有序分类变量是否为定距变量。如果认为拟分析的有序分类变量是定距变量,我们就可以为变量中的类别赋值,然后根据这些数值进行分析(即看作连续变量),比如测量满意度(从“完全同意”到“完全不同意”5个类别)就是一个定距变量,可以用1-5为各类别赋值,即1 =完全同意、2 =同意、3 =一般、4 =不同意、5 =完全不同意。
  
 对于不能作为定距变量的有序分类变量,比如军衔的类别(少将、中将、上将、大将等)之间就不是等距的,就不能赋值后对数值进行分析(只能对类别进行分析)。
  
 实际上,将有序分类变量作为连续变量进行分析,这在大多数情况下可能不符合我们的研究目的。对类别进行分析是对有序分类变量相关性分析的常见选择。但是,如果基于的研究背景,待分析的有序分类变量确实可以作为定距变量处理,也是可以的。
  
 Mantel-Haenszel 趋势检验。该检验也被称为Mantel-Haenszel 卡方检验、Mantel-Haenszel 趋势卡方检验。该检验根据研究者对有序分类变量类别的赋值,判断两个有序分类变量之间的线性趋势。
  
 Spearman相关又称Spearman秩相关,用于检验至少有一个有序分类变量的关联强度和方向。
  
 Kendall's tau-b 相关系数是用于检验至少有一个有序分类变量关联强度和方向的非参数分析方法。该检验与Spearman相关的应用范围基本一致,但更适用于存在多种关联的数据(如列联表)。
  
 卡方检验常用于分析无序分类变量之间的相关性,也可以用于分析二分类变量之间的关系。但是该检验只能分析相关的统计学意义,不能反映关联强度。因此,我们常联合Cramer's V检验提示关联强度。
  
 Fisher精确检验可以用于检验任何R C数据之间的相关关系,但最常用于分析2 2数据,即两个二分类变量之间的相关性。与卡方检验只能拟合近似分布不同的是,Fisher精确检验可以分析精确分布,更适合分析小样本数据。但是该检验与卡方检验一样,只能分析相关的统计学意义,不能反映关联强度。
  
 确定进行两个二分类变量的相关性分析后,我们需要判断是否区分自变量和因变量。
  
 相对风险是流行病学或前瞻性队列研究中的常用指标,可以在一定条件下比较两个比例之间的关系,但其提示的结果是比值而不是差异。
  
 比值比可以计算多类研究的关联强度,也是很多统计检验(如二分类logistic回归)的常用指标。在相对风险指标不适用的病例对照研究中,比值比仍可以很好地反映结果。
  
 卡方检验可用于分析两个二分类变量之间的关系。但是该检验只能分析相关的统计学意义,不能反映关联强度。因此,该检验可以联合Phi (φ)系数提示关联强度。
  
 Fisher精确检验可以用于检验任何R C数据之间的关系,但最常用于分析2 2数据,即两个二分类变量之间的相关性。与卡方检验只能拟合近似分布不同的是,Fisher精确检验可以分析数据的精确分布,更适用于小样本数据。但是该检验与卡方检验一样,只能分析相关的统计学意义,不能反映关联强度。
  
 Point-biserial相关。Point-biserial相关适用于分析二分类变量和连续变量之间的相关性。其实,该检验是Pearson相关的一种特殊形式,与Pearson相关的数据假设一致,也可以在SPSS中通过Pearson相关模块进行计算,我们会在教程中具体介绍。
  
 确定进行二分类变量和有序分类变量的相关性分析后,我们需要判断是否区分自变量和因变量:
  
 有序Logistic回归。有序Logistic回归在本质上并不是为了分析二分类变量和有序分类变量之间的相关性。但我们仍可以用有序logistic回归及其对应的OR值判断这两类变量之间的统计学关联。
  
 Cochran-Armitage 检验。Cochran-Armitage 检验又称Cochran-Armitage 趋势检验,常用于分析有序分类自变量和二分类因变量之间的线性趋势。该检验可以判断随着有序分类变量的增加,二分类因变量比例的变化趋势,是对其线性趋势的统计学分析。我们将在教程中进一步解释这一问题。
  
 此问题可以使用Mantel-Haenszel卡方检验或Cochran-Armitage趋势检验。Mantel-Haenszel卡方检验也称线性趋势检验(Test for Linear Trend)或定序检验(Linear by Linear Test)。
  
 Mantel-Haenszel卡方检验和Cochran-Armitage趋势检验的区别是:Mantel-Haenszel卡方检验要求一个变量是有序分类变量,另一个变量可以是二分类变量,也可以是有序多分类变量。而Cochran-Armitage趋势检验要求一个变量是有序分类变量,另一个变量是二分类变量。
  
 SPSS不提供Cochran-Armitage趋势检验, Mantel-Haenszel卡方可以得到近似的结果。Cochran-Armitage趋势检验可以在SAS等其它软件中实现(SAS可以同时提供Cochran-Armitage趋势检验和Mantel-Haenszel卡方检验的结果)。
  
 Biserial秩相关:Biserial秩相关可以用于分析二分类变量和有序分类变量之间的相关性。在用二分类变量预测有序分类变量时,该检验又称为Somers' d检验。此外,Mann-Whitney U检验也可以输出Biserial秩相关结果。
  
 Spearman相关。没有适用于分析有序分类变量和连续变量相关性的检验方法,我们需要将连续变量视为有序分类变量进行检验,即分析两个有序分类变量之间的关系。在这种情况下,我们可以应用Spearman相关或者其他针对有序分类变量的检验方法。

7. 相关性分析 相关系数多少有意义?

 在数据分析的问题中, 经常会遇见的一种问题就是 相关的问题。 
   比如:抖音短视频的产品经理经常要来问留存(是否留下来)和观看时长, 收藏的次数, 转发的次数, 关注的抖音博主数等等是否有相关性, 相关性有多大。
   因为 只有知道了哪些因素和留存比较相关, 才知道怎么去优化从产品的方向去提升留存率 。
   比如:如果留存和收藏的相关性比较大 那么我们就要引导用户去收藏视频, 从而提升相关的指标,
                                           除了留存的相关性计算的问题, 还有类似的需要去计算相关性的问题。
   比如淘宝的用户,他们的付费行为和哪些行为相关, 相关性有多大, 这样我们就可以挖掘出用户付费的关键行为。
    这种问题就是相关性量化, 我们要找到一种科学的方法去计算这些因素和留存的相关性的大小。 
   这种方法就是相关性分析。
    01 
    什么是相关性分析 
   相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析(官方定义)
   简单来说, 相关性的方法主要用来分析两个东西他们之间的相关性大小。 
   相关性大小用相关系数r来描述,关于r的解读:(从知乎摘录)
   (1) 正相关: 如果x,y变化的方向一致,如身高与体重的关系,r>0;一般:
   |r|>0.95 存在显著性相关;
   |r|≥0.8 高度相关;
   0.5≤|r|<0.8 中度相关;
   0.3≤|r|<0.5 低度相关;
   |r|<0.3 关系极弱,认为不相关
   (2) 负相关 :如果x,y变化的方向相反,如吸烟与肺功能的关系,r<0;
   (3) 无线性相关: r=0, 这里注意, r=0 不代表他们之间没有关系, 可能只是不存在线性关系。
   下面用几个图来描述一下,不同的相关性的情况:
                                           第一张图r=-0.92 0.8 来看, 说明两组数据的相关性高度相关。
   同样的, 第二张图 r=0.88 >0 说明纵轴和横轴的数据呈现正向的关系, 随着横轴数据的值越来越大, 纵轴的值也随之变大, 并且两组数据也是呈现高度相关。
    02 
    如何实现相关性分析 
   前面已经讲了什么是相关性分析方法,  那么我们怎么去实现这种分析方法呢 , 以下先用python 实现 :
    1. 首先是导入数据集, 这里以tips 为例 
   import numpy asnpimport pandas aspdimport matplotlib.pyplot aspltimport seaborn assns%matplotlib inline## 定义主题风格sns. set(style= "darkgrid")## 加载tipstips = sns.load_dataset( "tips")
    2. 查看导入的数据集情况 
   字段分别代表:
   total_bill: 总账单数
   tip: 消费数目
   sex: 性别
   smoker: 是否是吸烟的群众
   day: 天气
   time: 晚餐 dinner, 午餐lunch
   size: 顾客数
   tips.head # 查看数据的前几行
                                            3. 最简单的相关性计算 
   tips.corr
                                            4. 任意看两个数据之间相关性可视化,比如看 total_bill 和 tip 之间的相关性,就可以如下操作进行可视化 
                                           从散点图可以看出账单的 数目和消费的数目基本是呈正相关 , 账单的总的数目越高, 给得消费也会越多。
    5. 如果要看全部任意两两数据的相关性的可视化: 
   sns.pairplot(tips)
                                            6. 如果要分不同的人群, 吸烟和非吸烟看总的账单数目total_bill和小费tip 的关系。 
   sns.relplot(x= "total_bill", y= "tip", hue= "smoker", data=tips)# 利用 hue进行区分 plt.show
                                           7. 区分抽烟和非抽烟群体看所有数据之间的相关性,我们可以看到:
   对于男性和女性群体, 在小费和总账单金额的关系上, 可以同样都是账单金额越高的时候, 小费越高的例子上, 男性要比女性给得小费更大方。
   在顾客数量和小费的数目关系上, 我们可以发现, 同样的顾客数量, 男性要比女性给得小费更多。
   在顾客数量和总账单数目关系上, 也是同样的顾客数量, 男性要比女性消费更多。
   sns.pairplot(tips ,hue = 'sex')
                                            03 
    实战案例 
    问题: 
   影响B 站留存的相关的关键行为有哪些?
   这些行为和留存哪一个相关性是最大的?
    分析思路: 
   首先规划好完整的思路, 哪些行为和留存相关, 然后利用这些行为+时间维度 组成指标, 因为不同的时间跨度组合出来的指标, 意义是不一样的, 比如登录行为就有 7天登录天数, 30天登录天数
                                           第二步计算这些行为和留存的相关性, 我们用1 表示会留存 0 表示不会留存
   那么就得到 用户id + 行为数据+ 是否留存 这几个指标组成的数据
   然后就是相关性大小的计算
   import matplotlib.pyplot aspltimport seaborn assnsretain2 = pd.read_csv( "d:/My Documents/Desktop/train2.csv") # 读取数据retain2 = retain2. drop(columns=[ 'click_share_ayyuid_ucnt_days7']) # 去掉不参与计算相关性的列plt.figure(figsize=( 16, 10), dpi= 80)# 相关性大小计算sns.heatmap(retain2.corr, xticklabels=retain2.corr.columns, yticklabels=retain2.corr.columns, cmap= 'RdYlGn', center= 0, annot=True)# 可视化plt.title( 'Correlogram of retain', fontsize= 22)plt.xticks(fontsize= 12)plt.yticks(fontsize= 12)plt.show
                                           图中的数字值就是代表相关性大小 r 值,所以从图中我们可以发现:
   留存相关最大的四大因素:

相关性分析 相关系数多少有意义?

8. 相关系数多少算具有相关性?


最新文章
热门文章
推荐阅读