什么是贝叶斯统计

2024-05-19 21:52

1. 什么是贝叶斯统计

它是总体分布参数θ的一个概率分布。贝叶斯学派的根本观点,是认为在关于θ的任何统计推断问题中,除了使用样本X所提供的信息外,还必须对θ规定一个先验分布,它是在进行推断时不可或缺的一个要素。贝叶斯学派把先验分布解释为在抽样前就有的关于θ的先验信息的概率表述,先验分布不必有客观的依据,它可以部分地或完全地基于主观信念。
例如,某甲怀疑自己患有一种疾病A,在就诊时医生对他测了诸如体温、血压等指标,其结果构成样本X。引进参数θ:有病时,θ=1;无病时,θ=0。X的分布取决于θ是0还是1,因而知道了X有助于推断θ是否为1。按传统(频率)学派的观点,医生诊断时,只使用X提供的信息;而按贝叶斯学派观点,则认为只有在规定了一个介于0与1之间的数p作为事件{θ=1}的先验概率时,才能对甲是否有病(即θ是否为1)进行推断。p这个数刻画了本问题的先验分布,且可解释为疾病A的发病率。先验分布的规定对推断结果有影响,如在此例中,若疾病A的发病率很小,医生将倾向于只有在样本X显示出很强的证据时,才诊断甲有病。在这里先验分布的使用看来是合理的,但贝叶斯学派并不是基于 “p是发病率”这样一个解释而使用它的,事实上即使对本病的发病率毫无所知,也必须规定这样一个p,否则问题就无法求解。

什么是贝叶斯统计

2. 什么是“贝叶斯统计”

它是总体分布参数θ的一个概率分布。贝叶斯学派的根本观点,是认为在关于θ的任何统计推断问题中,除了使用样本X所提供的信息外,还必须对θ规定一个先验分布,它是在进行推断时不可或缺的一个要素。贝叶斯学派把先验分布解释为在抽样前就有的关于θ的先验信息的概率表述,先验分布不必有客观的依据,它可以部分地或完全地基于主观信念。
例如,某甲怀疑自己患有一种疾病A,在就诊时医生对他测了诸如体温、血压等指标,其结果构成样本X。引进参数θ:有病时,θ=1;无病时,θ=0。X的分布取决于θ是0还是1,因而知道了X有助于推断θ是否为1。按传统(频率)学派的观点,医生诊断时,只使用X提供的信息;而按贝叶斯学派观点,则认为只有在规定了一个介于0与1之间的数p作为事件{θ=1}的先验概率时,才能对甲是否有病(即θ是否为1)进行推断。p这个数刻画了本问题的先验分布,且可解释为疾病A的发病率。先验分布的规定对推断结果有影响,如在此例中,若疾病A的发病率很小,医生将倾向于只有在样本X显示出很强的证据时,才诊断甲有病。在这里先验分布的使用看来是合理的,但贝叶斯学派并不是基于 “p是发病率”这样一个解释而使用它的,事实上即使对本病的发病率毫无所知,也必须规定这样一个p,否则问题就无法求解。

3. 什么是“贝叶斯统计”?

  英国学者托马斯·贝叶斯在《论有关机遇问题的求解》中提出一种归纳推理的理论,后被一些统计学者发展为一种系统的统计推断方法,称为贝叶斯方法。
  
  1、贝叶斯估计的优势
  相较于经典估计的频率主义,贝叶斯估计坚持主观主义的概率解释,它的估计必须依赖于先验概率的分布,而先验分布是试验者对于在进行试验之前得到的资料的主观意见,虽然这种主观意见与科学的客观性存在一定的矛盾,但是在一定程度上弥补了经典估计不能应用于不可重复独立事件的概率问题。例如,如果要估计在一场比赛中甲乙双方的胜率,双方世界排名相当,采用经典估计的方法,认为两个人胜利的概率分别为0.5,但是利用贝叶斯估计,查询两个人比赛的历史记录,发现在近5场比赛中甲方赢了四场,则可以估计甲获胜的概率应该更大。贝叶斯估计通过利用先验信息,结合似然原则,可以弥补经典估计抽样选取充分统计量的主观性不足,协调了样本的随机性与充分性。
  2、贝叶斯估计的局限性
  就像前面反复提到的贝叶斯估计的先验分布确定的主观性,由于不同的人对于先验信息的理解不一样,得出的先验分布也不尽相同,从而得出的后验分布也存在一定的差异,这与科学的客观性相矛盾。而且贝叶斯估计的原理就是利用旧资料进行更精确的估计,但是很多科学家质疑旧资料是否能够支持假说,由于自身知识有限,无法做出更深入的解释。
  
  3、贝叶斯估计的应用
  尽管贝叶斯估计存在一定的局限性,但是在实际生活中有一定的应用,在某些实际问题中,研究往往能够通过先验信息做出更合理的估计模型。例如在房屋震害预测中,以地震考察取得房屋破坏资料为基础,做出贝叶斯模型。还有在经济学问题中,例如车险保费的确立,可能因为缺乏对于投保人的了解,产生信息不对称问题,而无法合理确立保费,使得保险公司受到损失。但是如果我们通过事前调查,了解投保人的事故率,从而确立更准确的保费。再拿更生活的实际例子来说,为了预测08年奥运会的开幕式当天是否会下雨,研究人员不仅分析了当天的云层情况,还结合了历史年份该日的天气情况的先验信息。
  
  就我自己的实际生活来说,在高考填报志愿的时候,如果不利用先验信息,我只能通过对比自己的省内排名,学校排名和在本省的招生人数填报志愿,但是实际上由于专业热门程度会影响学校的填报,更为重要的是对比历年的该学校在省内招生的学生排名做出选择。
  总之,由于贝叶斯估计对于先验信息的考察,再结合似然原理,在某些极端的情况下,比经典估计更具有优势,关键在于先验信息是否具有考察意义和如何确立最优先验分布。

什么是“贝叶斯统计”?

4. 深入探讨贝叶斯统计的神秘世界

 
   在本文中,我们通过形象举例深刻剖析频率统计与贝叶斯统计之间的区别,深入探讨贝叶斯统计的神秘世界,以及它的一些原则,如克伦威尔规则、伯恩斯坦 - 冯米塞斯定理、伯努利审判,有助于分析现实世界的机器学习问题。
   
   拿例子说话。
   我把手机放在了家里的某个地方。我可以使用仪器底座上的电话定位器来定位电话,当我按下电话定位器时,电话会开始发出哔哔声。
   问题:我应该搜索我家的哪个区域?
    频繁推理 
   我能听到手机发出的哔哔声。我还有一个心理猜测模型,即根据声音来确定区域。因此,在听到哔哔声后,我推断出我家的区域,我必须遍历搜索来找到手机。
    贝叶斯推理 
   我能听到手机发出的哔哔声。现在,除了帮助我识别声音来自哪个区域的心理模型之外, 我还知道过去经常放错电话的位置 。因此,我结合我的推论使用了哔哔声和我之前关于我过去放错电话的位置的先验信息,以确定我必须搜索以找到手机的区域。
   假设在医院,患者 健康 (H)或生病(S),我们将对患者进行测试,结果将为阳性(+)或阴性(- )。如果患者生病,他们将始终获得阳性结果。我们称之为正确的(Correct)结果。
   也就是说:
   如果患者 健康 ,95%的时间测试将是阴性,但会有一些误报。
   对于 健康 人来说,测试正确的概率是95%。
   到现在为止这些还是频率论者的陈述。这些陈述很容易理解。
   但是,当你试图换一种方式,让事情变得有趣。鉴于测试结果,你可以了解患者的 健康 状况。如果测试结果为阴性,患者显然是 健康 的,因为没有假阴性。
   但我们也必须考虑测试是阳性的情况。是因为患者实际上病了,还是假阳性?这是频率论者和贝叶斯派的分歧。每个频率论支持者都会同意目前无法回答这个问题。他们会拒绝回答。贝叶斯将准备给你一个答案,贝叶斯先生告诉它患病的比例是多少。
   总结一下,以下陈述是正确的:
    如果您对此类陈述感到满意,那么你事实上在使用频率统计的解释。 
   但如果让你做出不同的陈述并回答以下问题:
   总之,在这样的例子中,贝叶斯将同意频率论者所说的一切。但贝叶斯认为,频率论者的陈述 虽然是真实的,但并不是很有用 。
   频率论者将依次考虑参数(H或S)的每个可能值,并询问“ 参数是否等于该值,我的测试正确的概率是多少? ”
   相反,贝叶斯将反过来考虑每个可能的观测值(+或- )并询问“ 如果我刚刚观察到这个值,那么它告诉我 健康 (H)和生病(S)的条件概率是什么? ”
   “不管发生了什么,太阳第二天仍然会照常升起”,你对这个真理的坚信来源于你从来没碰见过一天,太阳没有升起。但是...
   
   想象一下,有一天早上你醒来,太阳决定休息一天。这不仅会(最有可能)破坏你的一天并搞砸你的生物钟,这也会直接改变你对太阳升落的感觉。 你不再坚信太阳永远会第二天升起来的真理了! 更有可能预测到第二天太阳也不会升起。或者说, 你对太阳将再次休息一天的期望将会比以前高很多。 
    更数学的描述一下,贝叶斯规则: 
   
   回到我们的日出问题,我们每天都观察到太阳升起,每当它发生时我们都会更确定它会在第二天再次升起。但是, 如果有一天我们发现太阳没有上升,这将根据新的证据对我们的后验概率产生巨大影响。 
   这在数学上以下面的形式表达,起初看起来令人生畏但可以被抽象: 我们更新的信念是基于我们最初的信念和基于我们当前信念(可能性)呈现的新证据 。有多少新的证据,我们的信念有有多少可能是正确的。如果最初信念是太阳明天不上升的概率是百万分之一,如果某一天(仅仅是如果)太阳没有照常升起,那么我的信念错误的可能性非常高,后验概率会更新以预测它是更有可能再次发生。
   
   奥利弗·克伦威尔(Oliver Cromwell)是英国 历史 上的杰出人物,1658年在苏格兰教会大会上引用了一句名言:
   "“我恳求你们,以基督的同情心想一想,你们可能错了。”
   
   这向我们展示了在观察可以经验观察的事物时绝对主义观点的危险性。如果我坚信一种信念,我确信我是对的,没有人会说或做任何事情都不会说服我。这是无知的高度,而不是我们想要融入机器学习模型的东西。如果我们回顾贝叶斯定理,我们可以看出为什么会出现这种情况, 如果我们的先验概率为零,那么将它乘以任何东西仍然会给我们一个后验概率为零。 
    可能发生这种情况的一个理想例子是神经网络 。当你启动神经网络时,节点会以某些固有值开始。如果将这些节点全部分配为权重为零,则节点将无法自行更新,因为梯度下降算法的所有迭代都将乘以零。而是进行随机初始化(通常对用户不可见),这通常可以防止诸如此类的问题。
   贝叶斯定理的另一个有趣的特性来自于我们观察在无数次观察之后发生的事情,通常称为伯恩斯坦 - 冯米塞斯定理。
    以硬币翻转为例  - 不公平硬币(不均匀)出现的可能性是多少?
   
    频率统计解释 
   翻转不公平硬币时看到头部的概率是在重复翻转硬币时看到头部的长期相对频率。 也就是说,当我们进行更多的硬币翻转时,作为总翻转的比例获得的头数倾向于硬币作为头部出现的“真实”或“物理”概率。 特别是运行实验的个人并没有结合他们自己对其他硬币公平性的看法。
    贝叶斯统计解释 
   在任何翻转硬币之前,个人可能认为硬币是公平的。几次翻转后,硬币不断上升。因此,对硬币公平性的先前信念进行了修改,以解释三个头已经连续出现的事实,因此硬币可能不公平。在500次翻转后,有400个头,个人更强烈的认为硬币不太可能公平。 后验信念在很大程度上修改先前对公平硬币的信念。 
   伯努利试验是一项随机试验,只有两种结果,通常标记为“成功”或“失败”,其中每次试验时成功的概率都完全相同。成功的概率由θ给出θ,这是0和1之间。
   在进行一些硬币翻转实验(重复伯努利试验)的过程中,我们将生成一些数据D,关于头或尾。
   一个自然的例子问题是“给出一个公平的硬币(θ=0.5),在8次翻转中看到3个头的概率是多少?”。
   模型帮助我们确定给定参数θ的值,此数据D的概率。表示为:P(D | θ )。
   但是,如果你考虑一下,我们实际上对另一个问题感兴趣, “考虑到我看到了特定的头尾序列,硬币是公平的的概率是多少?” 
   因此,我们 对P(θ | D ) 概率分布感兴趣,这反映了我们对θ的不同可能值的信念。鉴于我们已观察到一些数据D,可得P(D | θ )。那么我们如何在这两个概率之间得到什么呢?事实证明,贝叶斯的规则是允许我们在两种情况之间进行的链接。
   
   贝叶斯统计推理的规则:
   贝叶斯统计包含可用于机器学习的特定类型的模型。通常,由于各种原因中的一个或多个原因,人们会使用贝叶斯模型,例如:
    我们可以清楚地看到,频率论和贝叶斯方法之间存在很大的协同作用,特别是在当今大数据和预测分析变得如此突出的世界中。我们为各种系统提供大量数据,我们可以不断地对系统进行数据驱动的推断,并在越来越多的数据可用时不断更新。由于贝叶斯统计提供了更新"知识"的框架,实际上它在机器学习中使用了很多。 
   

5. 贝叶斯逻辑的贝叶斯统计

英国学者T.贝叶斯1763年在《论有关机遇问题的求解》中,提出了一种归纳推理的理论,以后被一些统计学者发展为一种系统的统计推断方法,称为贝叶斯方法。采用这种方法作统计推断所得的全部结果,构成贝叶斯统计的内容。认为贝叶斯方法是惟一合理的统计推断方法的统计学者,组成数理统计学中的贝叶斯学派,其形成可追溯到20世纪30年代。到50~60年代,已发展为一个有影响的学派。时至今日,其影响日益扩大。先验分布 它是总体分布参数θ的一个概率分布。贝叶斯学派的根本观点,是认为在关于θ的任何统计推断问题中,除了使用样本X所提供的信息外,还必须对θ规定一个先验分布,它是在进行推断时不可或缺的一个要素。贝叶斯学派把先验分布解释为在抽样前就有的关于θ的先验信息的概率表述,先验分布不必有客观的依据,它可以部分地或完全地基于主观信念。例如,某甲怀疑自己患有一种疾病A,在就诊时医生对他测了诸如体温、血压等指标,其结果构成样本X。引进参数θ:有病时,θ=1;无病时,θ=0。X的分布取决于θ是0还是1,因而知道了X有助于推断θ是否为1。按传统(频率)学派的观点,医生诊断时,只使用X提供的信息;而按贝叶斯学派观点,则认为只有在规定了一个介于0与1之间的数p作为事件{θ=1}的先验概率时,才能对甲是否有病(即θ是否为1)进行推断。p这个数刻画了本问题的先验分布,且可解释为疾病A的发病率。先验分布的规定对推断结果有影响,如在此例中,若疾病A的发病率很小,医生将倾向于只有在样本X显示出很强的证据时,才诊断甲有病。在这里先验分布的使用看来是合理的,但贝叶斯学派并不是基于 “p是发病率”这样一个解释而使用它的,事实上即使对本病的发病率毫无所知,也必须规定这样一个p,否则问题就无法求解。后验分布 根据样本 X 的分布Pθ及θ的先验分布π(θ),用概率论中求条件概率分布的方法,可算出在已知X=x的条件下,θ的条件分布 π(θ|x)。因为这个分布是在抽样以后才得到的,故称为后验分布。贝叶斯学派认为:这个分布综合了样本X及先验分布π(θ)所提供的有关的信息。抽样的全部目的,就在于完成由先验分布到后验分布的转换。如上例,设p=P(θ=1)=0.001,而π(θ=1|x)=0.86,则贝叶斯学派解释为:在某甲的指标量出之前,他患病的可能性定为0.001,而在得到X后,认识发生了变化:其患病的可能性提高为0.86,这一点的实现既与X有关,也离不开先验分布。计算后验分布的公式本质上就是概率论中著名的贝叶斯公式(见概率),这公式正是上面提到的贝叶斯1763年的文章的一个重要内容。推断方法  贝叶斯推断方法的关键在于所作出的任何推断都必须也只须根据后验分布π(θ│X),而不能再涉及X的样本分布Pθ。例如,在奈曼-皮尔逊理论(见假设检验)中,为了确定水平α的检验的临界值C,必须考虑X的分布Pθ,这在贝叶斯推断中是不允许的。但贝叶斯推断在如何使用π(θ│X)上,有一定的灵活性,例如为作θ的点估计,可用后验分布密度h(θ|X)关于θ的最大值点,也可以用π(θ|X)的均值或中位数(见概率分布)等。为作θ的区间估计,可以取区间【A(X),B(X)】,使π(A(X)≤θ≤B(X)│X)等于事先指定的数1-α(0<α<1),并在这个条件下使区间长度B(X)-A(X)最小。若要检验关于θ的假设H:θ∈ω,则可以算出ω的后验概率 π(ω|X),然后在π(ω│X)<1/2时拒绝H。如果是统计决策性质(见统计决策理论)问题,则有一定的损失函数L(θ,α),知道了π(θ|X),可算出各行动α的后验风险,即L(θ,α)在后验分布π(θ|X)下的数学期望值,然后挑选行动α使这期望值达到最小,这在贝叶斯统计中称为“后验风险最小”的原则,是贝叶斯决策理论中的根本原则和方法。关于贝叶斯方法的争论  贝叶斯学派与频率学派争论的焦点在于先验分布的问题。所谓频率学派是指坚持概率的频率解释的统计学家形成的学派。贝叶斯学派认为先验分布可以是主观的,它没有也不需要有频率解释。而频率学派则认为,只有在先验分布有一种不依赖主观的意义,且能根据适当的理论或以往的经验决定时,才允许在统计推断中使用先验分布,否则就会丧失客观性。另一个批评是:贝叶斯方法对任何统计问题都给以一种程式化的解法,这导致人们对问题不去作深入分析,而只是机械地套用公式。贝叶斯学派则认为:从理论上说,可以在一定条件下证明,任何合理的优良性准则必然是相应于一定先验分布的贝叶斯准则,因此每个统计学家自觉或不自觉地都是“贝叶斯主义者”。他们认为,频率学派表面上不使用先验分布,但所得到的解也还是某种先验分布下的贝叶斯解,而这一潜在的先验分布,可能比经过慎重选定的主观先验分布更不合理。其次,贝叶斯学派还认为,贝叶斯方法对统计推断和决策问题给出程式化的解是优点而非缺点,因为它免除了寻求抽样分布,(见统计量)这个困难的数学问题。而且这种程式化的解法并不是机械地套公式,它要求人们对先验分布、损失函数等的选择作大量的工作。还有,贝叶斯学派认为,用贝叶斯方法求出的解不需要频率解释,因而即使在一次使用下也有意义。反之,根据概率的频率解释而提供的解,则只有在大量次数使用之下才有意义,而这常常不符合应用的实际。这两个学派的争论是战后数理统计学发展中的一个特色。这个争论目前还远没有解决,它对今后数理统计学的发展还将产生影响。

贝叶斯逻辑的贝叶斯统计

6. 贝叶斯统计和经典统计的联系

最大区别是贝叶斯使用了先验信息,即在数据量小的情况下,能够通过准确的先验信息获得准确统计结果,一定程度上摆脱观测数据量多少对统计结果的影响。而经典的统计方法,如最大似然估计,则完全依靠观测数据,只有在数据量比较充分时才能获得比较接近事实的统计结果。例如,抛硬币,通过最大似然估计需要抛上千次才能获得正反出现概率对等的结果。
    由于贝叶斯引入先验信息,这也导致不精确先验对最后统计结果的影响,一般我们可以提高观测数据的数量来避免经验带来的偏差,但是在数据量较小的情况下贝叶斯估计的准确度受到质疑,这也是几十年来贝叶斯估计受争议的地方。

7. 贝叶斯统计与经典统计的主要区别

最大区别是贝叶斯使用了先验信息,即在数据量小的情况下,能够通过准确的先验信息获得准确统计结果,一定程度上摆脱观测数据量多少对统计结果的影响。而经典的统计方法,如最大似然估计,则完全依靠观测数据,只有在数据量比较充分时才能获得比较接近事实的统计结果。例如,抛硬币,通过最大似然估计需要抛上千次才能获得正反出现概率对等的结果。
由于贝叶斯引入先验信息,这也导致不精确先验对最后统计结果的影响,一般我们可以提高观测数据的数量来避免经验带来的偏差,但是在数据量较小的情况下贝叶斯估计的准确度受到质疑,这也是几十年来贝叶斯估计受争议的地方。

贝叶斯统计与经典统计的主要区别

8. 贝叶斯统计与经典统计的主要区别

一、是否利用先验信息
由于产品的设计、生产都有一定的继承性,这样就存在许多相关产品的信息以及先验信息可以利用,贝叶斯统计学派认为利用这些先验信息不仅可以减少样本容量,而且在很多情况还可以提高统计精度;而经典统计学派忽略了这些信息。
二、是否将参数e看成随机变量
贝叶斯统计学派的最基本的观点是:任一未知量e都可以看成随机变量,可以用一个概率分布去描述,这个分布就是先验分布。因为任一未知量都具有不确定性,而在表述不确定性时,概率与概率分布是最好的语言;相反,经典统计学派却把未知量e就简单看成一个未知参数,来对其进行统计推断。


扩展资料
贝叶斯统计技术原理
1、先验分布
先验分是总体分布参数θ的一个概率分布。贝叶斯学派的根本观点,是认为在关于θ的任何统计推断问题中,除了使用样本X所提供的信息外,还必须对θ规定一个先验分布,它是在进行推断时不可或缺的一个要素。
贝叶斯学派把先验分布解释为在抽样前就有的关于θ的先验信息的概率表述,先验分布不必有客观的依据,它可以部分地或完全地基于主观信念。

2、后验分布
根据样本 X 的分布Pθ及θ的先验分布π(θ),用概率论中求条件概率分布的方法,可算出在已知X=x的条件下,θ的条件分布 π(θ|x)。因为这个分布是在抽样以后才得到的,故称为后验分布。贝叶斯学派认为:这个分布综合了样本X及先验分布π(θ)所提供的有关的信息。
抽样的全部目的,就在于完成由先验分布到后验分布的转换。如上例,设p=P(θ=1)=0.001,而π(θ=1|x)=0.86,则贝叶斯学派解释为:在某甲的指标量出之前,他患病的可能性定为0.001,而在得到X后,认识发生了变化:其患病的可能性提高为0.86。
这一点的实现既与X有关,也离不开先验分布。计算后验分布的公式本质上就是概率论中著名的贝叶斯公式(见概率),这公式正是上面提到的贝叶斯1763年的文章的一个重要内容。