貝葉斯統(tǒng)計與頻率統(tǒng)計
先驗分布 它是總體分布參數(shù)θ的一個概率分布。貝葉斯學(xué)派的根本觀點,是認(rèn)為在關(guān)于θ的任何統(tǒng)計推斷問題中,除了使用樣本X所提供的信息外,還必須對θ規(guī)定一個先驗分布,它是在進(jìn)行推斷時不可或缺的一個要素。貝葉斯學(xué)派把先驗分布解釋為在抽樣前就有的關(guān)于θ的先驗信息的概率表述,先驗分布不必有客觀的依據(jù),它可以部分地或完全地基于主觀信念。例如,某甲懷疑自己患有一種疾病A,在就診時醫(yī)生對他測了諸如體溫、血壓等指標(biāo),其結(jié)果構(gòu)成樣本X。引進(jìn)參數(shù)θ:有病時,θ=1;無病時,θ=0。X的分布取決于θ是0還是1,因而知道了X有助于推斷θ是否為1。按傳統(tǒng)(頻率)學(xué)派的觀點,醫(yī)生診斷時,只使用X提供的信息;而按貝葉斯學(xué)派觀點,則認(rèn)為只有在規(guī)定了一個介于0與1之間的數(shù)p作為事件{θ=1}的先驗概率時,才能對甲是否有病(即θ是否為1)進(jìn)行推斷。p這個數(shù)刻畫了本問題的先驗分布,且可解釋為疾病A的發(fā)病率。先驗分布的規(guī)定對推斷結(jié)果有影響,如在此例中,若疾病A的發(fā)病率很小,醫(yī)生將傾向于只有在樣本X顯示出很強(qiáng)的證據(jù)時,才診斷甲有病。在這里先驗分布的使用看來是合理的,但貝葉斯學(xué)派并不是基于 “p是發(fā)病率”這樣一個解釋而使用它的,事實上即使對本病的發(fā)病率毫無所知,也必須規(guī)定這樣一個p,否則問題就無法求解。
后驗分布 根據(jù)樣本 X 的分布Pθ及θ的先驗分布π(θ),用概率論中求條件概率分布的方法,可算出在已知X=x的條件下,θ的條件分布 π(θ|x)。因為這個分布是在抽樣以后才得到的,故稱為后驗分布。貝葉斯學(xué)派認(rèn)為:這個分布綜合了樣本X及先驗分布π(θ)所提供的有關(guān)的信息。抽樣的全部目的,就在于完成由先驗分布到后驗分布的轉(zhuǎn)換。如上例,設(shè)p=P(θ=1)=0.001,而π(θ=1|x)=0.86,則貝葉斯學(xué)派解釋為:在某甲的指標(biāo)量出之前,他患病的可能性定為0.001,而在得到X后,認(rèn)識發(fā)生了變化:其患病的可能性提高為0.86,這一點的實現(xiàn)既與X有關(guān),也離不開先驗分布。
先驗概率 由以往的數(shù)據(jù)分析得到的概率
后驗概率 得到信息之后,再重新加以修正的概率
貝葉斯定理 這個是廣為人知的常識
所以,Bayes` theorem was used to convert a prior probability into a posterior probability!
我們給出一個似然(likelihood)的定義,我們可以把貝葉斯定理用下面的word來闡釋:
posterior 正比于 likehood * prior
上述有所的這些值都可以看成是先驗概率的函數(shù)! P(D)僅僅是一個歸一化的常量!
將貝葉斯公式兩邊積分得到:(先驗概率的表示不同,上面寫成了H,現(xiàn)在寫成了w)
上面有這個式子的離散化表述!
我們平時所說的最大似然估計,就是最大化我們的似然函數(shù) p(D|w) (P(D|H))
那么頻率統(tǒng)計和貝葉斯統(tǒng)計的區(qū)別在哪里? 先驗分布問題!
關(guān)于貝葉斯方法的爭論 貝葉斯學(xué)派與頻率學(xué)派爭論的焦點在于先驗分布的問題。所謂頻率學(xué)派是指堅持概率的頻率解釋的統(tǒng)計學(xué)家形成的學(xué)派。貝葉斯學(xué)派認(rèn)為先驗分布可以是主觀的,它沒有也不需要有頻率解釋。而頻率學(xué)派則認(rèn)為,只有在先驗分布有一種不依賴主觀的意義,且能根據(jù)適當(dāng)?shù)睦碚摶蛞酝慕?jīng)驗決定時,才允許在統(tǒng)計推斷中使用先驗分布,否則就會喪失客觀性。另一個批評是:貝葉斯方法對任何統(tǒng)計問題都給以一種程式化的解法,這導(dǎo)致人們對問題不去作深入分析,而只是機(jī)械地套用公式。貝葉斯學(xué)派則認(rèn)為:從理論上說,可以在一定條件下證明,任何合理的優(yōu)良性準(zhǔn)則必然是相應(yīng)于一定先驗分布的貝葉斯準(zhǔn)則,因此每個統(tǒng)計學(xué)家自覺或不自覺地都是“貝葉斯主義者”。他們認(rèn)為,頻率學(xué)派表面上不使用先驗分布,但所得到的解也還是某種先驗分布下的貝葉斯解,而這一潛在的先驗分布,可能比經(jīng)過慎重選定的主觀先驗分布更不合理。其次,貝葉斯學(xué)派還認(rèn)為,貝葉斯方法對統(tǒng)計推斷和決策問題給出程式化的解是優(yōu)點而非缺點,因為它免除了尋求抽樣分布,(見統(tǒng)計量)這個困難的數(shù)學(xué)問題。而且這種程式化的解法并不是機(jī)械地套公式,它要求人們對先驗分布、損失函數(shù)等的選擇作大量的工作。還有,貝葉斯學(xué)派認(rèn)為,用貝葉斯方法求出的解不需要頻率解釋,因而即使在一次使用下也有意義。反之,根據(jù)概率的頻率解釋而提供的解,則只有在大量次數(shù)使用之下才有意義,而這常常不符合應(yīng)用的實際。這兩個學(xué)派的爭論是戰(zhàn)后數(shù)理統(tǒng)計學(xué)發(fā)展中的一個特色。這個爭論目前還遠(yuǎn)沒有解決,它對今后數(shù)理統(tǒng)計學(xué)的發(fā)展還將產(chǎn)生影響。
在我們平常使用的貝葉斯定理中,關(guān)于先驗概率一般都是像:對以往數(shù)據(jù)分析結(jié)果表明。。。。。根據(jù)以往的臨床記錄。。。。。之類的。。