機率分配 - Part 3 bernoulli
開始來講一些常用或簡單的機率分配函數。這邊不強調學術性,純粹從應用的角度出發。先從最簡單的bernoulli開始吧,他是離散型機率分配函數。他是概念基礎,讓我慢慢道來,別白努力了。
bernoulli的機率函數與累積分配函數如下圖。
bernoulli是一次試行。什麼叫試行呢?就是做一個動作或者一個實驗,也就稱之為一個事件,這個事件發生後產生一個結果狀態。而bernoulli適用於一個試行所產生的結果,只會有兩種狀態,要不成功,要不就是失敗。例如,丟銅板,不是正面就是反面。我們定義命題說,丟出正面的叫成功,丟出反面的叫失敗。
那擲骰子可不可以呢?可以呀,只要事件描述,也就是命題正確就可用。這時候,就帶出p的意義了。也就是說,你的命題中只要能說出某一個狀態成立時,他的機率是p,那其他不管是什麼阿貓阿狗,他的機率就是1-p,能這樣子描述命題,就可以用bernoulli。
丟銅板,我的命題是出現正面的機率是多少?根據正常的銅板而言,應該是0.5。所以,反面呢?是1-0.5=0.5(為何不直接說0.5,這是定義的問題。)問題是,你不知道你的銅板到底正不正常呀,所以要試行n次,越多次越好,然後算出x/n就是p。n是總試行次數,x是結果狀態為正面者。也許你會發現原來,這個銅板並不是正常的。這也就是告訴你,不要去賭博,因為,光看幾次是不準的,你也沒有足夠的時間與賭金可以試行趨近無限大的n次。
那骰子呢?還是要先說,他是一顆正常的骰子。我們的命題是說,出現為1的機率是多少,非1的機率是多少。原則上,我們應該要試行趨近無限大的n次之後,才會知道出現1的機率是多少。只是我們可以認知他是一個正常的骰子,然後用數學我們可以知道有六面,出現其中一面的機率是1/6。所以,推斷當我試行趨近無限多次的n後,可以累算出1的機率是(相當逼近於)1/6。那非1的,也就是丟出2,3,4,5,6的機率是1-1/6=5/6。
以上解釋了那個機率函數。x是一次試行,其結果滿足命題定義中的成功。當x為成功時,他發生的機率是p。很繞口,但是這是基本概念。
問題來了,系統模擬要怎麼用。很多地方都會用到,只要是有if,或者需要分化成兩類的都可以用。例如,病患性別定義女生叫成功,男生叫失敗。這時候p是多少,就是依據你的歷史資料來的呀。根據這個診所的歷史資料得知,女生的比率為0.6,所以男生的比率是1-0.6=0.4。所以,當我產生一個病患要指派他的性別時,用這個bernoulli的機率函數就可以輕鬆解決,系統會利用這個函數隨機產生一個性別給你。注意,系統模擬好玩的地方就是他是隨機的。等你整個實驗做完,然後發現怎麼女生的比率是0.63,拜託,不要懷疑,這是正常現象。隨機,隨著沒有人知道的機制運行著。
然後,他的圖形(直方圖)會長什麼樣子呢?如下圖。
什麼意思呢?這個要來解釋第二個公式累積分配函數。
這個圖怎麼來的,就是你努力丟銅板。丟到正面,就在1的地方+1,丟到反面,就在0的地方+1,一直丟,一直丟。然後,兩邊都除以總試行次數即可。
因為,任何情境,任何事件,任何命題,我們將總試行次數當分母,然後將所有狀態的結果之和當分子,這樣子相除一定等於1。若不是,那表示你可能有某些狀態沒有找出來。(當然,bernoulli不會啦,會就太恐怖了。)
所以,我們知道總體機率為1,且是由各種狀態累加起來的。
因為bernoulli只有兩種狀態,回到累積分配函數的公式,當x是小於0時,注意,不包含0唷。這時候的機率總和為0。那如果x的狀態是小於等於1的時候,注意有包含1唷。這時候,表示已經包含了所有可能結果狀態,所以,他的累積要等於1。
那中間,包含了0的部分,就是1-p了。bernoulli沒有中間啦,所謂中間就是包含0。因為0就是不成功,他的機率是1-p。
這個觀念要建立好,相同的觀念在套到其他的分配上,就容易多了。只要搞清楚命題是怎麼說的就好。反過來說,你的模擬模型中,也會產生很多很多的命題,這時候就要去看你的命題,跟哪一個機率分配函數所適用的命題相合,那就拿來用比較沒有問題與爭議了。
留言
張貼留言