機率分配 - Part 2

1月 24, 2018

看完手動模擬之後，問題應該要更多更多了。
那只有一天的資料耶，隔天病人還會照著相同的時間來嗎？當然不會，如果都一樣，那是數學模擬，系統模擬就不用再談下去了。
問題是，隔天的病人會有哪些時間點進到診所呢？誰曉得，還沒發生的事，誰知道。系統模擬又不是在搞算命？那就等明天發生再說吧！這不是更好笑了，都已經發生了，還要系統模擬幹嘛？
是的，鑑往知來。如果我們收集夠多的歷史資料，能夠找到什麼樣的機制或方法，而這個機制或方法所產生出來的「時間點」，非常貼近於歷史資料的趨勢，那就很棒了呀。這個機制就算是拿骰子來，說不一定也可行，只是沒有說服力。這裡是科學，不是命理學。
所謂這個機制與方法，我們統稱為機率分配函數。也就是說，假設我們有一個函數，當你給了x，或者是ℷ (平均數)等，他會回應給你一個數字，這個數字可以用於模擬中，去取代原本給定的數字。這個函數每次產生的可能都會不一樣，但是，絕對符合實務情境。
但，這個函數難求呀。
首先什麼叫夠多的歷史資料，就算夠多，那函數要長什麼樣子呢？哈～他絕對不會是我們這麼簡單腦袋能想的。這是人工智慧的前身，資料科學的重點吧。
系統模擬是應用之學，你也許可以不用太計較。但，他還是有個過程可以讓我們遵循。目前被找出來的機率分配函數，非常的多。下圖是AnyLogic支援的部分，但是，建模時不受此限，仍可透過Table Function來自建自己的機率分配。

這些可是人家辛苦找出來的，是前人努力成果。你要自創一個？我是不會幹這事，我只想收集足夠的歷史資料，透過統計手法，好好找一個機率分配函數來套用。
這個統計手法，其實就是最基礎的次數分配函數。此時，不得不提醒了，次數方配函數與機率分配函數，因果相依，相互為用。
次數分配函數為果，機率分配函數為因。
收集到的資料是果，那什麼因造成的，在真實世界中還真的不知道。所以，我們想用果來推因（我們找到的因，都不是真正的因，都只是在有限空間中的一種表象）。統計的說法就是從樣本中推估母體，問題就出在抽樣過程，你根本無法確保你的樣本足以代表母體。就算是用盡各種統計手法來證明，也沒有人敢說100%的信賴區間。
我們就只能試著找出一些機率分配函數，透過他所產生的資料，畫出次數分配函數(直方圖)居然是那麼的神似。好吧，那我就拿這個機率分配函數來當作母體。因為，我有百分之XX的把握，產出資料與實務資料是一致的。

就拿Normal吧，他是連續型機率分配函數，這個機率分配函數的公式長這樣子：(資料來源為AnyLogic線上手冊)

他需要兩個參數來決定線型。下面兩組參數的Normal圖形提供參考。

Normal一般是對稱的鐘型。mean平均數都是10，所以他的集中點在那兒，他的眾數也在哪兒。而標準差不一樣的，他就代表著資料分散的情況。

如果你收集到的資料，幾乎都在[6, 14]之間，累積次數(圖中高度)後發現，幾乎都集中在10那附近的數量最多。好吧，你可以放心的使用Normal分配，參數再調整一下就好。

反過來說，當你選擇第二個圖的Normal分配，當作你的醫師看診時間的話。那，大部分的病人應該都會落在10單位時間左右，當然，越往左右兩邊時，會發生的機率就很低了。這時候講機率應該不再害怕了吧。

我們再來看Poisson吧，他是離散型機率分配函數。其公式長這德性。

等等，為什麼有兩個？因為是離散，第一個給的是點值，第二個才能夠知道累積起來的機率和為1。回想Normal，那個鐘型圖所涵蓋的面積，是代表所有點都發生時，這才叫完整的100%。因為是連續，我取一點(其實是取兩點，包含，不包含)根據高度我可以說他發生的機率是多少。但離散是跳躍，我需要一個函數來代表所有點都發生時，他的累積面積為100%。若還不了解，之後會講解幾個常用機率分配函數，希望能有助益。

給兩張ℷ分別為1與2的圖形。

從Poisson的公式可以知道，他沒有負數，頂多是0。注意有ℷ跟𝓍唷。前者為已知，後者就是你要丟參數進去問得答案。第1個間隔多少?第2個間隔多少?....?第𝓍個間隔多少?....。

這個拿來當作病患到達率的間隔時間就非常好用。也就是說，間隔時間最小就是0，同時到達，絕對不會有負數。那你的間隔平均是多少呢？取用第二張圖為例，假設間隔時間為2單位時間，那麼也就是說，大部分會是2。0與1也不少（不會再小下去了，能再小下去，拜託，請用Normal），然後時間間隔越久的，發生的機會越少。

=====

要打住了，還有更重要的工作要做。

希望「我沒講錯，而你學會」。

搜尋此網誌

Simulation - AnyLogic / NetLogo

機率分配 - Part 2

留言

張貼留言

這個網誌中的熱門文章

等候理論

機率分配 - Part 6 Poisson

機率分配 - Part 4 binomial