機率分配 - Part 2
看完手動模擬之後,問題應該要更多更多了。
那只有一天的資料耶,隔天病人還會照著相同的時間來嗎?當然不會,如果都一樣,那是數學模擬,系統模擬就不用再談下去了。
問題是,隔天的病人會有哪些時間點進到診所呢?誰曉得,還沒發生的事,誰知道。系統模擬又不是在搞算命?那就等明天發生再說吧!這不是更好笑了,都已經發生了,還要系統模擬幹嘛?
是的,鑑往知來。如果我們收集夠多的歷史資料,能夠找到什麼樣的機制或方法,而這個機制或方法所產生出來的「時間點」,非常貼近於歷史資料的趨勢,那就很棒了呀。這個機制就算是拿骰子來,說不一定也可行,只是沒有說服力。這裡是科學,不是命理學。
所謂這個機制與方法,我們統稱為機率分配函數。也就是說,假設我們有一個函數,當你給了x,或者是ℷ (平均數)等,他會回應給你一個數字,這個數字可以用於模擬中,去取代原本給定的數字。這個函數每次產生的可能都會不一樣,但是,絕對符合實務情境。
但,這個函數難求呀。
首先什麼叫夠多的歷史資料,就算夠多,那函數要長什麼樣子呢?哈~他絕對不會是我們這麼簡單腦袋能想的。這是人工智慧的前身,資料科學的重點吧。
系統模擬是應用之學,你也許可以不用太計較。但,他還是有個過程可以讓我們遵循。目前被找出來的機率分配函數,非常的多。下圖是AnyLogic支援的部分,但是,建模時不受此限,仍可透過Table Function來自建自己的機率分配。
這些可是人家辛苦找出來的,是前人努力成果。你要自創一個?我是不會幹這事,我只想收集足夠的歷史資料,透過統計手法,好好找一個機率分配函數來套用。
這個統計手法,其實就是最基礎的次數分配函數。此時,不得不提醒了,次數方配函數與機率分配函數,因果相依,相互為用。
次數分配函數為果,機率分配函數為因。
收集到的資料是果,那什麼因造成的,在真實世界中還真的不知道。所以,我們想用果來推因(我們找到的因,都不是真正的因,都只是在有限空間中的一種表象)。統計的說法就是從樣本中推估母體,問題就出在抽樣過程,你根本無法確保你的樣本足以代表母體。就算是用盡各種統計手法來證明,也沒有人敢說100%的信賴區間。
我們就只能試著找出一些機率分配函數,透過他所產生的資料,畫出次數分配函數(直方圖)居然是那麼的神似。好吧,那我就拿這個機率分配函數來當作母體。因為,我有百分之XX的把握,產出資料與實務資料是一致的。
就拿Normal吧,他是連續型機率分配函數,這個機率分配函數的公式長這樣子:(資料來源為AnyLogic線上手冊)
他需要兩個參數來決定線型。下面兩組參數的Normal圖形提供參考。
那只有一天的資料耶,隔天病人還會照著相同的時間來嗎?當然不會,如果都一樣,那是數學模擬,系統模擬就不用再談下去了。
問題是,隔天的病人會有哪些時間點進到診所呢?誰曉得,還沒發生的事,誰知道。系統模擬又不是在搞算命?那就等明天發生再說吧!這不是更好笑了,都已經發生了,還要系統模擬幹嘛?
是的,鑑往知來。如果我們收集夠多的歷史資料,能夠找到什麼樣的機制或方法,而這個機制或方法所產生出來的「時間點」,非常貼近於歷史資料的趨勢,那就很棒了呀。這個機制就算是拿骰子來,說不一定也可行,只是沒有說服力。這裡是科學,不是命理學。
所謂這個機制與方法,我們統稱為機率分配函數。也就是說,假設我們有一個函數,當你給了x,或者是ℷ (平均數)等,他會回應給你一個數字,這個數字可以用於模擬中,去取代原本給定的數字。這個函數每次產生的可能都會不一樣,但是,絕對符合實務情境。
但,這個函數難求呀。
首先什麼叫夠多的歷史資料,就算夠多,那函數要長什麼樣子呢?哈~他絕對不會是我們這麼簡單腦袋能想的。這是人工智慧的前身,資料科學的重點吧。
系統模擬是應用之學,你也許可以不用太計較。但,他還是有個過程可以讓我們遵循。目前被找出來的機率分配函數,非常的多。下圖是AnyLogic支援的部分,但是,建模時不受此限,仍可透過Table Function來自建自己的機率分配。
這些可是人家辛苦找出來的,是前人努力成果。你要自創一個?我是不會幹這事,我只想收集足夠的歷史資料,透過統計手法,好好找一個機率分配函數來套用。
這個統計手法,其實就是最基礎的次數分配函數。此時,不得不提醒了,次數方配函數與機率分配函數,因果相依,相互為用。
次數分配函數為果,機率分配函數為因。
收集到的資料是果,那什麼因造成的,在真實世界中還真的不知道。所以,我們想用果來推因(我們找到的因,都不是真正的因,都只是在有限空間中的一種表象)。統計的說法就是從樣本中推估母體,問題就出在抽樣過程,你根本無法確保你的樣本足以代表母體。就算是用盡各種統計手法來證明,也沒有人敢說100%的信賴區間。
我們就只能試著找出一些機率分配函數,透過他所產生的資料,畫出次數分配函數(直方圖)居然是那麼的神似。好吧,那我就拿這個機率分配函數來當作母體。因為,我有百分之XX的把握,產出資料與實務資料是一致的。
就拿Normal吧,他是連續型機率分配函數,這個機率分配函數的公式長這樣子:(資料來源為AnyLogic線上手冊)
他需要兩個參數來決定線型。下面兩組參數的Normal圖形提供參考。
Normal一般是對稱的鐘型。mean平均數都是10,所以他的集中點在那兒,他的眾數也在哪兒。而標準差不一樣的,他就代表著資料分散的情況。
如果你收集到的資料,幾乎都在[6, 14]之間,累積次數(圖中高度)後發現,幾乎都集中在10那附近的數量最多。好吧,你可以放心的使用Normal分配,參數再調整一下就好。
反過來說,當你選擇第二個圖的Normal分配,當作你的醫師看診時間的話。那,大部分的病人應該都會落在10單位時間左右,當然,越往左右兩邊時,會發生的機率就很低了。這時候講機率應該不再害怕了吧。
我們再來看Poisson吧,他是離散型機率分配函數。其公式長這德性。
等等,為什麼有兩個?因為是離散,第一個給的是點值,第二個才能夠知道累積起來的機率和為1。回想Normal,那個鐘型圖所涵蓋的面積,是代表所有點都發生時,這才叫完整的100%。因為是連續,我取一點(其實是取兩點,包含,不包含)根據高度我可以說他發生的機率是多少。但離散是跳躍,我需要一個函數來代表所有點都發生時,他的累積面積為100%。若還不了解,之後會講解幾個常用機率分配函數,希望能有助益。
給兩張ℷ分別為1與2的圖形。
從Poisson的公式可以知道,他沒有負數,頂多是0。注意有ℷ跟𝓍唷。前者為已知,後者就是你要丟參數進去問得答案。第1個間隔多少?第2個間隔多少?....?第𝓍個間隔多少?....。
這個拿來當作病患到達率的間隔時間就非常好用。也就是說,間隔時間最小就是0,同時到達,絕對不會有負數。那你的間隔平均是多少呢?取用第二張圖為例,假設間隔時間為2單位時間,那麼也就是說,大部分會是2。0與1也不少(不會再小下去了,能再小下去,拜託,請用Normal),然後時間間隔越久的,發生的機會越少。
=====
要打住了,還有更重要的工作要做。
希望「我沒講錯,而你學會」。
留言
張貼留言