Primjena Bayesove formule i algoritamskog pristupa Bayesovoj formuli na situacijama iz svakodnevnog života
Dragana Jankov Maširević, docentica na Odjelu za matematiku, Sveučilište u Osijeku, Trg Ljudevita Gaja 6, HR-31000 Osijek djankov@mathos.hr i Matea Klarić, student na Odjelu za matematiku, Sveučilište u Osijeku, Trg Ljudevita Gaja 6, HR-31000 Osijek mklaric@mathos.hr
Sažetak
U ovom članku je opisana Bayesova formula kao i algoritamski pristup korištenja Bayesove formule, koji je pogodan zbog jednostavnosti računanja uz upotrebu tablice (umjesto direktnog uvrštavanja u formulu). Također, dani su primjeri problema iz svakodnevnoga života čije je rješenje ilustrirano primjenom oba navedena pristupa. 1Uvod
Engleski statističar i filozof Thomas Bayes (1702.–1762.) dokazao je čuveni teorem teorije vjerojatnosti koji po njemu nazivamo Bayesov teorem ili češće Bayesova formula. Kako bi uveli Bayesovu formulu potrebno je napraviti dekompoziciju prostora elementarnih događaja
2Što je Bayesova formula i zašto je koristan algoritamski pristup?
Prije nego što je dokazao svoj poznati teorem, Bayes se bavio pitanjem uvjetne vjerojatnosti, odnosno vjerojatnosti da se dogodio događaj
(1)
Uz uvjetnu vjerojatnost povezujemo i formulu potpune vjerojatnosti koja tvrdi da vjerojatnost nekog proizvoljnog događaja
(2)
Poznavanjem uvjetne vjerojatnosti
(3)
Račun koji uključuje Bayesovu formulu ponekad je dovoljno kompliciran za stvaranje mogućnosti pogreške ili nepravilne zamjene danih vrijednosti vjerojatnosti, stoga ćemo u nastavku opisati te koristiti i algoritamski pristup za određivanje vjerojatnosti koji je često jednostavniji, a pristupačan je i osobama koje ne poznaju zakone vjerojatnosti. U literaturi ga često možemo pronaći pod nazivom intuitivni pristup Bayesovoj formuli. Ovakav je algoritam prikladan jer se ostvaruje uz pomoć tablice, bez direktnog uvrštavanja u formulu. Naime, algoritam se temelji na ideji da na osnovi poznatih (zadanih) vjerojatnosti konstruiramo tablicu s odgovarajućim frekvencijama za svaku pojedinu mogućnost posebno. Ipak, treba uočiti da se ovakav tzv. Bayesovski pristup razlikuje od frekvencionističkog pristupa. Naime, statistička teorija se ponekad dijeli upravo na ta dva pristupa
U literaturi često možemo naići na uputu da prilikom korištenja algoritamskog pristupa krećemo od pretpostavke da je skup jedinki koji promatramo velik, što se uobičajeno odnosi na broj veći ili jednak
3Primjena Bayesove formule i algoritamskog pristupa
Na primjerima koji slijede ilustrirat ćemo primjenu Bayesove formule, a zatim i algoritamskog pristupa Bayesovoj formuli. Kada čitatelj usporedi rješenja dobivena ovim dvama pristupima uočit će da su ona jednaka, pri čemu aproksimacija rješenja algoritamskim pristupom ovisi, kako smo već istaknuli, o izboru broja jedinki skupa kojeg promatramo.
Primjer 1.
Ana će se uskoro početi pripremati za državnu maturu i potrebne su joj instrukcije iz matematike. U oglasima je pronašla veliki broj kontakt telefona i jedina dodatna informacija je da instrukcije drže osobe koje su diplomirale.
[a)] Ana se pita kolika je vjerojatnost da osoba koju slučajno odabere iz oglasnika i nazove radi dogovora bude žena. Iz radoznalosti je otišla na stranice Državnog zavoda za statistiku (vidi |
|
[b)] Ana je u međuvremenu od urednika oglasnika, koji joj je prijatelj, saznala da su sve osobe iz oglasnika mlađe od |
Rješenje Bayesovom formulom. Potpun sustav događaja u ovom primjeru čine skupovi
[a)] Prema podacima koje je Ana pronašla na stranicama Državnog zavoda za statistiku znamo da |
|
[b)] Kako je |
Rješenje algoritamskim pristupom. Kao što smo naglasili u prethodnom poglavlju, najprije je potrebno odabrati određeni broj koji predstavlja broj jedinki promatranog skupa o čemu će ovisiti i točnost aproksimacije. U svrhu ilustracije tog pravila, u nastavku ćemo promotriti slučaj jedne točne znamenke, odnosno dobiveno rješenje će se u jednoj znamenci podudarati s rješenjem dobivenim Bayesovom formulom, te slučaj tri točne znamenke.
Jedna točna znamenka: Pretpostavimo najprije da je broj oglasa u kojima se nalaze informacije o instrukcijama iz matematike za državnu maturu
Kako od ukupnog broja diplomiranih ženskih studenata u 2014. godini u dobnoj skupini od najviše
Radi preglednijeg zapisa, dobivene podatke možemo zapisati u obliku sljedeće tablice:
|
|
Ukupno | |
|
|
|
|
|
|
|
|
Ukupno | |
|
|
Sada iz tablice možemo iščitati odgovor na naše pitanje, odnosno možemo pronaći vjerojatnost da broj telefona koji je Ana na slučajan način odabrala iz oglasnika pripada ženskoj osobi koja je 2014. godine diplomirala s najviše
Tri točne znamenke: Ukoliko pretpostavimo da je broj oglasa u kojima se nalaze informacije o instrukcijama iz matematike za državnu maturu
|
|
Ukupno | |
|
|
|
|
|
|
|
|
Ukupno | |
|
|
Sada je vjerojatnost da broj telefona koji je Ana na slučajan način odabrala iz oglasnika pripada ženskoj osobi koja je 2014. godine diplomirala s najviše
Napomena 2. U prethodnom primjeru familiju koja predstavlja potpun sustav događaja činila su dva skupa, jer smo imali podjelu na žene i muškarce. Kao što smo vidjeli u uvodnom dijelu, potpun sustav događaja može činiti i prebrojiva familija događaja. U sljedećem primjeru ilustrirat ćemo Bayesovu formulu i algoritamski pristup u slučaju kada imamo tri hipoteze. S obzirom da ćemo rješenje dobiveno uvrštavanjem u Bayesovu formulu zaokružiti na tri decimale, to ćemo u algoritamskom pristupu odabrati da je broj jedinki u promatranom skupu te će iz istog razloga taj broj u Primjeru 5 iznositi . No, u završnom dijelu rada vidjet ćemo, kroz slučaj u medicini, da je izbor promatranog skupa jedinki potpuno arbitraran. Također, napominjemo da u prethodnom primjeru nismo zaokruživali brojeve na standardni način [str. 12]-[5] , jer je uobičajeno kod zaokruživanja decimalnog broja osoba uzeti najveći cjelobrojni dio.
Primjer 3. Kako bi se što bolje pripremila za polaganje mature iz matematike, Ana je preko interneta naručila zbirku riješenih zadataka koji su bili na maturi prethodnih godina, ne gledajući pri tome koji je izdavač. Od prijatelja koji su već polagali maturu čula je da su takvu zbirku objavile tri izdavačke kuće te da prva izdavačka kuća ima najbolju reklamu na internetu i ona štampa zbirki iz kojih se budući studenti pripremaju, druga izdavačka kuća štampa zbirki, dok je treća izdavačka kuća tek počela s radom i ona štampa takvih zbirki. Prijatelji su također rekli Ani da ponekad naručene zbirke stignu na kućnu adresu nepotpune, odnosno u njima se nalaze samo tekstovi zadataka, a ne i rješenja. Naime, zbirke koje štampa prva izdavačka kuća štampaju se bez rješenja u slučajeva, u drugoj izdavačkoj kući je taj postotak , dok posljednja izdavačka kuća štampa zbirki koje ne sadrže rješenje.
a) | Ana se zabrinula jer nije pogledala izdavača kada je naručivala i pita se kolika je vjerojatnost da je zbirku naručila od prvog izdavača? |
b) | Kada je zbirka stigla na kućnu adresu Ana je bila u školi, ali je njezin brat odmah otvorio paket i vidio da je zbirka stigla bez rješenja! Odmah je poslao poruku Ani. Sada kada je sigurna da zbirka nije stigla u obliku u kom se nadala, Ana se ponovno pita kolika je vjerojatnost da se radi o prvom izdavaču. Razlikuje li se ta vjerojatnost od one dobivene u prethodnom slučaju? |
Rješenje Bayesovom formulom.
Možemo uočiti da potpun sustav događaja čine sljedeća tri skupa:
a) | Ana je zbirku naručila slučajnim odabirom (nije gledala tko je izdavač) te je vjerojatnost da je ona izdana od strane prvog izdavača jednaka |
b) | Kada je Ana saznala da je zbirka došla bez rješenja, koristeći tu dodatnu informaciju krenula je opet izračunati vjerojatnost da ona dolazi od prvog izdavača, odnosno vjerojatnost |
Rješenje algoritamskim pristupom. Kao u prethodnom primjeru, koristeći ovaj pristup, pronaći ćemo vjerojatnost
|
|
ukupno | |
|
320 | 7 680 | 8 000 |
90 | 1 410 | 1 500 | |
45 | 455 | 500 | |
ukupno | 455 | 9 545 | 10 000 |
Zanima nas vjerojatnost da je zbirku izdao prvi izdavač pri čemu znamo da je ona Ani stigla nepotpuna, odnosno ne sadrži potrebna rješenja. S obzirom da znamo da je zbirka nepotpuna, zanima nas prvi stupac prethodne tablice gdje možemo vidjeti da od ukupno
Napomena 4.Prethodni primjer predstavlja ilustraciju Bayesove formule i algoritamskog pristupa u slučaju kada imamo tri hipoteze. Na osnovu toga, nije teško uočiti kako bi takve pristupe primjenili u slučaju četiri ili više hipoteza.
4Primjena u medicini
Kao što smo naveli u uvodnom dijelu, Bayesova formula se često primjenjuje u medicinskoj dijagnostici. Na primjer [str. 65]-
Primjer 5.
Ani je teško vježbati zadatke za državnu maturu jer ima simptome alergije. Već je išla na razna ispitivanja, ali svi testovi su bili negativni. Ostala je samo mogućnost da ima vrlo rijedak oblik alergije koji se nasumično pojavljuje kod jedne osobe u populaciji od ljudi. Ako se Ana odluči testirati, uz pretpostavku da test daje točan rezultat u slučajeva, i ako rezultat testa bude pozitivan, kolika je zaista vjerojatnost da Ana ima pomenutu alergiju?
Rješenje Bayesovom formulom. Ako s
Rješenje algoritamskim pristupom. Vodeći se algoritamskim pristupom, s obzirom da nam je već poznato da u populaciji od
|
|
ukupno | |
|
9 | 1 | 10 |
999 | 98 991 | 99 990 | |
ukupno | 1 008 | 98 992 | 100 000 |
Zanima nas vjerojatnost da u slučaju pozitivnog testa (što se dešava u
Ukoliko čitatelj pretpostavi da promatrana populacija broji
5Zaključak
Kao što smo vidjeli u danim primjerima, Bayesova formula i algoritamski pristup Bayesovoj formuli se mogu primijeniti u raznim situacijama iz svakodnevnog života i dati nam odgovore na pitanja vezana uz vjerojatnosti neke od hipoteza koja nam je od interesa, a uz poznavanje dodatne informacije koja predstavlja vjerojatnost događaja koji se realizirao nakon izvođenja pokusa. Ipak, prilikom primjene ovih metoda u praksi moramo biti pažljivi [p. 65]-
Bibliografija
[1] | G. J. Babu, Bayesian and frequentist approaches, Online Proceedings of the Astronomical Data Analysis Conference (ADA VII), 2012. |
[2] |
B. Basrak, Aktuarska matematika II, 2. dio (predavanja). PDF.
https://web.math.pmf.unizg.hr/ |
[3] | M. Benšić, N. Šuvak, Uvod u vjerojatnost i statistiku, Grafika d.o.o., Osijek, 2014. |
[4] | F. M. Brückler, Povijest Matematike II, Zagreb, 2009. |
[5] |
F. M. Brückler, I. Pažanin, Matematika http://prelog.chem.pmf.hr/ |
[6] | B. Draščić Ban, T. Poganj, Primijenjena matematika, Pomorski fakultet, Sveučilište u Rijeci (autorizirana predavanja i vježbe), Rijeka, 2009. |
[7] | M. Klarić, Formula potpune vjerojatnosti i Bayesova formula, završni rad, Sveučilište J.J. Strossmayera, Odjel za matematiku, Osijek, 2016. |
[8] | G. F. Luger, Artificial intelligence, Structures and Strategies for Complex Problem Solving, Addison–Wesley, Harlow, 2005. |
[9] | N. Sarapa, Vjerojatnost i statistika, Školska knjiga, Zagreb, 1993. |
[10] | J. V. Stone, Bayes' Rule, A Tutorial Introduction to Bayesian Analysis, Sebtel Press, Zagreb, 1993. |
[11] |
F. E. Su, Medical Tests and Bayes' Theorem, Math Fun Facts
Dostupno: http://www.math.hmc.edu/funfacts |
[12] | T. Topić, Bayesova statistika i procjena vrijednosti ulaganja, diplomski rad, Sveučilište u Zagrebu, Prirodoslovno–matematički fakultet, Matematički odsjek, Zagreb, 2016. |
[13] |
M. F. Triola, Bayes' Theorem. PDF.
http://faculty.washington.edu/tamre/BayesTheorem.pdf |
[14] | http://www.dzs.hr/ |