statistika

Popis mogućih tema i mentora za natječaj za najbolji studentski poster

 Uvod

Na ovoj stranici, koja će biti u izradi tijekom cijelog trajanja natječaja, bit će objavljivane sugestije i pomoćne informacije za izradu studentskih postera.

 

Svaki od sudionika dobit će na raspolaganja površinu DIN A0 koja će biti označena imenom (grupe) sudionika. U okviru te površine svaki od sudionika može prezentirati svoj rad na bilo koji izabrani grafički način (više odvojenih listova papira, jedan veliki list papira ili nešto drugo). Ne postoji ni jedno formalno ograničenje ili zahtjev na način prezentacije postera, osim toga da se sudionici moraju ograničiti na dodijeljeni A0 prostor.

 

U natječaju će se jednako vrednovati samostalni kao i grupni radovi. Moguće je prijaviti dio rada koji je nastao ili je trenutno u razmatranju za Rektorovu nagradu, seminarski rad na nekom od naprednih kolegija na studiju ili diplomski rad. Svakao je poželjno da studenti što je moguće prije kontaktiraju nekog mentora. To će biti onaj nastavnik koji će napisati i potvrdu da je rad nastao u okviru uobičajenih studentskih aktivnosti.

 

Lista tema i mentora

 

Naslov: Karupova i Spragueova interpolacijska formula

Sadržaj: Opisati metode nalaženja glatke interpolacije za beskonačan niz tocaka (čvorova). Opisati moguće primjene u izradi i analizi tablica smrtnosti i modeliranju intenziteta smrtnosti.

 

Literatura: Joseph L.F. De Kerf, The interpolation method of Sprague-Karup, Journal of Computational and Applied Mathematics, Vol I, no. 2, 1975., 101-110

 

Dostupno na  ovoj adresi

 

Predlaže temu: Damir Bakić

 

Naslov: Primjena B-splajnova u mijenjanju razlučivosti slike

Opis: Vrijednosti piksela originalne slike interpoliraju se tenzorskim produktom splajnova, te se vrijednosti piksela slike u novoj razlučivosti dobivaju evaluacijom interpolanta.

Literatura: Carl de Boor: A Practical Guide to Splines, Revised Edition, Springer,
New York (2001)

 

Predlaže temu: Tina Bosner

 

Naslov: Matematičko modeliranje rasta arterije i aneurizmi

Aneurizma je lokalizirana deformacija stijenke krvne žile. Moze se pojaviti u bilo kojoj krvnoj žili, a od posebnog su interesa aneurizme u aorti i moždanim krvnim žilama. Kako aneurizma raste, povečava se rizik od pucanja što u velikom broju slučajeva znači smrt. Relizirajte na računalu 2D model rasta aneurizme metodom konačnih elemenata.

 

Više informacija možete dobiti na ovom linku.

 

Naslov: Neuronska mreža kao alat predviđanja kretanja tržišta

Konkretni uzorak trgovanja vrijednosnicama kompanija podijelite u trening skup (cca. 70% podataka) i testni skup (preostalih 30%). Istrenirajte neuronsku mrežu na prvom skupu i testirajte njeno predviđanje na testnom skupu.

 

Detaljnu uputu možete nači ovdje.

 

Predlagatelji: Ivan Augustin i Luka Grubišić

 

Naslov: Otkrivanje prijevara u transakcijama.

Razvijte metodu otkrivanja vrijednosti velikog otklona od modela ponašanje podataka (outlier detection). Koristite podatke o pravim transakcijama, i provjerite ponašanje metode u otkrivanju prijevara.

 

Detaljnu uputu možete nači ovdje.

 

Benfordov zakon

Bojan Basrak i Ivan Varga

PMF-Matematički odsjek, Bijenička 30, 10000 Zagreb
bojan.basrak@math.hr

1Uvod

Prije široke dostupnosti računala i ručnih kalkulatora, znanstvenici su se često oslanjali na tzv. logaritamske tablice. Zahvaljujući njima mnogi su se izračuni mogli pojednostaviti ili barem približno provesti. Posebno su bile važne u astronomiji. Tako je, američki astronom Simon Newcomb, još 1881. godine primjetio da su početne stranice u logaritamskim tablicama istrošenije od ostalih stranica. Kako tablice sadrže logaritme decimalnih brojeva poredanih po prvoj značajnoj znamenki, Newcomb je naslutio da prva značajna znamenka stvarnih podataka nije jednoliko distribuirana. Njegova opažanja ga na kraju dovode do pretpostavke da je vjerojatnost pojave znamenke d kao prve znamenke nekog od podataka, jednaka

\log_{10}(1+d) - \log_{10}(d),

za sve d \in \lbrace 1,2,\ldots ,9 \rbrace. Taj isti fenomen primjećuje i fizičar Frank Benford 1938. godine. On ga detaljnije istražuje i testira na različitim skupovima podataka, kao što su površine rijeka, veličine stanovništva, fizikalne konstante itd., pa se zbog toga otkrivanje ovog zakona pripisuje upravo Benfordu.

U praksi prikupljene numeričke podatke, mi danas matematički modeliramo slučajnim varijablama. Ako slučajnu varijablu označimo sa X, a njenu prvu značajnu znamenku sa D_{1}(X), ove oznake možemo iskoristiti da iskažemo Benfordov zakon. Benford je jednostavno pretpostavio da će vjerojatnost pojavljivanja značajne znamenke d zadovoljavati

(1)
P(D_{1}(X) = d) = \log_{10}\left(1+\frac{1}{d}\right),

za sve d \in \lbrace 1, 2,\ldots,9\rbrace. Upravo kako je naslutio i Newcomb. Za razdiobe za koje vrijedi ova pretpostavka, kažemo da zadovoljavaju {\em Benfordov zakon za prvu značajnu znamenku}.

Lako se uvjeriti da ovaj zakon ipak ne vrijedi za mnoge teorijske i često korištene razdiobe. Ako X npr. uniformno izaberemo iz intervala (0,1), i prva značajna znamenka imat će jednaku vjerojatnost da poprimi vrijednosti od 1 do 9. Ni za najvažniju razdiobu u statistici Benfordov zakon ne vrijedi. Naime, ako je X normalna (ili Gaussova) slučajna varijabla, može se pokazati da (1) ne vrijedi. Unatoč tome Newcombova i Benfordova slutnja potvrđene su empirijski na mnogim skupovima podataka.

U nastavku ćemo detaljnije prikazati Benfordov zakon, kao i neka teorijska opravdanja za njegovo pojavljivanje koje su matematičari (predvođeni T. Hillom) pronašli u zadnjih nekoliko desetljeća.

2Benfordovo svojstvo

Pokazuje se da Benfordov zakon možemo iskazati i preciznije. Takav precizniji zakon određuje razdiobu i za sve ostale značajne znamenke slučajno odabranog broja iz dane razdiobe.

Za svaki realan broj x različit od nule, prvu značajnu znamenku, u oznaci D_{1}(x), formalno definiramo kao jedinstven broj j \in \lbrace 1,2,\ldots,9\rbrace za koji vrijedi

10^{k} j \leq |x| \lt 10^{k} (j+1),

za neki k \in \mathbb{Z}. Jasno je da su brojevi k i j s tim svojstvom jedinstveni. Korisno je definirati i tzv. signifikant (ili mantisu) realnog broja. Za x\not = 0, signifikant je jedinstven broj S(x) iz intervala [1,10) za koji vrijedi \linebreak[4] |x| = 10^{k}S(x) za neki k \in \mathbb{Z}. Funkciju koja svakom realnom broju x pridružuje njegov signifikant

x \mapsto S(x),

nazivamo signifikantna funkcija. Pri tom za x = 0, definiramo S(0) :=0.

Iako nas prije svega zanima Benfordovo svojstvo za slučajne varijable, isto svojstvo mogu imati i nizovi. Označimo sa \# A kardinalitet proizvoljnog skupa A. Niz realnih brojeva (x_{n}) je Benfordov niz, ako

(2)
\lim_{N \rightarrow \infty}\frac{\# \lbrace 1 \leq n \leq N \colon S(x_{n}) \lt t\rbrace }{N} = \log_{10} t \quad \text{ za sve} \ t \in [1, 10).

Benfordovo svojstvo dakle, precizira razdiobu signifikanta takvog niza. Samim tim, uočimo da (2) određuje razdiobu prve, ali i bilo koje druge značajne znamenke u nizu. Posebno npr.

\lim_{N \rightarrow \infty} \frac{\# \lbrace 1 \leq n \leq N \colon D_{1}(x_{n}) = d_{1} \rbrace }{N}
=\lim_{N \rightarrow \infty} \frac{\# \lbrace 1 \leq n \leq N \colon d_{1} \leq S(x_{n}) \lt d_{1}+1 \rbrace }{N}
=\lim_{N \rightarrow \infty} \frac{\# \lbrace 1 \leq n \leq N \colon S(x_{n}) \lt d_{1}+1 \rbrace }{N}
- \lim_{N \rightarrow \infty} \frac{\# \lbrace 1 \leq n \leq N \colon S(x_{n}) \lt d_{1} \rbrace }{N}
= \log \displaystyle \left( d_{1}+1 \right) - \log \displaystyle \left( d_{1} \right) = \log \displaystyle \left( 1 + \frac{1}{d_{1}} \right),

za sve d_{1} \in \lbrace 1, 2,\ldots,9\rbrace. Slično, ako sa D_{2}(x) označimo drugu značajnu znamenku realnog broja x, a niz (x_{n}) je Benfordov, tada

\lim_{N \rightarrow \infty} \frac{\# \lbrace 1 \leq n \leq N \colon D_{1}(x_{n}) = d_{1} \text{ i } \ D_{2}(x_{n}) = d_{2} \rbrace }{N} = \log \displaystyle \left( 1 + \displaystyle \left(10d_{1} + d_{2} \right)^{-1} \right),

za sve d_{1} \in \lbrace 1,2, \ldots,9\rbrace i d_{2} \in \lbrace 0,1,\ldots,9\rbrace.

Poznato je npr. da je niz potencija 2^{n}, n\in \mathbb{N}, Benfordov. Isto vrijedi i za niz faktorijela ili Fibonaccijev niz. S druge strane niz prirodnih odn. prostih brojeva nema ovo svojstvo.

Ako pak slučajna varijabla X zadovoljava

(3)
P(S(X) \lt t ) = \log_{10} t ,

za sve t \in [1,10), kažemo da X (odn. njena razdioba) posjeduje Benfordovo svojstvo. Za sve ovakve X, kao direktnu posljedicu dobivamo Benfordov zakon za prvu značajnu znamenku. Naime, iz (3) slijedi

\displaystyle P(D_{1}(X) = d) = P(d \leq S(X) \lt d+1)
= P(S(X) \lt d+1) - P(S(X) \lt d)
= \log_{10} (d+1) - \log_{10} (d)

za sve d \in \lbrace 1,2,….,9\rbrace, što dokazuje tvrdnju.

3Povezana svojstva

Interesantno je da je Benfordovo svojstvo nizova usko povezano sa tzv. svojstvom uniformnosti modulo 1. Ovo potonje svojstvo je vrlo značajno i podrobno proučavano u teoriji brojeva, npr. označimo sa \lbrace x \rbrace tzv. razlomljeni dio realnog broja x. Preciznije, \lbrace x\rbrace = x - \lfloor x \rfloor, gdje je \lfloor x \rfloor oznaka za najveći cijeli broj manji ili jednak x. Tako, npr. \lbrace 2.71\rbrace = 0.71 i \lbrace -2.71\rbrace = 0.29. Za niz (x_{n}) kažemo da je uniformo distribuiran modulo 1, ako vrijedi

\lim_{N \rightarrow \infty} \frac{\# \lbrace 1 \leq n \leq N \colon \lbrace x_{n} \rbrace \lt s \rbrace }{N} = s, \quad \text{ za svaki} \ s \in [0,1).

Analogno, slučajna varijabla X (odn. njena razdioba) uniformno je distribuirana modulo 1, ako

\mathbb{P}(\lbrace X\rbrace \lt s) = s, \quad \text{ za sve } \ s \in [0,1).

Vezu između ovih svojstava objašnjava idući teorem, koji odmah daje i jedan recept za praktičnu provjeru Benfordovog svojstva. Dokaz teorema se može pronaći u Hill [1].

Theorem 1. Slučajna varijabla je Benfordova ako i samo ako je logaritam po bazi deset njene apsolutne vrijednosti uniformno distribuiran modulo 1.

Analogni teorem vrijedi i za nizove realnih brojeva. Jasno je da stvarni podaci Benfordovo svojstvo mogu imati tek približno. Ipak, u mnogim primjenama razumno je očekivati da podaci (barem približno) zadrže Benfordovo svojstvo i nakon promjene skale. Ako se npr. radi o novčanim iznosima Benfordovo svojstvo bismo mogli očekivati i nakon promjene valute. Slično, Benfordovo svojstvo za duljine rijeka očekivali bismo da vrijedi neovisno o tome da li te duljine izražavamo u miljama ili kilometrima. Izuzetno je zanimljivo da invarijatnost na množenje skalarom daje alternativnu karakterizaciju Benfordovog svojstva.

Theorem 2. Za svaku slučajnu varijablu X, za koju je \mathbb{P}(X = 0) = 0, sljedeće su tvrdnje ekvivalentne:

\bullet

[(i)] X je Benfordova.

\bullet

[(ii)] Postoji znamenka d \in \lbrace 1,2,….,9\rbrace tako da

\mathbb{P}(D_{1}(\alpha X) = d) = \mathbb{P}(D_{1}(X) = d) \quad \text{za svaki} \ \alpha \gt 0,

gdje je \mathbb{P}(D_{1}(X) = d) = \log(1 + d^{-1}).

Dokaz teorema se može vidjeti u Hill [1].

Na sličan način možemo karakterizirati Benfordovo svojstvo i za realne nizove. Navedimo tek da je signifikantna funkcija niza realnih brojeva (x_{n}) invarijantna na množenje skalarom ako za svaki \alpha \gt 0 i t \in [1,10) vrijedi,

(4)
\lim_{N \rightarrow \infty}\frac{\# \lbrace 1 \leq n \leq N \colon S(\alpha x_{n}) \lt t\rbrace }{N} = \lim_{N \rightarrow \infty}\frac{\# \lbrace 1 \leq n \leq N \colon S(x_{n}) \lt t\rbrace }{N}.

Naglasimo još da postoje i razna druga interesantna svojstva Benfordovih razdioba, koja dijelom nadilaze ambicije ovog pregleda, za detalje pogledajte npr. [1].

4Primjeri

Fibonaccijevi brojevi F_{n}, \ n=0,1,2,\ldots, predstavljaju jedan od najzanimljivijih nizova u matematici. Ovaj niz izazivao je fascinaciju još u staroj Indiji, a svojstva mu pročavaju matematičari i danas. Brojevi F_{n} zadovoljavaju jednostavnu rekurziju

F_{n} = F_{n-1}+ F_{n-2}\,,

za sve brojeve n \geq 2, a pri tom je F_{0}=0 i F_{1}=1. Prisjetimo se inicijalni članovi niza su

0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233, 377, 610, \ldots

Slika 1 donosi usporedbu razdiobe prve značajne znamenke za prvih 1000 članova niza (F_{n}) s Benfordovom razdiobom. Na slici 2 promatramo razdiobu prve značajne znamenke niza (\pi F_{n}). Primjetimo da je i ovdje prisutna vrlo dobra podudarnost s Benfordovim zakonom, baš kako smo mogli očekivati na osnovu razmatranja iz prethodnog odjeljka.

Slika 1: Usporedba Benfordove distribucije prve značajne znamenke (crvena linija) i distribucije prve značajne znamenke za prvih 1000 (N = 1000) članova Fibonaccijevog niza (sivi pravokutnici).

Slika 2: Usporedba Benfordove distribucije prve značajne znamenke (crvena linija) i distribucije prve značajne znamenke za prvih 1000 (N = 1000) članova niza (\pi F_{n})(sivi pravokutnici).

 

 

Benfordov zakon možemo ilustrirati i na konkretnim podacima. Promatrat ćemo razdiobu prve značajne znamenke na podacima o broju stanovnika naselja u Hrvatskoj. Podaci su preuzeti iz baze podataka za posljednji popis stanovništva iz 2011. godine, Državnog zavoda za statistiku. Promatrani skup ima oko 6700 podataka. Raspon podataka je reda veličine 10^{5}. Naime, prema popisu stanovnistva iz 2011. godine, Zagreb je imao 686568 stanovnika, dok je najmanje naselje u Hrvatskoj – Špigelski Breg, imalo tek jednog stanovnika. Iz grafa na slici 3 vidimo da i ovaj skup podataka vrlo dobro slijedi Benfordov zakon.

Distribucija prve značajne znamenke za 2011. godinu, koja je prikazana svijetlo sivim pravokutnicima, dok je Benfordova distribucija prve značajne znamenke prikazana crvenom linijom.

5Benfordov zakon u primjeni

Gotovo od samog otkrivanja Benfordovog zakona postojala su nastojanja da ga se iskoristi u razotkrivanju raznih prevara. Istraživanja Marka Nigrinija pokazuje kako se Benfordov zakon može koristiti kao indikator u financijskim prevarama, npr. analizirajući koliko dobro isplate, uplate, iznosi osiguranja itd. slijede Benfordovu distribuciju (vidi Nigrini [2]). Osim za financijske podatke, zakon se pokazuje koristan i u otkrivanju falsificiranja znanstvenih i makroekonomskih podataka. Tako je npr. Rauch [3] na ovoj osnovi doveo u sumnju makroekonomske podatke koje je Grčka slala prije ulaska u Europsku Uniju. Slični razlozi, nedavno su natjerali ANZ (Australia \& New Zealand Banking Group) da posumnja u kineske ekonomske podatke o godišnjoj bruto domaćoj proizvodnji (BDP), o čemu su izvjestili i mnogi svjetski mediji. Naglasimo ipak, ako podaci ne odgovaraju Benfordovom zakonu, to ne mora značiti da se njima manipuliralo. Unatoč tome, Benfordov zakon se u Americi katkad koristi kao službeni dokaz i u sudskoj praksi.

Osim zbog manipulacije podacima, u praksi, podaci neće slijediti Benfordov zakon ako su ograničeni tako da počinju samo određenim značajnim znamenkama, kao npr. podaci o visini, kvocijentu inteligencije, opsegu glave ili rasponu ruku. Primjetimo, ti podaci su tipično približno normalno distribuirani. Nadalje, ako skupovi podataka imaju raspon kroz samo 1 ili 2 reda veličine (npr. podaci su između 1 i 100), Benfordov zakon isto tako tipično neće vrijediti. Slično, zakon nije primjenjiv za podatke na koje je postavljen maksimum ili minimum. Da smo npr. na skupu podataka o broju stanovnika promatrali samo naselja koja imaju izmedu 500 i 3000 stanovnika, podudarnost podataka s Benfordovim zakonom bila bi puno slabija.

Bibliografija

 [1]

Berger, A. i T.P. Hill: A basic theory of Benford’s Law. Probability Surveys, 8:1–126, 2011.

 [2]

Nigrini, M.:Benford's Law: Aplications for Forensic Accounting, Auditing and Fraud Detection, svezak 586. Wiley, 2012.

 [3]

Rauch, B., M. Goettsche, G. Braehler i S. Engel : Fact and Fiction in EU-Governmental Economic Data. German Economic Review, 12(3):243–255, 2011.
  

 

De Finettijev teorem


Kristina Ana Škreb
kristina.skreb@gmail.com
Miljenko Huzak
Matematički odsjek PMF-a
Sveučilište u Zagrabu
huzak@math.hr





1Uvod

Statistički model i slučajni uzorak osnovni su pojmovi matematičke statistike. Za slučaj beskonačne populacije slučajni uzorak se najčešće definira kao niz nezavisnih i jednako distribuiranih slučajnih veličina u odnosu na svaku vjerojatnost iz pretpostavljenog statističkog modela. Budući da je slučajni uzorak model za niz opažanja određene veličine kao funkcije nekog slučajnog eksperimenta, postavlja se pitanje nije li pretpostavka o nezavisnosti i jednakoj distribuiranosti opažanih pokusa prejaka. Ako jest, koja pretpostavka je slabija od te, a da i dalje povlači poželjne rezultate inferencijalne statistike? Pokazuje se da je to pretpostavka izmjenjivosti.

Koncept izmjenjivosti prvi je uveo Bruno De Finetti3 i upravo nam De Finettijev reprezentacijski teorem objašnjava matematičku vezu između nezavisnosti i izmjenjivosti. Pokazuje se da je izmjenjivost ekvivalentuvjetnoj nezavisnosti i jednakoj distribuiranosti, pri ćemu se uvjetuje u odnosu na neki slučajni element. Teorem kaže da je taj element granična vrijednost parcijalnih empirijskih distribucija koja interpretaciju nalazi u bayesovskom pristupu statistici. Dakle, teorem, u nekom smislu, povezuje frekvencionistički i bayesovski pristup.

U ovome radu nećemo dokazivati De Finettijev teorem. Pokušat ćemo na primjeru niza Bernoullijuevih slučajnih varijabli ilustrirati njegov sadržaj i kako se njime povezuju bayesovski i klasični pristup statistici. Dokaz teorema i nešto detaljnija diskusija posljedica De Finettijevog teorem može se naći u diplomskom radu [4] i u knjizi [3].

2Izmjenjivost

Definicija. Za slučajne varijable X_{1},X_{2},\ldots,X_{n} kažemo da su izmjenjive ako svaka permutacija od \left(X_{1},X_{2},\ldots,X_{n}\right) ima istu zajedničku distribuciju kao i bilo koja druga permutacija. Odnosno
\left(X_{1},X_{2},\ldots,X_{n}\right) \stackrel{\mathcal{D}}{=}\left(X_{\pi(1)},X_{\pi(2)},\ldots,X_{\pi(n)}\right) \;\; \forall \pi \in S(n),
gdje je S(n) skup svih permutacija skupa \left\lbrace 1,2,\ldots,n\right\rbrace.
Niz (X_{n})_{n=1}^{\infty} slučajnih varijabli je izmjenjiv ako mu je svaki konačan podskup izmjenjiv.


Definiciju izmjenjivosti uveli smo da bismo na najslabiji mogući način izrekli pretpostavku o simetričnosti slučajnih varijabli. Time samo želimo reći da nam je poredak slučajnih varijabli nebitan, odnosno da se budući uzorci ponašaju kao prijašnji uzorci, a ne postavljamo nikakve uvjete na nezavisnost ili postojanje limesa relativnih frekvencija.

Iz definicije vidimo da je izmjenjivost općenitiji pojam od nezavisnosti i jednake distribuiranosti. To znači da je svaki niz (X_{n})_{n=1}^{\infty} nezavisnih i jednako distribuiranih slučajnih varijabli izmjenjiv, ali obrat ne vrijedi (vidjeti Primjer 1.1 u [4]).

Pokaže se da je i svaki niz (X_{n})_{n=1}^{\infty} uvjetno nezavisnih i jednako distribuiranih slučajnih varijabli izmjenjiv. Upravo je to jedan od dvaju općenitih oblika izmjenjivosti. Jedini drugi oblik izmjenjivosti je uzorkovanje bez ponavljanja, npr. izvlačenje kuglica iz kutije bez ponavljanja, ali on se odnosi samo na slučaj konačnog niza izmjenjivih slučajnih varijabli (vidjeti 3.2.1 u [4], stranice 29. do 31.).



3De Finettijev teorem

De Finettijev teorem primijenjen na Bernoullijeve slučajne varijable kaže nam da je izmjenjiv niz Bernoullijevih slučanjih varijabli uvjetno niz nezavnisnih i jednako distribuiranih slučajnih varijabli, i to uz danu varijablu koja predstavlja vrijednost vjerojatnosti uspjeha.

De Finettijev teorem za Bernoullijeve slučajne varijable. Niz (X_{n})_{n=1}^{\infty} Bernoullijevih slučajnih varijabli je izmjenjiv ako i samo ako postoji slučajna varijabla \Theta koja poprima vrijednosti u [0,1] takva da su, uvjetno na \Theta=\theta, (X_{n})_{n=1}^{\infty} nezavisne i jednako distribuirane Bernoullijeve slučajne varijable s parametrom \theta. Nadalje, ako je niz izmjenjiv, onda je distribucija od \Theta jedinstvena i \sum_{i=1}^{n}\frac{X_{i}}{n} konvergira g.s. prema \Theta.

Primjer. Neka su (X_{n})_{n=1}^{\infty} Bernoullijeve slučajne varijable. Pretpostavimo da vrijedi
\mathbb{P}(k\text{ uspjeha u }n \text{ pokusa})=\frac{1}{n+1}, \text{ za } k=0,1,\ldots,n \text{ i } n=1,2,\ldots
Ovdje se prirodno pojavljuju dva pitanja. Prvo, postoji li takav niz slučajnih varijabli4 i, drugo, je li takav niz slučajnih varijabli izmjenjiv. Da je takav niz Bernoullijevih slučajnih varijabli izmjenjiv slijedi direktno iz definicije izmjenjivosti. Dakle, preostaje opravdati postojanje takvoga niza. U tu svrhu dovoljno je dokazati konzistentnost zadanih vjerojatnosti pa će postojanje niza slijediti primjenom Kolmogorovljeva teorema (npr. Teorem 9.7 u [2]). Drugim riječima, moramo još pokazati (vidi uvjete suglasnosti Kolmogorova na stranici 281. u [2]) da za proizvoljan n \in \mathbb{N} i proizvoljnu n-torku (x_{1},\ldots,x_{n}) elemenata iz \left\lbrace 0,1\right\rbrace vrijedi
\begin{align*} \mathbb{P}{X_{1}=x_{1},\ldots,X_{n}=x_{n}} = {} & \mathbb{P}{X_{1}=x_{1},\ldots,X_{n}=x_{n},X_{n+1}=0} \\ & +\mathbb{P}{X_{1}=x_{1},\ldots,X_{n}=x_{n},X_{n+1}=1}. \end{align*}
Stavimo k=\sum_{i=1}^{n}x_{i}. Tada je lijeva strana gornje relacije jednaka \frac{1}{(n+1)\binom{n}{k}}, a desna strana je jednaka
\begin{align*} \frac{1}{(n+2)\binom{n+1}{k}}+\frac{1}{(n+2)\binom{n+1}{k+1}} &= \frac{\frac{n-k+1}{n+1}}{(n+2)\binom{n}{k}}+\frac{\frac{k+1}{n+1}}{(n+2)\binom{n}{k}} \\ &=\frac{1}{(n+1)\binom{n}{k}}. \end{align*}
Time smo dokazali konzistenciju, pa znači da smo vjerojatnosti dobro zadali.
Budući da je zadani niz (X_{n})_{n=1}^{\infty} Bernoullijevih slučajnih varijabli izmjenjiv, iz De Finettijeva teorema znamo da niz parcijalnih relativnih frekvencija uspjeha \overline{X}_{n}=\frac{1}{n}\sum_{i=1}^{n}X_{i}, n\in\mathbb{N}, konvergira g.s. prema nekoj slučajnoj varijabli \Theta. Iz toga slijedi da \overline{X}_{n} konvergira i po distribuciji prema \Theta. Neka je F_{n}(t)=\mathbb{P}{\overline{X}_{n}\leqslant t} funkcija distribucije od \overline{X}_{n}. Vrijedi da je
F_{n}(t)=\mathbb{P}{\text{najviše }nt\text{ uspjeha u }n\text{ pokusa}}=\frac{\left\lfloor{nt}\right\rfloor +1}{n+1},
iz čega se vidi da je \lim_{n\to\infty} F_{n}(t)=\lim_{n\to\infty}\frac{\left\lfloor{nt}\right\rfloor +1}{n+1}=t, i to za sve 0\leqslant t \leqslant 1. Dakle, F(t)=t, 0\leqslant t \leqslant 1, je funkcija distribucije od \Theta=\lim_{n\to\infty}\overline{X_{n}}. Zaključujemo da su (opet prema De Finettijevu teoremu) X_{i}, uvjetno uz dano \Theta=\theta, nezavisne i jednako distribuirane Bernoullijeve slučajne varijable s parametrom \theta i da \Theta ima uniformnu distribuciju U(0,1).


Pretpostavimo sad da smo zabilježili k^{*} uspjeha u prvih n^{*} pokusa, a zanima nas vjerojatnost k uspjeha u sljedećih n pokusa. Označimo s A događaj da se u prvih n^{*} pokusa dogodilo k^{*} uspjeha, a s B događaj da se u sljedećih n pokusa dogodilo k uspjeha. Tada vrijedi
(1)
\mathbb{P}{B\vert A}=\frac{\mathbb{P}{B \cap A}}{\mathbb{P}{A}}=\frac{\frac{\binom{n^{*}}{k^{*}}\binom{n}{k}}{\binom{n^{*}+n}{k^{*}+k}}\frac{1}{n^{*}+n+1}}{\frac{1}{n^{*}+1}} = \frac{\binom{n^{*}}{k^{*}}\binom{n}{k}}{\binom{n^{*}+n}{k^{*}+k}}\frac{n^{*}+1}{n^{*}+n+1}.
Naprimjer, ako uzmemo da su se u prvih 5 pokusa dogodila 2 uspjeha, tada je vjerojatnost k uspjeha u sljedećih n pokusa jednaka
(2)
\frac{60\binom{n}{k}}{\binom{n+5}{k+2}}\frac{1}{n+6}.
Lako se vidi da su budući ishodi i dalje izmjenjivi uz dane prošle ishode. Zbog toga, na isti način kao što smo dobili da je početna distribucija od \Theta jednaka U(0,1), možemo izračunati i uvjetnu distribuciju od \Theta uz dani ishod prvih n^{*} pokusa koristeći se relacijom (1).

Alternativno, uvjetnu distribuciju od \Theta možemo dobiti koristeći se sljedećim rezultatom.

Teorem. Neka je (X_{n})_{n=1}^{\infty} niz izmjenjivih Bernoullijevih slučajnih varijabli. Neka je \Theta=\lim_{n\to\infty}\sum_{i=1}^{n}\frac{X_{i}}{n}, i neka je \mu_{\Theta} distribucija od \Theta. Uvjetno na zabilježenih k^{*} uspjeha u prvih n^{*} pokusa funkcija distribucije od \Theta je jednaka
F^{*}(t)=\frac{\int_{[0,t]}\theta^{k^{*}}(1-\theta)^{n^{*}-k^{*}}d\mu_{\Theta}(\theta)}{\int\psi^{k^{*}}(1-\psi)^{n^{*}-k^{*}}d\mu_{\Theta}(\psi)}.

Nastavak primjera. Nakon zabilježenih k^{*} uspjeha u prvih n^{*} pokusa, koristeći se prethodnim teoremom (uz \Theta \sim U(0,1)) možemo izračunati uvjetnu distribuciju od \Theta. Naprimjer, za n^{*}=5 i k^{*}=2 je
\begin{align*} F^{*}(\theta) &= \frac{\int_{[0,\theta]}\psi^{2}(1-\psi)^{3}d\mu_{\Theta}(\psi)}{\int\phi^{2}(1-\phi)^{3}d\mu_{\Theta}(\phi)} =\frac{\frac{\Gamma(7)}{\Gamma(3)\Gamma(4)}\int_{[0,\theta]}\psi^{2}(1-\psi)^{3}d\psi}{\underbrace{\int_{0}^{1}\frac{\Gamma(7)}{\Gamma(3)\Gamma(4)}\phi^{2}(1-\phi)^{3}d\phi}_{=1 \text{ (funkcija gustoće od } Beta(3,4))}} \\ &=60\int_{[0,\theta]}\psi^{2}(1-\psi)^{3}d\psi, \text{ za }\theta \in \left\langle0,1\right\rangle, \end{align*}
iz čega slijedi da je uvjetna gustoća jednaka
f^{*}(\theta)=(F^{*})'(\theta)=60\theta^{2}(1-\theta)^{3}, \text{ za } \theta \in \left\langle0,1\right\rangle,
u odnosu na Lebesgueovu mjeru. Mod te distribucije je jednak 2/5 što je relativna frekvencija uspjeha u prvih 5 pokusa. Možemo izračunati i očekivanu vjerojatnost uspjeha u šestom pokusu ako nam je poznato da su se u prvih 5 pokusa dogodila 2 uspjeha. Ona iznosi
\mathbb{E}^{*}\left(\Theta\right)=\int\theta60\theta^{2}(1-\theta)^{3}d\theta=60\frac{\Gamma(4)\Gamma(4)}{\Gamma(8)}\underbrace{\int\frac{\Gamma(8)}{\Gamma(4)\Gamma(4)}\theta^{3}(1-\theta)^{3}d\theta}_{=1 \text{ (funkcija gustoće od }Beta(4,4))}=\frac{3}{7},
što je jednako vjerojatnosti iz (2) za n=1 i k=1. Općenito, nakon opažanja k^{*} uspjeha u n^{*} pokusa dobijemo da je uvjetna funkcija distribucije od \Theta jednaka
\begin{align*} F^{*}(\theta) &= \frac{\int_{[0,\theta]}\psi^{k^{*}}(1-\psi)^{n^{*}-k^{*}}d\psi}{\int_{0}^{1}\phi^{k^{*}}(1-\phi)^{n^{*}-k^{*}}d\phi} =\frac{\frac{\Gamma(n^{*}+k^{*}+2)}{\Gamma(k^{*}+1)\Gamma(n^{*}+1)}\int_{[0,\theta]}\psi^{k^{*}}(1-\psi)^{n^{*}-k^{*}}d\psi}{\underbrace{\int_{0}^{1}\frac{\Gamma(n^{*}+k^{*}+2)}{\Gamma(k^{*}+1)\Gamma(n^{*}+1)}\phi^{k^{*}}(1-\phi)^{n^{*}-k^{*}}d\phi}_{=1 \text{ (funkcija gustoće od }Beta(k^{*}+1,n^{*}-k^{*}+1))}} \\ &=\frac{(n^{*}+1)!}{k^{*}!(n^{*}-k^{*})!}\int_{[0,\theta]}\psi^{k^{*}}(1-\psi)^{n^{*}-k^{*}}d\psi, \text{za }\theta \in \left\langle0,1\right\rangle, \end{align*}
a uvjetna gustoća
f^{*}(\theta)=\frac{(n^{*}+1)!}{k^{*}!(n^{*}-k^{*})!}\theta^{k^{*}}(1-\theta)^{n^{*}-k^{*}}, \text{za } \theta \in \left\langle0,1\right\rangle,
što znači da \Theta ima uvjetno Beta(k^{*}+1,n^{*}-k^{*}+1) distribuciju. Uz dane podatke očekivana vjerojatnost uspjeha u sljedećem pokusu jednaka je uvjetnom očekivanju od \Theta, tj. \frac{k^{*}+1}{n^{*}+2} što je približno jednako \frac{k^{*}}{n^{*}} za velike n^{*}. Primijetite da je mod uvjetne distribucije F^{*} od \Theta upravo jednak \frac{k^{*}}{n^{*}}.


Ovaj primjer objašnjava nam zašto su opažene frekvencije važne za računanje vjerojatnosti ako pretpostavljamo da su nam podaci izmjenjivi. Ujedno nam ilustrira vezu bayesovskog pristupa procjeni parametra Bernoullijeva modela s frekvencionističkim.

Neka distribucija \mu_{\Theta} ima gustoću f u odnosu na neku mjeru na [0,1]. Tada će uvjetna gustoća od \Theta uz opaženih k^{*} uspjeha u n^{*} pokusa biti oblika
(3)
\text{neka konstanta} \cdot \theta^{k^{*}}(1-\theta)^{n^{*}-k^{*}}f(\theta).
Ova gustoća veća je za vrijednosti od \theta blizu \frac{k^{*}}{n^{*}} nego što je f. Isto tako, što je n^{*} veći, to uvjetna gustoća ima izraženiji šiljak u blizini \frac{k^{*}}{n^{*}}. Na slikama 1 i 2 nalaze se grafovi uvjetnih gustoća od \Theta za razne k^{*}, n^{*} i f koje ilustriraju upravo navedene činjenice. Ovaj argument na neki način opravdava činjenicu da \Theta često procjenjujemo s \frac{k^{*}}{n^{*}}. To je opravdano jedino kad vjerujemo da su podaci izmjenjivi. Ne tvrdimo da postoji “fiksna vrijednost \theta” takva da su ishodi pokusa nezavisne i jednako distribuirne slučajne varijable s parametrom \theta . Samo pokušavamo procijeniti (ili predvidjeti) limes relativnih frekvencija.
Grafovi funkcija gustoća Beta(k^{*}+1,n^{*}-k^{*}+1)-distribucija za razne k^{*} i n^{*} takve da je k^{*} /n^{*} =2/5=0.4. Te gustoće su ujedno oblika (3) za f gustoću uniformne U(0,1)-razdiobe.
Grafovi funkcija gustoća oblika (3) za razne k^{*} i n^{*} takve da je k^{*} /n^{*} =2/5=0.4 i f(\theta )=30\cdot\theta^{4} (1-\theta ).

Zanimljivo je da se De Finettijev teorem može poopćiti i na bilo koji niz izmjenjivih slučajnih varijabli. Znači da je proizvoljan niz slučajnih varijabli izmjenjiv ako i samo ako je to niz nezavisnih i jednako distribuiranih slučajnih varijabli, uvjetno na neku slučajnu veličinu. Štoviše, pokazuje se da ova tvrdnja vrijedi i za posebnu vrstu slučajnih elemenata, koji su poopćenje slučajnih varijabli.

Taj opći De Finettijev reprezentacijski teorem govori nam sljedeće:

De Finettijev teorem. Neka je \left(S,\mathcal{A},\mu\right) vjerojatnosni prostor i (\mathcal{X},\mathcal{B}) Borelov prostor. Neka su X_{n}:S\to\mathcal{X}, n \in \mathbb{N}, izmjerive funkcije. Tada je niz (X_{n})_{n=1}^{\infty} slučajnih elemenata izmjenjiv ako i samo ako postoji slučajna vjerojatnosna mjera \textbf{P} na (\mathcal{X},\mathcal{B}) takva da su, uvjetno na \textbf{P}=P, (X_{n})_{n=1}^{\infty} nezavisni i jednako distribuirani s distribucijom P. Nadalje, ako je niz izmjenjiv, tada je distribucija od \textbf{P} jedinstvena i \textbf{P}_{n}(B) konvergira prema \textbf{P}(B) g.s. za svaki B \in \mathcal{B} .


Razlika u odnosu na Bernoullijev slučaj je ta što za proizvoljan niz (X_{n})_{n=1}^{\infty} izmjenjivih slučajnih elemenata koji poprimaju vrijednosti u Borelovu prostoru postoji neka slučajna vjerojatnosna mjera \textbf{P}, a ne slučajna varijabla, u odnosu na koju su X_{i} uvjetno nezavisni i jednako distribuirani. Tu slučajnu vjerojatnosnu mjeru \textbf{P} dobijemo kao limes empirijskih distribucija \textbf{P}_{n} od X_{1},\ldots,X_{n}. Podsjetimo se, empirijska distribucija od X_{1},\ldots,X_{n} je slučajna vjerojatnosna mjera definirana izrazom5\textbf{P}_{n} (B):=\frac{1}{n}\sum_{i=1}^{n} \mathbf{1}_{B}(X_{i}) za svaki Borelov skup B.

Jedino nam preostaje vidjeti što je zapravo slučajna vjerojatnosna mjera. U Bernoullijevu slučaju vidimo da je to neka slučajna varijabla s vrijednostima u intervalu [0,1]. Za slučajne elemente koji mogu poprimiti samo konačno mnogo vrijednosti slučajne vjerojatnosne mjere su ekvivalentne slučajnim vektorima. Za proizvoljne slučajne elemente slučajne vjerojatnosne mjere su nešto složenije, ali se također definiraju kao jedna vrsta izmjerivih preslikavanja.

Bibliografija
[1] D. V. Lindley, Bruno de Finetti, u: Leading Personalities in Statistical Sciences, urednici: N. L. Johnson, and S. Kotz, Wiley, 1997., 94.-95.
[2] N. Sarapa, Teorija vjerojatnosti, drugo izdanje, Školska knjiga, Zagreb, 1992.
[3] M. J. Schervish, Theory of statistics, Springer-Verlag, New York, 1995.
[4] K. A. Škreb, De Finettijev teorem, diplomski rad, PMF-Matematički odsjek u Zagrebu, Zagreb, 2010.



Analiza poginulih u prometu

 
Barbara Babić Katarina Bošnjak Nika Kenda Ana Kolić Ivana Kranjec


Sažetak
Koliko puta ste čuli da su žene lošiji vozači od muškaraca ili da su mladi zbog svoje neopreznosti i neiskustva glavni krivci za prometne nesreće? Ovim člankom odlučile smo istražiti govore li i statistički podaci u prilog tim tvrdnjama. Također provjeravamo kakav je utjecaj promjene Zakona o sigurnosti prometa na cestama na broj poginulih, te utječe li obrazovanje vozača na učestalost njihova stradavanja u prometnim nesrećama.

Od 2004. do 2008. godine u Hrvatskoj se dogodilo 307 470 prometnih nesreća u kojima je poginulo 3102 ljudi. Ove zastrašujuće brojke dovoljan su razlog da se ovo istraživanje ne shvati olako.

1Uvod


U posljednjih nekoliko godina u Hrvatskoj je sve izraženiji problem nesigurnosti na cestama i velikog broja prometnih nesreća. Svakodnevno smo okruženi lošim vijestima s prometnica te pokušajima da se promjenama zakona i akcijama MUP-a takvo stanje promijeni. Ponukani time, odlučile smo detaljnije istražiti neke od aspekata te crne statistike.

Točnije, ciljevi ovog rada su:
\bullet ispitati ovisnost smrtnosti po dobnim skupinama o spolu, dobu dana i danu u tjednu
\bullet ispitati ovisnost smrtnosti o stupnju obrazovanja u svim dobnim skupinama
\bullet odrediti očekivanu dob vozača u trenutku nesreće
\bullet provjeriti utjecaj promjene Zakona o sigurnosti prometa na cestama na smrtnost u dobnoj skupini 20 - 29


Prije analize podataka, važno je upoznati se s temeljnim pojmovima korištenima u članku, pa slijedi kratak prikaz glavnih definicija koje se spominju u nastavku.

Statistika je skup ideja i metoda koje se upotrebljavaju za prikupljanje i interpretaciju podataka u nekom području istraživanja te za izvođenje zaključaka u situacijama gdje su prisutne nesigurnosti i varijacije.

Statistička populacija je potpun skup mogućih mjerenja ili podataka o nekom svojstvu koji odgovaraju cijeloj familiji jedinki koju se promatra. U našem slučaju populaciju čine vozači/vozačice koji su poginuli u prometnim nesrećama u razdoblju od srpnja 2004. do lipnja 2009. Podaci su dobiveni iz Državnog zavoda za statistiku, a među ostalim sadržavaju informacije o dobnoj, spolnoj i obrazovnoj strukturi poginulih te o mjesecima, odnosno danima kad su se nesreće dogodile.

Svrha procesa prikupljanja podataka je izvođenje zaključaka o populaciji. Budući da nije uvijek moguće prikupiti sve podatke o području istraživanja, zaključci izvedeni statističkom analizom su nesigurni jer se zasnivaju na promatranju samo manjeg dijela populacije, tj. na nepotpunim podacima. Skup mjerenja na tom dijelu populacije proveden tijekom istraživanja nazivamo uzorak. Naš uzorak čini dio vozača iz već navedene populacije odabranih na slučajan način.

Cilj statističke analize je na osnovi podataka iz uzorka izvesti određene zaključke o populaciji te ocijeniti nesigurnosti koje su obuhvaćene tim zaključivanjem.

Za grafički prikaz podataka, kao i računanje konkretnih vrijednosti pri provođenju statističkih testova koristili smo se programom R [3].

2Opisna statistika


Opisna statistika je grana statistike koja se bavi predočavanjem i opisivanjem glavnih karakteristika prikupljenih podataka.

Za početak, korisno je podatke prikazati grafički, za što smo se koristili histogramima i strukturnim dijagramima.

Općenito, histogram je definiran kao način prikazivanja podataka raspoređenih u određene kategorije ili grupe. Kategorije, u koje smo grupirali podatke, nalaze se na osi apscisa, a prikupljeni podaci koji pripadaju određenoj kategoriji nalaze se na osi ordinata.

Kod strukturnog dijagrama svaka je kategorija ili grupa prikazana kružnim isječkom čija je površina proporcionalna udjelu te kategorije u uzorku.

Ovim izborom prikaza podataka dobiven je izvrstan pregled raspoređenosti broja nastradalih kroz mjesece u godini, te dobar uvid u spolnu i dobnu strukturu poginulih u promatranom razdoblju (slika 1).
Slika 1: Histogram relativnih frekvencija broja poginulih tijekom 12 mjeseci


Iz histograma je očito da najviše ljudi pogine u srpnju, što je vjerojatno posljedica činjenice da tada najviše Hrvata kreće na godišnji odmor. Iako je uvriježeno mišljenje da su zimski mjeseci najopasniji za vozače zbog loših vremenskih uvjeta, iznenađujuće je da je najmanja smrtnost u siječnju i veljači.
Slika 2: Strukturni dijagram strukture poginulih
Slika 3: Strukturni dijagram strukture poginulih


Iz strukturnih dijagrama (slike 2 i 3 ) slijedi da najviše poginulih ima u dobnoj skupini od 20 do 29. Također možemo primijetiti da se broj poginulih smanjuje po dobnim skupinama, što govori da su stariji vozači oprezniji od onih u srednjim godinama, a oni u dobi od 20 do 29 najrizičnija su skupina.

Iako se za žene govori da su lošiji vozači od muškaraca, sa strukturnog dijagrama po spolu vidimo da pogine gotovo 7 puta više muškaraca nego žena.

3Testiranje statističkih hipoteza


Tijekom istraživanja mjeri se neko numeričko ili nenumeričko obilježje koje označavamo s X. Rezultat mjerenja obilježja X označavamo s x. Slučajni uzorak tada možemo prikazati kao \left(X_{1} ,\ldots,X_{n} \right), gdje je n duljina uzorka, a s \left(x_{1} ,\ldots,x_{n} \right) označiti jednu realizaciju tog uzorka.

Opažene frekvencije definiramo kao N_{j} =\sum _{i=1}^{n}{\text{1}}_{\left\lbrace X_{i} =a_{j} \right\rbrace }, j=1,\ldots,k, pri čemu izraz {\text{1}}_{\left\lbrace X_{i} =a_{j} \right\rbrace } poprima vrijednost 1 ako je X_{i} =a_{j}, a inače poprima vrijednost 0, gdje je a{}_{j} jedan od rezultata mjerenja obilježja X u uzorku duljine n.

Broj \frac{N_{j} }{n} zove se relativna frekvencija.

Statistička hipoteza je bilo koja pretpostavka o distribuciji obilježja X, tj. pretpostavka da X ima sljedeću distribuciju:

\left(\begin{array}{cccc} {a_{1} } & {a_{2} } & \ldots & {a_{k} } \\ {p_{1} (\theta )} & {p_{2} (\theta )} & {\ldots} & {p_{k} (\theta )} \end{array}\right),
pri čemu \theta označava parametre o kojima ta distribucija može ovisiti, a_{1}, a_{2}, \ldots, a_{k} označavaju rezultate mjerenja, a {p_{1} (\theta )}, {p_{2} (\theta )},\ldots, {p_{k} (\theta )} vjerojatnosti da će se ti rezultati postići.

S H_{0} označavamo hipotezu koju želimo dokazati (to je tzv. nul-hipoteza), a s H_{1} njoj alternativnu hipotezu.

Želimo na osnovi realizacije slučajnog uzorka za obilježje X donijeti odluku hoćemo li odbaciti hipotezu H_{0} ili nećemo. Postupak donošenja odluke o odbacivanju ili neodbacivanju te statističke hipoteze zove se testiranje statističkih hipoteza.

Budući da su sve odluke bazirane na uzorcima koji nisu 100% pouzdani, niti zaključak statističkog testa nije 100% pouzdan. Test će biti potpun ako možemo procijeniti vjerojatnosti mogućih pogrešaka u zaključivanju. U većini slučajeva moguće je za zadanu razinu značajnosti testa \alpha, 0 \lt \alpha \lt 1, među testovima kojima vjerojatnost pogreške prve vrste ne prelazi broj \alpha, naći test s najmanjom vjerojatnosti pogreške druge vrste. Pogrešku prve vrste radimo kad odbacujemo hipotezu H_{0} i ona je istinita, a pogrešku druge vrste radimo kad zadržavamo hipotezu H_{0} i ona je pogrešna (tj. hipoteza H_{1} je istinita).

Kako na temelju dobivenih podataka i uz unaprijed određenu razinu značajnosti zaključiti odbacuje li se hipoteza H_{0} i s kojom vjerojatnošću?

Prvo moramo izračunati vrijednost rezultata statističkog testa (test se odabire prema vrsti hipoteza), a zatim tu vrijednost usporediti s graničnom vrijednošću. Granična vrijednost je vrijednost testa za koju se hipoteza H_{0} odbacuje, a ovisi o vrijednostima iz poznate distribucije vjerojatnosti specifične za odabrani test. Područje vrijednosti za koje se H_{0} ne odbacuje nazivamo kritičnim područjem testa.

Jedan od najčešće korištenih testova u statistici je Pearsonov \chi ^{2}-test koji ćemo ovdje navesti, kako bi nam bio matematička podloga za daljnja istraživanja.

Definirajmo prvo očekivane frekvencije kao n_{j} \left(\theta \right)=np_{j} \left(\theta \right),j=1,\ldots,k.

Neka je D\left(\theta \right)=\sum _{i=1}^{k}\frac{\left(N_{j} -n_{j} \left(\theta \right)\right)}{n_{j} \left(\theta \right)} ^{2}. Mi ćemo promatrati jednostavniji slučaj kada je hipotezom H_{0} zadan parametar \theta _{0}, čime je definirana testna statistika H\equiv D\left(\theta _{0} \right).

Također definiramo broj stupnjeva slobode s df=k-1, a ako X ima \chi ^{2}-razdiobu, umjesto X pišemo \chi^{2}(df). \chi ^{2}-razdioba je jedna od najčešćih razdioba u statistici i vrijednosti koje ona poprima zadane su tablično u tzv. tablici kvantila \chi ^{2}-razdiobe.

Sada smo spremni izreći već spomenuti Pearsonov teorem o \chi ^{2}-testu:

Ako je H_{0} točna hipoteza, onda H\stackrel{D}{\longrightarrow} \chi ^{2} \left(k-1\right), kada n\to \infty.

Za zadanu razinu značajnosti \alpha, hipotezu H_{0} odbacujemo ako je opažena vrijednost h\ge \chi _{\alpha }^{2} \left(k-1\right), gdje vrijednost \chi _{\alpha }^{2} \left(k-1\right) čitamo iz tablice kvantila \chi ^{2}-razdiobe.

S \stackrel{D}{\longrightarrow} označavamo konvergenciju po distribuciji, što jednostavnim rječnikom rečeno znači da se razdioba vrijednosti s lijeve strane približava razdiobi s desne strane kada n\to \infty. Često se koristi i oznaka \sim.

Pearsonov \chi ^{2}-test najčešće se upotrebljava ako je riječ o kvalitativnim podacima ili ako tim podacima distribucija značajno odstupa od normalne. Njegova primjena posebno se ističe u slučajevima kada želimo utvrditi odstupaju li dobivene frekvencije (iz slučajnog uzorka) od frekvencija koje bismo očekivali po hipotezi koju ispitujemo. Ovim testom također možemo ispitati povezanost dviju varijabli te vjerojatnost njihove povezanosti.

Općenito, \chi ^{2}-test najpouzdaniji je u sljedećim slučajevima:
(1) Kada se ispituju odstupanja frekvencije uzorka od očekivane frekvencije uz zadanu hipotezu.
(2) Kada se uspoređuju dva ili više nezavisnih uzoraka po nekom svojstvu, pri čemu su nam poznate frekvencije svakog od uzoraka.

3.1Ovisnost smrtnosti u pojedninoj dobnoj skupini o spolu


Jedno od prvih pitanja koje nam se nametnulo pri proučavanju podataka jest jesu li spol vozača i njihova dob zavisna obilježja, tj. možemo li, s određenom sigurnošću, zaključiti da žene, odnosno muškarci imaju jednaku vjerojatnost pogibije u određenoj dobi. Možda naizgled ovo izgleda kao trivijalno, gotovo nevažno pitanje, no u statistici nas odgovori često mogu iznenaditi te ništa ne treba uzimati "zdravo za gotovo".

S obzirom na to da ovo ispitivanje spada u već navedene primjene \chi ^{2}-testa, odlučili smo se za njegovu varijantu \chi ^{2}-test nezavisnosti:

Promatramo dva različita obilježja X i Y. Neka je:
\bullet n duljina uzorka,
\bullet r broj različitih vrijednosti koje poprima obilježje X,
\bullet c broj različitih vrijednosti koje poprima obilježje Y.


Neka je \left(\left(X_{1} ,Y_{1} \right),\ldots,\left(X_{n} ,Y_{n} \right)\right) slučajni uzorak iz dvodimenzionalnog statističkog obilježja \left(X,Y\right), pri čemu X može poprimiti vrijednosti \left\lbrace a_{1} ,\ldots,a_{r} \right\rbrace, a Y vrijednosti \left\lbrace b_{1} ,\ldots,b_{c} \right\rbrace.

\chi ^{2}-test nezavisnosti je statistički test kojim se testiraju hipoteze

H_{0}: X i Y su nezavisna obilježja
H_{1} : X i Y su zavisna obilježja

Po Pearsonovu teoremu, uz sitne promjene, možemo zaključiti da je testna statistika dana formulom
H=\sum _{i=1}^{r}\sum _{j=1}^{c}\frac{(N_{ij} -n\hat{p}_{i} \hat{q}_{j} )^{2} }{n\hat{p}_{i} \hat{q}_{j} } \sim\chi ^{2} \left(df\right),
gdje je
\bullet N_{ij} opažena frekvencija od \left(a_{i} ,b_{j} \right) u dvodimenzionalnom statističkom uzorku \left(X,Y\right),
\bullet \hat{p}_{i} =\frac{N_{i} }{n}, pri čemu je N_{i} opažena frekvencija od a_{i} u uzorku za X,
\bullet \hat{q}_{j} =\frac{M_{j} }{n}, pri čemu je M_{j} opažena frekvencija od b_{j} u uzorku za Y.

Područje \left[\chi _{\alpha}^{2}(df) \right. ,\left. +\infty \right\rangle, gdje je df=rc-(r-1)-(c-1)-1, nazivamo kritično područje. Ako je h\in \left[\chi _{\alpha}^{2}(df) \right. ,\left. +\infty \right\rangle, tada odbacujemo hipotezu H_{0}, a ako je h izvan tog intervala, onda je ne odbacujemo. Broj \chi _{\alpha}^{2}(df) čitamo iz tablice kvantila \chi ^{2}-razdiobe.

U našem slučaju obilježje X (= spol) poprima vrijednosti muškarac, žena, a obilježje Y (= dobna skupina) poprima vrijednosti dobnih skupina, tj. 20 - 29, 30 - 39, 40 - 49, 50 - 59.

Podaci su prikazani sljedećom tablicom:



  20 - 29 30 - 39 40 - 49 50 - 59 \sum
Muškarac 327 186 161 131 805
Žena 37 28 24 23 112
\sum 364 214 185 154 917


\chi ^{2}-testom nezavisnosti koristimo se za testiranje sljedećih hipoteza:

H_{0}: Spol i dobna skupina su nezavisna obilježja
H_{1}: Spol i dobna skupina nisu nezavisna obilježja

Test provodimo uz razinu značajnosti \alpha=5%.

Račun provodimo u programu R [3]:
> x<-matrix(c(327,186,161,131,37,28,24,23),nrow=2,byrow=T)
> x
  [     [,1] [,2] [,3] [,4]]
  [[1,]  327  186  161  131]
  [[2,]  37   28   244   23]
> chisq.test(x)
  Pearson's Chi-squared test
  data:  x
  X-squared = 2.7395, df = 3, p-value = 0.4336

Odavde dobivamo da je h = 2.7395 i df = 3.

Promatramo u kojem intervalu se nalazi h. Budući da je h\lt \chi _{0.05}^{2}(3) =7.8147, tj. h nije unutar kritičnog područja, ne odbacujemo hipotezu H_{0} i možemo zaključiti da su obilježlja X i Y nezavisna. Dakle, smrtnost u dobnim skupinama ne ovisi o spolu pa muškarci/žene imaju jednaku vjerojatnost da poginu u bilo kojoj starosnoj dobi.

3.2Ovisnost smrtnosti u pojedninoj dobnoj skupini o danima u tjednu


Jeste li se ikada zapitali pogine li više mladih vikendom ili u tjednu? Upravo nas je to potaknulo da provjerimo tvrdnju, često isticanu u medijima ,da najviše mladih nastrada u prometnim nesrećama tijekom vikenda.

Ponovo se koristimo \chi ^{2}-testom nezavisnosti, pri čemu obilježje X poprima vrijednosti dana u tjednu (ponedjeljak, utorak, srijeda, četvrtak, petak, subota i nedjelja), a obilježje Y poprima vrijednosti dobnih skupina, tj. 20 - 29, 30 - 39, 40 - 49, 50 - 59.

Podaci su prikazani sljedećom tablicom:



  20 - 29 30 - 39 40 - 49 50 - 59 \sum
Ponedjeljak 33 25 19 24 101
Utorak 27 25 35 18 105
Srijeda 37 25 22 18 102
Četvrtak 34 19 20 19 92
Petak 51 36 25 26 138
Subota 92 40 36 26 194
Nedjelja 90 44 28 23 185
\sum 364 214 185 154 917

Koristimo se \chi ^{2}-testom nezavisnosti (vidi 3.1) za testiranje sljedećih hipoteza:

H_{0}: Dan u tjednu i dobna skupina su nezavisna obilježja
H_{1}: Dan u tjednu i dobna skupina nisu nezavisna obilježja

Test provodimo uz razinu značajnosti \alpha=5%.

Računanjem u R-u [3], kod je vrlo sličan onome iz točke 3.1, dobiveni su sljedeći rezultati: h = 34.527, df = 18.

Budući da je h\gt \chi _{0.05}^{2}(18) =28.8693, odbacujemo hipotezu H_{0} (jer se h nalazi u kritičnom području) i možemo zaključiti da obilježja X i Y nisu nezavisna. Dakle, smrtnost u dobnim skupina ovisi o danu u tjednu.

Budući da X i Y nisu nezavisna obilježja, sljedeće što nas zanima jest koliko jedno obilježnje ovisi o drugom. Konkretno, u našem slučaju, koliko su dobne skupine i dani u tjednu međusobno povezani. U statistici se ta povezanost mjeri stupnjem statističke zavisnosti koji je definiran formulom:

o=\frac{f^{2} }{\min \left\lbrace r,c\right\rbrace -1},

gdje je f^{2} =\sum _{i=1}^{r}\sum _{j=1}^{c}\frac{N_{ij} }{N_{i} M_{j} } -1 (za oznake vidi 3.1).

On je izračunat u R-u [3] i iznosi 1.27% pa je ta zavisnost veoma slaba, svakako slabija nego što bi to bilo za očekivati.

3.3Ovisnost smrtnosti u pojedninoj dobnoj skupini o dobu dana


Sljedeće što ispitujemo jest distribucija smrtnosti po dobnim skupinama u određenom dijelu dana. Dijelove dana možemo promatrati kao nezavisne populacije pa se \chi ^{2}-test nameće kao logičan izbor. Ovu vrstu \chi ^{2}-testa u kojem se ispituje distribucija istog obilježja u više različitih uzoraka nazivamo \chi ^{2}-test homogenosti.

Pretpostavimo da nas zanima distribucija istog diskretnog statističkog obilježja X, koje poprima međusobno različite vrijednosti \left\lbrace a_{1} ,\ldots,a_{k} \right\rbrace, u raznim populacijama.

Želimo na osnovi nezavisnih uzoraka uzetih iz tih populacija testirati nul-hipotezu da su razdiobe od X u tim populacijama jednake, tj. homogene.

Neka je m broj populacija. Iz svake populacije nezavisno odaberemo slučajni uzorak koji predstavlja obilježje X u i-toj populaciji i označimo ga s X_{i}, i=1,\ldots,m.

\chi ^{2}-test homogenosti je statistički test kojim se testiraju hipoteze

H_{0}: X_{1} ,\ldots,X_{m} su jednako distribuirani

H_{1}: postoje i i j takvi da se distribucija od X_{i} razlikuje od distribucije od X_{j}.


Po Pearsonovom teoremu slijedi da je testirana statistika dana formulom

H=\sum _{i=1}^{m}\sum _{j=1}^{k}\frac{(N_{ij} -\hat{n}_{ij} )^{2} }{\hat{n}{}_{ij} } \sim\chi ^{2} \left(df\right),

gdje je
\bullet N_{ij} opažena frekvencija od a_{i} u uzorku X_{i},
\bullet \hat{n}_{ij} =\frac{n_{i} M_{j} }{n}, n_{i} =\sum _{j=1}^{k}N_{ij}, M_{j} =\sum _{i=1}^{m}N_{ij}, n=\sum _{j=1}^{k}M_{j}.


Područje \left[\chi _{\alpha}^{2}(df) \right. ,\left. +\infty \right\rangle, gdje je df=(m-1)(k-1), je kritično područje. Ako je h\in \left[\chi _{\alpha}^{2}(df) \right. ,\left. +\infty \right\rangle, tada odbacujemo hipotezu H_{0}, a ako je izvan tog intervala, onda je ne odbacujemo. Broj \chi _{\alpha}^{2}(df) čitamo iz tablice kvantila \chi ^{2}-razdiobe.

Podaci su dani sljedećom tablicom:



  20 - 29 30 - 39 40 - 49 50 - 59 \sum
\lt0-6] 133 52 18 17 220
\lt6-12] 44 28 46 44 162
\lt12-18] 68 61 59 55 243
\lt18-24] 119 74 62 37 292
\sum 364 215 185 153 917

Koristimo se \chi ^{2}-testom homogenosti da bismo testirali hipotezu:

H_{0}: smrtnost u svakom promatranom dijelu dana jednako je distribuirana

Naš test ćemo provesti uz razinu značajnosti \alpha=5%.

Računanjem u R-u [3] dobiveni su sljedeći rezultati: h = 94.7825, df = 9.

Iz danih podataka vidimo da je h\gt \chi _{0.05}^{2}(9) =16.91898, tj. h je unutar kritičnog područja, odbacujemo hipotezu H_{0} i zaključujemo da smrtnost po dobima dana nije jednako distribuirana.

3.4Utjecaj obrazovanja na smrtnost u svim dobnim skupinama


Proučavanjem podataka, nametnulo nam se pitanje ima li stupanj obrazovanja utjecaj na smrtnost u svim dobnim skupinama, pa smo odlučili provjeriti tu pretpostavku na vozačima sa završenom samo srednjom školom, tj. željeli smo odrediti postotak p takvih vozača u ukupnoj populaciji poginulih.

Za razliku od prijašnjih testova, sada ne uspoređujemo nekoliko populacija, već provjeravamo svoju pretpostavku unutar jedne populacije, pri čemu podatke tumačimo u odnosu na neko zadano obilježje (kod nas: završena samo srednja škola). To, naravno, znači da nam je potrebna drugačija testna statistika koja će nekako "odrediti" očekivani broj poginulih vozača sa završenom samo srednjom školom.

Kao i prije, ideja je pronaći takvu testnu statistiku koja će naše podatke svesti na neku nama poznatu distribuciju iz koje ćemo poslije lako pročitati s kojom vjerojatnošću smo postavili točnu hipotezu. Ovdje smo se poslužili poznavanjem Centralnog graničnog teorema, iz kojeg se odmah nametnula tražena statistika.

Navodimo Centralni granični teorem (CGT), kojim ćemo se poslije nekoliko puta koristiti:

Neka je \left(X_{n} :n\in \mathbb{N}\right) niz nezavisnih, jednako distribuiranih slučajnih varijabli s očekivanjem \mu i varijancom \sigma ^{2}, 0\lt \sigma ^{2} \lt +\infty, te neka je T_{n} =\sum _{k=1}^{n}X_{k}. Tada vrijedi \frac{T_{n} -n\mu }{\sigma \sqrt{n} } \stackrel{D}{\longrightarrow} N\left(0,1\right) kad n\to \infty.

Iako smo CGT naveli u općenitom slučaju, nas zanima nešto jednostavnija situacija. Slučajni uzorak poginulih vozača možemo promatrati kao niz nezavisnih jednako distribuiranih Bernoullijevih slučajnih varijabli koje poprimaju vrijednost 0 ili 1 u ovisnosti o nekom zadanom svojstvu, i to s vjerojatnošću p, odnosno 1-p.

Konkretno, mi ćemo svakog poginulog vozača koji ima završenu najviše srednju školu reprezentirati jedinicom u uzorku, dok će ostali biti reprezentirani nulom. Ovako promatran niz varijabli ima nešto jednostavnije formule varijance \left(\sigma ^{2} =p(1-p)\right) i očekvivanja \left(\mu =p\right), pa je i testna statistika nešto jednostavnija nego u općenitom Centralnom graničnom teoremu. Također, sada je jasno da zapravo tražimo vjerojatnost p, tj. vjerojatnost da je poginuli vozač u uzorku imao završenu samo srednju školu.

Test ovoga oblika, u kojem računamo očekivanje za populaciju reprezentiranu Bernoullijevim varijablama, nazivamo Z-test i definiramo testnu statistiku (s opravdanjem u CGT-u i jer je n\bar{X}_{n} =T_{n}) formulom:

Z=\frac{\bar{X}_{n} -p}{\sqrt{p(1-p)} } \sqrt{n} \sim N(0,1).

Ovo je najjači test za računanje očekivanja uz razinu značajnosti \alpha , gdje je
\bullet n duljina uzorka
\bullet \bar{X}_{n} relativna frekvencija vozača sa završenom samo srednjom školom u uzorku.


Promatrajući svoje podatke, uočili smo da najveći broj poginulih vozača ima završenu samo srednju školu pa smo opisanim Z-testom odlučili provjeriti svoje očekivanje da takvih vozača ima otprilike 70%.

Ovdje je važno napomenuti da je statističko istraživanje često puno pretpostavki dobivenih tzv. "metodom pokušaja i pogrešaka", te često nije moguće iz prve pogoditi koja je hipoteza optimalna.

Dakle, testirat ćemo sljedeće hipoteze:

H_{0}: p=0.70
H_{1}: p\gt 0.70.

Test ćemo provesti uz razinu značajnosti \alpha=5%.

Za podatke dobivamo \bar{X}_{n} =0.7388.

Uvrštavanjem konkretnih vrijednosti iz uzorka duljine n = 781 dobivamo sljedeće:

z=\frac{0.7388-0.7}{\sqrt{0.7\cdot 0.3} } \sqrt{781} =2.3662\gt z_{0.05} =1.64,

gdje broj z_{0.05} čitamo iz tablice standardne normalne distribucije (z_{0.05} =\Phi (1-0.05)).

Promatramo u kojem intervalu se nalazi z. Ako je z\in \left[z_{0.05} \right. ,\left. +\infty \right\rangle, tada odbacujemo hipotezu H_{0}, u protivnom je ne odbacujemo.

Dobiveni rezultat je iz intervala \left[z_{0.05} \right. ,\left. +\infty \right\rangle pa odbacujemo hipotezu H_{0} u korist hipoteze H_{1} i možemo zaključiti da više od 70% poginulih ima završenu samo srednju školu.

3.5Očekivana dob vozača u trenutku nesreće


Pitanje koje se prirodno nameće je očekivana dob u trenutku nesreće. Točnije, zanima nas možemo li pronaći neki interval godina vozača u kojem je vjerojatnost nesreće najveća. U statistici takav interval nazivamo aproksimativni pouzdani interval.

Prema CGT teoremu znamo da je Z=\frac{\bar{X}_{n} -\mu }{\sigma } \sqrt{n} \sim N(0,1) za velike n.

Po formuli za vjerojatnost vrijedi: \mathbb{P}\left(|Z|\le z_{\frac{\alpha }{2} } \right)=1-\alpha,

što je ekvivaletno s \mathbb{P}\left(z_{\frac{\alpha }{2} } \le \frac{\bar{X}_{n} -\mu }{S_{n} } \sqrt{n} \le z_{\frac{\alpha }{2} } \right)=1-\alpha,

što je ekvivaletno s \mathbb{P}\left(\bar{X}_{n} -z_{\frac{\alpha }{2} } \frac{S_{n} }{\sqrt{n} } \le \mu \le \bar{X}_{n} +z_{\frac{\alpha }{2} } \frac{S_{n} }{\sqrt{n} } \right)=1-\alpha.

Dakle, interval je dan formulom

\left[\bar{X}_{n} -z_{\frac{\alpha }{2} } \cdot \frac{S_{n} }{\sqrt{n} } ,\bar{X}_{n} +z_{\frac{\alpha }{2} } \cdot \frac{S_{n} }{\sqrt{n} } \right],

gdje je
\bullet n duljina uzorka,
\bullet x_{i} godine života i-te osobe u trenutku nesreće,
\bullet \bar{X}_{n} =\frac{\sum _{i=1}^{n}x_{i} }{n},
\bullet S_{n}^{2} =\frac{1}{n-1} \sum _{i=1}^{n}(x_{i} -\bar{X}_{n} )^{2} procjenitelj za varijancu,


a broj z_{\frac{\alpha }{2} } čitamo iz tablice standardne normalne distribucije.

Iz uzorka duljine n=917 dobivamo \bar{X}_{n} =35.46 i S_{n} =11.72. Dakle, aproksimativni 95% pouzdani interval za očekivanu dob u trenutku pogibije je \left[34.7,36.22\right] pa zaključujemo da je očekivana dob između 34 i 37 godina.

3.6Utjecaj promjene Zakona o sigurnosti prometa na cestama na smrtnost u dobnoj skupini od 20 - 29


Iz strukturnog dijagrama o udjelu pojedinih dobnih skupini u ukupnom broju poginulih, vidjeli smo da je najugroženija skupina u dobi od 20 do 29 godina. S obzirom na to da se i Zakon o sigurnosti prometa na cestama u 2008. bazirao upravo na toj dobnoj skupini, odnosno mladim vozačima, želimo utvrditi je li on uistinu utjecao na smanjenje smrtnosti.

Promatramo podatke o poginulima u toj dobnoj skupini u razdoblju od godine dana nakon donošenja prvog zakona u 2004. godini (prvo razdoblje) te od godinu dana nakon donošenja novog zakona u 2008. godini (peto razdoblje).

Pretpostavljamo da novi zakon ima manji utjecaj na smrtnost u dobnoj skupini od 20 do 29 od starog pa želimo naći neki test kojim bismo mogli usporediti "uspješnost" ovih dvaju zakona. Za početak, tu "uspješnost" zakona definiramo kao udio poginulih vozača u dobi od 20 do 29 godina u cjelokupnom broju poginulih. Sada je još potrebno naći najbolji način da usporedimo omjere prvog i petog razdoblja.

Odabrali smo test omjera proporcija koji se koristi upravo u situacijama kada uspoređujemo "uspješnost" nekog obilježja u nezavisnim populacijama.

Test omjera proporcija provodi se na dvije nezavisne populacije s nekim obilježjem X.

Označimo s X_{1} slučajnu varijablu koja predstavlja obilježje X u prvoj populaciji, a s X_{2} slučajnu varijablu koja predstavlja X u drugoj populaciji.

Neka su p_{1} i p_{2} njihove vjerojatnosti uspjeha u svakoj od populacija.

U osnovnoj nul-hipotezi pretpostavljamo da su vjerojatnosti uspjeha jednake, a druga hipoteza je njena alternativa koja ovisi o zadatku.

Test omjera proporcija definiran je formulom:
Z=\frac{\hat{p}_{2} - \hat{p}_{1} }{\sqrt{\hat{p}(1-\hat{p})} } \frac{1}{\sqrt{\frac{1}{n_{1} } +\frac{1}{n_{2} } } },
gdje su n_{1} i n_{2} dovoljno velike populacije (zbog CGT-a), \hat{p}_{1} procjenitelj za p_{1} (tj. \hat{p}_{1}=p_{1}), \hat{p}_{2} procjenitelj za p_{2} (tj. \hat{p}_{2}=p_{2}) i \hat{p}=\frac{n_{1} \hat{p}_{1} +n_{2} \hat{p}_{2} }{n_{1} +n_{2} } procjenitelj zajedničke vjerojatnosti.

U našem slučaju promatrano obilježje je smrtnost, a populacije su poginuli u prvom i petom razdoblju. Označimo vjerojatnosti s
p_{1} = omjer poginulih u dobi od 20 do 29 u prvom razdoblju,
p_{5} = omjer poginulih u dobi od 20 do 29 u petom razdoblju.

Testiramo sljedeće hipoteze uz razinu značajnosti \alpha=5%:

H_{0}: p_{1} =p_{5}
H_{1}: p_{1} \lt p_{5}

Koristeći se navedenim formulama, za svoje podatke dobivamo ove rezultate:
\bullet n_{1} =157
\bullet n_{5} =195
\bullet \hat{p}_{1} =\frac{56}{157} =0.3567
\bullet \hat{p}_{5} =\frac{74}{195} =0.3795
\bullet \hat{p}=0.3693
\bullet Z=0.4406\lt z_{0.05} =1.64,


gdje broj z_{0.05} čitamo iz tablice standardne normalne distribucije.

Promatramo u kojem intervalu se nalazi z. Ako je z\in \left[z_{0.05} \right. ,\left. +\infty \right\rangle, tada odbacujemo hipotezu H_{0}, u protivnom je ne odbacujemo. Budući da z nije iz tog intervala, ne možemo odbaciti hipotezu H_{0}, odnosno novi i stari zakon imaju jednak utjecaj na smrtnost u dobnoj skupini od 20 do 29.

4Zaključak

Istaknimo na kraju najzanimljivije rezultate rada:
\bullet unatoč uvriježenoj pretpostavci, žene nisu lošiji vozači od muškaraca, štoviše, gotovo sedam puta manje žena pogine u prometnim nesrećama
\bullet smrtnost mladih ovisi o danu u tjednu
\bullet više od 70% poginulih ima završenu samo srednju školu
\bullet očekivana dob u trenutku pogibije je između 34 i 37 godina
\bullet promjena Zakona o sigurnosti prometa na cestama nije utjecala na smanjenje smrtnosti mladih.


5Literatura
Bibliografija
[1] M. Huzak - Predavanja iz statisike
[2] N. Sarapa - Teorija vjerojatnosti, Školska knjiga, Zagreb, 1992.
[3] R
[4] Wikipedijini članci o histogramu i Z-testu
[5] MUP

Statistička obrada podataka

 
Ana Anušić Ervin Duraković Hrvoje Maltarić Ivan Pažin


Sažetak
U ovom članku provodimo statističko istraživanje koje se bazira na zavisnosti uspjeha na prijamnom ispitu i prve godine studiranja. U tu svrhu, definiramo i objašnjavamo osnovne statističke pojmove i općeniti tijek statističkog istraživanja. Grafičkim prikazima podataka objašnjavamo što je i čemu služi opisna statistika te zašto ona nije dovoljna za formiranje formalnih zaključaka. Naravno, analiziramo i matematički alat s pomoću kojeg se zaključci mogu smatrati valjanima. Posebnim komentarima ističemo kako interpretirati dobivene rezultate i na što, prilikom toga, treba obratiti posebnu pozornost.


Sadržaj


1Uvod

1.1Čime se bavi statistika

Recimo da nam treba prosječna visina svih ljudi na Zemlji. Sasvim je jasno da bi pojedinačnim prikupljanjem podataka taj posao zaista dugo trajao. Zato nećemo mjeriti visinu svih ljudi, već ćemo odabrati neki broj ljudi i s pomoću njihovih visina procijeniti visinu svih. Upravo na taj način počinje svaka statistička analiza – ispitivanjem uzorka procjenjujemo svojstvo cijele populacije.

1.2Što je uzorak i kako ga odabrati?

Naravno, nema smisla mjeriti visinu svih osnovnoškolaca jedne škole na svijetu ili košarkaške reprezentacije i na temelju toga procijenjivati visinu svih ljudi na Zemlji! Uzorak mora biti slučajno odabran. Ljudi ne smiju biti birani npr. prema spolu, boji kose, političkoj opredijeljenosti itd.

1.3Istraživanje

Početak svakog istraživanja je formiranje hipoteza, pretpostavki koje želimo dokazati (ili opovrgnuti). Obradu podataka započinjemo njihovim vizualnim prikazom. Najčešće histogramima i box-plotovima. Na taj način odmah možemo uočiti u kojim granicama se podaci nalaze, kako su raspoređeni te u kojem smjeru uostalom naši zaključci idu. Međutim, vizualna reprezentacija podataka nije dovoljna da bismo neku hipotezu smatrali dokazanom ili opovrgnutom. Tek primjenom različitih statističkih testova možemo s određenom, unaprijed pretpostavljenom vjerojatnošću smatrati da je istraživanje završeno.

2Analiza prikupljenih podataka

2.1Hipoteze
\bullet prosjek ocjena ne ovisi o spolu
\bullet prosjek ocjena ne ovisi o godini upisa na fakultet
\bullet prolaznost na 1. godini studija ovisi o mjestu na rang listi prijamnog ispita
\bullet rang i prosjek linearno ovise i moguće je na temelju ranga procijeniti prosjek


2.2O prikupljanju podataka

Podatke smo prikupljali od studenata s PMF– Matematičkog odjela, prediplomski studij matematike, koji su fakultet upisali 2007. i 2008. godine, a polagali su prijamni ispit. To smo ostvarili s pomoću anonimne ankete u kojoj smo tražili da napišu koje godine su upisali fakultet, kojeg su spola, njihov rang (mjesto) na prijamnom ispitu (uz uvjet da nisu imali izravan upis) te njihove ocjene iz svih kolegija na prvoj godini. Zanima nas njihova prva godina studiranja, pa smo zamolili da napišu i ako su neki predmet pali, s čime ćemo poslije baratati kao s ocjenom 1. Na taj način zaista uočavamo kakav je uspjeh student ostvario godinu dana nakon što se upisao na fakultet i registriramo razliku između studenata koji su neki kolegij položili u roku i onih koji su pali, ali možda položili sljedeće godine s boljom ocjenom.

Ukupna populacija studenata upisanih 2007. i 2008. godine je 500, a mi smo prikupili uzorak od 94, procijenivši da će to biti dovoljno za statističku analizu. Nakon prikupljenih podataka izračunali smo prosjek ocjena svakog studenta (računajući i ocjene 1), te posebno označili je li student prvu godinu prošao ili pao. Zbog anonimnosti, nismo tražili studente da napišu točno mjesto na prijamnom ispitu, nego u razredima od 10. Dakle, ako je netko ostvario npr. 103. mjesto, zapisao je da mu je rang 101– 110. Na taj način anonimnost je sačuvana, a razredi su dovoljno mali da bismo mogli dovoljno dobro provjeriti svoje hipoteze.

2.3O prosjeku ocjena slučajnog uzorka

Promatrano statističko obilježje (spol, prosjek, ...) u idućim analizama označavat ćemo s \textbf{X}, \textbf{Y}, \textbf{Z}, \ldots. Kroz n mjerenja dobivamo niz (tj. uzorak) x_{1},x_{2},\ldots, x_{n} kojim ćemo procijeniti statističko obilježje. U najjednostavnijem slučaju, ako obilježje \textbf{X} poprima samo vrijednost iz nekog diskretnog (konačnog ili prebrojivog) skupa A, onda se kaže da je \textbf{X} diskretno obilježje. U uzorku možemo uočiti ponavljanje nekih veličina. Neka u uzorku x_{1}\ldots,x_{n} ima k ({ k\leq n}) različitih izmjerenih veličina x'_{1},\ldots,x'_{k}. S f_{i} označavamo broj ponavljanja veličine x'_{i} u uzorku, i\in {1,\ldots,k}. Taj broj f_{i} zovemo frekvencija veličine x'_{i}. Još jedna korisna veličina usko vezana uz frekvenciju je relativna frekvencija veličine x'_{i}, koja se jednostavno definira kao p_{i}:=\frac{f_{i}}{n}, i=1,\ldots,k.

Dobivene podatke jednostavnije prikazujemo tablično.
Tablica 1: Tablica frekvencija

i x'_{i} f_{i} p_{i}
1 x'_{1} f_{1} p_{1}
2 x'_{2} f_{2} p_{2}
\vdots \vdots \vdots \vdots
k x'_{k} f_{k} p_{k}


U slučaju da obilježje \textbf{X} ne poprima diskretne vrijednosti, već iz nekog intervala iz \mathbb{R} ne možemo prebrojiti ponavljanja, pa vrijednosti svrstavamo u razrede. Razredi su disjunktni, jednake širine i prekrivaju cijeli interval (biramo ih proizvoljno ovisno o praktičnim potrebama).

Prilikom grupiranja u razrede sve vrijednosti i-tog razreda aproksimiraju se sredinom tog razreda, čime se gubi određeni dio informacija, ali se mogu razlučiti bitna svojstva promatranog kontinuiranog obilježja \textbf{X}.

U ovom slučaju broj veličina unutar nekog razreda predstavlja frekvenciju razreda.
\bullet Tablica prosjeka ocjena prikupljenog slučajnog uzorka:


i prosjek f_{i} p_{i} F_{i}
0 [1.0,2.0\rangle 30 0.31914887 0.31914887
1 [2.0, 3.0\rangle 30 0.31914887 0.63829774
2 [3.0, 4.0\rangle 27 0.28723404 0.92553178
3 [4.0, 5.0] 7 0.07446822 1


Podsjetimo, prosjek smo računali tako da smo za pad kolegija uzimali ocjenu nedovoljan (1). Zato interval[1.0,2.0\rangle ima smisla.}

Napomena 1. Pri tome su F_{i} kumulativne relativne frekvencije definirane rekurzivno, tj:
F_{0} = p_{0}
F_{i} = F_{i-1} + p_{i}, i = 1,2,\ldots, n.
\bullet Histogram prosjeka ocjena slučajnog uzorka:


Napomena 2. Na osi apscisa nalaze se razredi, dok nam os ordinata predstavlja relativne frekvencije. Primijetimo, ukupna površina dobivenog histograma jednaka je 1. Histogramom relativno jednostavno možemo uočiti distribuciju statističkog obilježja \textbf{X}.


Spomenimo još neke korisne veličine kojima se koristimo u opisnoj statistici. Prije svega poredajmo slučajni uzorak po veličini, tj.:

x_{(1)}\leq x_{(2)}\leq x_{(3)}\leq\ldots,\leq x_{(n)}
\bullet Raspon slučajnog uzorka:
d=x_{(n)} - x_{(1)}
\bullet Medijan slučajnog uzorka je vrijednost koja ima svojstvo da je 50% podataka veće, a 50% manje od nje, tj. uzimamo za medijan:
m = \begin{cases} \frac{1}{2}(x_{ (\frac{n}{2})}+x_{(\frac{n}{2}+1)}) , & \text{ako je }n\text{ paran} \\ x_{(\frac{n+1}{2})}, & \text{ako je }n\text{ neparan} \end{cases}
\bullet Donji kvartil je vrijednost koja ima svojstvo da je 25% podataka manje od nje, tj. uzimamo:
q_{l} = x_{(\frac{n+1}{4})}
\bullet Gornji kvartil je vrijednost koja ima svojstvo da je 25% podataka veće od nje, tj. uzimamo:
q_{u}=x_{(\frac{3(n+1)}{4})}
\bullet Interkvartil: \textbf{IQR} = q_{u} - q_{r}


Karakteristična petorka uzorka : (x_{(1)}, q_{l}, m, q_{u}, x_{(n)} ).

S pomoću karakteristične petorke uzorka formiramo box–plot (eng. box and whisker plot).

Napomena 3. Outlieri su sve vrijednosti koje su od gornjeg i donjeg kvantila udaljene za više od \frac{3}{2}\textbf{IQR}. Brkovi su najveća i najmanja vrijednost koje nisu outlieri.


Box-plot prosjeka ocjena slučajnog uzorka:



Napomena 4. Budući da je u slučajnom uzorku prosjek ocjena u razredima, ne možemo točno odrediti gornji, donji kvartil i medijan već ih procjenjujemo linearnom interpolacijom iz grafa kumulativnih frekvencija.


"Box" predstavlja podatke koji se po vrijednosti nalaze u rasponu 25\% - 75\% ukupne veličine (tj. donja linija pravokutnika određena je donjim kvartilom, a gornja gornjim). Medijan je u pravokutniku posebno naznačen debljom linijom. Najmanja i najveća vrijednost koje nisu outlieri na grafu su označeni linijom i s pravokutnikom spojeni izlomljenom linijom (zato se i zovu brkovi). Primijetimo da na ovom box-plotu nema outliera (općenito, ako ih ima, posebno se naznače npr. kružićem).

2.4Rang uzorka na prijamnom ispitu
Tablica 2: Rang na prijamnom ispitu slučajnog uzorka

i razred f_{i} p_{i} sredina F_{i}
1 1-10 5 0.0531914893617021 5.5 0.053191489317021
2 11-20 7 0.074468085106383 15.5 0.127659574468085
3 21-30 9 0.0957446808510638 25.5 0.223404255319149
4 31-40 5 0.0531914893617021 35.5 0.27659595744680851
5 41-50 9 0.0957446808510638 45.5 0.372340425531915
6 51-60 6 0.0638297872340425 55.5 0.436170212765957
7 61-70 2 0.0212765957446809 65.5 0.457446808510638
8 71-80 3 0.0319148936170213 75.5 0.489361702127660
9 81-90 4 0.0425531914893617 85.5 0.531914893617021
10 91-100 7 0.074468085106383 95.5 0.606382978723404
11 101-110 2 0.0212765957446809 105.5 0.627659574468085
12 111-120 5 0.0531914893617021 115.5 0.680851063829787
13 121-130 1 0.0106382978723404 125.5 0.691489361702128
14 131-140 1 0.0106382978723404 135.5 0.702127659574468
15 141-150 2 0.0212765957446809 145.5 0.723404255319149
16 151-160 4 0.0425531914893617 155.5 0.76595744680851
17 161-170 2 0.0212765957446809 165.5 0.787234042553192
18 171-180 3 0.0319148936170213 175.5 0.819148936170213
19 181-190 2 0.0212765957446809 185.5 0.80425531914294
20 191-200 2 0.0212765957446809 195.5 0.861702127659575
21 201-210 4 0.0425531914893617 205.5 0.904255319148936
22 211-220 4 0.0425531914893617 115.5 0.946808510638298
23 221-230 1 0.0106382978723404 225.5 0.957446808510638
24 231-240 2 0.0212765957446809 235.5 0.978723404255319
25 241-250 2 0.0212765957446809 245.5 1


Napomena 5. Primijetimo da podaci nisu jednako raspoređeni, što objašnjavamo činjenicom da dio lošije rangiranih studenata sigurno nije više prisutan na fakultetu. No to nam ne smeta pri obradi, budući da ćemo sve potrebno dobiti linearnom interpolacijom.
Tablica 3: Tablica kvartila ranga slučajnog uzorka

0\% 25\% 50\% 75\% 100\%
55 35.5 83 156.75 245.5


3Testiranje nezavisnosti statističkih obilježja

3.1Testiranje hipoteza

Nakon formiranja hipoteze, moramo osmisliti način na koji ćemo je provjeriti, odnosno postupak donošenja odluke o njenom prihvaćanju ili odbacivanju. Taj postupak zove se testiranje. Općenito se problem testiranja sastoji od definiranja područja C \in \mathbb{R}^{n}, koje zovemo kritično područje hipoteze H. Ako se izmjereni uzorak shvati kao (x_{1}, x_{2}, x_{3},\ldots, x_{n}) \in \mathbb{R}^{n} može vrijediti (x_{1}, x_{2}, x_{3},\ldots, x_{n}) \in C ili (x_{1}, x_{2}, x_{3},\ldots, x_{n}) \notin C. Ako vrijedi prvo, hipoteza se odbacuje, a u suprotnom se prihvaća. Ovako definirani postupak zove se statistički test.

U statističkom testu ključnu ulogu ima kritično područje. Njega treba odrediti tako da sadržava one točke (x_{1}, x_{2}, x_{3},\ldots, x_{n}) \in C u kojima dolazi do značajnog odstupanja od hipoteze koju testiramo. Naravno, javlja se problem određivanja što je značajno, a što tolerantno odstupanje.

Neka je {H_{0}} hipoteza koju testiramo. Vidimo da je zapravo riječ o dvije hipoteze, {H_{0}} i {H_{1}} , tj. odbacivanjem hipoteze H_{0} prihvaćamo hipotezu H_{1}, a prihvaćanjem H_{0} odbacujemo H_{1}. H_{0} zove se nul–hipoteza , a H_{1} alternativna hipoteza.

Budući da na temelju uzorka procjenjujemo svojstvo cijele populacije, odbacivanjem hipoteze H_{0} uvijek postoji određeni rizik da je hipoteza odbačena kada je zapravo trebala biti prihvaćena. Taj rizik označava se brojem \alpha\ (0\leq \alpha\leq 1) i kaže se da test ima razinu značajnosti \alpha. Naravno, želimo da \alpha bude što manji, najčešće se uzima 0,05(5\% ). Problem nalaženja najboljeg testa svodi se na određivanje kritičnog područja C tako da razina značajnosti iznosi zadani broj \alpha, te da vjerojatnost prihvaćanja nul–hipoteze kada je stvarno neistinita (pogreška druge vrste) bude minimalna.

3.2Dvodimenzionalna statistička obilježja

Istodobno promatramo više veličina i želimo ustanoviti njihovu ovisnost. Primjerice, promatramo dva statistička obilježja, \textbf{X} i \textbf{Y}. Višestrukim ponavljanjem mjerenja dobiva se niz uređenih parova:
(1)
(x_{1}, y_{1}), (x_{2}, y_{2}), \ldots, (x_{n}, y_{n}).
U tom slučaju kažemo da promatramo dvodimenzionalno statističko obilježje(\textbf{X}, \textbf{Y})}.

Neka obilježje \textbf{X} poprima vrijednosti iz nekog diskretnog skupa \textbf{A}=\lbrace a_{1}, a_{2}, \ldots, a_{r}\rbrace, a obilježje \textbf{Y} iz skupa \textbf{B}=\lbrace b_{1}, b_{2}, \ldots, b_{c}\rbrace. Analogno jednodimenzionalnom slučaju, za svaki par (a_{i}, b_{j}), i=1, \ldots, r,\ j=1, \ldots, c, možemo uočiti njegovu frekvenciju u (1), označimo je s f_{ij}. Frekvenije nam omogućuju da formiramo sljedeću tablicu, koja se zove kontingencijska tablica frekvencija:
Tablica 4: Kontingencijska frekvencijska tablica

\textbf{X}\diagdown\textbf{Y} b_{1} b_{2} ... b_{c} \Sigma
a_{1} f_{11} f_{12} ... f_{1c} f_{1}
a_{2} f_{21} f_{22} ... f_{2c} f_{2}
\vdots \vdots \vdots \ddots \vdots \vdots
a_{r} f_{r1} f_{r2} ... f_{rc} f_{r}
\Sigma g_{1} g_{2} ... g_{c} n

Napomena 6. Brojevi f_{i}, i=1, \ldots, r, nazivaju se marginalne frekvencije od a_{i} u (1), a brojevi g_{j}, j=1, \ldots, c, marginalne frekvencije od b_{j} u (1).


Uz ovisnost dvodimenzionalnih statističkih obilježja usko je vezan tzv. Pearsonov koeficijent korelacije, koji pokazuje stupanj afine povezanosti među podacima u uzorku, a definira se kao:
(2)
r_{\textbf{X}\textbf{Y}}:=\frac{S_{\textbf{X}\textbf{Y}}}{\sqrt{S_{\textbf{X}\textbf{X}}S_{\textbf{Y}\textbf{Y}}}},
gdje su
(3)
S_{\textbf{X}\textbf{X}}:=\sum_{k=1}^{n}x_{k}^{2}-n{\bar{x}}^{2}, S_{\textbf{Y}\textbf{Y}}:=\sum_{k=1}^{n}y_{k}^{2}-n{\bar{y}}^{2}, S_{\textbf{X}\textbf{Y}}:=\sum_{k=1}^{n}x_{k}y_{k}-n\bar{x}\bar{y}, \bar{x}:=\frac{1}{n}\sum_{k=1}^{n}x_{k}, \bar{y}:=\frac{1}{n}\sum_{k=1}^{n}y_{k}.

Napomena 7. Za Pearsonov koeficijent korelacije vrijedi:
-1 \leq r_{\textbf{X}\textbf{Y}} \leq 1.
Ako vrijedi:
\bullet r_{\textbf{X}\textbf{Y}} \lt 0.5, kažemo da su obilježja \textbf{X} i \textbf{Y} slabo korelirana,
\bullet r_{\textbf{X}\textbf{Y}} \geq 0.5, kažemo da su obilježja \textbf{X} i \textbf{Y} značajno korelirana,
\bullet r_{\textbf{X}\textbf{Y}}=1 ili r_{\textbf{X}\textbf{Y}}=-1, kažemo da je veza potpuno linearna,
\bullet r_{\textbf{X}\textbf{Y}}=0, veza nije linearna (to ne mora značiti da ne postoji!).

Napomena 8. Prethodne definicije i svojstva potpuno vrijede i ako su \textbf{X} i \textbf{Y} neprekidna statistička obilježja. Potrebno je samo napraviti podjelu podataka u razrede.

3.3Pearsonov \chi^{2}-test o nezavisnosti

Neka je (\textbf{X}, \textbf{Y}) dvodimenzionalno statističko obilježje, te neka je (1) prikupljeni slučajni uzorak. Prirodno se postavlja pitanje što možemo reći o (ne)zavisnosti obilježja \textbf{X} i \textbf{Y} na temelju prikupljenog uzorka. Dakle, moramo konstruirati najbolji statistički test za testiranje hipoteze H_{0} : \textbf{X} i \textbf{Y} su nezavisna obilježja, u odnosu na alternativu H_{1} : \textbf{X} i \textbf{Y} su zavisna statistička obilježja.

Prvo moramo definirati veličinu koja će nam predstavljati "udaljenost" od nezavisnosti obilježja na temelju n-članog niza mjerenja, tako da ta "udaljenost" predstavlja značajno odstupanje od hipoteze H_{0}. U tu svrhu definiramo sljedeću veličinu (uz iste oznake kao u Tablici 4):
(4)
H_{n}:=\sum_{i=1}^{r}\sum_{j=1}^{c}\frac{(f_{ij}-n\hat{p_{i}}\hat{q_{j}})^{2}}{n\hat{p_{i}}\hat{q_{j}}},
gdje su \hat{p_{i}}=\frac{f_{i}}{n}, \hat{q_{j}}=\frac{g_{j}}{n}. Može se pokazati da je upravo H_{n} veličina kojom najbolje procjenjujemo ono što intuitivno shvaćamo kao "značajnu udaljenost od nezavisnosti".

Također, moramo odrediti kritično područje C, tako da razina značajnosti testa iznosi zadani broj \alpha\in\langle0, 1\rangle. Od sada nadalje, \alpha=0.05=5%. Za C mora vrijediti da ako H_{n} \in C, hipotezu H_{0} odbacujemo u korist H_{1} (s rizikom od 5%). Za rješenje ovog problema koristan je sljedeći teorem:

Teorem 9.[Pearsonov teorem] Ako je H_{0} točna hipoteza, za n\to\infty vrijedi
(5)
H_{n}\sim\chi^{2}((r-1)(c-1)),
tj. za velike n, H_{n} ima \chi^{2}-razdiobu1 s (r-1)(c-1) stupnjeva slobode.


Sada možemo izračunati kritično područje [x_{0}, +\infty\rangle, tj. tražimo točku x_{0}\in\mathbb{R} za koju vrijedi: \mathbb{P}(H_{n}\lt x_{0})\geq0.95, tj. \mathbb{P}(H_{n}\geq x_{0})\leq0.05. Budući da znamo distribuciju H_{n}, vrijednost točke x_{0} iščitavamo iz tablice, a budući da ovisi o \alpha, r i c, označava se s \chi^{2}_{\alpha}((r-1)(c-1)).

Sada lako možemo testirati nezavisnost obilježja \textbf{X} i \textbf{Y}. S pomoću vrijednosti u kontingencijskoj tablici izračunamo H_{n} i ako vrijedi H_{n}\geq\chi^{2}_{\alpha}((r-1)(c-1)), odbacujemo H_{0} u korist H_{1} uz rizik od 5\%. U suprotnom, prihvaćamo H_{0}.

3.4Hipoteza: Prosjek ocjena ne ovisi o spolu

Unaprijed ne očekujemo razliku prosjeka na prvoj godini studiranja između žena i muškaraca. Za početak pogledajmo opisni prikaz odnosa prosjeka slučajnog uzorka obaju spolova.
Tablica 5: Frekvencijska tablica prosjeka ocjena uzorka ženskog spola

prosjek frekvencija relativna frekvencija
[1.0, 2.0\rangle 21 0.34426223
[2.0, 3.0\rangle 22 0.36065574
[3.0, 4.0\rangle 13 0.21311475
[4.0, 5.0] 5 0.08196721
Tablica 6: Frekvencijska tablica prosjeka ocjena uzorka muškog spola

prosjek frekvencija relativna frekvencija
[1.0, 2.0\rangle 9 0.27272722
[2.0, 3.0\rangle 8 0.24242424
[3.0, 4.0\rangle 14 0.42424242
[4.0, 5.0] 2 0.06060606


Primijetimo, najveći broj žena iz uzorka ima prosjek između 2.00 i 3.00, dok najveći dio muškaraca iz uzorka ima prosjek između 3.00 i 4.00. Međutim, gotovo dva puta više žena ima prosjek 4.00 do 5.00. Prirodno se pitamo što od toga može utjecati na nezavisnost danih obilježja i na koji način.

Promotrimo box-plot slučajnog uzorka obaju spolova:
Tablica 7: Tablica kvartila prosjeka slučajnog uzorka

0% 25% 50% 75% 100%
1.000 2.000 2.625 3.375 4.875
Tablica 8: Tablica kvartila prosjeka slučajnog uzorka ženskog spola

0% 25% 50% 75% 100%
1.000 2.000 2.375 3.375 4.875
Tablica 9: Tablica kvartila prosjeka slučajnog uzorka muškog spola

0% 25% 50% 75% 100%
1.000 2.000 2.875 3.375 4.625


Za razliku od histograma, na box-plotu se ne mogu vidjeti značajne razlike između spolova.

Provedimo Pearsonov \chi^{2}-test o nezavisnosti:

Neka obilježje \textbf{X} poprima vrijednosti u razredima: [1.0, 2.0\rangle, [2.0, 3.0\rangle, [3.0, 4.0\rangle, [4.0, 5.0], a obilježje \textbf{Y} neka poprima vrijednosti: muško, žensko. Testiramo:

H_{0}: \textbf{X} i \textbf{Y} su nezavisna obilježja,

H_{1}: \textbf{X} i \textbf{Y} su zavisna obilježja.
Tablica 10: Kontingencijska tablica

\textbf{X}\diagdown\textbf{Y} žensko muško \Sigma
[1.0, 2.0\rangle 21 9 30
[2.0, 3.0\rangle 22 8 30
[3.0, 4.0\rangle 13 14 27
[4.0, 5.0] 5 2 7
\Sigma 61 33 94


Iz tablice i (4) računamo: H_{94} = 14.003328. Broj stupnjeva slobode je (2-1)(4-1)=3, pa je kritično područje [\chi_{0.05}^{2}(3), +\infty\rangle. Još je samo preostalo odrediti \chi_{0.05}^{2}(3), a to čitamo iz tablice. Dakle, kritično područje je [7.8147, +\infty\rangle, a budući da je 14.003328\gt 7.8147, odbacujemo hipotezu H_{0} u korist alternativne hipoteze H_{1}.

Iako posve neočekivano, provedenim testom zaključujemo da prosjek ocjena na prvoj godini studija ovisi o spolu, na nivou značajnosti od 5%, tj. rizik da je naš zaključak pogrešan je 5%.

3.5Hipoteza: Prosjek ocjena ne ovisi o godini upisa na fakultet
Tablica 11: Frekvencijska tablica prosjeka ocjena uzorka upisanog 2007. godine

prosjek frekvencija relativna frekvencija
[1.0, 2.0\rangle 20 0.3571428
[2.0, 3.0\rangle 15 0.2678571
[3.0, 4.0\rangle 15 0.2678571
[4.0, 5.0] 6 0.1071429
Tablica 12: Frekvencijska tablica prosjeka ocjena uzorka upisanog 2008. godine

prosjek frekvencija relativna frekvencija
[1.0, 2.0\rangle 10 0.26315784
[2.0, 3.0\rangle 15 0.39473684
[3.0, 4.0\rangle 12 0.31578947
[4.0, 5.0] 1 0.02631579


Primijetimo, najveći postotak uzorka upisanog 2007. godine ima prosjek od 1.00 do 2.00, za razliku od uzorka upisanog 2008. godine, gdje se taj prosjek kreće od 2.00 do 3.00. Međutim, relativna frekvencija prosjeka 4.00-5.00 čak je četiri puta veća u korist upisanih 2007. godine. Provedimo \chi^{2}-test o nezavisnosti.

Neka obilježje \textbf{X} poprima vrijednosti u razredima: [1.0, 2.0\rangle, [2.0, 3.0\rangle, [3.0, 4.0\rangle, [4.0, 5.0], a obilježje \textbf{Y} neka poprima vrijednosti godine upisa: 2007., 2008. Testiramo:

H_{0}: \textbf{X} i \textbf{Y} su nezavisna obilježja,

H_{1}: \textbf{X} i \textbf{Y} su zavisna obilježja.
Tablica 13: Kontingencijska tablica

\textbf{X}\diagdown\textbf{Y} 2007. 2008. \Sigma
[1.0, 2.0\rangle 20 10 30
[2.0, 3.0\rangle 15 15 30
[3.0, 4.0\rangle 15 12 27
[4.0, 5.0] 6 1 7
\Sigma 56 38 94


Iz kontingencijske tablice i (4) računamo: H_{94}=3.935598. Broj stupnjeva slobode je kao i u prethodnom, (4-1)(2-1)=3, pa je na isti način kritično područje [7.8147, +\infty\rangle. Budući da je H_{94}=3.935598\lt 7.8147, ne odbacujemo hipotezu H_{0}.

Dakle, \chi^{2}-test potvrdio je naša očekivanja na nivou značajnosti od 5%. Odnosno, zaključujemo da prosjek ocjena na prvoj godini fakulteta na ovisi o godini upisa.

3.6Hipoteza: Prolaznost na prvoj godini studiranja ovisi o mjestu na rang listi prijamnog ispita


U prethodnim box-plotovima možemo uočiti niz zanimljivih činjenica. Promatrajući studente iz uzorka koji su prošli prvu godinu, uočavamo da nitko nije bio niže od 200. mjesta na rang listi, dok ih je čak 75% bilo rangirano iznad 100. mjesta, te 50% iznad 50. mjesta na prijamnom ispitu. Za razliku od njih, 75% studenata iz uzorka koji su pali prvu godinu bili su rangirani ispod 50. mjesta i čak 25% ispod 170. mjesta na prijamnom ispitu.

Ako studente koji su prošli prvu godinu označimo s 1, a one koji su pali s 0, iz (2) dobivamo da su obilježja prolaznost i rang na prijamnom ispitu negativno korelirana (Pearsonov koeficijent korelacije iznosi -0.4356049).

Dakle, sve upućuje na zavisnost prolaznosti i ranga na prijamnom ispitu. Provedimo \chi^{2}-test o nezavisnosti:

Neka obilježje \textbf{X} poprima vrijednosti ranga na prijamnom ispitu u razredima: 1-10, 11-20, 21-30,\ldots, 241-250, a obilježje \textbf{Y} neka poprima vrijednosti: prolaz, pad. Testiramo:

H_{0}: \textbf{X} i \textbf{Y} su nezavisna obilježja,

H_{1}: \textbf{X} i \textbf{Y} su zavisna obilježja.
Tablica 14: Kontingencijska tablica

\textbf{X}\diagdown\textbf{Y} pad prolaz \Sigma
1-10 1 4 5
11-20 1 6 7
21-30 4 5 9
31-40 2 3 5
41-50 6 3 9
51-60 3 3 6
61-70 2 0 2
71-80 1 2 3
81-90 3 1 4
91-100 2 5 7
101-110 0 2 2
111-120 3 2 5
121-130 1 0 1
131-140 1 0 1
141-150 2 0 2
151-160 4 0 4
161-170 2 0 2
171-180 2 1 3
181-190 2 0 2
191-200 1 1 2
201-210 4 0 4
211-220 4 0 4
221-230 1 0 1
231-240 2 0 2
241-250 2 0 2
\Sigma 56 38 94


Broj stupnjeva slobode je (25-1)(2-1)=24, dakle za kritično područje trebamo odrediti \chi_{0.05}^{2}(24), a tu vrijednost čitamo iz tablice. Dakle, kritično područje je [36.415, +\infty\rangle. Iz kontingencijske tablice (Tablica 14) i (4) računamo H_{94}=36.724, a budući da je 36.724\gt 36.415, odbacujemo hipotezu H_{0} u korist alternative H_{1} na nivou značajnosti od 5%.

Dakle, zaključujemo da su prolaznost na prvoj godini studiranja i mjesto na rang listi prijamnog ispita zavisna obilježja na nivou značajnosti od 5%, kao što smo i očekivali.

4Regresijska analiza

Podsjetimo se, jedna od početnih hipoteza bila je da su prosjek ocjena na prvoj godini i rang na prijamnom ispitu u linearnoj vezi. Zadatak ovog poglavlja je tu hipotezu potvrditi ili opovrgnuti. Provest ćemo vrlo česti statistički model, koji se zove linearni regresijski model.

Na temelju podataka koje smo prikupili, ovaj model provodimo za obilježja koja ćemo označiti na sljedeći način: \textbf{X} predstavlja mjesto na rang listi prijamnog ispita, dok \textbf{Y} predstavlja prosjek ocjena na prvoj godini studiranja.

4.1Metoda najmanjih kvadrata

Prikupljene podatke, (x_{1}, y_{1}), (x_{2}, y_{2}), \ldots, (x_{n}, y_{n}), prvo prikazujemo u koordinatnoj ravnini. Taj prikaz omogućuje nam da zapazimo moguću funkcijsku ovisnost između podataka.

Metoda najmanjih kvadrata unaprijed pretpostavlja linearnu funkcijsku ovisnost te pronalazi pravac y=\hat{a}x+\hat{b} koji najbolje aproksimira vezu između prikupljenih podataka. Procjene \hat{a} i \hat{b} treba odrediti tako da vrijedi:
\min_{(a, b)\in\mathbb{R}^{2}}\sum_{i=1}^{n}(y_{i}-ax_{i}-b)^{2}=\sum_{i=1}^{n}(y_{i}-\hat{a}x_{i}-\hat{b})^{2}.
Pokazuje se da ta jednadžba ima jedinstveno rješenje:
(6)
\hat{a}=\frac{S_{\textbf{}}{XY}}{S_{\textbf{}}{XX}}, \hat{b}=\bar{y}-\hat{a}\bar{x},
gdje su S_{\textbf{}}{XY}, S_{\textbf{}}{XX}, \bar{x} i \bar{y} kao u (3).

Sada kada znamo koji pravac najbolje aproksimira prikupljene podatke, pogledajmo kako izgleda na prikupljenom uzorku. Za početak, pogledajmo kako originalni podaci izgledaju u koordinatnom sustavu:


Sa slike možemo uočiti funkcijsku zavisnost ranga na prijamnom ispitu i prosjeka ocjena na prvoj godini. Metodom najmanjih kvadrata odredimo koji pravac najbolje opisuje primijećenu zavisnost. Potrebno je:
n=94, \bar{x}=99.80280264, \bar{y}=2.62235, S_{\textbf{}}{XY}=-3236.216722, S_{\textbf{}}{XX}=425137.155.
Dakle, dobivamo \hat{a}=-0.0076121712, \hat{b}=3.382066, tj. traženi pravac je
y=-0.007621712x+3.382066.
Prikažimo dobiveni pravac i grafički:


4.2Konstrukcija pouzdanih intervala za parametre linearne regresije

Metodom najmanjih kvadrata odredili smo pravac koji najbolje aproksimira vezu prikupljenih podataka o prosjeku i uspjehu na prijamnom ispitu. Međutim, mi ne želimo odrediti vezu tih 94 parova podataka, već cijele populacije. Tražimo pravac y=ax+b koji najbolje aproksimira vezu ranga na prijamnom ispitu i prosjeka ocjena na prvoj godini cijele populacije. Budući da s pomoću uzorka aproksimiramo populaciju, pravac dobiven metodom najmanjih kvadrata poslužit će nam kao dobra osnova za procjenu parametara a i b. Konstruirat ćemo tzv. pouzdane intervale, tj. s vjerojatnošću od 95\% procijeniti ćemo u kojem se intervalu nalaze vrijednosti paramatara a i b.

Formalno, (1-\alpha)\cdot 100\% pouzdani interval za a je interval [L, D] za koji vrijedi:
\mathbb{P}(L\leq a \leq D)\geq 1-\alpha, \alpha \in\langle0, 1\rangle.
Kao i do sada, uzimamo \alpha=0.05. Potpuno analogno definira se i 95\% pouzdani interval za b.

Pri konstrukciji pouzdanih intervala za a i b od iznimne su važnosti sljedeći teoremi:

Teorem 10.Za sve prirodne brojeve n vrijedi:
(7)
\frac{\hat{b}-b}{\hat{\sigma}\sqrt{\frac{1}{n}+\frac{\bar{x}}{S_{\textbf{}}{XX}}}}\sim t(n-2),
tj. navedena testna statistika ima Studentovu t-razdiobu2 s n-2 stupnja slobode.

Teorem 11.Za sve prirodne brojeve n vrijedi:
(8)
\frac{\hat{a}-a}{\hat{\sigma}\sqrt{\frac{1}{S_{\textbf{}}{XX}}}}\sim t(n-2).

Napomena 12. U prethodnim teoremima S_{\textbf{}}{XX} i \bar{x} su kao u (3), a \hat{\sigma}:=\sqrt{\frac{SSE}{n-2}}, SSE:=S_{\textbf{}}{YY}-\hat{a}^{2}S_{\textbf{}}{XX}.


Sada lako pronađemo 95\% pouzdane intervale za a i b. Na sljedećoj slici prikazana je Studentova t-distribucija.


Napomenimo da su vrijednosti t_{\alpha/2}(n-2) tabelirane i u našem slučaju je t_{0.05/2}(92)=1.951. Sada iz (7) uočavamo:
\mathbb{P}(-t_{0.05/2}(92)\leq\frac{\hat{b}-b}{\hat{\sigma}\sqrt{\frac{1}{n}+\frac{\bar{x}}{S_{\textbf{}}{XX}}}}\leq t_{0.05/2}(92))=0.95,
te iz (8)
\mathbb{P}(-t_{0.05/2}(92)\leq \frac{\hat{a}-a}{\hat{\sigma}\sqrt{\frac{1}{S_{\textbf{}}{XX}}}}\leq t_{0.05/2}(92))=0.95.
Iz tih jednadžbi sad jednostavnim manipulacijama dobivamo 95\% pouzdane intervale za a i b.

Napomena 13. Iz prikupljenih podataka dobivamo SSE=71.61195282 i \hat{\sigma}=0.882264581.


Iz prethodnih zaključivanja i vrijednosti SSE i \hat{\sigma} dobivamo da je 95\% pouzdani interval za b[3.06435966, 3.699772334] i za a[-0.010252096, -0.004972246].


4.3Konstrukcija pouzdanih intervala za očekivani prosjek prve godine studiranja s obzirom na rang na prijamnom ispitu

Prisjetimose, ono što nas je također zanimalo bilo je može li student na temelju svog uspjeha na prijamnom ispitu unaprijed znati koliki je njegov očekivani prosjek na prvoj godini studiranja, pri čemu se pad računa kao ocjena 1. Formalno, želimo procijeniti \mathbb{E}[\textbf{Y}|\textbf{X}=x_{0}].

Budući da smo u prethodnim poglavljima već pretpostavili da je veza obilježja \textbf{X} i \textbf{Y} linearna te procijenili pravac y=ax+b koji tu vezu najbolje aproksimira i pravac y=\hat{a}x+\hat{b} koji najbolje aproksimira vezu podataka iz uzorka, na taj način postupit ćemo i ovdje. Dakle, \mathbb{E}[\textbf{Y}|\textbf{X}=x_{0}]=ax_{0}+b procjenjujemo s \hat{\textbf{Y}}=\hat{a}x_{0}+\hat{b}.

Teorem 14. Za sve prirodne brojeve n vrijedi:
(9)
\sqrt{\frac{n-2}{SSE}}\cdot\frac{\hat{a}x+\hat{b}-(ax+b)}{\sqrt{\frac{1}{n}+\frac{(x-\bar{x})^{2}}{S_{\textbf{}}{XX}}}}\sim t(n-2),
gdje su SSE, S_{\textbf{}}{XX}, \bar{x} kao u napomeni 12.

Napomena 15. Prethodni teorem kaže da za prirodan broj n dana testna statistika ima Studentovu t-distribuciju s n-2 stupnja slobode. Primijetimo da smo time dobili efektivan način za računanje pouzdanih intervala za \mathbb{E}[\textbf{Y}|\textbf{X}=x_{0}].

Iz (9) slijedi:
\mathbb{P}(-t_{0.05/2}(92)\leq \sqrt{\frac{92}{SSE}}\cdot\frac{\hat{a}x_{0}+\hat{b}-(ax_{0}+b)}{\sqrt{\frac{1}{94}+\frac{(x_{0}-\bar{x})^{2}}{S_{\textbf{}}{XX}}}}\leq t_{0.05/2}(92))=0.95,
odnosno procjena 95\% pouzdanog intervala za \mathbb{E}[\textbf{Y}| \textbf{X}=x_{0}]=ax_{0}+b je:
[\hat{a}x_{0}+\hat{b}-t_{0.025}(92)\sqrt{\frac{SSE}{92}}\sqrt{\frac{1}{94}+\frac{(x_{0}-\bar{x})^{2}}{S_{\textbf{}}{XX}}},\hat{a}x_{0}+\hat{b}+ t_{0.025}(92)\sqrt{\frac{SSE}{92}}\sqrt{\frac{1}{94}+\frac{(x_{0}-\bar{x})^{2}}{S_{\textbf{}}{XX}}}].
Pogledajmo koliko to iznosi za konkretne x_{0}. Dobivene rezultate prikazujemo tablicom (Tablica 15).
Tablica 15: Očekivani prosjek prve godine studiranja na temelju ranga na prijamnom ispitu

rang na prijamnom ispitu 95\% pouzdani interval za očekivani prosjek prve godine studiranja
1-10 [3.335, 3.345]
11-20 [3.260, 3.268]
21-30 [3.184, 3.191]
31-40 [3.109, 3.115]
41-50 [3.033, 3.038]
51-60 [2.957, 2.962]
61-70 [2.882, 2.885]
71-80 [2.806, 2.809]
81-90 [2.731, 2.732]
91-100 [2.654, 2.655]
101-110 [2.578, 2.579]
111-120 [2.502, 2.504]
121-130 [2.425, 2.428]
131-140 [2.349, 2.352]
141-150 [2.272, 2.277]
151-160 [2.196, 2.201]
161-170 [2.119, 2.125]
171-180 [2.043, 2.050]
181-190 [1.966, 1.974]
191-200 [1.889, 1.898]
201-210 [1.813, 1.823]
211-220 [1.736, 1.747]
221-230 [1.659, 1.671]
231-240 [1.583, 1.596]
241-250 [1.506, 1.520]

4.4Test značajnosti linearnog regresijskog modela

Primijetimo, u slučaju a=0 dobivamo y=b=const., što nam govori da među promatranim obilježjima nema linearne ovisnosti. Dakle, naša je pretpostavka bila pogrešna. Zato ćemo provjeriti može li se dogoditi ova situacija. Formiramo sljedeće hipoteze:

H_{0}: a=0

H_{1}: a\neq 0

Testiranje ovih hipoteza zove se test značajnosti linearnog regresijskog modela. Test značajnosti provodimo uz nivo značajnosti \alpha=0.05. Budući da je procjena 95\% pouzdanog intervala za a jednaka [-0.010252096, -0.004972246], a 0\notin[-0.010252096, -0.004972246], odbacujemo H_{0} u korist H_{1} na nivou značajnosti od 0.05, tj. model je značajan.

Dakle, možemo biti 95\% sigurni da je pretpostavka o linearnoj ovisnosti dobra, tj. da su naši rezultati valjani.

5Zaključak

Rezimirajmo dobivene rezultate. Istraživanje smo započeli formiranjem sljedećih hipoteza:
\bullet prosjek ocjena prve godine studiranja ne ovisi o spolu
\bullet prosjek ocjena prve godine studiranja ne ovisi o godini upisa na fakultet
\bullet prolaznost na prvoj godini studiranja ovisi o mjestu na rang listi prijamnog ispita
\bullet prosjek ocjena na prvoj godini studiranja i rang na prijamnom ispitu u linearnoj su vezi i na temelju uspjeha na prijamnom ispitu možemo procijeniti prosjek prve godine studiranja
Da bismo ove hipoteze potvrdili ili opovrgnuli, prikupili smo potrebne podatke od 94 studenta iz populacije studenata PMF–MO koji su upisali 1. godinu studija akademske godine 2007./2008., 2008./2009. Na temelju toga, uz nivo značajnosti od 5%, dobili smo sljedeće rezultate:
\bullet pomalo neočekivano, prosjek ocjena na 1. godini studiranja ovisi o spolu
\bullet prosjek ocjena ne ovisi o godini upisa na fakultet, tj. ne postoji značajna razlika u prosjeku ocjena generacija upisanih 2007. i 2008. godine
\bullet prolaznost na 1. godini studiranja ovisi o mjestu na rang listi prijamnog ispita, takav rezultat posve je očekivan
\bullet potvrdili smo značajnost provedenog linearnog regresijskog modela, što nam dokazuje da su statistička obilježja rang na prijamnom ispitu i prosjek ocjena na 1. godini u linearnoj vezi y=ax+b, pri čemu je a\in [-0.010252096,-0,004972246] i b\in [3,06435966,3,699772334].
Možda je jedan od najzanimljivijih rezultata bilo kreiranje tablice (Tablica 15) iz koje se na temelju mjesta na rang listi može isčitati 95% pouzdani interval o prosjeku na 1. godini studiranja. Provođenjem dvaju testova (\chi^{2}–test o nezavisnosti i linearni regresijski model) dotakli smo mali dio onoga što nam zapravo statistika kao takva omogućuje. Glavni zadatak ovog članka je objasniti široj populaciji da statistika nije samo crtanje dijagrama, već da iza svake tvrdnje stoji matematički alat koji i nije uvijek tako jednostavan. Također, svaki dobiveni rezultat temelji se na malom dijelu ukupne populacije, i kao takav vrijedi tek s određenom vjerojatnošću. Dakle, ne možemo reći "prosjek ocjena ovisi o spolu", nego tek kad napomenemo da to vrijedi s 95% vjerojatnosti, dobivamo valjani zaključak. Glavni problem danas je predstavljanje statističkih zaključaka sa 100% vjerojatnošću kako se to široj populaciji predstavlja. Usprkos svemu, odabirom dobre teme i analizom kvalitetnih hipoteza mogu se dobiti vrlo zanimljivi i ponekad neočekivani rezultati.