Koraci za pokretanje bilo kojeg statističkog modela
Bez obzira koji statistički model pokrećete, morate proći iste korake. Redosled i specifičnosti vaših koraka razlikuju se zavisno od podataka i vrste modela koji koristite.
Ovi koraci se mogu odvijati u 4 faze. Sve faze, posebno one pre same primene modela obrade podataka, ključne su da bi se modeliranje dobro odvijalo. Biće mnogo, mnogo lakše, tačnije i efikasnije ako ih ne preskočite. I nema smisla pokretati model ako preskočite te faze. Ako o njima mislite kao o delu analize, proces modeliranja će biti brži, lakši i imati više smisla.
Faza 1: Definisanje i dizajn
U prvih 5 koraka cilj je jasnoća. Želite da sve bude što jasniji vama samima. Što su jasnije stvari u ovom trenutku, sve će biti lakše i teći će bez problema.
- Napišite istraživačka pitanja u teorijskom i operativnom pogledu. Mnogo puta, kada se istraživač zbuni oko prave statističke metode za upotrebu, problem je što nije jasno definisali svoja istraživačka pitanja. Ima generalnu predstavu o problemu koji želi da istraži, ali mu to u osnovi nije potpuno jasno. Istraživač mora biti veoma konkretan. Svako istraživačko pitanje mora zapisati u teorijskom i u operativnom smislu.
- Dizajnirajte studiju i definišite dizajn. Zavisno od toga da li prikupljate svoje podatke ili radite sekundarnu analizu podataka, potrebna vam je jasna ideja dizajna. Pitanja dizajna odnose se na uzorkovanje i izbor vrste istraživanja. Neki primeri: jednostavni i ukršteni faktori, potencijalne konfuzije i kontrolne varijable, longitudinalna ili ponovljena merenja na jedinici ispitivanja, jednostavan slučajni uzorak, stratifikacija ili grupiranje i td.
- Izaberite promenljive koje odgovaraju istraživačkim pitanjima i odredite njihov nivo merenja. Svaki model mora uzeti u obzir i dizajn i nivo merenja promenljivih. Zapamtite, nivo merenja je da li je promenljiva nominalna, ordinalna ili numerička. Ali tu ima nijansi za dobar izbor analize. Na primer, morate znati da li su promenljive diskretne (brojanje) kontinuirane, proporcije, vreme do događaja itd. Apsolutno je važno da znate nivo merenja svake zavisne i nezavisne varijable (prediktora), jer oni određuju kakvu vrstu informacija možete dobiti od vašeg istraživanja, kao i izbor porodice modela koji su odgovarajući.
- Napišite plan analize. Napišite svoje najbolje pretpostavke za statističku metodu koja će odgovoriti na istraživačko pitanje, uzimajući u obzir dizajn i vrstu podataka. U ovom trenutku to ne mora biti konačan izbor, samo treba biti razumna aproksimacija.
- Izračunajte procene veličine uzorka. Ovo je tačka u kojoj treba da izračunate veličine uzorka, pre nego što prikupite podatke i nakon što imate plan analize. Morate znati koje ćete statističke testove koristiti kao osnovu za procene veličine uzoraka. Zaista nema smisla raditi post-hoc analize snage, to vam ne govori ništa.
Faza 2: Pripremite se i istražite
- Prikupljajte, šifrujte, unesite i očistite podatke. Delovi koji su najneposredniji za istraživanje su unos i kontrola podataka i stvaraje novih varijabli. Za unos podataka, plan analize koji ste napisali određuje kako da postavite skup podataka. Na primer, ako radite linearni mešoviti model (mix model), podatke ćete unositi u dugom formatu.
- Kreirajte nove varijabe. Ovaj korak može trajati duže nego što mislite – može biti dugotrajan. Prilično je retko da svaka varijabla koja vam je potrebna za analizu ima tačan i ispravan oblik. Napravite indekse, kategorijalne varijable, obrniti kod, sve što trebate učiniti da dobijete varijable u njihovom konačnom obliku, uključujući i probne analize gde je potrebno.
- Uradite univarijatni i bivarijatni opis podataka. Morate znati sa čime radite. Proverite raspodelu varijabli koje nameravate da koristite, kao i bivarijatne odnose među svim varijablama koje će ući u model obrade podataka. Ovde možete pronaći nešto što vas vodi na korak 7 ili čak korak 4. Možda ćete morati da izvršite neku manipulaciju podacima ili da rešite nedostajuće podatke. Češće će vas upozoravati na pitanja koja će postati jasna u kasnijim koracima. Što ranije budete svesni problema, bolje ćete se moći nositi sa njima. Ali čak i ako problem ne otkrijete do kraja, neće vas baciti na problem ako dobro razumete svoje varijable.
- Pokrenite početni model obrade podataka. Nakon što znate sa čime radite, pokrenite model naveden u vašem planu analize. Po svemu sudeći, ovo neće biti konačni model. Ali to bi trebalo biti u pravoj porodici modela u odnosu na tipove varijabli, dizajn studije i na istraživačka pitanja. Morate da imate ovaj model da biste imali šta da istražite i usavršite.
Faza 3: Doradite model
- Pročistite prediktore i proverite odgovarajući model. Ako radite zaista istraživačku analizu ili ako je poanta modela čisto predviđanje, možete koristiti nekakav postupni (iterativni) pristup da biste odredili najbolje prediktore. Ako će analiza testirati hipoteze ili odgovoriti na teorijska pitanja istraživanja, u ovom delu će se više govoriti o preciziranju. Ispitajte i po mogućnosti odbacite interakcije i kvadratne ili druge vrste nelinearnih veza. Uklonite nevažne kontrolne varijable. Uradite hijerarhijsko modeliranje da biste videli efekte prediktora koji se dodaju sami ili u blokovima. Ispitajte najbolju specifikaciju slučajnih efekata.
- Hipoteze istraživanja. Pošto ste već istražili pravu porodicu modela iz dela 1, detaljno istražili svoje varijable u koraku 8 i tačno odredili model u koraku 10, ovde ne bi trebalo da imate velika iznenađenja. Umjesto toga, ovaj korak će se odnositi na potvrđivanje, proveru i doradu. Ali ono što ovde naučite može vas vratiti na bilo koji od tih koraka za dalje usavršavanje.
- Proverite i rešite probleme sa podacima. Koraci 11 i 12 često se rade zajedno, ili možda napred-nazad. Ovde proverite da li postoje problemi sa podacima koji mogu uticati na model, ali nisu tačne pretpostavke. Pitanja podataka odnose se na podatke, a ne na model, ali se javljaju u kontekstu modela. Ovi problemi uključuju: mali uzorci , multikolinearnost, odlični i uticajni podaci, nedostajući podaci. Ponovo se problemi s podacima ne pojavljuju dok ne odaberete varijable i ne stavite ih u model.
Faza 4: odgovor na istraživačko pitanje
- Tumačenje rezultata. Sada, konačno, radite tumačenje rezultata. Možda nećete primetiti probleme sa podacima ili pogrešno definisane prediktore dok ne protumačite rezultate analize. Tada ćete pronaći nešto poput super visoke standardne greške ili koeficijenta sa znakom suprotnim od očekivanog, što vas vraća na prethodne korake. Ali sada kada razumete šta ste pronašli, možete to da rešavate.
- Napišite rezultate. Ovo bi mogao biti najteži i najvažniji korak od svih. To uključuje kreiranje grafikona i tabela koje su spremne za vašeg čitaoca (a ne samo one koje ste kreirali ranije kako bi vam pomoglo da shvati šta se događa u podacima). Takođe uključuje opisivanje rezultata, bilo da se radi o članku u časopisu, tezi ili izveštaju za projekat ili konferencijski članak ili poster. Ovaj korak može trajati nedeljama, čak i ako se tokom pisanja ne pojavi ništa što bi vas nateralo da se vratite unapred i precizirate nešto ranije u analizi – na primer, shvatajući da vam je potrebno više opisnih statistika da biste ispunili tabelu.
Autor: Karen Grace-Martin
Preuzeto i adaptirano sa https://www.theanalysisfactor.com/