Carte de Statistica
January 17, 2017 | Author: mad_max_alfa | Category: N/A
Short Description
Download Carte de Statistica...
Description
Carte de Statistică Reţete încercate
Cuprins Cuvînt înainte 1. Introducere. a. Ce este statistica? b. Cum cunoaşte statistica? c. Cauzalitate şi statistica. d. Foarte scurt istoric al statisticii. 2. Ingredientele statisticii. Tipuri de date. a. Date nominale b. Date ordinale c. Date intervalice d. Date raţionale 3. Culegerea datelor statistice. Sondajul de opinie. a. Statistici de lot si statistici de sondaj. Generalizarea statistică şi limitele ei. b. Cum facem un sondaj de opinie simplu şi corect? Eşantionare, chestionar, aplicare. 4. Aperitive. Primii paşi în descrierea datelor statistice a. Imagini de ansamblu asupra datelor. i. Frecvenţe simple. ii. Reprezentări grafice b. Indicatori agregaţi i. Tendinţa centrală ii. Distribuţia datelor 1
5. Supe, ciorbe şi teste statistice simple. a. Distribuţia normală b. Teste statistice t pentru medii şi Z pentru proporţii. c. Calculul erorii unui sondaj si interpretarea ei. 6. Feluri principale şi garnituri sau relaţia dintre mai multe variabile a. Grafice pentru mai multe variabile. b. Tabele de relaţionare. c. Corelaţia simplă şi parţială. Coeficienţii de corelaţie. d. Regresia liniară simplă şi multiplă. 7. Pentru vegetarieni. Analiza datelor nenumerice. a. Testul Chi2 b. Testele Wilcoxon, Mann-Whitney şi Kruskal Wallis c. Regresia categorială. 8. Analiza seriilor de timp a. Ce e o serie de timp? Identificarea de patternuri în serii de timp b. Trend şi sezonalitate c. Regresii cu serii de timp d. Analiza de supravieţuire 9. Deserturi.
Cuvînt înainte
La primul curs de statistică pe care l-am ţinut la facultatea de ştiinţe politice de la Universitatea de Vest din Timişoara o studentă mi-a spus pe un ton cît se poate de tranşant: habar nu are de matematică, nici nu vrea să înveţe aşa ceva şi oricum a venit la facultatea de ştiinţe politice tocmai ca să scape de matematică şi alte asemenea ştiinţe exacte. Sunt convins 2
că această experienţă a mea e departe de a fi unică. Am încercat pe parcursul celor două semestre să o conving pe ea şi pe colegii ei, de obicei de aceiaşi părere cu ea, de utilitatea statisticii şi de simplitatea ei. Sunt convins că nu am reuşit sau nu întru totul, dar ştiu de asemenea că am reuşit să îi familiarizez cu conceptele de bază ale statisticii şi modul cum acestea funcţionează în logica cercetării sociale. Cartea aceasta se adresează tocmai celor ce se tem de calculul matematic sau sunt doar neexersaţi in el, precum şi celor ce fac primii paşi în lucrul cu metode ştiinţifice cantitative in cunoaşterea socială. Cartea mea vrea să fie uşor de citit, dar în primul rînd uşor de învăţat şi de aplicat. Voi prezenta în paginile ce urmează principalele metode folosite în statistică, metode utilizate în cercetările din ştiinţele sociale şi nu numai; reţetarul de bază pentru lucrările de cercetare din sociologie, psihologie, ştiinţe politice, economice dar şi medicină şi alte ştiinţe ce se bazează pe cunoaşterea empirică a realităţii. Voi insista pe interpretarea rezultatelor precum şi pe ipotezele metodelor statistice, elemente ale cunoaşterii statistice ce stau la interfaţa dintre teorie si metodă şi definesc în cele din urmă limitele cunoaşterii prin statistică. În opinia mea, renumele uneori negativ pe care îl are statistica în mass-media romanească, şi mă refer aici la scepticismul foarte răspîndit faţă de cercetările bazate pe sondaje de opinie, se datorează pe lîngă existenţa reală a unor cercetări cel puţin dubioase, şi unei neînţelegeri ale limitelor cunoaşterii statistice. Desigur cunoaşterea statistică este prin felul ei imperfectă, inexactă, probabilă şi nu certă, dar puterea ei rezidă tocmai în posibilitatea de a delimita cu siguranţă uneori destul de mare intervalul în care se află realitatea. Să fiu mai explicit, statistica nu va da niciodată răspunsuri simple şi exacte. Dar astfel de răspunsuri, în măsura în care există în cunoaşterea lumii reale, nu ne sunt utile. Răspunsurile care ne sunt utile fie nu sunt simple, fie nu sunt exacte, fie nu sunt nici simple, nici exacte. Cu toate acestea, cunoaşterea statistică este cunoaştere, adevărul statistic chiar dacă nu este absolut este un adevăr pragmatic atît timp cît îi înţelegem limitele. Mai există un motiv pentru care scriu această carte. Căutarea mea a unui manual de statistică introductiv publicat în limba romană a fost pînă acum încununată de eşec. Deşi există multe manuale de acest tip în spaţiul anglofon şi nu numai, la noi pînă în prezent manualele de statistică bune au ţinut să se prezinte la un nivel ştiinţific prea ridicat pentru începătorii fără interes şi aplecare faţă de cele matematice. Poate şi de aceea statistica nu a devenit ca în alte părţi, un bun comun a celor ce cercetează lumea politică, socială sau economică şi putem 3
întîlni atît de des prostii monumentale în presa romanească atunci cînd aşa-zişi analişti se apropie de datele unor sondaje de opinie (e drept, nu numai atunci). Voi încerca, de fapt, să exemplific pe parcursul cărţii cîteva din erorile cele mai uzuale ale comentatorilor politici dar şi ale politicienilor din ţara noastră. Uneori înclin să cred că o mai bună înţelegere a felului cum cunoaşte statistica şi a cum trebuie interpretate sondajele de opinie ar fi putut chiar salva partide de la dispariţie. Nu voi merge prea departe cu ideea de a produce o carte de reţete de statistică, totuşi ea este într-un fel justificată. Toate metodele din carte sunt într-adevăr încercate, şi vor să fie exemple de metode ce se pot aplica cu succes în cercetare. De asemenea toate interpretările pot fi utilizate ca exemple de interpretare. Voi atrage de asemenea atenţia asupra unor erori ce apar adesea, voi atenţiona faţă de prea mult scepticism în egală măsură ca şi faţă de un optimism exagerat. Deci condimentaţi cu măsură şi, precum cei mai buni bucătari, aplicaţi reţetele mele cu înţelegere, în spiritul şi nu numai în litera lor.
4
Capitolul 1. Introducere. Să începem uşor, cu începutul. În acest capitol aş vrea să definesc conceptul de statistică şi felul cum poate statistica cunoaşte lumea. Voi vorbi despre raţionamentul statistic, despre eroare şi greşeală în statistică, precum şi despre cauzalitate şi statistică.
a. Ce este statistica? Statistica se defineşte de obicei ca un subdomeniu al matematicii dedicat culegerii, analizării, interpretării şi prezentării datelor. Definiţia aceasta mi se pare însă cît se poate de nesatisfăcătoare pentru că, pe de o parte nu spune nimic despre felul cum acţionează statistica lăsînd prin urmare orice metodă ca fiind acceptabilă, şi mai apoi foloseşte un concept mult prea general si ambiguu, acela de “dată”. În acest concept este probabil ascuns chiar ceea ce eu consider a fi genul proxim în cadrul căruia ar trebui definită statistica. Anume faptul că ea este o metodă de cunoaştere. Statistica este o metodă de cunoaştere a unor obiecte sau fenomene bazată pe interpretarea rezultatelor de măsurare. Mie definiţia aceasta îmi place mai mult, deşi probabil sună încă destul de criptic. Anume, mută ambiguitatea de la conceptul de “dată” la felul cum se obţine aceasta, adică prin măsurarea unor obiecte sau fenomene. Ei bine, eu înclin să cred că măsurarea în cauză se poate face chiar cu orice aparat de măsură atît timp cît acesta este de încredere, adică nu face erori sistematice. Totuşi, nişte exemple ar fi utile aici, nu-i aşa? Deci, aparate de măsură sunt desigur cîntarul şi metrul croitorului sau ale constructorului, ca şi şublerul sau micrometrul, dar pînă la urmă orice funcţie care face univoc legătura dintre un obiect sau fenomen şi o valoare fie ea numerică sau nu, este o măsurare. Sper că nu am speriat încă pe nimeni folosind termenul de funcţie în sens matematic. O funcţie este o relaţie între două mulţimi, în cazul nostru o mulţime de obiecte sau fenomene de acelaşi tip pe care dorim să o cunoaştem mai bine şi o mulţime de valori statistice pe care le putem analiza. Punem de fapt în relaţie ceva ce nu putem folosi nemijlocit în calculele noastre cu ceva ce putem folosi. Măsurăm de exemplu greutatea unor cîini, poate pentru a analiza efectul unor alimentaţii specifice. Folosim un cîntar, desigur, dar de fapt definim prin aceasta o funcţie pe domeniul cîinilor studiaţi luînd valori în domeniul numerelor reale. Şi de ce facem asta? Pentru că dorim să interpretăm, să calculăm, să comparăm şi, în fine, să prezentăm cît mai simplu şi 5
coerent rezultatele cercetării noastre. Şi nu ştim să calculăm cu cîini, însă ştim să facem asta cu numere. Această problemă este mereu prezentă în cunoaştere. Nu putem “calcula” cu obiectele reale, fenomene aşa cum sunt ele. Aşa cum nu putem face calcule cu cîini, nu putem face nici cu opiniile politice şi nici cu comportamentele economice ale unor oameni adevăraţi. Trebuie să le transformăm în lucruri cu care putem calcula, în valori numerice sau nenumerice, oricum valori care sunt simple şi în primul rînd complet definite prin ele însele. Să mă explic: este practic imposibil să definesc complet un obiect sau un fenomen real. Orice definiţie a cîinelui meu ar fi incompletă, ar omite un fir de blană sau chiar o caracteristică comportamentală pe care poate încă nu o cunosc. Iar de ar fi, prin absurd, posibilă o definiţie completă a lui Garu, aşa îl cheamă (ştiu, e aiurea, dar e o poveste mai lungă), ar fi de o complexitate ce ar face să fie absolut inutilă pentru orice interpretare sau analiză. Pe de altă parte rezultatul măsurării greutăţii lui este 30kg ceea ce este desigur un model cît se poate de inexact pentru un cîine dar este o valoare utilă şi calculabilă atît timp cît ştim exact ce înseamnă şi nu îi conferim o mai mare importanţă decît are, anume greutatea lui Garu. Completînd această măsurătoare cu altele, precum vîrsta, rasa şi genul, obţinem un model, o definiţie incompletă şi utilă, atît incompletitudinea cît şi utilitatea ei rezultînd pînă la urmă din simplitatea ei. La fel se întîmplă şi în cazul opiniilor politice ale unei persoane, de exemplu ale colegului meu Ionică. Opiniile lui Ionică sunt complexe, anumite teme îl interesează şi este informat asupra lor avînd opinii nuanţate. Alte teme nu îl interesează şi nu are opinii asupra lor sau are opinii superficiale formate rapid. Mai mult, opiniile lui Ionică, precum a oricărei persoane inteligente sunt schimbătoare, reacţionează la schimbările din mediu, la noi informaţii şi noi evenimente. Nu avem cum efectua calcule cu opiniile lui Ionică, putem însă să măsurăm elemente ale acestor opinii cu un chestionar la un anumit moment dat. De exemplu, îl putem întreba ce părere are despre un anumit politician şi îi putem oferi 5 variante de răspuns. Avem atunci o măsurătoare, care este în acelaşi timp o simplificare şi o datare. Acest rezultat de măsurare va fi legat de momentul la care am pus întrebarea (şi va rămîne neschimbat, deşi opinia lui se poate schimba ulterior) şi va încerca să includă opinia lui Ionică într-o schemă simplă care nu îl poate descrie evident întru totul dar care îl poate face comparabil cu alţi oameni care au răspuns la aceiaşi întrebare. Şi aici este chiar principala problemă a statisticii. Statistica nu calculează cu cîini, oameni sau partide. Statistica calculează cu rezultatele unor măsurători ale acestora. Cunoaşterea în 6
general nu poate opera cu obiectele ei, ci cu modele ale acestor obiecte. Statistica construieşte astfel de modele prin măsurare. Cum măsoară de obicei statistica? Ei bine, oricum. Sau mai exact, depinde de temă. Statistica medicală măsoară cu aparate sofisticate dar a căror exactitate ar trebui să nu depindă de cel ce efectuează cercetarea, statistica socială sau politică este însă de obicei nevoită să-şi dezvolte propriile aparate de măsură, chestionarele. Vom reveni în capitolul al treilea la felul cum se scriu, şi cum nu se scriu chestionare. Pînă atunci să continuăm însă să discutăm cum metoda de măsurare cu chestionarul influenţează chiar conceptual cunoaşterea statistică. Un aparat de măsură trebuie să aibă două principale caracteristici pentru a fi util. Trebuie să dea un rezultat şi unul singur, şi mai mult decît atît, la repetarea măsurării să producă acelaşi rezultat sau unul foarte apropiat. Presupunînd că reuşim să-l urcăm pe Garu (cîinele meu, vă aduceţi aminte) pe un cîntar, vom citi un rezultat oarecare. Pentru cine a uitat deja, era o valoare apropiată de 30kg. Daca reuşim acest efort de persuasiune şi îndemînare în repetate rînduri într-un scurt interval de timp, utilizînd mai multe cîntare, acestea vor fi bune în măsura în care ne vor da aproximativ acelaşi rezultat. Pe de altă parte însă, greutatea lui Garu nu se va schimba de pe urma faptului ca a fost măsurată. Chiar daca Garu ar fi priceput ceva din cele ce i s-au întîmplat tot nu şi-ar fi schimbat greutatea ca urmare a acestui fapt. Acest mod de a testa aparatele de măsură pentru coerenţa lor nu ne este însă accesibil în cazul chestionarului. Daca dorim să repetăm chestionarea lui Ionică suficient de curînd pentru ca opinia lui să nu se fi schimbat prea mult, el îşi va aduce desigur aminte de chestionar şi va răspunde probabil la fel măcar pentru a se arăta consecvent, caracteristică pe care societatea noastră o valorizează în sine. Există chestionare special elaborate, în special în cercetări de psihologie care rezolvă această problemă într-o oarecare măsură prin punerea a foarte multe întrebări şi repetarea unora dintre ele în forme mai mult sau mai puţin modificate. Una peste alta problema rămîne însă deschisă pentru majoritatea cercetărilor. Chestionarele nu se pot de obicei calibra atît de bine ca şi cîntarele. Soluţia la această dilemă nu este decît recunoaşterea unei alte limitări a cunoaşterii prin statistică socială. O cercetare care foloseşte o metodă de măsurare nu poate fi comparată cu o altă cercetare ce foloseşte altă metodă de măsurare. “Cîntarele” cercetării sociale nu sunt comparabile. Ca atare măsurarea depinde nu numai de obiectul măsurat ci şi de aparatul de măsură. În cercetarea statistică socială rezultatul este dependent şi specific aparatului şi metodei de măsurare. Deci, metodologia este parte din rezultat. Putem spune că rezultatul măsurării are sens, este interpretabil, există numai împreună cu metoda de măsurare. Revenind la conceptul de model pe care l-am introdus mai sus, nu numai că statistica nu 7
calculează cu cîini, sau oameni, sau fenomene, ea nu calculează de fapt nici cu greutatea, opinia sau comportamentul ci cu rezultatul măsurătorii acestora aşa cum ne-o permit aparatele de măsură. Mai simplu, dacă întrebăm un elev cît de des ridică mîna în clasă, nu vom prelucra statistic elevul (bineînţeles, doamne fereşte), dar nici măcar gradul lui de participare în clasă (ceea ce unii ar putea spera), ci o măsură de moment a opiniei lui faţă de gradul lui de participare în clasă. Şi această măsură va depinde de felul cum e construit chestionarul, de întrebările anterioare, dar şi de evenimentele din ziua în care am efectuat chestionarea sau din zilele precedente. Aceasta pentru că măsurarea se face într-un moment anume şi cu un aparat anume. Mai mult, măsurătoarea nu se aplică participării în clasă ci opiniei elevului asupra acestei participări, opinie care depinde de părerea pe care o are despre şcoala lui, învăţătorul lui, despre sine însuşi respectiv despre dezirabilitatea de a fi activ în clasă. Toate acestea nu fac măsurarea inutilă sau cunoaşterea obţinută de pe urma ei mai puţin sigură, pur şi simplu sunt elemente ce trebuie luate în seamă. Dacă aparatul de măsură este parte din rezultatul măsurat, de aici decurge imediat faptul că nu este posibilă vreo măsurare fără o teorie ce stă la baza ei. Aparatul de măsură a fost desigur dezvoltat pe baza unei teorii, fie că a fost un cîntar fie că a fost un chestionar. Atît timp cît rezultatul măsurării nu depinde de metoda de măsurare am putea la o adică să neglijăm teoria care a produs aparatul, aceasta însă nu e nici o dată cazul în cercetarea statistică. Chiar dacă măsurarea a avut loc cu cîntarul, ideea de a măsura cu cîntarul a avut la bază o decizie şi această decizie o teorie legată de rezultatele dorite de pe urma cercetării. Cu atît mai mult în cazul în care aparatul de măsură este parte integrantă din rezultatul măsurii. În unele nefericite situaţii e posibil ca însuşi cel ce dezvoltă chestionarul şi proiectează cercetarea să nu fie pe deplin conştient de teoriile ce stau la baza metodelor aplicate de el. Ei bine, chiar şi atunci acestea influenţează cercetarea precum o pot influenţa şi prejudecăţile celor ce o proiectează. Acestea sunt încă alte limite ale cunoaşterii pe care un bun interpret al calculelor statistice trebuie sa le aibe în faţa ochilor. Nu este posibilă măsurare fără teorie şi ca atare teoria ce stă la baza unei cercetări trebuie cît mai exact enunţată şi cît mai consecvent aplicată. Să ne întoarcem deci la definiţia noastră: spuneam că statistica se ocupă cu interpretarea rezultatelor unor măsurători. Am discutat puţin despre măsurători în sine, să vedem acum ce înţelegem prin interpretări şi care anume sunt metodele de interpretare pe care le numim statistice. Rezultatele de măsurare ne dau de obicei o multitudine de caracteristici, date numerice sau nenumerice, ale unor obiecte, persoane sau fenomene. Acestea trebuie 8
prezentate într-un fel pentru a fi de vreun folos. Chiar şi o dată prezentate, de exemplu sub forma unei liste cu greutatea a 1000 de cîini, ele cel mai adesea nu permit o utilizare, sau o înţelegere a ansamblului problematicii. Ce vrea şi ce poate de fapt face statistica cu grămada de date pe care le culege prin măsurători?
b. Cum cunoaşte statistica? Există două probleme mari ale statisticii, descrierea unor date măsurate si extragerea din date măsurate a unor concluzii ce se extind şi asupra altor date, care nu au fost măsurate din motive ce ţin cel mai adesea de economie de timp şi bani. Prima dintre acestea este problema statisticii descriptive, cea de a doua cea a statisticii inferenţiale. Statisticile descriptive se multumesc să spună ceva despre obiectele, indivizii sau fenomenele care au fost măsurate. Într-un fel şi statistica descriptivă generalizează, vrînd să spună ceva despre obiecte pe care le cunoaşte doar prin rezultatele unor măsurători. Totuşi, de obicei nu o considerăm ca fiind generalizatoare. Primii paşi în orice cercetare statistică sînt descriptivi. Încercăm să prezentăm cît mai clar şi concis şi, pe cît posibil, fără a pierde din acurateţe datele măsurate. Reprezentările grafice şi tabelare, precum şi valorile agregate pe care le vom descrie în capitolul al patrulea al acestei cărţi sunt metodele cele mai obişnuite ale statisticii descriptive. Ele nu prelucrează prea mult datele însă caută să ofere imagini mai uşor inteligibile decît o listă lungă de valori. Imaginile grafice pot fi în acelaşi timp şi indicatori buni pentru a recunoaşte trenduri, adică pentru a decide ce calcule se pot face în continuare, cu ce statistici inferenţiale să se continue analiza datelor. Valorile agregate calculate în contextul statisticilor descriptive au un grad de prelucrare puţin mai avansat. De obicei se includ aici formule de calcul ce încearcă să găsească o tendinţa centrală sau medie a datelor şi formule ce încearcă să sintetizeze în ce măsură datele sunt dispersate în jurul acestei tendinţe centrale. Desigur nu întotdeuna aceste valori sunt interesante şi nu întotdeauna merită calculate. Sînt însă cazuri în care ele ne dau o imagine bună despre un fenomen. Să luăm calculul mediei, de exemplu. Media greutăţii unor cîini de aceiaşi vîrstă, gen şi rasă poate reprezenta o bună bază de comparaţie între rase sau genuri sau vîrste. Ne poate deci spune ceva atît timp cît este utilizată ceteris paribus. Conceptul de ceteris paribus înseamnă, “păstrînd toate celelalte caracteristici egale” şi adesea nu este uşor 9
de pus în practică. Totuşi este esenţial atunci cînd vrem să efectuăm comparaţii şi să determinăm legături dintre caracteristici, cum ar fi, de exemplu greutatea şi genul cîinilor. Desigur media greutăţii tutoror cîinilor de la o expoziţie chinologică poate fi în ansamblu prea puţin relevantă. Poate însemna totuşi ceva pentru cei care trebuie sa facă curăţenie a doua zi! De aici, încă o concluzie importantă: de tema de cercetare depinde metoda cea mai adecvata şi nu de repertoarul de metode. Nu stiu de unde provine zicala “daca singura scula pe care o ai este un ciocan totul începe să semene a cui” dar în cazul statisticii sociale se confirmă din păcate foarte des. Dacă tot ce ştii e să calculezi medii, o să calculezi medii indiferent ce temă de cercetare şi ce date ai! Cum şi cît de mult sunt distribuite datele în jurul tendinţei centrale este o altă temă esenţială în statistica descriptivă. Aţi auzit cu toţii butada cu individul care stă cu un picior într-un lighean cu apă rece ca gheaţa şi cu unul într-un lighean cu apă clocotită şi zice că în medie îi este bine. Există multe feluri de a calcula cît de distribuite sunt datele. În exemplul dat probabil ar fi de ajuns să calculăm diferenţa de temperatură dintre cele două lighene, în marea majoritate a cazurilor avem însă de a face cu un fel de miriapod care are fiecare din mia lui de picioare în ligheane cu ape de temperaturi diferite! Statisticile inferenţiale sau inductive sunt tehnici complexe, bazate cel mai adesea pe teorii matematice despre cum sunt datele şi au ca principal scop testarea unor ipoteze despre populaţii de individizi sau obiecte. Inferenţa statistică este de fapt formarea unor păreri justificate despre o întreagă populaţie bazîndu-ne pe măsurarea unei părţi a acesteia. Exemplul care ne este cel mai familiar este cel al sondajului de opinie politic. Institute de sondare a opiniei publice pun întrebări unui eşantion de vreo mie de persoane şi vor să ne convingă pe noi, şi binenînţeles şi pe nişte clienţi plătitori de asemenea, cum că pot spune ceva despre opinia a peste 21 de milioane de persoane. La baza acestui tupeu se află inferenţa statistică adică posibilitatea de a generaliza statistic de la măsurarea unui eşantion la descrierea unei întregi populaţii. Există teorii matematice care justifică aceasta. Şi dacă cercetarea e făcută cît mai aproape de presupunerile acelor teorii atunci rezultatele pot fi foarte aproape de realitate. Bineînţeles şi în acest caz pentru interpretarea lor trebuie sa ne punem cît mai clar întrebările: ce am măsurat, pe cine am măsurat şi cu ce acurateţe. Principiul fundamental al statisticii este conţinut într-o teoremă matematică numită adesea şi “teorema fundamentală a statisticii”. Ea ne asigură de faptul că rezultatele măsurătorilor ce se 10
fac pe un eşantion se pot, în anumite condiţii generaliza la nivelul întregii populaţii. Vom reveni în cel de-al treilea capitol al cărţii la această teoremă fără însă a face o prezentare a ei pe placul matematicienilor. O înţelegere a consecinţelor acestei teoreme pentru întreaga metodă statistică este însă necesară pentru a evalua la adevărata lor importanţă mai micile sau mai marile devieri de la idealul matematic pe care le întîlnim vrînd nevrînd în cercetările empirice. Înţelegerea fundamentelor matematice ale statisticii ne vor permite apoi să înţelegem de ce este necesară o alegere foarte bine gîndită a persoanelor pe care le intervievăm pe parcursul unui sondaj de opinie şi de asemenea de ce este necesară o construcţie bună a chestionarului pe care dorim să-l aplicăm. Testarea statistică înbogăţeşte cunoaşterea într-un mod foarte apropiat principiului respingerii ipotezelor. Pe cît de scurtă este, această propoziţie necesită o explicaţie destul de detaliată. La baza ei se află concepţia despre cunoaştere ştiinţifică a lui Karl Popper (). În logica raţionalismului critic, cum şi-a numit Popper însuşi teoria, principiul cunoaşterii ştiinţifice sar putea exprima simplu în felul următor: cunoaşterea umană nu se bazează pe certitudini şi demostraţii ale unor adevăruri; ea nu progresează pe baza coroborărilor ipotezelor ci pe baza contraexemplelor. Cunoaşterea ştiinţifică dezvoltă ipoteze. Acestea sînt acceptate dacă nu se pot respinge. Dar ele nu sînt prin aceasta propriu-zis “adevărate”. Doar că ele încă nu au putut fi respinse. Deci regula cunoaşterii nu este demonstraţia ci respingerea. Nu putem de obicei ştii dacă ceva este adevărat, putem însă recunoaşte cu oarecare probabilitate dacă ceva este fals. O teorie este ştiinţifică în măsura în care se poate imagina un experiment practic ce are puterea să o contrazică. Dacă acest experiment nu reuşeşte respingerea teoriei, aceasta este pentru moment acceptată. Ea nu este “adevărată” ci acceptabilă conjunctural atît timp cît nu a fost respinsă. Ştiinţa are deci ca şi scop construirea şi punerea în practică a unor experimente care încearcă să respingă teorii, sau mai exact ipoteze. În statistică ca şi în teoria Popperiană a raţionalismului critic, spre deosebire de multe domenii ale matematicii, prin termenul ipoteză înţelegem o propoziţie care se supune analizei. În logica clasică o ipoteză este o propoziţie din care decurge o concluzie. Acolo nu se studiază, de regulă, valoarea de adevăr a ipotezei, ci felul cum decurge din ea o concluzie. În statistică însă, tocmai ipoteza este presupunerea supusă testării.
11
O ipoteză o dată respinsă duce la o nouă interpretare a realităţii şi ca atare la noi ipoteze. Există aici o asimetrie între verificarea şi respingerea teoriilor care este esenţială şi pentru felul cum cunoaşte statistica. Statistica foloseşte principiul contraexemplului într-un sens probabilist. Să explic. Statistica poate măsura o valoare, de exemplu media greutăţii cîinilor de la o expoziţie chinologică şi o poate compara cu o valoare teoretică ipotetică, de exemplu o ipotetică medie a greutăţii tuturor cîinilor din lume. Pe baza acestor valori, şi a unor foarte importante presupuneri despre cum sunt în general distribuite datele şi cum au fost ele măsurate practic, statistica poate calcula care este şansa ca ipoteza să fie corectă în lumina datelor măsurate. Statistica va pune deci întrebarea în felul următor. Fie următoarea ipoteză: media greutăţii tuturor cîinilor din lume este de 50kg. Daca media greutăţii cîinilor din expoziţie este de 20kg poate fi oare media greutăţii tuturor cîinilor din lume fi 50kg? Dacă această şansă este foarte, foarte mică există un bun motiv de a respinge ipoteza. Vom spune atunci că, dacă cîinii din expoziţie reprezintă un bun eşantion al cîinilor din întreaga lume, iar printre aceştia greutatea este distribuita normal, ipoteza cum că media de greutate a cîinilor din întreaga lume este de 50kg este aproape sigur greşită. Statistica nu ne spune cît ar fi adevărata valoare a greutăţii medii a cîinilor din lume, ne poate însă spune cît nu este şi prin consecinţă ne poate da o imagine despre cam cît ar putea fi aceasta. Deci statistica lucrează oarecum după principiul popperian. Nu poate demonstra, poate însă respinge ipoteze. O bună cercetare statistică, ca şi o cercetare ştiinţifică în sensul lui Popper este o cercetare care construieşte ipoteze ce pot fi respinse şi experimente care au puterea de a respinge aceste ipoteze. Orice cercetare statistică bine construită porneşte de la o serie de ipoteze mai mult sau mai puţin explicite pe care le supune testării statistice. Evident, cel mai bine este atunci cînd aceste ipoteze sunt explicite şi ştiinţifice, adică refutabile. Deorece însă, aşa cum am văzut deja, nu este posibilă măsurare fără a accepta în prealabil anumite teorii, întotdeuna vor exista şi presupoziţii teoretice care nu se supun testării. Acestea reprezintă cadrul teoretic al cercetării şi tot ce putem face este să le conştientizăm şi să ni le asumăm căci ele determină ce şi cum cunoaştem. Însăşi acceptarea metodei statistice ca şi cale de cunoaştere este o astfel de premisă teoretică, nu neapărat acceptată de către toată lumea.
12
c. Cauzalitate şi statistica. O mare parte din cercetarea statistică încearcă să pună în relaţie mai multe rezultate de măsurare care reprezintă caracteristici diferite ale unor individizi, obiecte sau fenomene. Astfel, ca să revenim la cîinii noştrii, un cercetător ingenios poate măsura greutatea şi genul cîinilor şi conchide de exemplu, cum că, păstrîndu-ne în cadrul oricărei rase şi grupe de vîrstă, pe măsură ce un cîine are greutate mai mare el are şanse mai mari de a fi mascul. Un astfel de raţionament este statistic absolut corect şi ne arată cît se poate de clar faptul că conceptul de cauzalitate este un concept teoretic şi nu unul statistic. Una din greşelile de interpretare cel mai curent întîlnite în citirea datelor statistice este presupunerea de cauzalitate. Foarte adesea ne este convenabil să citim rezultatul unui calcul statistic ca o dovadă de cauzalitate. Aceasta este fals chiar din două motive. Pe de o parte, aşa cum am spus-o mai sus, statistica nu dovedeşte nimic ci eventual nu respinge o ipoteză, iar mai apoi, nici un model statistic nu poate conclude asupra vreunei cauzalităţi. Este însă cît se poate de adevărat că există modele statistice ce presupun cauzalitate, cum sunt regresiile. În acest caz cauzalitatea este inclusă în model, face parte din teoria ce a stat la baza construirii modelului şi desigur, ca în orice formă de cunoaştere statistică, ea ar putea fi eventual respinsă. Caz în care am avea un bun motiv să excludem o relaţie cauzală. Dacă însă nu putem respinge cauzalitatea nu avem un motiv mult mai puternic de a o presupune decît am avut în momentul în care teoria ne-a permis să o considerăm pentru a fi modelată. Deci cauzalitatea este în teorie, în ipoteză şi nu în calcul. De aceea exemplul de interpretare de mai înainte ni s-a părut imediat greşit. Face parte din simţul comun faptul că genul unui cîine este neschimbat toată viaţa lui, pe cînd greutatea poate varia. De aici “teoria” noastră despre cîini nu acceptă cauzalitatea dintre greutate şi gen ci pe cea inversă. Deci, ipoteza pe care nu o putem respinge este: “cîinii masculi sunt mai grei” şi nu “cîinii mai grei sunt masculi”. Din păcate nu este întotdeauna aşa simplu. Să luăm un exemplu clasic, relaţia dintre nivelul de educaţie al unei naţiuni şi bunăstarea ei. Se ştie foarte bine că există o legătură puternică între aceste două caracteristici aproape indiferent cum le-am măsura (de ex: procent din populaţie cu studii superioare şi produs intern brut pe cap de locuitor), există însă teorii convingătoare pentru ambele direcţii de cauzalitate şi testele statistice nu au reuşit să respingă nici una dintre ele. Decizia asupra direcţiei de cauzalitate este deci un apanaj al teoriei.
13
Un alt caz interesant care apare în statistică uneori este cel al falsei cauzalităţi, sau într-o formă atenuată, a falsei corelaţii. Variabile par a fi legate şi nu ar trebui să fie. Vreau să atrag aici atenţie asupra necesarei precauţii în a defini o legătură ca fiind o falsă relaţie dintre variabile. Eu pînă în momentul de faţă nu am întîlnit false relaţii ci doar relaţii cu explicaţii teoretice complexe sau neimediate. Sunt aceste explicaţii corecte? Nu întotdeuna, dar nu pot fi imediat respinse şi sunt ca atare mai fertile decît presupunerea unei false cauzalităţi. Exemplul clasic este cel al foarte bunei corelaţii empirice dintre numărul de berze şi indicele conjunctural al fertilităţii, calculat ca număr de copii născuţi unei femei pe parcursul vieţii fertile, calculate pe regiune. Rezultatul, des verificat în practică ar putea fi o dovadă cum că “berzele aduc copiii”. Cei ce au citit cuminţi pînă aici vor observa că nu este aşa. Pe de altă parte s-ar putea să fie de acord cu faptul că, experimentul în cauză nu poate respinge o legătură dintre numărul de berze şi natalitate. Să oferim însă o teorie alternativă. O teorie cît se poate de acceptabilă chiar de către simţul comun spune că numărul de berze, dar şi numărul de naşteri ale unei femei pe parcursul vieţii fertile este mai mare în zona rurală decît în cea urbană. Gradul de urbanizare al regiunii studiate ar reprezenta deci o variabilă care le influenţează pe amîndouă variabilele din studiul nostru. Şi mai mult, le influenţează în acelaşi sens creind astfel o relaţie pozitivă între ele. Nu era deci vorba despre o cauzalitate directă, dar nici despre o eroare. Pur şi simplu, relaţia cauzală trebuia explicată teoretic acceptabil. Adică, testul statistic nu poate alege care din cele două teorii alternative, “barza aduce copiii” respectiv “urbanizarea reduce numărul de berze şi numărul de naşteri a unei femei” este mai bună. Adecvarea cu ansamblul de teorii şi ipoteze ale cercetării are însă această sarcină. Închei aici, repetînd: testele statistice pot da indicaţii despre relaţii dintre variabile dar numai teoria poate construi în termenii unor relaţii cauzale şi tot teoria trebuie să fie atentă la posibilele determinări cauzale complexe, ce implică nu numai variabilele măsurate explicit ci eventual şi altele, poate uneori chiar nemăsurabile. d. Foarte scurt istoric al statisticii. Probabil că au existat rapoarte “statistice” încă din vremurile imperiilor antice legate de impozite şi preţuri, fapt este că termenul actual de statistică provine din latina nouă folosită în administraţia germană şi italiană a secolului al 18-lea, şi mai exact din termenul statisticum collegium, ce avea sensul de colegiu de stat, colegiu director. Mai mult, în Italia vremii, 14
statista chiar însemna om de stat, politician. Se pare că primul care a folosit cuvîntul statistică a fost Gottfried Achenwall în 1749, şi anume în limba germană, sub forma de Statistik şi cu sensul de analiză a datelor despre stat sau chiar de “ştiinţă despre stat”. Achenwall (17191772) a fost unul din creatorii statisticii, pe parcursul carierei sale fiind atît universitar la Marburg şi Göttingen, cît şi consilier de curte al principilor electori de BraunschweigLüneburg. Termenul de statistică a fost preluat în alte limbi şi, în fine generalizat, cu un sens apropiat celui pe care îl dăm astăzi acestei metode, pe parcursul secolului al 19-lea. Practica de a culege şi analiza date despre stat exista însă deja în Anglia şi era acolo numită aritmetică politică. Termenul avea o vechime de cel puţin un secol cînd Achenwall a inventat noul nume şi pare a i se fi datorat lui William Petty (1623 - 1687) fiind chiar titlul unei cărţi ce i s-a publicat postum. William Petty nu a fost statistician în sensul metodelor pe care le înţelegem astăzi ca fiind statistice. A fost însă statistician prin multe dintre temele ce l-au interesat. Petty a fost şi politician, economist, inventator, antreprenor şi multe altele şi a folosit tot felul de tehnici ingenioase, chiar dacă nu întotdeuna corecte, pentru a estima, de exemplu, populaţia Londrei. Pentru ca statistica să fie cea de acum a trebuit însă să se lege mai întîi de teoria probabilităţilor. Acest domeniu al matematicii, iniţial legat mai mult de jocuri de noroc şi divertismente matematice, îşi are originile tot în secolul al 17-lea, deşi primele scrieri despre jocuri de noroc se găsesc într-o operă postumă a lui Girolamo Cardano (1501-1576), Liber de ludo aleae. Cartea a fost însă publicată abia în 1663, în anii în care apăreau şi lucrările unor Pierre de Fermat (1601-1665) sau Blaise Pascal (1623-1662). Aceştia din urmă sunt creditaţi că au moşit de fapt teoria probabilităţilor prin corespondenţa pe care au purtat-o asupra celebrei probleme a Cavalerului de Méré. Problema era: cum trebuie să împartă doi jucători miza totală a unui joc de noroc dacă nu vor să joace pînă la capăt, dar vor ca această impărţire să fie proporţională cu şansa fiecăruia de a cîştiga jocul. Pe Pascal se pare că la convins în aşa măsură metoda probabilistă găsită încît a folosit-o şi pentru a argumenta existenţa lui Dumnezeu, cu un succes mai de grabă incert. Destul de repede s-a observat că, deşi un joc de noroc este determinat de situaţii aleatoare, repetarea unui astfel de eveniment aleator poate duce la o anumite regularitate şi această 15
repetare este de fapt baza a ceea ce acum numim observaţie statistică. Ideea de observaţie repetată apare deja în prima carte de teorie a probabilităţilor publicată de Christiaan Huygens (1629-1695) în 1657. Ca ştiinţă matematică următorii paşi au fost făcuţi de doi celebri matematicieni Jakob Bernoulli (1654-1705) tot într-o lucrare postumă, intitulată Ars Conjectandi şi Abraham de Moivre (1667-1754) în Doctrines of Chance (publicată în Anglia). Această din urmă carte pune şi bazele statisticii în sensul modern al ştiinţei. În a doua ediţie a cărţii (1738) apare pentru prima oară o formă a distribuţiei normale de probabilitate despre care vom vorbi pe larg şi în cartea de faţă, dar şi un caz particular al teoremei limită centrală, o clasă de teoreme foarte importantă pentru statistică, pe care va trebui să o tratăm şi noi măcar un pic pentru a înţelege diferite fenomene legate de erorile statistice. Şi teoria erorilor de observaţie se găseşte deja în scrieri de la începutul secolului al 18-lea, şi anume în cîteva note postume ale lui Roger Cotes (1682-1716), dar cel ce a legat probabil statistica, cu sensul de observaţie asupra statului de teoria probabilităţilor a fost Pierre-Simon Laplace (1749-1827). Laplace a fost un om de ştiinţă deosebit de prolific, ceea ce ne interesează însă acum este dezvoltarea de către el a unei aşa-zise teorii analitice a probabilităţilor. Într-o lucrare din 1812 Laplace descrie mai exact distribuţia normală, şi, pe lîngă multe altele, demonstrează şi o formă a metodei celor mai mici pătrate, încă metoda noastră de preferinţă pentru calculul ecuaţiilor de regresie, precum vom vedea în capitolul al şaselea. Probabil celălalt mare creator al ştiinţei statisticii a fost Carl Friedrich Gauss (1777-1855). Considerat uneori cel mai mare matematician al tuturor timpurilor, deşi mie personal nu îmi este cunoscută înălţimea lui fizică şi nu cred că cea intelectuală se poate cu adevărat măsura, Gauss a contribuit la aproape toate domeniile matematicii. Şi el a contribuit la descrierea distribuţiei normale, de aici şi numele de curbă a lui Gauss ce se dă de obicei graficului distribuţiei normale. Tot Gauss a clarificat şi ipotezele metodei celor mai mici pătrate. În acest caz există însă o anumite dispută de primordialitate cu Adrien-Marie Legendre (1752-1833) care a publicat aceleaşi rezultate, se pare independent de Gauss. Legendre le-a publicat de fapt înaintea lui Gauss, acesta însă susţinea că le ştie de mult. Deja pe parcursul primei părţi a secolului al 19-lea rezultatele ştiinţifice legate de metoda de cercetare statistică s-au înmulţit considerabil. Multe metode au fost dezvoltate, principalele 16
tehnici puse la punct. Dezvoltarea mare a domeniului a venit însă spre sfîrşitul secolului al 19lea şi apoi în secolul al 20-lea o dată cu interesul crescut pentru studiul societăţii, apariţia ştiinţelor economice moderne şi a sociologiei. Atunci apar marile şcoli statistice cărora le datorăm arsenalul actual de metode. Pe de o parte este vorba despre şcoala engleză. Principalii ei exponenţi au fost: Karl Pearson (1857-1936) care a contribuit esenţial la teoria corelaţiei şi a regresiei şi a dezvoltat coeficientul de corelaţie r dar şi coeficientul Chi2, şi Ronald Fischer (1890-1962) iniţiator de fapt al întregului domeniu al testelor non-parametrice, creator al distribuţiei şi testului F şi a unei serii întregi de rezultate esenţiale pentru statistica de astăzi, dar şi Charles Spearman (1863-1945) care a dezvoltat principalele metode de analiză factorială dar şi coeficientul de corelaţie ρ (rho) pentru valori ordinale, numit şi coeficient Spearman, William Sealey Gosset (1876-1937) cunoscut sub pseudonimul Student, care a dezvoltat metode de verificare a ipotezelor, distribuţia Student şi testul t, şi alţii. Dacă şcoala engleză de statistică a fost la originea multora dintre metodele statisticii aplicate, la celălalt capăt al continentului, în Rusia, au apărut lucrări esenţiale pentru justificarea ştiinţifică, matematică a calculului statistic. Principalele teoreme ce stau la baza statisticii au fost demonstrate de matematicienii ruşi Pafnuty Chebyshev (1821-1894) cu inegalitatea ce îi poartă numele şi ca o consecinţă a acesteia, teorema slabă a numerelor mari, Andrey Markov (1856-1922) creatorul lanţurilor Markov şi în general unul dintre creatorii teoriei proceselor stochastice, Aleksandr Lyapunov (1857-1918) care a demonstrat o formă generală a teoremei limită centrală, Andrey Kolmogorov (1903-1987) unul din principalii contribuitori la demonstrarea teoremei tari a numerelor mari şi autorul unui criteriu suficient ce îi poartă numele, şi alţii. Dezvoltarea statisticii a continuat pe parcursul secolului trecut şi ca ştiinţă. Mai impresionant poate însă, statistica a pătruns în conştiinţa publică o dată cu utilizarea ei pe scară largă în cercetările sociale şi cvasi-generalizarea sondajului de opinie ca metodă de culegere de informaţii despre societate, ca metodă de măsurare a societăţii. Primul sondaj de opinie a fost efectuat în Statele Unite de revista Literary Digest în 1916 pentru a prevede rezultatul alegerilor prezidenţiale. Fără vreo bază teoretică statistică, revista a cerut cititorilor să returneze redacţiei o carte postală - chestionar. Pentru patru alegeri prezidenţiale la rînd, metoda a dat rezultate corecte.
17
Un pas important spre fundamentarea ştiinţifică a sondajului de opinie l-a făcut George H. Gallup (1901-1984) care în teza lui de doctorat din 1928 a dezvoltat metoda ce stă la baza sondajului de opinie statistic. Primul mare succes al lui Gallup a fost în 1936 cînd a reuşit să prevadă corect victoria lui F.D. Roosevelt în alegerile prezidenţiale, spre deosebire de Digest care a greşit folosind un eşantion incomparabil mai mare. Celebru atît pentru încrederea mare pe care a produs-o de la început cît şi pentru cîteva eşecuri memorabile, lui Gallup trebuie să-i recunoaştem meritul de a fi creatorul instituţiei sondajului de opinie statistic.
18
Capitolul 2. Tipuri de date Voi prezenta aici principalele tipuri de date, sau nivele de măsurare, cum se mai numeşte această clasificare. Deşi criticată pentru diverse motive aceasta împărţire a datelor permite o înţelegere simplă a felului cum se apropie statistica de fenomene. În 1946, psihologul american Stanley Smith Stevens a propus într-un articol mult citat, lăudat şi criticat apoi, o teorie a nivelelor de măsurare care avea să fie apoi repetată în aproape toate manualele introductive de statistică (Stevens, 1946). Nu am vrut să mă abat de la regulă. Prima dată să vedem totuşi la ce bun şi cum adică? Este absolut evident că măsuratorile pe care se bazează statistica nu sunt toate la fel. Din exemplele mai mult întîmplătoare din capitolul capitolul precedent (greutatea şi genul unui animal, opinia despre un politician) este evident că aparate diferite de măsură dau rezultate care fac parte din categorii cît de poate de diferite de cunoaştere. Dacă greutatea se exprimă în valori numerice cu care se pot face calcule aritmetice, genul e un fel de etichetă, nu nume dat unei categorii, iar opinia despre politician poate fi exprimată în mai lungi sau mai scurte propoziţii, eventual chiar în grade de genul, mai bună – mai puţin bună dar nu în valori numerice concrete. Deci, Stevens a intuit cît se poate de corect, e necesară o clarificare şi o categorisire a acestor “nivele de măsurare”. Tehnic o astfel de categorisire ajută la a stabili ce metode anume se potrivesc a fi folosite cu ce fel de variabile. Poate părea inutil, dar un exemplu sper să ajute aici. Am vorbit despre opiniile despre politicieni. Destul de des acestea sunt exprimate în note. Fie întrebarea de chestionar chiar cere notarea, ca la şcoala, a activităţii unui politician, sau a unui guvern sau minister în întregul lui, fie răspunsurile sînt transformate în note de către cercetător într-o activitate pe care o numim de regula codare a răspunsurilor. Răspunsurile la întrebările de opinie în final ajung să nu se distingă de rezultatele, eventual rotunjite, ale cîntăririi unui cîine. Şi totuşi diferenţele acestea sunt esenţiale şi nu trebuie uitate1. Prezentarea nivelelor de măsurare în cărţile introductive de statistică mai are un avantaj. Permite o exemplificare structurată a datelor cu care lucrează statistica şi o prezentare coerentă a principalelor proprietăţi ce sunt necesare pentru a putea lucra cu ele. 1 Confuzia dintre date de aceste tipuri e pe larg analizată în foarte reuşita carte a lui Darrel Huff “How to Lie with Statistics” (1954) care a apărut între timp în peste 30 de ediţii.
19
a. Date nominale Datele nominale, numite uneori şi categoriale, sunt nume date unor proprietăţi ale obiectelor, indivizilor sau fenomenelor studiate care nu pot fi reprezentate prin cantităţi şi nici nu au o ordine implicită. Din exemplele de pînă acum, genul este o dată nominală. Indiferent cît de complexă cultural, biologic, comportamental şi aşa mai departe ar fi categorisirea pe genuri, dezvoltarea caracteristicilor de gen sau alte probleme despre care sunt alţii chemaţi să scrie, ca tip de dată genul nu e altceva decît un cuvînt desemnînd o categorie. Nu putem face nici socoteli aritmetice cu genuri, nici comparaţii. Masculin nu e mai mare decît feminim, şi nici sume sau medii nu putem face. Chiar daca am codifica la o adică genurile, la modul feminin = 2 şi masculin = 1, ca la codurile numerice personale din Romania, o declaraţie de forma: genul mediu ar participanţilor la sondaj a fost 1,56 este ilară. Totuşi şi datele nominale trebuie sa se supună unor reguli, e drept puţine şi simple, pentru a putea fi folosite ca date statistice. Acestea sunt:
•
Excluderea mutuală: Categoriile unei date nominale trebuie să se excludă reciproc. Un cîine măsurat de noi nu poate fi în acelaşi timp şi mascul şi femelă, un cetăţean interogat într-un sondaj de opinie nu poate fi în acelaşi timp şi căsătorit şi necăsătorit.
•
Completitudinea: Orice individ măsurat în cadrul cercetării trebuie să găsească o categorie ce i se potriveşte în lista de valori posibile. Eventual se include varianta “altceva”, “altfel” dar lista de valori trebuie să poate acomoda orice situaţie.
Condiţiile de mai sus nu sunt întotdeuna uşor de pus în practică. Deşi cred că par a fi de bun simţ, sunt situaţii în care întrebările şi listele de răspunsuri trebuie formulate cu grijă pentru a nu întîmpina probleme în analiza ulterioară a datelor. De multe ori cercetătorii chiar preferă să pună întrebările astfel încît să pară cît mai naturale celor ce trebuie să răspundă la ele şi să codifice apoi ei înşişi datele în aşa fel încît să corespundă cerinţelor prelucrării statistice. Exemple tipice de date nominale sunt genul, starea civilă, naţionalitatea, apartenenţa religioasă. Toate acestea au în comun faptul că pe lîngă caracterul lor nenumeric nu au nici o
20
ordine acceptată a valorilor. Asta chiar dacă unii pot fi de părere că “românii sunt mai superiori decît bulgarii”! Cu toate că datele nominale pot părea sărace din punctul de vedere al posibilităţilor calculatorii ele sunt importante în multe fenomene sociale, economice, etc. şi au fost dezvoltate multe metode statistice care să permită analiza lor sau, mai adesea, să permită analiza altor date în relaţia lor cu categorii nominale. Voi discuta pe larg astfel de metode în special în capitolul al şaptelea al cărţii. b. Date ordinale O a doua grupă de date sunt cele care, deşi nu sunt numerice, au o ordine bine definită a valorilor. Sensul de “bine definit” al unei ordini nu este nicidecum trivial. Matematicienii înţeleg printr-o ordine bine definită o ordine care poate fi recunoscută pentru orice două valori şi mai mult, este şi tranzitivă. Pentru simplificare voi folosi expresia “mai mare” pentru a descrie ordinea. Atunci o ordine este bine definită dacă între oricare dintre valorile de răspuns este clar care este “mai mare”. Tranzitivitatea înseamnă că daca o valoare este “mai mare” decît alta, iar aceasta “mai mare” decît o a treia, prima valoare va fi în consecinţă “mai mare” decît cea de a treia. În plus faţă de condiţia de ordine, datele ordinale trebuie să se supună şi condiţiilor pe care leam specificat în cazul datelor nominale, să permită deci numai valori mutual exclusive şi lista acestor valori să fie completă. Diferenţa esenţială dintre datele ordinale şi valorile numerice este aceea că nu are sens calculul distanţei dintre două valori, respectiv distanţele dintre valori consecutive nu se pot presupune a fi egale. Un exemplu va face mai clară această distincţie. O întrebare tipică pentru un răspuns ordinal este cea legată de încrederea într-un politician. Să presupunem că răspunsurile posibile sunt: “foarte puţină”, “puţină”, “nici puţină, nici multă”, “multă”, “foarte multă”. Se vede imediat că lista de valori este ordonată bine, între orice două valori ordinea e evidentă şi tot evidentă este şi proprietatea de tranzitivitate. Tot atît de clar este că fiecare intervievat va trebui sa decidă de fapt care e opinia lui, foarte probabil fiind că pînă în momentul interogării el să nu-şi fi pus problema încrederii în termenii întrebării. Această 21
nevoie de a decide îî diferenţiază pe cei chestionaţi de cei ce nu sunt chestionaţi şi pune probleme în generalizarea rezultatelor la nivelul populaţiei adică şi asupra celor ce nu au fost de fapt chestionaţi şi nu au trebuit să se decidă în contact cu întrebarea pusă în forma dată. Un mod de a conştientiza aceasta este de a nu conferi valorilor de răspuns un sens absolut matematic, ci de a le considera interpretări personale ale celor ce au răspuns. Asta înseamnă că pentru doi intervievaţi diferiţi sensul unei valori de răspuns poate fi oarecum diferit, de exemplu, pragul de la “foarte puţină” la “puţină” încredere să fie diferit, distanţa dintre două categorii să fie diferită. Intervievatul care alege un răspuns nu face altceva decît să îşi poziţioneze opinia într-o ordine şi numai caracterul de ordine al valorilor de răspuns poate fi presupus în analiză. În ansamblu nu se poate deci presupune că există distanţe între valori într-un sens matematic. Deşi se face des, traducerea valorilor de răspuns în cifre, de exemplu de la 1 la 5 în cazul nostru, este riscantă şi duce la greşeli importante. Calculul unor medii aritmetice a răspunsurilor este una din greşelile cele mai uzuale pe care le fac cercetătorii în ştiinţe sociale, de multe ori chiar conştienţi de abuzul implicat. Scuza uzuală pentru această greşeală este aceea că însumînd opinii ale unui număr mare de persoane, distanţele dintre variantele de răspuns, într-adevăr diferite de la o persoană la alta, se însumează şi dau o medie statistică egală. Din păcate însă nu este aşa. Există devieri sistematice de la această distanţă presupusă egală între variantele de răspuns. Şi anume, valorile extreme, de tipul “foarte puţină încredere” sau “foarte multă încredere” sînt adesea mai “îndepărtate” de valorile proxime “puţină încredere”, respectiv “multă încredere” decît sînt acestea de valoarea mediană, neutră. Mai grav încă, în cazul în care o anumită întrebare este receptată ca fiind legată de o presiune socială, distanţele din scală se defazează în sensul acestei presiuni. Ca şi în exemplul anterior, majoritatea întrebărilor care produc răspunsuri ordinale se bazează pe aşa zise scalograme, adică liste standardizate de răspunsuri. Cele mai obişuite, mai des folosite, sunt scalele Likert, dezvoltate deja în 1932. Scala Likert este o scală a nivelului de acord cu o propoziţie. Un exemplu simplu ar fi următorul: Sunteţi de acord cu faptul că Traian Băsescu este un politician dedicat binelui ţării noastre? a. Nu sunt deloc de acord c. Nu sunt de acord d. Nici de acord, nici nu e. Sunt de acord f. Sunt absolut de acord. 22
Formulările pot diferi, de regulă însă este vorba despre o scală ordinală cu un număr impar de valori. Cel mai adesea sunt 5 valori, unii cercetători din domeniul psihologiei în special, preferă totuşi scale cu 7 valori. Valoarea mediană, adică cea din mijlocul scalei este întotdeuna o valoare neutră. Acordul sau dezacordul sunt exprimate verbal în forme cît mai clare şi simple de grade diferite de radicalitate. Uneori se alege conştient eliminarea valorii mediane. În acest caz se vorbeşte de o scală Likert cu opţiune forţată. Intervievaţii sunt atunci obligaţi să adopte o poziţie chiar daca ar prefera neutralitatea. Un alt tip important de scalograme, sunt cele de tip Guttman sau cumulative, dezvoltate iniţial de sociologul şi psihologul Louis Guttman într-un articol din 1944. Guttman pune cîteva condiţii simple pentru ceea ce este o scală Guttman perfectă, şi anume:
•
O scală Guttman este o listă ordonată de propoziţii cu care intervievatul poate fi de acord sau nu.
•
Să presupunem că avem 10 astfel de întrebări. Dacă intervievatul este de acord cu propoziţia 7, dar nu şi cu propoziţia 8, logica scalei presupune că el este de acord cu toate propoziţiile 1-7 şi nu cu propoziţiile 8-10. În aceste condiţii “scorul” lui va fi 7.
Modelul lui Guttman este desigur ideal prin caracterul lui determinist. O variantă mai permisivă şi mai apropiată de realitate este modelul lui Rasch care presupune o scală de tip Guttman probabilistă, adică în care relaţiile dintre răspunsuri au un caracter probabilist. Un exemplu celebru de scală de tip Guttman este des folosit în analiza relaţiilor dintre grupuri etnice, religioase, naţionale, etc. Aceasta este scala Bogardus (după sociologul american care a dezvoltat-o), numită şi scală a distanţei sociale, care se bazează pe o lista de întrebări de următoarea formă: Aţi fi de acord ca un .......... (aici se completează categoria faţă de care se estimează distanţa socială, de exemplu “maghiar”, “rrom”, “baptist”, “homosexual”): •
Să vă devină rudă prin alianţă (răspunsul “da” – valoare 1).
•
Să vă fie prieten apropiat (2)
•
Să locuiască pe aceiaşi strada (3)
•
Să vă fie coleg de servici (4) 23
•
Să fie cetăţean al ţării noastre (5)
•
Să fie doar turist în ţara noastră (6)
•
Să fie expulzat din ţara noastră (7)
Valori ordinale se pot însă obţine şi în alte situaţii. De fapt cazul cel mai cunoscut de valoare ordinală este cel al notelor şi calificativelor date elevilor şi studenţilor. Şi este şi cel mai cunoscut abuz de utilizare a unor valori ordinale. Deşi probabil o mare parte a profesorilor ar fi de acord, cel puţin eu aş fi, că “distanţa” dintre un 4 şi un 5 nu este aceiaşi cu distanţa dintre un 7 şi un 8, sau dintre un 9 şi un 10, medii aritmetice ale notelor se calculează în mod uzual şi se mai şi folosesc pentru a lua decizii importante pentru viaţa celor notaţi. Problema utilizării mediei aritmetice pentru date ordinale este însă o problemă care a produs multe controverse. După părerea mea principalul motiv este prezenţa atît de răspîndită a datelor ordinale, probabil cele mai des întîlnite în cercetările sociale, şi frustrarea de a renunţa la o formă de prezentare atît de simplă de calculat şi înţeles cum este media aritmetică. Trebuie însă menţionat că există o serie întreagă de metode puternice care lucrează cu date ordinale şi nu fac presupuneri suplimentare despre distanţele dintre valori. Alte exemple de date ordinale sînt: nivelul de educaţie (dacă formularea răspunsurilor este bine ordonată), respectiv topurile de preferinţe (nu şi cele de vînzări, la care se poate calcula o diferenţă între poziţii clar exprimată în unităţi vîndute). c. Date intervalice Ultimele două categorii ale clasificării lui Stevens se referă la date numerice şi diferenţierea pe care a impus-o între datele intervalice şi cele raţionale este şi una dintre cele mai controversate ale teoriei nivelelor de măsurare. Cu toate acestea, să vedem despre ce e vorba. În definiţia iniţială, datele intervalice sunt date numerice care au punct zero convenţional. Mai simplu spus, zero-ul intervalic nu înseamnă o “lipsă” a caracteristicii ci este o valoare ca oricare alta. Un cîine care are greutatea zero nu este un cîine, cel puţin după părerea mea. Ca atare greutatea nu este o valoare intervalică. Dacă însă cineva s-a născut la ora zero, nu înseamnă că nu s-a născut de loc. Ora zero este convenţională şi nu înseamnă absenţa indicaţiei de timp. Deci datele calendaristice, sau de oră sunt date intervalice. Ele evident sunt altfel decît celelalte date numerice de măsurare. 24
Datele intervalice au toate caracteristicile datelor ordinale, sunt mutual exclusive, complete şi bine ordonate. Chiar şi caracterul convenţional al notării numerice este prezent. Diferenţa este însă distanţa calculabilă între două valori intervalice. Între două momente în timp se poate calcula o distanţă, fie ea în minute, secunde sau alte unităţi de măsură şi o distanţă de o anumită mărime, de exemplu 5 minute, este aceiaşi indiferent pentru ce valori de timp a fost calculată. Păstrînd toate celelalte condiţii egale, dacă un ou fierbe în 5 minute la ora 14, el va ajunge la fel de tare după 5 minute de fierbere şi la ora 7. Atenţie însă, chiar dacă momentele “ora 14” şi “ora 7” sînt indicaţii intervalice, nu astfel este şi durata de “5 minute”. Aceasta este o dată numerică raţională, cum vom vedea că se numesc acestea. Adică, un ou care fierbe zero minute chiar nu fierbe de loc! Alte date intervalice sunt gradul de longitudine şi latitudine geografic, fusul orar, temperatura precum şi alte date convenţionale. Deoarece datele intervalice au distanţe corect calculabile între ele, pot fi folosite în aproape orice calcule matematice. Problematică rămîne utilizarea lor în împărţiri şi înmulţiri, deorece ele nu au sensul de cantitate pe care il acordăm de obicei datelor numerice. Astfel un cîine de 40kg cîntăreşte într-adevăr cît doi cîini de cîte 20kg. Pe de altă parte, ora 14 nu este cît două ore 7 din nici un punct de vedere. De asemenea, de 4 ori cate o halbă de bere sunt 2 litri de bere, însă de patru ori deşteptarea la ora 3 dimineaţa nu face cît o trezire la ora 12. d. Date raţionale Din prezentarea de pînă acum nu am avut cum exclude referiri la datele raţionale. Acestea sunt datele numerice, cantitative, obişnuite. Ele apar des în cercetarea socială sau economică, şi cu atît mai mult în ecologie sau medicină şi sunt cele pentru care s-au dezvoltat cele mai multe dintre tehnicile şi testele statistice. Absolut orice calcule matematice se pot face cu aceste valori. Greutatea cîinilor, banii din portofel, valoarea produsului intern brut, numărul de locuitori ai unui oraş sau de restanţe al unui student sunt toate valori raţionale. Ele sunt rezultate ale unor măsurători cantitative, sau adesea al unor numărători. Valoarea zero nu este o convenţie, un student cu zero restanţe este chiar un student cu o vacanţă lungă şi relaxantă. 25
De obicei caracterul discret sau continuu al valorilor unor date raţionale nu se tematizează la nivelul statisticii aplicate introductive. Deşi unele metode presupun date continue, cum este cazul metodelor de regresie, se face cel mai adesea abstracţie de la această presupoziţie. Există rezultate matematice suficient de bine fundamentate care permit o atare abordare fără pericolul de a greşi semnificativ. Şi apoi continuitatea datelor nu înseamnă statistic mai mult decît că valoarea măsurată poate fi oricît şi nu numai anumite valori, de exemplu numere întregi. O asemenea condiţie nu este de fel restrictivă.
26
Capitolul 3. Culegerea datelor statistice. Sondajul de opinie Datele statistice pot proveni din surse oficiale, cum sunt institutele naţionale de statistică sau organizaţiile internaţionale, şi atunci se referă de obicei la un ansamblu complet de obiecte, indivizi sau fenomene sau pot proveni din aşa-zise sondaje statistice. În primul caz, deşi culegerea datelor este de obicei laborioasă, ştiinţific justificarea utilizării lor nu pune probleme deosebite pentru statistician. Pe de altă parte, tehnica sondajului este una mult mai pretenţioasă şi matematic mai complicată. Cu atît mai mult cu cît unii care fac sondaje şi majoritatea celor ce le citesc uită de principalele probleme implicate în validitatea lor. 1. Statistici de recensămînt si statistici de sondaj. Generalizarea statistică şi limitele ei. Cum am mai scris şi mai sus, metoda specifică de culegere a datelor în statistică este sondajul. Acesta se bazează pe o serie de teoreme matematice care permit, în condiţii foarte bine specificate, care în realitate nu sînt niciodată perfect îndeplinite, generalizarea rezultatelor de la nivelul eşantionului, adică a mulţimii celor chestionaţi la nivelul populaţiei, adică a mulţimii care reprezintă ţinta cercetării. Prima definiţie necesară pentru a continua este cea a populaţiei. În orice cercetare statistică populaţia este ansamblul tuturor indivizilor (sau a obiectelor) care sunt subiecte ale cercetării, asupra cărora se referă ipotezele şi teoriile ei. Dacă de exemplu, vrem să facem o cercetare legată de consumul de apă minerală în România, populaţia studiului va fi întreaga populaţie a ţării, de vrea 21 de milioane, cîtă e ea. Dacă însă cercetarea are caracter politic, probabil aş dori să restrîng populaţia la persoanele cu drept de vot, electoratul român, adică numai vreo 17,5 milioane. De la caz la caz, populaţia unei cercetări poate fi mulţimea locuitorilor unui oraş, mulţimea jucătorilor de fotbal sau a studenţilor unei facultăţi, dar există şi cercetări cu alte nivele de agregare la care populaţia poate fi mulţimea intreprinderilor mici şi mijlocii dintr-o regiune, mulţimea judeţelor Romaniei sau chiar a ţărilor europene. Stabilirea populaţiei cercetate este un prim pas în orice studiu statistic. Este de fapt răspunsul la întrebarea: despre cine am dori să putem spune ceva? Şi de aici decurge alegerea celor care vor fi măsuraţi (adică vor răspunde la întrebări) dar şi felul cum se fac măsuratorile (adică se pun întrebările) şi interpretarea rezultatelor. Alegerea populaţiei este o decizie ce ţine de substratul teoretic al studiului dar în acelaşi timp determină teoriile ce vor fi folosite în continuare pe parcursul proiectării cercetării. 27
Nu toate cercetările statistice sunt bazate pe date culese prin sondaj. O mare parte dintre metodele folosite atît pentru descrierea datelor cît şi pentru testarea unor teorii se aplică, cu la fel de mult succes, şi pe alte tipuri de date. Este vorba despre ceea ce numim date de recensămînt. Suntem obişnuiţi cu acest termen ca desemnînd o chestionare periodică, dar totuşi rară, a întregii populaţii a ţării pe teme legate mai mult de statutul social-economic. Conceptul are însă o definiţie ceva mai largă. Un recensămînt este o cercetare care presupune intervievarea (sau mai general, măsurarea) tuturor membrilor populaţiei studiate. Deci tehnic un studiu care tratează statele europene folosind date culese din toate aceste state este un recensămînt la fel cum tot recensămînt este un studiu care intervievează toţi studenţii unei anumite facultăţi atît timp cît rezultatele nu se doresc a fi generalizate pentru alte grupuri de studenţi. Deşi în cazul recensămîntului inducţia statistică nu are rolul pe care i l-am pomenit în introducere, există aşa cum am mai spus şi aici un anumit nivel de generalizare. Anume, prin faptul că folosim modele mai mult sau mai puţin simple pentru indivizii studiaţi şi încercăm totuşi să tragem concluzii despre comportamentul lor sau despre opiniile lor. Tot ce am putea ştii, de exemplu, despre studenţii facultăţii de ştiinţe politice din Timişoara sunt răspunsurile pe care aceştia le dau la un chestionar. Am putea totuşi să încercăm să verificăm dacă pentru aceştia se poate susţine faptul că cei ce lucrează în perioada studenţiei sunt mai puţin interesaţi de problemele legate de organizarea academică. Este posibilă o astfel de cercetare? Desigur. Este sigur că se poate răspunde la întrebare? Evident, nu. Întrebarea este o ipoteză de lucru, s-ar putea să poată fi respinsă, s-ar putea însă să nu se poată face acest lucru. Indiferent însă de aceasta, rezultatele se vor referi numai la studenţii chestionaţi şi nu se vor putea generaliza, după regulile statisticii cel puţin, la alţi studenţi, din alte facultăţi sau alte oraşe. În unele cazuri, probabil pentru a evita confuzia curentă cu recensămintele naţionale menţionate, statisticile de acest tip se mai numesc statistici de lot. Prin lot înţelegîndu-se de fapt populaţia care este în acelaşi timp şi “eşantion” al cercetării. În general un eşantion este mulţimea aleasă prin vreo metodă oarecare, a celor ce vor fi chestionaţi (sau măsuraţi) în cadrul unei cercetări. Dacă de exemplu, la o fabrică de ciorapi trebuie făcut un studiu statistic al egalităţii lungimii ciorapului stîng cu ciorapul drept, probabil că s-ar decide că este suficientă măsurarea unui eşantion şi nu al întregii populaţii 28
ciorăpeşti. S-ar putea alege, şi ar fi chiar cea mai bună metodă, de pe banda de producţie tot a o mia pereche de ciorapi pînă cînd se ajunge la un număr dorit, de exemplu tot o mie de perechi. Perechile de ciorapi măsuraţi vor forma eşantionul, producţia ce are loc în perioada în care se aleg perechile de ciorapi e populaţia cercetată. Există multe metode de a alege un eşantion, unele mai bune, altele mai puţin, unele mai simple, altele mai puţin. Vom reveni la acestea în partea a două a acestui capitol. Pentru moment să încerc să explic de ce putem face asta. De ce e suficient să măsurăm o mie de ciorapi ca să spunem ceva despre cîteva sute de mii, sau de ce un institut de sondare a opiniei publice e suficient să întrebe nu mult mai mult de o mie de oameni pentru a prevedea suficient de bine rezultatul unor alegeri prezidenţiale? Explicaţia stă în cîteva teoreme matematice. Ele sînt în general cunoscute ca fiind “legile numerelor mari”, “teorema fundamentală a statisticii” şi “teorema limită centrală”. Nu cred că aş fi de prea mare folos cititorilor acestei cărţi dacă le-aş enunţa matematic corect. Voi încerca deci numai să le povestesc. Legile numerelor mari sînt o serie întregă de teoreme, probabil prima fiind enunţată de Bernoulli în 1713. Toate aceste teoreme spun lucruri asemănătoare. Ele de fapt vorbesc despre repetarea unor experimente, de exemplu aruncarea unui zar. Esenţial este ca repetarea această să se facă în aşa fel încît fiecare aruncare de zar (sau ce experiment ar fi) să fie independentă de celelalte. Dacă e aşa şi notăm rezultatele, pe măsură ce numărul de experimente creşte felul cum se distribuie rezultatele observate se apropie din ce în ce mai mult de felul cum sunt distribuie toate rezultatele posibile. În cazul unui zar bine echilibrat, pe măsură ce repetăm aruncarea cu zarul ne apropiem din ce în ce mai mult de o distribuţie în care fiecare faţetă apare de un număr egal de ori. Traducerea în statistică e simplă. Fie o informaţie oarecare de interes pentru cercetarea noastră, o dată statistică cum i-am spus pînă acum, sau o variabilă cum i se mai spune. Ea este cumva distribuită în populaţie (de exemplu genul e distribuit cam jumătate – jumătate, perechile de ciorapi inegali sunt cam 5% din producţie, etc.). Ei bine legile numerelor mari ne asigură de faptul că dacă alegem să chestionăm (măsurăm) un număr de indivizi (perechi de ciorapi) atunci atît timp cît alegerea unui individ este independentă de celelalte alegeri, pe măsură ce numărul celor aleşi creşte, distribuţia rezultatelor de măsurare se aproprie de distribuţia valorilor în întreaga populaţie. Simplu spus asta înseamnă că un eşantion mai mare e mai bun decît unul mai mic. Dar mai spune două lucruri esenţiale. O dată, faptul că adăugînd la eşantion în mod corect nu ne îndepărtăm de la distribuţia pe care 29
dorim să o aflăm ci ne tot apropiem de ea şi în al doilea rînd, mai important, ne spune cum trebuie să alegem eşantionul. Anume astfel încît fiecare alegere să fie independentă. Din păcate, aşa cum vom vedea asta nu este chiar aşa uşor în statistică ca la aruncarea cu zaruri. O formă a legii numerelor mari, cunoscută şi ca teorema Glivenko-Cantelli a fost adesea numită teorema fundamentală a statisticii. Ea ne asigură incă mai bine de apropierea aceasta a distribuţiei valorilor observate de cele existente în populaţie, apropiere ce în matematică se numeşte convergenţă. Teorema Glivenko-Cantelli ne spune că această convergenţă este uniformă pe măsură ce creşte volumul eşantionului. Bun, deci, din cele de pînă acum ştim că măsurînd un eşantion din ce în ce mai mare ne apropiem din ce în ce mai mult şi uniform de felul cum variabilele ce ne interesează sunt distribuite în populaţie, atîta timp cît fiecare element din eşantion l-am ales independent de celelalte (vom spune în general că eşantionul e ales aleator, la nimereală). Pare de bun simţ, cred. Întrebarea mare ce se pune acum este, cît de mare trebuie să fie eşantionul astfel încît apropierea să fie suficient de bună? Altfel, desigur, dacă pentru o populaţie de 21 de milioane, distribuţia din eşantion se apropie de distribuţia din populaţie pe măsură ce se adună milioanele de chestionare nu am rezolvat prea mare lucru. Aici intervine teorema limită centrală. Şi ea face parte dintr-un grup de teoreme numită în general teoreme limită centrală. Pentru a deosebi teorema cea mai importantă dintre acestea, o teorema enunţată şi demonstrată de Lyapunov la începutul secolului 20, ea se scrie adesea cu litere mari (Teorema Limită Centrală!). Ea ne spune că în anumite condiţii, importante pentru matematicieni, o sumă de variabile aleatoare necunoscute, dar independente tinde la o distribuţie normală cînd numărul acestor variabile tinde la infinit. Condiţiile pomenite nu sunt de fapt foarte restrictive, ele spun că variabilele însumate trebuie chiar să fie “oricum”, “la nimereala” şi faptul că trebuie să aibă aceiaşi medie şi dispersie. Aceasta, a doua condiţie nu este de fapt chiar atît de restrictivă, deşi poate părea. De fapt ea nu este restrictivă pentru că orice variabilă aleatoare poate fi “împinsă” spre stînga sau dreapta graficului ei prin simpla adunare sau scădere a unei valori numerice. Nu se schimbă cu nimic caracteristicile variabilei, pur şi simplu graficul se împinge încoace sau încolo. Deci orice variabilă poate fi adusă la aceiaşi valoare medie fără a schimba mare lucru. Cu dispersia e ceva mai complicat, dar nu mult, aşa că nu o mai comentăm aici. Bun, deci, le insumăm şi iese ceva numit distribuţie normală, o distribuţie despre care vom mai vorbi. Precum vedem ea este foarte importantă în statistică. Nu e foarte simplă matematic, dar pentru majoritatea utilizatorilor de statistică e 30
suficient să cunoască cîteva din principalele ei proprietăti. Şi pe moment cel mai important este că e cunoscută. E foarte important. Să reluăm de fapt ideea. Avem un număr de tot felul de variabile despre care nu ştim mai nimic şi dacă le adunăm toate iese ceva cunoscut. Asta e foarte confortabil pentru că la urma urmei în orice cercetare ce presupune studierea comportamentului unor oameni putem să fim destul de siguri că sunt o gramadă de variabile pe care nu le-am putut măsura şi încă şi mai multe la care nu ne-am putut nici măcar gîndi. Ei bine, astea toate însumate în efectele lor produc ceva cunoscut. Deci, grija mare că sunt atîtea şi atîtea care nu pot fi luate în seamă nu e chiar aşa de justificată. Această grămadă de variabile sunt de fapt eroarea care trebuie luată în seamă cînd încercăm să estimăm o valoare. Prin faptul că se poate estima corect forma sumei variabilelor care nu le luăm în seamă în mod explicit se obţine şi formula care permite estimarea erorii. Cum am văzut din teoremele numerelor mari această eroare este legată de volumul eşantionului. Deci aici putem estima volumul unei eşantion pentru a obţine cu probabilitate mare o anumită precizie a cercetării statistice.
31
2. Cum facem un sondaj de opinie simplu şi corect? 1. Eşantionarea aleatoare Din considerentele (aproape) matematice din secţiunea precedentă putem să extragem o concluzie esenţială pentru tehnica sondajului de opinie. Anume, garanţia matematică pentru posibilitatea unei estimări statistice corecte este ca alegerea eşantionului studiat să fie pur aleatoare, adică să nu depindă chiar de nimic. Modelul pe care matematicienii il prefera pentru alegerea aleatoare este modelul urnei. Premisele sunt următoarele. Avem o urnă din care se pot extrage bile şi în care se găsesc un număr de bile de diverse categorii. De exemplu, bile albe şi negre. Extragem din urnă cîte o bilă, notăm culoarea ei şi o introducem la loc. Legea numerelor mari ne asigură că repetînd operaţia asta de multe ori vom obţine o bună estimare a distribuţiei bilelor în urnă. Modelul acesta se numeşte “schema bilei reîntoarse” şi introducerea bilei la loc în urnă este esenţială pentru că astfel şansa de a alege o bilă de o anumită culoare rămîne cea de la început pentru fiecare extragere. Dacă ne-am imagina o urnă cu un număr foarte mare de bile din care extragem un număr relativ mic, am putea presupune că distribuţia rămîne aproape neschimbată chiar dacă bila nu se introduce la loc, adică dacă aceiaşi bilă nu mai poate fi extrasă de mai multe ori. Aceasta este situaţia unui sondaj real. Ideal ar fi deci să avem un recipient mare de tot în care stau cuminţi toţi membrii populaţiei pe care dorim să o studiem şi să extragem de acolo rînd pe rînd cîte unul, să-l interogăm şi săl punem la loc. Aceasta este însă posibil numai parţial. Să vedem ce corecturi sunt necesare pentru a putea să ne apropiem cît mai mult de acest modelul teoretic. În primul rînd, în oala noastră nu va sta chiar toată populaţia pe care vrem să o cercetăm. (Îi spun oală, pentru că urnă mi se pare prea morbid, şi recipient prea pretenţios.) Există două feluri de aborda problema asta. Pe de o parte, e normal să încercăm să luăm o oală cît mai cuprinzătoare, pe de altă parte e la fel de normal să redefinim populaţia în funcţie de oala aleasă. Hai să dau cîteva exemple. Să zicem că dorim să aflăm ceva despre populaţia oraşului Timişoara. Să alegem recipientul din care “extragem” subiecţii cercetării. De exemplu, Piaţa Operei. Punem operatori de sondaj 32
în piaţă şi îi învăţăm să abordeze cetăţeni în mod aleator. Indiferent cîte ore ar sta operatorii noştrii în piaţă şi indiferent în ce zile ar sta acolo, recipientul acesta nu va conţine toată populaţia Timişorii în nici un caz. Mai mult, cei ce trec prin piaţă vor fi probabil persoane care au anumite caracteristici diferite de cei ce nu trec. E probabil, de exemplu, să fie în special persoane care nu sunt angajate în muncă: studenţi, elevi, pensionari, amatori de fotbal, actori şi statisticieni. Pur şi simplu, faptul de a trece în Timişoara prin Piaţa Operei e deja un anumit mod de comportament şi ar putea influenţa şi alte comportamente şi opţiuni ale celor aleşi să răspundă la chestionar. Un astfel de eşantion nu va fi reprezentativ pentru întreaga populaţie a oraşului. Oala e pur şi simplu prea mică. Pe de altă parte, nu ştiu dacă clientul cuiva ar fi mulţumit cu aserţiuni de genul: “o treime din cei ce trec prin Piaţa Operei ziua în amiaza mare ar cumpăra detergentul ...”. Bun, e preferabil deci să alegem altă oală. O opţiune care se oferă este cartea de telefon. Fie deci, cartea de telefon, oala din care se aleg la nimereală numere de telefon. Intervievarea prin telefon are şi avantajul de a fi rapidă şi confortabilă. Este însă oala asta destul de mare? Depinde. Practic punînd astfel problema redefinim populaţia de la “populaţia oraşului Timişoara” la “populaţia oraşului Timişoara abonată la Romtelecom”. Această populaţie poate fi o mai bună sau mai proastă aproximare a populaţiei iniţiale dar nu va fi în nici un caz o aproximare statistică pentru că apartenenţa la cea de a doua populaţie nu este una aleatoare faţă de prima populaţie. Mai simplu, populaţia celor care au telefon în Timişoara nu a fost aleasă în mod întîmplător din toată populaţia oraşului, persoanele cu pricina au avut de făcut paşi administrativi clari care au presupus un interes pentru a avea telefon, un anumit venit minim, poate chiar un efort logistic. Deci putem linistit presupune că cei ce au telefon sunt altfel decît cei ce nu au. Deci, cele două populaţii nu sunt interşanjabile. Posesorii de telefon vor avea probabil în medie un venit mai mare, vor fi localizaţi în anumite cartiere, etc. Totuşi, clientul nostru s-ar putea să fie mulţumit de rezultate obţinute pe populaţia restrînsă atît timp cît volumul ei este suficient de apropiat de volumul populaţiei iniţial considerate. La începutul anilor 1990 aş fi fost clar împotriva intervievării telefonice. Pe vremea respectivă foarte multe familii nu aveau telefon deşi ar fi dorit să aibă, iar cei ce aveau telefon aveau în mod clar caracteristici particulare, de obicei de natură profesională. Deşi aceasta poate să fie teoretic adevărat în continuare, deoarece numărul de abonamente telefonice în mediul urban se apropie foarte mult de numărul total de gospodării, redefinirea populaţiei nu este una care să deranjeze prea mult. Discrepanţa dintre mediul urban şi cel rural rămîne însă atît de mare încît
33
un sondaj pe o populaţie ce include şi mediul rural, ca de exemplu, populaţia unui judeţ, nu se poate în nici un caz efectua telefonic. O alternativă similară cu cartea de telefon dar, cel puţin teoretic mai bună este folosirea listelor de alegători. Din păcate, aşa cum s-a văzut la alegeri, migraţia populaţiei intern şi internaţional a făcut ca listele electorale să fie destul de greu practicabile, adresele de pe liste nepotrivindu-se adesea situaţiei din realitate. Apoi, obţinerea listelor electorale pentru o cercetare oarecare nu este ceva chiar aşa de uşor. Important de notat că listele cu toată populaţia, cum sunt listele electorale sau cărţile de telefon, se numesc cadre de eşantionare şi au marele avantaj de a uşura alegerea. Alegerea aleatoare, chiar matematic vorbind, dintrun cadru de eşantionare este posibilă. Să revenim însă la alegerea recipientului. Daca nici cadre de eşantionare bune nu sunt ce se poate face? Se poate, de fapt, defini oala astfel încît să cuprindă chiar pe toată lumea? Probabil nu. Aproximaţia cea mai bună este de a considera oraşul, judeţul sau ţara în distribuţia ei teritorială ca fiind chiar oala şi a alegere de aici pe baza adreselor gospodăriilor. Alegerea unei adrese va fi de fapt o metaforică extragere din urnă. Evident, nici aşa nu avem chiar urna teoretică în care se află toate bilele. Lipsesc cei ce nu se află la domiciliul stabil sau nu au un domiciliu stabil, fie ei nomazi prin modul lor de viaţă, plecaţi în concedii sau la muncă în străinătate. Aşa cum ştim, în cazul Romaniei de astăzi numărul acestora este important şi redefinirea populaţiei este esenţială în acest caz, dar de obicei ea este întru totul acceptabilă. “Oala” geografică va însemna parcurgerea oraşului pe baza unui itinerariu. Operatorul va parcurge străzile - locuinţele şi va alege - extrage dintre ele. Bineînţeles, din motive practice va trebui ales un punct de unde porneşte operatorul în itinerariul lui. Pentru că se lucrează cu mai mulţi operatori şi pentru că există prejudecata cum că o distribuţie geografică uniformă ar înbunătăţi relevanţa sondajului, se aleg de obicei puncte de pornire pe cartiere. Ideal ar fi ca aceste puncte să fie alese chiar aleator, de exemplu aruncînd cu un dart pe un plan al oraşului. Pe de altă parte, distribuţia uniformă a punctelor de pornire, deşi nu este justificată matematic elimina riscul ca doi operatori să ajungă la aceiaşi familie! Am văzut problemele legate de metaforica noastră urnă, să vedem cum arată alegerea din urnă, extragerea aleatoare. În forma teoretică atunci cînd experimentatorul bagă mîna în urnă el nu simte nici o diferenţă între bile. Toate sunt la fel, alegerea nu are loc pe baza unei caracteristici, tocmai prin aceasta este aleatoare. Bilele negre nu sunt mai calde decît cele 34
albe. Regula esenţială a alegerii aleatoare, se poate exprima astfel: fiecare membru al populaţiei trebuie să aibă aceiaşi şansă să fie ales în eşantion. Pare simplu, nu e. Numai dacă avem un cadru de eşantionare aceasta se poate face (aproape) perfect. Atunci un generator de numere aleatoare pe calculator ne poate alege un eşantion cît de mare vrem. Aceasta ar fi o eşantionare aleatoare perfectă. Mai există o variantă la fel de bună, dar mai puţin laborioasă. Dat fiind construcţia listelor, fie electorale, fie telefonice, care se face alfabetic, poziţia unei persoane în listă nu e legată de anumite caracteristici. De aceea se poate folosi o metodă mai simplă, aşa-zisa alegere pseudo-aleatoare. Se alege aleator atunci un prim nume. Apoi se aplică un pas de eşantionare. Acesta se calculează ca raport dintre volumul populaţiei şi volumul eşantionului. De exemplu, în Timişoara sunt aproximativ 140.000 de abonamente telefonice. Daca dorim un eşantion de 1000 de persoane, pasul de eşantionare va fi de 140. Punem în eşantion, de exemplu, primul număr telefonic din carte, apoi numărul al 141-lea, apoi al 281-lea, şi aşa mai departe. Şansa unui număr de a fi ales depinde de alegerea primului număr, aceste se alege din valori între 1 şi 140. Oricum toate numerele de telefon au aceiaşi şansă de a fi alese independent cui aparţin, şi în mod evident, ceea ce e cel mai important, nu contează nici un fel de caracteristici social-economice, etnice sau comportamentale ale celor aleşi. Să ne gîndim la varianta pe care am considerat-o cea mai bună pentru alegerea “urnei”, anume parcurgerea geografică a localităţii. În acest caz avantajul de a lucra cu situaţia reală a adreselor este şi motivul principalului dezavantaj. Anume, nu există un cadru de eşantionare ceea ce face alegerea simplă aleatoare sau pseudo-aleatoare imposibilă. Cum alegem locuinţele ca să dăm tuturor aceiaşi şansă, şi o dată aleasă o locuinţă cum dăm tuturor locatarilor aceiaşi şansă? Esenţial este desigur ca alegerea să nu fie influenţată de calităţi ale locuirii şi persoanelor. Adică, casele mai drăguţe să nu fie favorizate faţă de cele mai neîntreţinute, persoanele mai primitoare faţă de cele mai puţin primitoare, eventual chiar unele etnii faţă de altele! Metoda care se foloseşte este construirea unui itinerariu-algoritm. E ca şi cum am face o alegere pseudo-aleatoare în care pasul de eşantionare nu mai e un număr de rînduri pe o foaie de carte de telefon ci un număr de case pe o stradă sau un număr de locuinţe într-un bloc. Ce contează este ca metoda să includă toate cazurile posibile astfel încît argumente care ţin într-adevăr de condiţiile de locuire să nu conteze. Cel mai rău este ca operatorul să aleagă după argumente de genul: “s-a terminat strada, acum pot să o iau la stînga sau la dreapta, dar la stînga e noroi!”. Poate părea nesemnificativ, dar prin repetare, dacă astfel de alegeri sunt posibile ele pot duce la un caracter nealeatoriu al eşantionului şi la 35
situaţia în care apartenenţa la o categorie social-economică dezavantajată să scadă probabilitatea de a face parte din eşantion. Apoi mai există o situaţie asemănătoare de defazare a eşantionului care e foarte periculoasă. Aceasta este cunoscută ca autoselecţie. Evident, dacă numai cei ce se autopropun, răspund la un chestionar, cum e de exemplu, cazul chestionarelor ce apar în reviste, eşantionul nu are nici o relevanţă statistică. Am văzut că aşa au dat greş sondajele din revista americana “Literary Digest” puse faţă în faţă cu metoda lui Gallup care presupune alegerea aleatoare. Există însă o situaţie perversă în care o aproape similară, chiar dacă ceva mai benignă, autoselecţie apare ca efect pervers al unei eşantionări şi selecţii cît se poate de corecte. Astfel, dacă numărul celor ce refuză să răspundă la chestionar e foarte mare, cei ce acceptă pot fi consideraţi a fi (aproape) autoselectaţi. E clar că aici rolul operatorului este esenţial, el/ea trebuie să fie potrivit de politicos-insistent astfel încît cel intervievat să trebuiască să ia evident o decizie pentru a refuza şi varianta implicită, lipsită de efortul de a decide, să fie aceea de a răspunde. Din păcate nu avem o metodă mai bună de a reduce ponderea refuzului de a răspunde la chestionare. În anii de imediat după 1990 ponderea celor care refuzau interviurile operatorilor de sondaj era foarte mică. Această pondere a crescut destul de mult devenind în multe cazuri semnificativă. Cîteva reguli simple reduc totuşi puţin ponderea nonrăspunsurilor. Operatorul de interviu trebuie să înceapă prin a se prezenta cît mai clar şi trebuie să se refere fie la institutul care efectuează sondajul, fie la clientul sondajului. Esenţial este ca potenţialul intervievat să priceapă cît de repede despre ce e vorba, adică să nu creadă că operatorul vrea să-i vîndă sau să-i ceară ceva. Apoi el trebuie să se simtă valorizat pentru faptul că părerea lui contează, respectiv că a fost ales să-şi spună părerea. 2. Eşantionarea stratificată Stratificarea este o variantă de înbunătăţire a eşantionării luînd în seamă caracteristici ale populaţiei care sunt de tip categorial. Matematic nu se poate calcula cu cît e mai bună o astfel de eşantionare faţă de una simplă aleatoare, şi nici măcar dacă e mai bună. Ea are totuşi avantajul de a ne asigura posibilitatea unor teste statistice care pot fi importante în cercetare. Aici însă trebuie să expun întîi metoda pentru a fi mai explicit. Orice populaţie se poate împărţi în categorii diferite. Genuri, religii, zone de rezidenţă, tipuri de locuire, etc. Unele dintre acestea sunt cunoscute la nivelul populaţiei din date statistice 36
oficiale. De exemplu, dacă avem de făcut un sondaj într-un anume judeţ putem afla din anuarul statistic cîţi locuitori sînt în mediul urban şi cîţi în mediul rural, cîţi în oraşul reşedinţă de judeţ, cîţi în alte oraşe. Mai mult, unele din aceste categorii se pot cunoaşte chiar înainte de intervievare, se pot lua în seamă în eşantionare şi selecţie. Astfel prin simple proporţii se pot calcula eşantioane stratificat. Un exemplu simplu pentru judeţul Timiş ar fi următorul. În tabel am trecut populaţia totală urbană şi rurală din 2006 conform Institutului National de Statistică. Am calculat apoi procentele faţă de totalul populaţional al judeţului şi, în fine cîte chestionare dintr-un total de 1000 ar trebui aplicate în mediul rural şi cîte în mediul urban pentru a păstra volumele straturilor. Număr locuitori
Procent
Număr chestionare
Urban
414.680
62,9%
629
Rural
244.619
37,1/
371
Total
659.299
100%
1000
Această metodă este folosită cel mai adesea pentru a crea eşantioane pentru o populaţie mare şi distribuită, cum ar fi populaţia unei ţări, de obicei eşantionarea nu este doar stratificată ci şi multistadială. Aceasta presupune mai mulţi paşi de stratificare şi alegere aleatoare. Cel mai simplu ar fi să vedem cum se face aceasta pentru o populaţie cum ar fi cea a Romaniei. Primul pas, sau primul stadiu, este împărţirea după tehnica stratificării pe care am văzut-o mai înainte a eşantionului în funcţii de regiuni de dezvoltare. Romania este împărţită, mai mult sau mai puţin administrativ în opt astfel de regiuni de dezvoltare. Ele nu sunt propriu-zis unităţi administrativ-teritoriale cum sunt judeţele, dar sunt suficient de bine particularizate socioeconomic. În mare, cele opt regiuni se potrivesc pe regiuni istorice ale Romaniei, deşi sunt criticate tocmai pentru că nu se potrivesc şi mai bine cu acestea. Oricum, ceea ce contează pentru statistician este faptul că regiunile de dezvoltare sunt folosite de Institutul National de Statistică ca unităţi de raportare. Adică, toate datele statistice teritoriale sunt disponibile şi la nivel de regiune. În plus, evident cele opt regiuni sunt mai potrivite ca straturi decît foarte multele judeţe ale ţării. Romania are 41 de judeţe. Dat fiind un eşantion obişnuit, care aşa cum ştim depăşeşte cu puţin 1000 de chestionare, numărul de chestionare care s-ar aplica într-un judeţ ar fi ilar de mic şi de greu de distribuit în consecinţă. Hai să fiu puţin mai explicit. 37
Împărţind chestionarele pe judeţe rezultă în medie vreo 25 de chestionare pe fiecare judeţ. Dacă luăm în seamă numai costurile de transport care apar împărţite pe fiecare chestionar e clar că merita căutată o metodă mai bună. Să vedem cum arată tabelul cu distribuţia chestionarelor după primul stadiu. Număr locuitori
Procent
Număr chestionare
Nord-Est
3.781.932
16,3%
163
Sud-Est
2.980.559
12,8%
128
Sud Muntenia
3.619.796
15,6%
156
Sud-Vest Oltenia
2.461.463
10,6%
106
Vest
2.198.504
9,5%
95
Nord-Vest
2.983.614
12,9%
129
Centru
2.860.490
12,3%
123
Bucureşti Ilfov
2.325.037
10,0%
100
Total
23.211.395
100%
1000
Al doilea stadiu este, de obicei, distribuirea pe medii de reşedinţă. Aceasta se poate face pe o simplă împărţire rural – urban, cum am văzut deja în exemplul precedent, sau pe o ceva mai complexă împărţire în trei zone, rural – localităţi urbane mici (sub 100.000 de locuitori) – localităţi urbane mare. Aceasta este împărţirea pe care o folosesc majoritatea institutelor de sondare a opiniei publice de pe la noi. Împărţirea aceasta duce în fine la o distribuţie a chestionarelor prin care se află cîte chestionare trebuie făcute pe fiecare regiune şi fiecare tip de localitate. Atunci apare primul pas de selecţie aleatoare, dintr-o listă de localităţi pe regiuni şi tipuri de localităţi se aleg, în mod teoretic aleator, localităţi care le vor reprezenta pe toate celelalte din aceiaşi regiune şi acelaşi tip. Deci, ar trebui alese măcar o localitate urbană mare, una mică şi o localitate rurală pentru fiecare regiune. În realitate se aleg de obicei mai multe localităţi din cîte o categorie, aşa cum vom vedea şi din exemplul următor. Să dezvoltăm o regiune oarecare, de exemplu regiunea Nord-Est în forma mai simplă a distribuţiei rural - urban.
Rural
Număr locuitori
Procent
Număr chestionare
2.105.562
56,4%
92
38
Urban
1.629.384
43,6%
71
Total
3.734.946
100%
163
Deci vor trebui aplicate 71 de chestionare în oraşe din regiunea Nord-Est şi 92 chestionare în sate şi comune din regiune. Cel mai probabil se vor alege din listele de localităţi două oraşe şi trei sau patru comune pentru intervievare, dar numărul localităţilor alese este de fapt la latitudinea celui care organizează sondajul şi are cel mai adesea motivaţii legate de costuri. Desigur pentru a fi statistic în regulă alegerea localităţilor trebuie să fie aleatoare, sau măcar independentă de consideraţii legate de caracteristici socio-economice ale localităţilor. De obicei aici se opreşte stadializare unei astfel de eşantionări. Numai dacă numărul de chestionare este mai mare se mai poate merge un pas mai departe şi se mai pot împărţi în continuare localităţile în categorii, de exemplu localităţi de şes vs. de deal, etc. La finalul metodei stratificate, fie ea multistadială sau nu, rămîne tot o alegere aleatoare a celor ce vor fi intervievaţi, fie cu ajutorul cărţii de telefon, a listelor electorale sau a itinerariului pe teren. De fapt, privind puţin în urmă alegerea punctelor de pornire a unei eşantionări pseudo-aleatoare cu itinerariu este tot un fel de eşantionare multistadială. Dacă numărul de chestionare pentru fiecare din aceste puncte se stabileşte luînd în seamă volumul populaţional al cartierului în cauză eşantionarea este chiar stratificată. Am spus pe undeva la începutul acestei secţiuni că, matematic vorbind eşantionarea stratificată nu este mai bună decît cea simplă aleatoare. Ea se foloseşte mai des însă pentru că are alte avantaje. Anume, un sondaj de opinie se face cel mai adesea pentru a testa ipoteze şi a descrie comportamente populaţionale. Ipotezele statistice de obicei compară comportamente şi opţiuni între subgrupuri din populaţie. Eşantionarea stratificată ne asigură că o parte din categorisile populaţiei se vor regăsi cu necesitate în eşantion. Astfel, suntem în acest caz siguri că vom putea compara regiunile între ele, zonele de reşedinţă, etc. Din motive similare de multe ori la selecţia partenerilor de interviu se verifică (statistic se spune că se controlează) şi distribuţia pe genuri. De obicei se face prin alternanţă simplă. Operatorului i se indică să intervieveze alternativ o femeie – un bărbat. Desigur, teoremele matematice pe care se bazează statistica ne promit că aceste distribuţii vor ieşi bine şi prin alegerea simplă aleatoare. Însă în condiţiile în care numărul chestionarelor nu este foarte mare, un control asupra anumitor variabile populaţionale ne poate asigura în faţa unor eventuale probleme. 39
O altă problemă care trebuie menţionată pe undeva şi care ţine în cele din urmă de eşantionare este alegerea unei ore cît mai potrivite pentru interviuri. Aici necazul este că o fereastră de timp prea mică, de exemplu între orele 18 – 20, deşi ar putea surprinde pe majoritatea celor aleşi pentru a fi intervievaţi disponibili, duce la prelungirea timpului afectat operării sondajului şi ca atare şi la creşterea costurilor. Una peste alta, în cazul intervievării la domiciliu se alege de obicei un interval orar între orele 16 şi 21. Vara se poate profita un pic mai mult deoarece pe lumină şansa ca operatorul să fie refuzat este ceva mai mică! Important pentru alegerea intervalului orar al chestionării este însă să nu faci gafe prea mari. Dacă de exemplu pornim prin sat duminică înainte de masă vom nimeri pe multă lume la biserică, iar cei pe care îi vom găsi acasă vor avea un alt profil comportamental şi valoric decît cei pe care nu îi găsim acasă. Aşa putem da peste cap o eşantionare altfel onorabilă. 3. Eşantionări ne-aleatoare Există şi metode de alegere a celor intervievaţi care nu au nimic de a face cu statistica. Ca atare, astfel de metode nu au o relevanţă matematică pe care să o putem calcula şi nu se bazează în vreun fel pe regulile statisticii. Totuşi se folosesc pentru că sunt simple, ieftine, pentru că uneori sunt inevitabile şi pentru că de multe ori aşa-zise sondaje nu sunt neapărat făcute de specialişti sau comandate de clienţi bine informaţi. Cea mai des folosită metodă de eşantionare ne-aleatoare este metoda de eşantionare pe cote. Aceasta seamănă cu metoda stratificată. Dacă însă la eşantionarea stratificată se determină un număr relativ mic de straturile în aşa fel încît să lase loc şi unei alegeri aleatoare, cotele se construiesc mai exact. Straturile de obicei se fac în aşa fel încît să nu includă caracteristici ale persoanelor intervievate. Cotele conţin tocmai astfel de caracteristici. De exemplu, din date statistice oficiale se deduce ponderea din populaţie pe grupe de vîrstă şi genuri şi se calculează, întocmai ca la eşantionarea stratificată, numărul de persoane de fiecare categorie care trebuie intervievat. Fiecare operator primeşte atunci un număr din chestionare şi o matrice de genul: Femei
Bărbaţi
18 – 35 ani
4 chestionare
5 chestionare
35 – 50 ani
5 chestionare
6 chestionare 40
50 – 65 ani
5 chestionare
4 chestionare
Peste 65 ani
4 chestionare
3 chestionare
De multe ori numărul de caracteristici cotate e chiar mai mare şi poate include întrebări filtru de genul “consumaţi bere?” sau “locuiţi în această localitate?”. Bineînţeles folosind eşantionarea pe cote nu se mai pot alege cei intervievaţi aleator, fie din cartea de telefon, lista electorală sau cu itinerariu, pentru că în nici care din aceste liste şi pseudo-liste persoanele nu apar cu specificarea unor caracteristici ale lor. Operatorul alege partenerii de interviu conform cotelor prin orice metodă doreşte, pe stradă, dintre vecini, şi aşa mai departe. Astfel nu se mai exclude nici auto-selecţia, nici subiectivitatea alegerii operatorului. O altă metodă de eşantionare ne-aleatoare este inevitabilă în cazul populaţiilor rare. Ea se numeşte metoda bulgărelui de zăpadă. Imaginaţi-vă că populaţia cercetată ar fi populaţia amatorilor de jazz sau a cetăţenilor italieni stabiliţi în Banat. Astfel de populaţii nu apar în listele electorale, nu sunt de discernut din cartea de telefon, iar folosirea itinerariului ar duce la atît de multe eşecuri încît ar dura şi costa enorm de mult. Nu poţi bate din uşă în uşă în căutarea iubitorilor de bonsai pînă aduni suficiente interviuri! Dacă nu poţi asimila un astfel de grup rar cu o asociaţie formală tot ce poţi face este să recunoşti faptul că persoane din astfel de grupuri sunt de obicei legate între ele în reţele sociale. Persoanele din grupuri rare se cunosc între ele. Aşa funcţionează metoda bulgărelui de zăpadă. Se porneşte de la un număr de persoane care aparţin populaţiei şi care au fost identificate în vreun mod oarecare. Apoi fiecare dintre acestea este rugată să specifice alte persoane din aceiaşi populaţie pe care le cunosc. Din aproape în aproape se poate ajunge la un număr rezonabil de mare de interviuri. Desigur relevanţa matematic-statistică a aceastei metode nu poate fi calculată. În fine, unele posturi de televiziune sau ziare folosesc termenul de sondaj de opinie pentru un număr oarecare de interviuri scurte efectuate cel mai adesea pe stradă. Aceasta nu este o eşantionare ne-aleatoare, pur şi simplu nu e nici un fel de eşantionare şi răspunsurile nu pot şi nu trebuie să fie considerate a fi vreun sondaj de vreun fel. 4. Chestionarul Ei, am ajuns faţă în faţă cu cel pe care dorim să-l intervievăm. Acum, ce? Acum chestionarul!
41
Spuneam că statistic vorbind fiecare din membrii populaţiei trebuie să aibă aceiaşi şansă să facă parte din eşantion. Tot atît de important, metoda de măsurare – chestionarul – trebuie să aibă un efect cît mai mic asupra opiniilor măsurate. Dacă eu vreau să cîntăresc ciobăneşti mioritici, şi aleg prin cea mai bună metodă posibilă un eşantion, iar apoi înainte de a-i cîntări, îi tund pe căţeii din eşantion ca să fie mai drăguţi, nu prea am gîndit bine. Toţi membrii eşantionului vor avea o greutate mai mică prin pierderea de blană ce le-am cauzat-o. Greutatea lor nu va mai putea fi generalizată la nivelul populaţiei din care au fost aleşi. Exemplul pare extrem, dar în realitate interviul în sine şi felul cum este construit chestionarul nu au cum să nu îi diferenţieze pe cei intervievaţi de cei ce nu sînt intervievaţi. Dacă dorim să putem generaliza rezultatele trebuie să ne străduim să scriem chestionare care să influenţeze cît mai puţin răspunsurile celor chestionaţi. Această carte nu are scopul de aprofunda nici teoretic, nici aplicativ scrierea de chestionare. Şi totuşi, este cît se poate de important să nu se neglijeze partea aceasta a designului unei cercetări. Degeaba am folosi cele mai moderne metode de cercetare şi am proceda cu maximă precauţie la interpretarea rezultatelor, daca chestionarul e prost conceput, prost va fi şi rezultatul. Există multe capcane în scrierea unui chestionar, unele pot fi folosite chiar şi intenţionat. Avantajul de a scrie o carte este că te poţi erija în înţelept şi da sfaturi. Avantajul de a o citi este că poţi sări pasajele de genul acesta. Deci, atenţie, urmează sfaturi bine intenţionate! 1. Cele mai grave denaturări ale rezultatelor se obţin prin ceea ce în engleză se numesc “leading questions”. Sunt întrebări care forţează un anumit răspuns sau măcar favorizează un anumit răspuns. Întrebări de acest gen leagă de obicei unul dintre răspunsurile posibile de un concept foarte indezirabil sau, mai puţin eficient, de unul foarte dezirabil. Pentru a construi astfel de întrebări se folosesc construcţii discursive puternic încărcate valoric negativ sau pozitiv. O întrebare pusă pare-se într-un sondaj efectuat în oraşul Cluj suna astfel “Sînteţi de acord cu reînfiinţarea în oraşul nostru a universităţii de limbă maghiară care a existat in perioada Horthistă?”. În întrebare se face legătura dintre universitatea de limbă maghiară şi fascismul maghiar forţîndu-se astfel un răspuns negativ. Se crează chiar senzaţia că a susţine reînfiinţarea universităţii de limbă maghiară ar fi o formă de a susţine sau chiar a readuce Horthismul. Sigur astfel de întrebări nu prea se pun din greşeală. Se poate însă întîmpla şi aşa ceva. De exemplu, se poate întreba cu mai mult sau mai puţină candoare: “Consideraţi că ar trebui pedepsite crimele comunismului?”. În formularea 42
aceasta apare perechea de cuvinte “crimă” şi “pedeapsă”. Un răspuns negativ dat acestei asocieri devine aproape imposibil, astfel încît din întrebare nu aflăm cu adevărat mai nimic despre opinia celui întrebat faţă de crimele comunismului. O altă formă de creştere a probabilităţii unui anumit răspuns se poate obţine prin adăugarea unei propoziţii explicative înaintea întrebării, propoziţie care să favorizeze anumite interpretări. 2. Uneori, ce e drept destul de rar, se întîlnesc şi întrebări la care lista de răspunsuri permite numai anumite aprecieri, sau scade posibilitatea unor opinii prin trecerea lor implicită la categoria altele. Iată un frumos exemplu cules de mine de curînd: “Ce părere aveti despre MBA-ul AMERICAN al UNIVERSITATII DESALES2? 1. Excelentă ! 2. Foarte bine - dar e prea scump 3. Bună - păcat că e doar în limba engleză 4. E un lucru bun dar nu mă interesează acum 5. Nu mă interesează subiectul” Evident scala nu este numai incompletă ci şi tendenţioasă. Nu există nici o variantă de răspuns negativă! Dacă cumva te interesează subiectul părerea pe care o poţi avea poate fi numai de la bine în sus. 3. O altă formă de denaturare a răspunsurilor se poate obţine prin formularea prea pretenţioasă a întrebării sau a posibilelor răspunsuri. Aceasta are efectele cele mai devastatoare în cazul în care completarea chestionarului se face prin interviu cu un operator. În caz de autoadministrare şansele ca cel ce completează chestionarul să sară peste întrebările pe care nu le înţelege sau la care nu ştie să răspundă sunt mai mari. Dacă însă este întrebat de către un operator, cel chestionat tinde să prefere să dea un răspuns oarecare decît să-şi recunoască lacuna de înţelegere. În special bărbaţii se simt obligaţi să răspundă ceva. Există şi un nume pentru treaba asta, se numeşte “sindromul răspunsului masculin” (male answer syndrom) şi termenul se pare că a fost folosit prima dată în 1986 de către Sam Hunt într-o caricatură. Fapt este că atît eu cît şi mulţi alţii ne-am lovit de această problemă şi de preponderenţa masculină a celor care răspund fără să înţeleagă întrebarea. Problema poate să apară la formularea întrebării, ca de exemplu: “în ce măsură vă afectează personal implementarea aquis-ului comunitar?”. Pot apărea însă astfel de probleme şi la conţinutul întrebării. Am văzut un chestionar, de exemplu, care fusese aplicat unui eşantion al populaţiei unui judeţ întreg şi conţinea întrebarea: “Ce tip de balet 2
Majusculele şi semnele de punctuaţie apar astfel în original.
43
preferaţi? 1. clasic, 2. modern, 3. contemporan, etc.”. Cred că este cît se poate de evident că ponderea celor care au într-adevăr preferinţe formate la acest nivel este neglijabil de mică, majoritatea celor chestionaţi neavînd nu numai preferinţe dar nici măcar o imagine foarte clară a acestor diferenţe. Bineînţeles răspunsuri se găsesc, ce înseamnă însă ele nu prea se poate spune. Probabil interpretarea cea mai rezonabilă este că s-a obţinut un fel de preferinţă generală a conceptelor de clasic, modern şi contemporan, independent de felul cum arată baletul cu pricina. 4. Problemele din punctele precedente par a fi destul de uşor de evitat. Există însă şi situaţii mai complicate. Una dintre acestea este efectul de serie ce se crează cînd apar una după alta mai multe întrebări de acelaşi tip, cu aceleaşi posibilităţi de răspuns. O serie de acest tip ar putea avea forma: “ce părere aveţi despre? (foarte bună, bună, nici bună nici proastă, proastă, foarte proastă)” urmată de o listă lungă de politicieni sau instituţii. Dacă intervievatul nu are o opinie foarte bine conturată el va tinde să repete acelaşi răspuns, cel puţin de la un moment încolo. Aici efectul e mai prezent la autoadministrare şi se poate evita cît de cît la interviul cu operator recitind întreaga întrebare “ce părere aveţi despre A?” “ce părere aveţi despre B?” şi aşa mai departe. 5. O altă problemă, tot legată într-un fel de liste, apare cînd o întrebare are un număr mare de răspunsuri posibile. Parcurgerea sau audierea acestora poate fi greoaie, astfel primele răspunsuri din listă fiind alese preferenţial. La intervievare orală este de preferat să nu se citească de loc lista de răspunsuri şi operatorul să aleagă ulterior din listă pe baza răspunsului spontan al celui intervievat. 6. Listele de răspunsuri care se citesc mai pun o problemă. Ele trebuie să fie complete, adică să poată acomoda toate opiniile posibile. Soluţia confortabilă de a adăuga întotdeuna şi un caz “altceva” sau “altfel” pe cît este de necesară pe atît este uneori de insuficientă. Alternative care ar aduna un număr considerabil de opţiuni vor fi menţionate mult mai rar dacă rămîn în categoria “altceva”. Problema listelor de răspunsuri este deci una de echilibrare. Prea puţine variante de răspuns nu recunosc bine opiniile, prea multe de asemenea, iar lipsa lor totală poate face ca răspunsurile să fie de a dreptul incomensurabile şi foarte greu analizabile. 7. În fine, mai vreau să atrag atenţia asupra problemei estimărilor. Foarte des în chestionare i se cere celui intervievat să estimeze cantităţi de consum sau valori. “cît cheltuiţi lunar pentru produse nealimentare?”, “cîte ore pe săptămînă vă uitaţi la televizor la un anumit program?”, etc. Unele din aceste întrebări pot părea acceptabile, la altele nimeni nu poate estima răspunsul în mod cît de cît corect. Cei ce construiesc astfel de întrebări, fie nu îşi 44
dau seama de imposibilitatea estimărilor de acest gen, fie mizează pe o echilibrarea a răspunsurilor prin efectul de masă. Ei gîndesc cam în genul următor, sigur e greu să te apropii mult de valoarea reală, dar unii spun mai mult, alţii mai puţin şi iese cam ce trebuie. Ei bine, nu există nici un motiv statistic să iasă cam ce trebuie. Mai mult, este foarte posibil, dar de nedovedit, că tocmai anumite categorii, de exemplu cei cu venituri mai mari, să-şi exagereze estimările iar alţii să subestimeze valorile. Un test statistic care nimereşte peste caracteristici cu efect asupra direcţiei de denaturare a estimării va fi în acest caz total eronat şi nu avem nici un mod de recunoaşte aceasta. Cel mai bine este să acceptăm faptul că punem întrebări la care intervievaţii chiar pot răspunde corect în măsura propriei lor conştiinţe. 8. Există şi alte capcane ale chestionarelor. Regula cea mai bună este pînă la urmă verificarea chestionarului prin administrarea explorativă pe un număr de persoane, rude, prieteni, studenţi. Şi nu uitaţi, puneţi întrebări la care voi înşivă aţi fi în stare să răspundeţi. Din toate cîte le-am enumerat mai sus cred că s-a putut deduce că un chestionar care nu influenţează de loc intervievatul nu e posibil. Tot ce rămîne de făcut este să scriem chestionare care impun cît mai puţin intervievaţilor şi lasă părerile acestora să transpară. Asta bineînţeles dacă dorim cu adevărat să aflăm ceva despre opiniile celor chestionaţi. În fine, încă un sfat legat de scrierea de chestionare. Ordinea întrebărilor din chestionar trebuie de asemenea gîndită. Principalul argument ţine aici de oboseala intervievatului. De obicei la primele întrebări se răspunde cu ceva mai mare atenţie, pe măsură ce trece timpul răspunsurile devin din ce în ce mai automate. De aceea e de obicei preferabil să se înceapă cu întrebările mai grele, care necesită o atenţie mai mare la formulare. La sfîrşit se lasă întrebările care culeg aşa-zisele variabile independente. Acestea sunt informaţii care ţin de obicei de statutul socio-economic al celor intervievaţi (se şi numesc adesea variabile SES, după prescurtarea de la englezescul Socio-Economical Status) şi includ vîrsta, ocupaţia, statutul marital şi alte întrebări la care chiar răspunsuri date neatent sunt de regulă corecte. 5. Aplicarea chestionarului Am văzut din sfaturile de mai sus şi faptul că alegerea unui anumit mod de aplicare a chestionarului are repercursiuni asupra completării lui, asupra răspunsurilor pe care le primim. 45
Însăşi cercetarea sociologică are repercursiuni. Comportamentul diferit al subiectului cercetării ca urmare al activităţii de cercetare la care e supus a fost numit efect Hawthorne. Efectul îşi are numele de la legendarele studii Hawthorne conduse de sociologul şi psihologul american Elton Mayo (1880 - 1949) la fabrica Hawthorne a Western Electric Company, undeva pe lîngă Chicago, în anii dintre 1924 şi 1932. Mayo care s-a ocupat în special de cercetări industriale a vrut să studieze efectul schimbărilor de la locul de muncă asupra productivităţii muncii. De exemplu, a schimbărilor legate de iluminat. Printre altele, a observat cu această ocazie o înbunătăţire iniţială a productivităţii muncii independent ce schimbare se făcea. După o vreme productivitatea scădea din nou la valoarea de bază. Mayo a ajuns la concluzia că anumite modificări comportamentale tranzitorii au loc pur şi simplu din cauza experimentului şi nu a condiţiilor modificate. Astfel productivitatea a crescut atît cînd a crescut iluminatul din hală cît şi cînd a scăzut iluminatul, şi aşa mai departe. Oamenii tind să se comporte altfel dacă sunt observaţi. Această observaţie poate destul de banală este de o importanţă foarte mare în tehnica sondajului de opinie. Aşa cum am mai spus, pune sub semnul întrebării însăşi logica generalizării statistice pentru că cei ce au fost aleşi pentru a face parte din eşantion se vor comporta diferit, vor da poate răspunsuri diferite tocmai pentru că fac parte din eşantion. E chiar posibil ca opinia lor să fie sincer şi remanent modificată prin chestionare şi răspunsurile corecte şi sincere pe care le dă să nu mai fie astfel generalizabile. Este însă posibil ca din motive legate de felul cum cel intervievat percepe dezirabilitatea socială să-şi schimbe răspunsurile. Adică să considere că deşi el personal ar avea o părere mai degrabă proastă despre o anumită persoană mult lăudată (ştiu eu, de exemplu Corneliu Coposu sau Papa Ioan Paul al II-lea, sau cine ştie cine) să prefere un răspuns neutru sau chiar moderat pozitiv pentru a fi în ton cu discursul public. Efectul aplicării chestionarului poate fi mai mare sau mai mic, dar nu poate fi exclus cu totul. Să începem cu diferenţa esenţială. Chestionările pot fi auto-aplicate sau realizate prin interviu cu operator. Cum am văzut cea de a doua variantă are o serie de avantaje legate de designul chestionarului. De asemenea, garantează un număr mai mic de chestionare nereturnate sau necompletate şi poate ajuta în condiţii ideale şi la o mai bună înţelegere a chestionarului. Pe de altă parte efectele legate de aplicarea chestionarului sunt mai mari în cazul prezenţei unui operator decît în cazul auto-aplicării. Să vedem totuşi cum pot fi ele atenuate. În primul rînd mediul în care are loc chestionarea este bine să fie cît mai familiar celui chestionat. Ideal este deci să fie intervievat sau să 46
completeze chestionarul acasă. Cel mai rău este dacă e intervievat sau pus să completeze chestionarul undeva unde nu se simte la locul lui, unde se consideră în inferioritate şi este ca atare tentat să se adapteze situaţiei, de exemplu, într-o instituţie publică, într-un spital, etc. în cazul interviurilor cu operator este importantă şi relaţia spontană ce se crează cu acesta. Există adesea, în special la persoane în vîrstă confruntate cu operatori tineri, o tendinţă de simpatie. Combinînd aceasta cu lipsa unor opinii ferme pe anumite teme se poate uşor ajunge la răspunsuri de complezenţă, care au în substrat dorinţa de a fi în acord cu operatorul sau de face o impresie pozitivă. Efecte similare apar şi atunci cînd cel intervievat se simte în inferioritate evidentă faţă de operator din punct de vedere al educaţiei sau veniturilor. În special femeile sunt tentate să caute răspunsuri adecvate opiniilor pe care le proiectează asupra celor ce le intervievează. Apoi mai apare uneori şi o dorinţă de “a ieşi bine”, de a da răspunsul corect sau adecvat. Operatorul ideal este deci un fel de roboţel, nici prea antipatic ca să nu fie refuzat, nici prea simpatic ca să nu denatureze răspunsurile, şi în plus total lipsit de părere proprie în felul cum citeşte întrebările, dă din cap sau zîmbeşte la răspunsuri. Unii preferă operatorii empatici, care aprobă opiniile celui intervievat, alţii operatori inerţi. Fapt este că operatorii empatici pot crea o anumită dezinhibare care facilitează sinceritatea intervievatului. Capitolul acesta rămîne dator cu o importantă parte calculatorie. Aşa cum am pomenit de mai multe ori pentru sondajele efectuate cu eşantionare statistică aleatoare se poate calcula o aşazisă marjă de eroare, adică o eroare acceptabilă a estimărilor statistice. Pentru a putea prezenta modul de calcul al acestei marje de eroare este însă necesară o prezentare mai amănunţită a distribuţiei normale. În fine, însăşi calculul marjei de eroare este legat de testul t pe care îl vom prezenta în prima parte a capitolului 5 al acestei cărţi împreună cu distribuţia normală. Am decis să grupez elementele mai matematizate separat de cele discursive pentru a facilita o parcurgere graduală a materialului şi reduce riscul abandonului lecturii de către cei care resimt un disconfort la prima întîlnire a unei formule matematice. Sper să fi reuşit măcar în parte.
47
Capitolul 4. Aperitive. Primii paşi în descrierea datelor statistice În precedentele două capitole am văzut ce tipuri de date foloseşte statistica şi cum le adună. În acest capitol voi prezenta cele mai simple şi des folosite metode de reprezentare a datelor. Indiferent cit de departe s-ar merge cu analiza datelor şi cît de sofisticate ar fi metodele folosite în cele din urmă, o analiză exploratorie a datelor se face întotdeuna. În acest capitol vom vedea cum punem prima dată mîna pe un set de date, cum ne apropiem de el, cum îl facem inteligibil. Seturile de date culese prin sondaj sau referendum fie că le-am produs noi înşine, le-am preluat de la instituţii oficiale sau de la alţi cercetători se pot înţelege şi uneori chiar vizualiza sub forma unor tabele. Fiecare linie corespunde de obicei unui individ şi fiecare coloană unei variabile. Uneori chiar se culeg datele pe teren folosind astfel de tabele numite fişe de răspuns. Pe de altă parte, toate programele pe calculator care lucrează cu date statistice le reprezintă sub această formă, fie că e vorba de Excel, folosit uneori şi pentru prelucrări statistice primare, fie că e vorba de soft-uri specializate ca SPSS, Stata, Statistica, Gauss sau altele. În imaginea de mai jos se vede un fragment al unui set de date în Stata.
48
O astfel de tabelă are în mod curent peste 1000 de linii şi zeci sau chiar sute de coloane. Afişarea în sine a tabelei nu permite ca atare o citire prea facilă şi nu prea poate duce la vreun fel de consideraţii inteligente. E pur şi simplu prea mare, plină de cifre şi lipsită de sensuri. Deci, ce facem? a. Imagini de ansamblu asupra datelor. Frecvenţe şi reprezentări grafice. Prima idee este de a prezenta în vreun mod simplu şi concis cîte o variabilă, adică o coloană a tabelei de date. Să presupunem că respectiva coloană conţine răspunsuri legate de frecvenţa gătitului în familiile din Baia Mare3. 1051 de intervievaţi au răspuns la întrebarea: “Cît de des se găteşte la dumneavoastră în familie?”. Răspunsurile posibile au fost “zilnic”, “de mai multe ori pe 3
Valorile sunt reale şi provin dintr-un sondaj efectuat în 2003. Populaţia a fost populaţia oraşului Baia Mare, eşantionarea a fost multistadială aleatoare cu itinerariu cu luarea în considerare a cartierului de reşedinţă, densitatea de locuire a acestuia si a genului intervievatului. Interviurile s-au efectuat la domiciliul subiecţilor între orele 16 şi 21 asigurîndu-se prezenţa majorităţii celor angajaţi în cîmpul muncii.
49
săptămînă”, “săptămînal” şi “mai rar”. Tabelul cu rezultate ar avea 1051 de linii şi nu da o imagine prea clară asupra distribuţiei datelor. Modul de a reprezenta inteligibil şi scurt valorile ar fi să număr apariţiile fiecărei valori şi să le prezint sintetic aşa cum apar în tabelul de mai jos. Numărul de apariţii ale unei anumite valori se numeşte frecvenţă. De aceia un astfel de tabel se numeşte de obicei tabel de frecvenţe sau uneori tabel de frecvenţe simple pentru că se referă la o singură variabilă.
Valoare
Frecvenţă
Procent
Procent cumulat
Zilnic
547
52,0%
52,0%
de mai multe ori pe săptămînă
476
45,3%
97,3%
Săptămînal
26
2,5%
99,8%
mai rar
2
0,2%
100,0%
Total
1051
100%
Cum interpretăm, sau mai exact cum citim o astfel de tabelă? Să observăm întîi că variabila în cauză este ordinală, chiar dacă forma ei are un caracter total nenumeric există o ordine bine definită. Prima coloană de valori numerice, sub titlul de frecvenţă prezintă numărul de persoane intervievate care au ales acest răspuns, a doua coloană ne dă ponderea procentuală a răspunsului iar a treia cumulează acest procentaj cu procentajele din categoriile cu valoare mai mică. Frecvenţa şi procentajul simplu se pot calcula pentru orice tip de variabilă, ele nu fac calcule cu variabila în sine ci cu frecvenţa ei de apariţie. Procentajul cumulat are sens numai la variabile care au o ordine definită, astfel un procentaj cumulat pentru variabile nominale, deşi poate fi calculat, are mai puţin sens. Ce aflăm din tabela de mai sus? În primul rînd faptul că răspunsurile s-au grupat în zona “cu gătit frecvent”. Peste jumătate din cei întrebaţi susţin că la ei în familie se găteşte zilnic. Numărul celor care susţin că la ei se găteşte mai rar decît săptămînal este foarte foarte mic, numai două persoane din eşantion au răspuns astfel. Observăm de asemenea că peste 97% dintre intervievaţi declară că la ei în familie se găteşte de mai multe ori pe săptămînă. Paragraful de mai sus este o simplă transcriere a principalelor rezultate ale tabelei de frecvenţe. Strategia ei este simplă şi se foloseşte des. Ea începe cu prezentarea valorii cel mai des întîlnite. În cazul nostru este valoarea “zilnic”, apoi se trece la valoarea cea mai rară. La 50
variabile ordinale se obişnuieşte eventual o prezentare a capetelor scalei. În cazul de mai sus este vorba despre aceleaşi valori. Apoi se prezintă rezultate cumulative, dacă au sens. O precuaţie mare trebuie avută la menţionarea valorilor numerice. Aici se poate induce în eroare destul de mult. Un obicei bun este de a nu se specifica valorile procentuale de după virgulă. După dorinţă se poate trunchia sau rotunji. Statistica este o estimare cu o anumită eroare. Prezentarea unor valori cu tot cu zecimale produce impresia unei exactităţi pe care nu o putem promite cu conştiinţa curată. O a două regulă legată de prezentarea procentajelor se referă la valorile rare. În cazul unor categorii cu număr mic de cazuri valorile procentuale pot induce în eroare. Aceasta se întîmplă în special atunci cînd procentajele se calculează pe volumuri populaţionale care oricum sunt mici. Deci, spuneţi numărul de cazuri şi nu procentajul aferent unei valori cand acest număr e mic. Ce înseamnă mic depinde de decizia fiecăruia dar este de bun simţ să considerăm o opţiune rară una care nu are mai mult de 10-15 cazuri. Pe de altă parte în general statistic se consideră un lot mic, un lot cu mai puţin de 30 de cazuri. Cum spuneam, conştiinţa fiecăruia şi particularităţile cercetării trebuie să decidă în cele din urmă. Tabelele de frecvenţe sunt adesea însoţite de grafice. O prezentare grafică este pentru mulţi cititori mai confortabilă, permite de obicei o înţelegere mai rapidă a unor trenduri sau distribuţii. Există însă multe feluri de prezentări grafice şi nu toate se potrivesc pentru orice situaţie. Graficele cele mai simple şi generale, valabile în aproape toate situaţiile sunt graficele cu bare. Ele pot fi folosite şi în cazul variabilelor nominale şi nici nu depind prea mult de numărul de valori pe care variabila le poate lua. Iata mai jos un exemplu pentru variabila prezentată deja.
51
60,0%
50,0%
Procent
40,0%
30,0% 52,05% 45,29%
20,0%
10,0%
2,47%
0,0% zilnic
de mai multe ori pe saptamana
saptamanal
0,19%
mai rar
27. Cat de des se gateste la dvs. in familie?
Dimensiunea barelor trebuie să fie proporţională cu valoarea variabilei. Iată un frumos exemplu din presă cum nu se face un grafic simplu:
În exemplu, valorile de pe bare nu au nici o legătură cu dimensiunea barelor. Exemplul cel mai flagrant este la graficul din mijloc: bara cu valoarea dată de 82 este mai mare decît cea cu valoarea 98, la rîndul ei mai mare decît cea de 108. Una peste alta trendul crescător este anulat, chiar inversat. Mai mult, bara cu salariul mediu din 1990, valoarea 153 USD este mult mai mare decît bara cu salariul mediu din 2005, valoare 257 USD. Exceptînd că datele nu prea au legătură cu cele oficiale, dimensiunea greşită a barelor crează impresia unui nivel salarial din 1990 neatins în prezent. Părea simplu de făcut un grafic cu bare. Uite că se poate da în bară şi aici. În graficele cu bare pot apărea valorile pe baza căruia a fost construit fie procentual fie ca şi frecvenţe. Dimensiunea barelor va fi desigur aceiaşi fie că s-a ales reprezentarea pe baza 52
valorilor absolute sau procentuale. Tot ce se schimbă este scala axei verticale. Forma şi culoarea barelor pot fi desigur diverse. Clar este că vizualizarea oferă un acces mai direct la informaţie şi permite aceasta şi unor cititori care preferă să nu aibă de a face cu valori numerice dacă nu este neapărat necesar. Pe lîngă graficele cu bare mai sunt şi alte variante care însă se potrivesc mai degrabă unor situaţii particulare. De exemplu, graficul de tip plăcintă (sau tort, cum preferaţi) prezintă valorile ca şi felii dintr-o arie de disc. Un asemenea grafic este deosebit de potrivit pentru reprezentarea procentajelor pentru că transmite bine faptul că valorile împart un tot, o populaţie, în categorii.
27. Cat de des se gateste la dvs. in familie? zilnic de mai multe ori pe saptamana
2,47%
saptamanal mai rar
45,29%
52,05%
Graficul plăcintă de mai sus într-adevăr ne dă o imagine mai clară cît de puţin reprezintă din ansamblu procentajul de 0,2% şi chiar cel de 2,5%. Un alt avantaj al graficului plăcintă este posibilitatea de evidenţiere a unei felii considerate importante. De exemplu:
53
27. Cat de des se gateste la dvs. in familie? zilnic
2,47%
de mai multe ori pe saptamana saptamanal
0,19%
45,29%
mai rar
52,05%
Pe de altă parte dacă variabila ar fi avut un număr mare de valori folosirea unei diagrame plăcită ar fi fost mai degrabă menită să inducă în eroare. Iată un exemplu comparativ cu un grafic cu bare şi unul plăcintă pentru o altă întrebare din acelaşi sondaj.
54
2. De unde va place cel mai mult sa va faceti cumparaturile?
30,0%
piata agroalimentara supermarket
Procent
butic Center
20,0%
chiosc magazin specializat centru comercial depozit en-gros Metro
10,0%
Hoffer Profi nu am loc preferat Mol moldova
0,0% va do ol at m er ef pr ol c M lo am nu i of Pr r fe of H os ro -gr et M it en ial z rc po me zat de co iali ru pec nt s ce in az ag m sc io ch r te en C t ra tic rke nta bu a e rm alim pe su gro a a at pi
2. De unde va place cel mai mult sa va faceti cumparaturile?
Graficul plăcită transmite poate o imagine de ansamblu interesantă dar nu prea poate fi citit atunci cînd sîntem interesaţi şi de opţiunile mai rare. O altă problemă a graficului plăcintă este că se pretează în special variabilelor nominale. Dacă în graficul cu bare, precum şi în alte forme de grafice o ordine a valorilor este vizibilă la un grafic plăcintă o astfel de ordine nu se percepe. Evident, în cazul variabilelor nominale nici nu ne dorim o asemenea ordine. Al treilea tip de grafic foarte răspîndit este graficul linie. Acesta seamănă cel mai mult cu graficele de funcţii matematice aşa cum se învaţă la şcoală. Crează deci senzaţia unei ordini a valorilor şi chiar unei continuităţi. Ca atare nu merge la variabile nominale în nici un caz, dar nu e de dorit nici la variabile ordinale. Este însă ideal pentru valori numerice fie ele intervalice, fie raţionale şi în special cînd numărul valorilor e mare. Ca în exemplul de mai jos.
55
40
valori absolute
30
20
10
0 83 80 77 75 73 71 69 67 65 63 61 59 57 55 53 51 49 47 45 43 41 39 37 35 33 31 29 27 25 23 21 19 17 7
59. Cati ani aveti?
Graficul reprezintă distribuţia pe vîrste a eşantionului din cercetarea din care am tot dat exemple în acest capitol. Pe axa orizontală se găsesc vîrstele celor ce au răspuns la întrebări, pe verticală e numărul persoanelor de o anumită vîrstă. Pe scurt deci: graficele cu bare merg în aproape orice situaţie, plăcintele sunt perfecte pentru variabile nominale şi în special dacă au un număr mic de valori, graficele linie se potrivesc la variabile raţionale şi intervalice şi în special dacă au un număr mare de valori. Pe lîngă aceste trei tipuri, care sunt într-adevăr cele mai răspîndite, există o serie de alte variante, grafice suprafaţă, diagrame de puncte, histograme, precum şi o serie întreagă de grafice care sunt legate de anumite prelucrări statistice cum ar fi graficele de regresie, de cluster, şi altele. Unele le vom pomeni la momentul oportun, altele nu. Încă un comentariu. Nu am pomenit de felul cum se pot analiza graficele, pur şi simplu pentru că părerea mea este că nu trebuie analizate graficele, ci datele care se află în spatele lor. Un grafic este o prezentare vizuală, desigur confortabilă şi deosebit de utilă, dar nu conţine mai mult decît tabelul pe baza căruia a fost creat. Poate însă induce în eroare mult mai mult. Luînd prea de bune ce vedem pe grafic putem să supraevaluăm, de exemplu, tendinţe care statistic nu sunt relevante. Un grafic simplu, precum cele din exemplele de mai sus nu spune cu nimic mai mult decît un tabel de frecvenţe. Totuşi privind graficul există o tentaţie de a spune, de a vedea mai mult. Aceasta este desigur benefică dacă ne ajută să alegem testele de care avem nevoie în continuare, dar total malefică dacă ne duce la concluzii fără să mai calculăm nici un 56
fel de teste, cum de altfel se mai întîmplă. Deci, precauţie şi sfatul meu este, prezentaţi graficele dar analizaţi rezultatele de calcul. Toate graficele din exemplele din această secţiune s-au referit la prezentarea unei singure variabile. Există desigur diferite moduri de a prezenta mai multe variabile pe acelaşi grafic. În capitolul 6. al acestei cărţi voi încerca să dau ceva amănunte despre cum se lucrează statistic cu relaţia dintre mai multe variabile. Voi începe cu tabelele de relaţionare care într-un fel sunt similare tabelelor de frecvenţe pentru cazul a două (sau arareori trei) variabile. Atunci voi prezenta şi graficele aferente acestor tabele, aşa cum acum am pus unele lîngă altele tabele de frecvenţe şi graficele simple în acest capitol. b. Indicatori agregaţi Indicatorii statistici agregaţi sunt valori calculate pe baza uneia sau mai multor variabile şi care ne oferă informaţii despre ansamblul valorilor variabilei sau despre valorile variabilei privite ca un grup de date. De obicei se identifică, mai mult sau mai puţin forţat, întreg domeniul statisticii descriptive cu indicatorii statistici. Care sînt însă aceşti indicatori? Vrînd, nevrînd fiecare dintre noi ne-am lovit de mediile aritmetice dacă nu şi de alţi indicatori. În secţiunea aceasta o să prezint indicatorii principali pentru analiza tendinţei centrale şi distribuirii datelor, apoi în capitolul 6. voi reveni la cîţiva indicatori care ne ajută să analizăm relaţia dintre mai multe variabile. I.
Tendinţa centrală.
Sub numele acesta un pic pretenţios se ascund diferite feluri de a calcula media unor variabile. Ca atare s-ar putea să fie aparent uşor de înţeles ce este tendinţa centrală a unei variabile, aşa cum desigur este uşor de înţeles şi de ce este ea atît de criticată ca şi mod de a descrie un grup de date. De aceea, cred că pot să scap fără să mai dau şi o definiţie. Principalul indicator pentru tendinţa centrală este media aritmetică simplă. Pe lîngă faptul că destul de rar calculul unei medii dă informaţii relevante despre o variabilă trebuie să menţionăm şi faptul că uneori calculul mediei este chiar greşit conceptual. Pentru corectitudine să prezentăm însă un exemplu şi, bineînţeles, prima formulă din această carte. 57
Să presupunem că am cules numărul de la pantofi a studentelor din seminarul nostru de statistică. Rezultatul ar putea fi sintetizat într-o tabelă în felul următor. Media = ( NumărAna + NumărIoana + NumărOana
Nume
Număr
Ana
37
+ NumărSimona + NumărOlivia +
Ioana
36
NumărAngela + NumărCarla +
Oana
38
NumărNadina ) / 8
Simona 38 Olivia
39
Angela
39
Carla
37
Nadina
39
Media
37,88
58
Media a fost calculată astfel: s-au adunat toate valorile din coloana Număr aferente numerelor de pantofi şi apoi suma s-a împărţit la numărul fetelor, adică la 8. Valoarea finală, care apare şi pe ultima linie a tabelei este media aritmetică a numerelor la pantofi a fetelor din grupa de seminar. Şi această medie este 37,88. Ne spune asta ceva? Sigur. Anume că media numerelor la pantofi ale fetelor din această grupă de seminar este 37,88. Ne poate spune mai mult decît atît? Nu, în nici un caz. Ne poate fi de vreun folos? Depinde. În general media unei variabile x se notează cu x¯, µ(x), µx sau cu E(x), unde E provine din engleză de la expectancy. De altfel, media se mai numeşte şi în limba romană uneori, aşteptare statistică. Originea acestei denumire vine de la media măsurătorilor repetate ale aceluiaşi reper. Media măsurătorilor reprezintă, statistic vorbind, apropierea cea mai bună de valoarea reală care se măsoară, de aceea media este valoarea “aşteptată” a măsurătorii. Calculul simplu al mediilor este arareori util în sine. Poate, de exemplu, dacă se face design-ul unui ascensor, o informaţie despre greutatea medie a unei persoane dintr-o anumită populaţie poate fi importantă pentru că ar sta la baza specificării numărului maxim de persoane care pot călătorii de o dată cu ascensorul. Pe de altă parte, media poate fi un bun indicator comparativ. De exemplu, dacă greutatea medie a unui student de la facultatea de litere e mai mică decît greutatea medie a unui student de la facultatea de mecanica (ceea ce este desigur adevărat!) această informaţie poate avea o anumită valoare în contextul unei cercetări. Aşa cum vom vedea există teste statistice care compară medii ale unor variabile pe eşantioane diferite pentru a avea indicii dacă populaţiile din care s-au ales aceste eşantioane diferă din prisma variabilelor studiate. Deci, media aritmetică poate fi o apropiere facilă, deşi superficială pentru a vedea dacă două, sau mai multe populaţii diferă. Să luăm de exemplu ipoteza următoare: “nu există diferenţe între studenţii de la mecanică şi cei de la litere.” Un test poate respinge această ipoteză dovedind că există o diferenţă de greutate medie relevantă între aceste două populaţii. Deci ceva diferenţe trebuie să existe între cele două populaţii. Pentru cei ce încă nu s-au prins, diferenţa de greutate vine din faptul că ponderea fetelor este incomparabil mai mare la facultatea de litere decît la facultatea de mecanică şi fetele sînt, în medie mai uşoare decît băieţii. Sigur, butada cu omul care stă cu un picior într-un lighean cu apă clocotită şi cu unul într-un lighean cu apă cu gheaţă dar în medie ar trebui să-i fie bine, este strict matematic corectă.
59
Totuşi, media este un indicator comparativ valoros tocmai pentru ca este simplu şi induce în eroare doar atunci cînd îi conferim un conţinut informaţional mai mare decît are. Cea mai mare problemă legată de medii este calculul acestora atunci cînd variabilele nu permit aceasta. Principial matematic este corect să calculăm medii atît pentru variabile raţionale cît şi pentru variabile intervalice. Astfel media greutăţii sau a înălţimii (care sunt variabile raţionale) sunt conceptual la fel de corecte ca şi media temperaturilor sau a orelor de deşteptare (care sunt variabile intervalice). În toate aceste cazuri media are sens pentru că calculul diferenţelor este consistent. Adică, dacă din 5 kg de orez vindem 3 kg ne rămîne la fel de mult ca atunci cînd vindem dintr-un stoc de 60 kg, 58 kg. Şi de asemenea dacă am dormit de la ora 5 dimineaţa pînă la ora 12 înainte de masă am dormit tot atîtea ore ca şi de la 10 seara pînă la 5 dimineaţa, atîta doar că poate sînt mai mahmur în primul caz. Deci sumele şi diferenţele precum şi împărţirea la scalar (adică la numere şi nu la variabile aleatoare) este consistentă atît pentru variabile raţionale cît şi pentru variabile intervalice. Pe de altă parte nimeni nu cred că intenţionează să calculeze media unor variabile nominale, chiar dacă ele au reprezentare numerică, cum sunt de exemplu numerele de pe tricourile unor jucatori de fotbal. Astfel de valori, deşi sunt formal numere, sunt esenţial nume date unor indivizi şi media lor nu are nici un sens. Greşeala care se face însă adesea este calculul mediilor unor variabile ordinale. Este o greşeală care este foarte adesea acceptată pentru că extinde de fapt calculul mediilor şcolare la cercetarea socială. Nici notele de la şcoală nu sunt mai mult decît variabile ordinale. Cum am mai spus, mulţi profesori ar accepta faptul că diferenţa dintre o notă de 7 şi una de 8 este mai mică decît diferenţa dintre un 4 şi un 5. Totuşi, suntem învăţaţi cu mediile şcolare şi nu ne punem problema unei posibile incorectitudini rezultate din procedura de mediere în sine. Mediile oricăror variabile ordinale sunt desigur similare ca şi relevanţă cu acest caz. Atunci, de ce să nu acceptăm astfel de calcule? Ei bine, departe de mine gîndul cum că o decizie asupra vieţii unui elev e mai puţin importantă decît o cercetare ştiinţifică. Este însă un fapt că medierea notelor este un fapt acceptat cu tot cu defectele pe care le are ca indicator pentru nivelul de pregătire a unui elev pe o durată mai mare de timp sau chiar pentru un grup de domenii ale cunoaşterii. Media şcolară greşeşte desigur atunci cînd aduce la egalitate o medie de 7 rezultată dintr-un 10 şi un 4 cu o medie care s-a obţinut dintr-un 8 şi un 6. Probabil mai greşeşte şi atunci cînd face media dintre note date de cadre didactice diferite. Ştim cu toţii că 60
anumiţi profesori înclină să dea note mai mici decît alţii. Astfel, pentru un 7 la un anumit profesor s-ar putea să fie necesare cunoştiinţe mai multe decît pentru aceiaşi notă la un alt profesor. Toate aceste consideraţii sunt cunoscute şi fac parte din bunul simţ comun pentru oricine a trecut prin învăţămînt. Nu este însă aşa în cazul unei cercetări sociale. Variabilele care se mediază acolo nu sunt atît de discutate ca şi notele noastre de la şcoală, ca să nu pomenesc de notele copiilor noştrii! Ca atare relaţiile care se maschează prin calcul nu sunt atît de evidente ca cele pe care le maschează media şcolară. Mai mult decît atît, relaţiile s-ar putea să nici nu fie cunoscute. Aceasta e suficient pentru ca în cazul mediilor variabilelor ordinale dintr-o cercetare statistică să fim cu adevărat induşi în eroare. Alţi indicatori ale tendinţei centrale sunt modul şi mediana. Modul unei variabile statistice este pur şi simplu valoarea care apare cel mai des printre datele culese. De exemplu, în exemplul de mai sus, numărul la pantof 39 apare de 3 ori, mai des decît oricare altă valoare. 39 va fi deci modul sau, cum se mai spune “modul distribuţiei”. Determinarea modului nu presupune nici un calcul, ba mai mult nici măcar o ordine a valorilor. Se poate deci stabili care e modul religiei sau cetăţeniei într-un grup de persoane, deşi aceste variabile sunt nominale. Nu există nici o restricţie pentru folosirea modului. Pe de altă parte spunînd că modul distribuţiei religiei în populaţia Timişorii este “creştin-ortodox” nu spunem decît că în Timişoara sunt mai mulţi creştin-ortodoxi decît membrii ai oricărei alte religii. Bineînteles folosind termenul de mod, propoziţia este mai greu de înţeles şi sună mai ştiinţific. Deşi eu aş sfătui împotriva unei exprimări criptice inutile, sunt situaţii în care poate fi de folos în contactul cu clienţi mai snobi! Dezavantajul esenţial al modului este că ne spune chiar mai puţin decît media. Practic aflînd care e valoarea care apare cel mai des în eşantion eliminăm din informaţia transmisă o mare parte a datelor culese. Dacă media se calcula totuşi din toate datele culese, modul nu reflecta decît o parte a datelor culese. Ca atare determinarea şi raportarea modului au sens numai la variabile nominale, unde altceva nu se poate folosi. Mediana este un indicator al tendinţei centrale care este gîndit esenţialmente pentru variabile ordinale. Mediana necesită existenţa unei ordini între valorile culese dar nu şi efectuerea unor calcule. Să revenim deci la picioarele fetelor. Pentru a determina mediana valorile culese se ordonează, aşa cum se vede din tabelul de mai jos: 61
Nume
Număr
Ioana
36
Ana
37
Carla
37
Oana
38
Simona
38
Olivia
39
Angela
39
Nadina
39
Mediana 38 Mediana este valoarea care apare la mijlocul listei. În cazul nostru este 38, valoarea de pe poziţia a 4-a şi a 5-a dintr-o listă de 8 cazuri. Dacă am fi cules 1001 de valori, valoarea de pe poziţia 501 ar fi fost mediana. Precum se vede, mediana poate avea şi două valori diferite în cazul în care lista are un număr par de elemente. Vorbim atunci de valorile mediane. Uneori se calculează o medie artimetică între cele două valori mediane, aceasta însă este desigur un fel de prostie pentru ca decizia de a folosi mediana se ia tocmai acolo unde nu este indicată calcularea unei medii aritmetice. II.
Distribuţia datelor
Aşa cum am văzut şi din exemplele precedente, media este adesea desconsiderată pentru că obturează distribuirea datelor. O medie de 7 poate rezulta dintr-un 4 şi un 10 la fel ca şi dintrun 8 şi un 6. O temperatura medie de 250 C poate rezulta dintr-o maximă diurna de 300 C şi o minimă noctura de 200 C sau dintr-o maximă diurnă de 500 C şi o minimă nocturnă de 00 C. De aceea atunci cînd se descrie statistic o variabilă, media se dublează întotdeuna de un indicator care să ne transmită cît de departe sunt distribuite datele în jurul mediei. Există mai multe metode de calcul ale distribuirii datelor. Am ales să le parcurg în ordinea complexităţii calculului. Prima data însă o consideraţie. Distribuţia datelor implică un sens al distanţei faţă de medie. Spunem că datele sunt mai îndepărtate sau mai apropiate de medie. Aceasta presupune desigur o ordine şi nu se poate aplica unor variabile nominale. Ca atare
62
distribuţia datelor se poate măsură numai în cazul variabilelor care sunt măcar ordinale. Precum vom vedea majoritatea indicatorilor necesită chiar variabile intervalice sau raţionale. Variantele cele mai simple sunt desigur cele gîndite pentru variabile ordinale. Toate acestea se bazează pe ordonarea valorilor din listă şi aplicare unei metode care se bazează pe conceptul de interval. Hai să revedem lista cu numerele de pantofi. Nume
Număr
Ioana
36
Ana
37
Carla
37
Oana
38
Simona
38
Olivia
39
Angela
39
Nadina
39
Mediana 38 Intervalul este format întotdeuna din două valori. Intervalul simplu este perechea formată din valoarea cea mai mică şi cea mai mare care au fost culese. În cazul nostru intervalul datelor este (36, 39). Am vazut că mediana împarte lista în două. O astfel de împărţire se poate face în continuare şi în cele două jumătăţi astfel lista întreagă se împarte în patru părţi numite cvartile. Se obţin două valori noi care sunt de fapt medianele jumătăţilor de listă. Perechea lor este intervalul intercvartilic, în cazul nostru (37, 39). Se preferă uneori intervalul intercvartilic intervalului simplu al tuturor datelor deorece astfel se elimină valorile extreme. Se poate întîmpla ca într-un eşantion că apară cazuri extreme, rare care să denatureze rezultatele. Evident astfel de cazuri vor fi însă puţine. La urma urmei, dacă nu ar fi puţine nu ar mai denatura rezultatul, ci ar fi chiar parte esenţială a acestuia! Utilizînd intervalul intercvartilic avem un termen de comparatie care nu ia în seamă cazurile rare, extreme, cazurile outlier (periferice).
63
Reprezentarea de mai jos sper sa clarifice şi mai bine sensul intervalului intercvartilic. Ioana
Ana
Carla
Oana
Simona
Olivia
Angela
Nadina
36
37
37
38
38
39
39
39
Prima cvartilă C0
A doua cvartilă C1
A treia cvartilă C2
A patra cvartilă C3
C4
Mediana Valoarea care separă a doua de a treia cvartilă, valoarea C2, este Mediana. Intervalul (C0, C4) este intervalul datelor, iar (C1, C3) este intervalul intercvartilic. Uneori se numeşte chiar valoarea C1 prima cvartilă sau cvartila inferioară, C2 a doua cvartilă şi C3 a treia cvartilă sau cvartila superioară. Metoda pe care am prezentat-o mai sus poate desigur fi extinsă la un număr mai mare de astfel de grupări. În general asemenea împărţiri ale datelor ordonate se numesc cvantile sau qcvantile unde q este numărul de intervale. Împărţirea cea mai uzuală rămîne cea în patru grupuri, adică în cvartile (4-cvantilele), dar se mai găsesc prin literatură şi conceptele de cvintile (împărţirea în 5 intervale de valori), decile (împărţirea în 10 intervale), percentile (împărţirea în 100 de intervale) şi altele ale căror nume sunt construite analog. Prezentarea intervalelor ca perechi de valori nu necesită nici un fel de calcule matematice. Uneori intervalele se raportează însă ca diferenţe ale valorilor extreme, adică ca lungime a intervalului. Aceasta poate fi puţin problematic în cazul variabilelor ordinale nu ridică însă desigur nici un fel de probleme pentru variabile intervalice sau raţionale. Folosind notaţiile de mai sus intervalul datelor (în engleză se foloseşte range) se calculează astfel: range = C4 – C0 adică diferenţa dintre cea mai mare şi cea mai mică valoare culeasă. Unele definiţii vorbesc în acest context despre lungimea celui mai mic interval care conţine toate datele. Intervalul intercvartilic, notat de multe ori IQR, este: 64
IQR = C3 – C1 O altă denumire utilizată uneori pentru intervalul intercvartilic este aceea de jumătate mediană a datelor. Cu aceste calcule am făcut deja un pas în direcţia indicatorilor distribuirii datelor intervalice şi raţionale. În cazul acestor date posibilităţile de calcul fiind mult mai mare s-au căutat metode mai compexe care să permită o descrierea cît mai completă a datelor într-o singură valoare. Asta înseamnă că şi formulele vor fi puţin mai complicate. Există mulţi astfel de indicatori dar am decis să mă concentrez numai pe cei ce se folosesc în mod uzual, anume abaterea standard (numită în analogie cu termenul englezesc şi deviaţie standard) şi dispersia (numită din acelaşi motiv şi varianţă). Dispersia se calculează după următoarea formulă: σ2 = 1/N ∑i=1,n (xi - x¯)2 Merită să comentez un pic formula de mai sus. Nucleul, miezul ei este o diferenţă, o abatere, de aici şi numele indicatorului. Se scade din valoarea xi , adică valoarea variabilei x pentru individul i media valorilor x, adică x¯. Adică, pentru început se calculează cu cît se abate fiecare valoare culeasă de la medie. Este şi normal să procedăm aşa, la urma urmei căutăm o valoare care să exprime cît de distribuite sunt datele, adică cît de tare se abat ele de la medie. Dorim însă o singură valoare pentru întreg setul de date. O idee ar fi să adunăm toate aceste abateri. Ce s-ar întîmpla daca am face aşa. Ei bine, unele abateri sunt pozitive, altele sunt negative pentru că unele valori sunt sub medie, altele evident peste medie. Dacă am aduna toate abaterile, valorile pozitive s-ar atenua cu cele negative şi nu am mai afla cît de distribuite sunt datele cu adevărat. De fapt, e chiar mai grav decît atît. Suma tuturor abaterilor va fi întotdeuna 0, şi asta din motive pur şi simplu matematice de calcul al mediei aritmetice. De aceea ridicăm la pătrat diferenţa, abaterea. Astfel se obţine o valoare care este întotdeuna pozitivă şi abaterile pozitive nu se mai anulează cu abaterile negative. Aşa se ajunge la formula (xi -x)2. Apoi adunăm toate aceste abateri pentru ca să obţinem o singură valoare care să spună ceva despre abaterea totală. Aşa ajungem la ∑i=1,n (xi -x)2. Spune oare această sumă 65
cu adevărat ceva? Ei bine, da şi nu. Da, pentru că este într-adevăr o sumă de abateri. Totuşi nu, pentru că un număr mare de valori chiar destul de apropiate pot da aceiaşi sumă totală ca şi un număr mic de valori care sunt mult mai îndepărtate de medie. Deci trebuie să împărţim acest rezultat la numărul datelor culese, la volumul populaţiei studiate. De aceea împărţim suma la N. Rezultă formula pe care am prezentat-o şi anume: σ2 = 1/N ∑i=1,n (xi -x)2 Unele lucrări de statistică preferă în locul dispersiei rădăcina ei pătrată σ, numită şi abatere standard sau deviaţie standard. Ideea este că, deoarece abaterea s-a calculat cu ridicare la pătrat, pentru a obţine un indicator care să exprime mai corect cu cît se abat cu adevărat valorile de la medie ar trebui extras radical din valoarea rezultată din calcul. Aceasta se mai numeşte şi abatere medie pătratică, o denumire care exprimă foarte bine modul de calcul. Într-adevăr în calcule se face o medie, adică o sumă împărţită la numărul de valori adunate, a abaterii ridicate la pătrat. Avantajul abaterii standard este deci acela că valoarea ei poate fi foarte bine comparată cu media. În viaţa reală avem însă problema de a nu putea culege toate datele unei variabile aleatoare, de aceea şi abaterea standard sau dispersia pe care o calculăm va trebui tratată ca o estimare bazată pe un eşantion a abaterii reale, adică a celei care există la nivelul întregii populaţii. Atunci ceea ce vom face pentru a ne asigura că reducem riscul de a greşi, este să supraestimăm puţin abaterea faţă de valoarea calculată prin formulă. Modul de calcul obişnuit este înlocuirea valorii N, a volumului populaţiei cu N-1. O altă diferenţă, de astă dată pur convenţională este notarea. Dacă de regulă dispersia calculată la nivel de populaţie ne notează cu σ2, dispersia estimată pe baza unui eşantion se notează mai de grabă cu s2. Formula este deci: s2 = 1/(N-1) ∑i=1,n (xi -x)2 Analog se obţine şi abaterea standard estimată pe baza unui eşantion, s.
66
Am prezentat în acest capitol indicatorii statistici de bază pentru descrierea unei singure variabile. Există desigur în statistică şi alţi indicatori, cum ar fi de exemplu cei de kurtosis sau înclinare (în engleză, skewness), indicatori care se pot înţelege ca descriptivi pentru forma distribuţiei unei variabile, adică chiar pentru felul cum arată graficul variabilei. Aceşti indicatori sînt însă destul de rar utilizaţi în practica cercetărilor empirice, fie ele sociale sau chiar din ştiinţele exacte. De asemenea există o serie de indicatori care descriu relaţia dintre două sau mai multe variabile. La aceştie ne vom referi pe larg în capitolul 6. Cum s-ar zice am terminat aperitivele, reci şi calde, grafice, frecvenţe simple şi indicatori descriptivi. Vom trece acum, în capitolul care vine la temelia analizei statistice, supele şi ciorbele statistice, esenţele, cum s-ar zice, adică testele statistice.
67
Capitolul 5. Supe, ciorbe şi teste statistice simple. Testele statistice ar trebui să fie părţi obligatorii ale oricărei cercetări bazate pe statistică. Ele sînt metodele de cunoaştere cele mai puternice în statistică. În capitolul introductiv al acestei cărţi am discutat un pic despre felul cum cunoaşte statistica şi am prezentat conceptual şi cam general ideea care stă în spatele testării statistice, ideea respingerii ipotezelor. În capitolul de faţă vom vedea cum se poate face aceasta din punct de vedere tehnic, care sunt paşii, algoritmul pentru o testare statistică. Pentru a înţelege însă felul cum se calculează şi se analizează testele statistice e nevoie, pe lîngă acea introducere teoretică ce ţine oarecum de filosofia metodei ştiinţifice, şi de cîteva cunoştiinţe de matematică. Nu e mare lucru şi voi încerca să le formulez cît mai simplu. a. Distribuţia normală Cea mai mare parte a testelor statistice se bazează pe faptul că datele sînt distribuite “normal”. Aşa cum am mai pomenit în capitolul introductiv, o atare presupunere este justificată prin teorema limită centrală. Am lăsat însă complet în obscuritate ce înseamnă de fapt această “normalitate” a distribuţiei datelor. Să încep cu începutul. O distribuţie aleatoare sau probabilistă este o funcţie care leagă valorile unei variabile de probabilitatea cu care pot apărea aceste valori. Corect matematic această funcţie se numeşte densitate de probabilitate. Pentru fiecare valoare pe care o poate lua o variabilă, densitatea de probabilitate ne spune care e probabilitatea ca această valoare să fie cu adevărat întîlnită. Fie de exemplu, aruncarea cu banul. Avem atunci două valori, cap şi stemă şi fiecare are probabilitatea de a apărea de ½ ori. Adică ori e cap, ori e stemă. Şi atît. Densitatea de probabilitate va fi deci o funcţie care nu are decît două argumente posibile. Matematic definiţia asta se scrie cam aşa: densitate : {cap, stemă} → (0, 1) Funcţia densitate ia valori întotdeuna în intervalul (0, 1) pentru că valorile pe care le ia sunt probabilităţi şi probabilităţile sunt întotdeuna între 0 şi 1. Probabilitate 0 înseamnă de fapt că
68
evenimentul în cauză este imposibil, 1 înseamnă că este sigur. Valorile funţiei densitate din exemplul nostru vor fi: densitate (cap) = ½ densitate (stemă) = ½ Desigur densităţile de probabilitate pot fi mult mai complicate decît atît dacă valorile care le poate lua o variabilă devin mai multe. Rămîn însă cîteva reguli clare: 1. densitatea ia întotdeuna valori între 0 şi 1. 2. suma tuturor valorilor pe care le ia densitatea, adică pentru toate valorile posibile ale variabilei, este 1. Distribuţia normală, numită şi Gaussiană4 este de fapt o familie de mai multe distribuţii cel mai bine caracterizabile prin funcţiile lor de densitatea care se pot descrie cu o singură formulă dependentă de doi parametrii. Graficul acestor funcţii, numit şi Gaussiană, curba lui Gauss sau clopotul lui Gauss este foarte cunoscut chiar dacă nu întotdeuna bine înţeles. Să aruncăm o privire la un astfel de clopot al lui Gauss înainte de a merge mai departe.
4
Atribuirea distribuţiei normale lui Gauss nu este întru totul corectă. Deşi Gauss a avut un rol important în analiza distribuţiei normale nu el a fost cel ce a definit-o ci de Moivre în 1734, deci mulţi ani înainte de lucrările lui Gauss pe această temă, publicate în 1809. De asemenea nu el a fost cel ce a denumit curba clopot. Aceasta i se datorează lui Jouffret şi a avut loc mai tîrziu, în 1872.
69
Ca pe orice grafic de funcţie pe desenul de sus avem reprezentate puncte care corespund unor valori de pe două axe. Axa x a unei funcţii densitate de probabilitate reprezintă întotdeuna valorile pe care le poate lua variabila descrisă. Aşa cum la variabila “aruncarea cu banul” acestea erau “cap” şi “stema”, la o distribuţie normală valorile sînt toate numerele reale. Distribuţia din grafic se mai numeşte şi distribuţia normală standard, dar vom mai reveni la acest fapt. Să vedem prima dată ce ne mai poate spune graficul de mai sus. În primul rînd, distribuţia normală este o distribuţie continuă. Adică funcţia de densitate are valori de probabilitate pentru toate punctele de pe axa x, nu doar pentru anumite puncte. Mai simplu spus, densitatea de probabilitate e o curbă continuă, fără întreruperi, orice valoare de pe axa x are un corespondent pe curbă. Mai mult, deşi din grafic nu rezultă foarte clar, va trebui să mă credeţi pe cuvînt că distribuţia normală este şi nemărginită. Adică orice valoare poate fi atinsă, doar că unele se ating cu probabilitate foarte, foarte mică. Pe grafic, forma de clopot a curbei rezultă din faptul că valorile pe care le poate atinge variabila se adună în jurul unui punct anume. În varianta standard, cea din desenul de mai sus, acest punct este valoarea 0. Faptul că aici curba se ridică la punctul ei cel mai înalt înseamnă de fapt că această valoare e atinsă în culegerea variabilei cu probabilitatea cea mai mare, de aproape 0,4 sau 40%. Pe măsură ce ne îndepărtăm de acest punct central probabilitatea scade continuu, astfel încît valori mai mici decît -4 sau mai mari decît +4 se ating cu probabilităţi aproape nule, fiind aproape imposibil de întîlnit practic. Deci, dacă culegem date ale unei variabile distribuite normal standard avem cele mai multe şanse să le găsim în apropierea punctului 0 şi mai mult decît atît, o valoare va avea şanse de apariţie cu atît mai mici cu cît e mai departe de 0. Clopotul este în plus simetric faţă de punctul central 0. Probabilitatea aferentă unei valori a este aceaşi ca şi pentru –a. Această simetrie este un motiv suficient pentru a observa că valoarea centrală, punctul 0 în cazul desenului de mai sus, este mediana distribuţiei, dar în acelaşi timp şi media şi modul distribuţiei normale. 70
Spuneam că distribuţiile normale formează o familie. Există două caracteristici care determină distribuţia normală: media şi abaterea standard (sau dispersia, e totuna de fapt). Dacă revenim la grafic, o modificare a mediei va împinge pur şi simplu întregul grafic mai la stînga sau mai la dreapta. Pe de altă parte, o modificarea a abaterii va face ca datele să fie distribuite mai larg. Adică, pe măsură ce creşte abaterea standard curba devine mai plată, probabilitatea unor valori mai îndepărtate de medie crescînd şi bineînţeles aducînd după sine scăderea probabilităţii aferente mediei. Aceasta are loc pentru că, aşa cum am mai scris, suma tuturor probabilităţilor posibile ale unei densităţi de probabilitate trebuie să rămînă 1. Dacă abaterea standard e mai mică, probabilitatea unor valori îndepărtate de medie e desigur şi ea mai mică şi curba se ascute crescînd probabilitatea valorilor apropiate mediei. Forma standard din graficul de mai sus se obţine pentru o medie 0 şi o abatere standard 1.
În graficul de mai sus sunt reprezentate 4 distribuţii normale diferite, pe lîngă cea standard avem o distribuţie cu media schimbată la o valoare mai mică, -2 şi dispersia micşorată la 0,5. Avem pe grafic şi trei distribuţii cu media egală cu 0. Una este distribuţia standard, iar alte două au dispersii schimbate, una cu o dispersie mai mare, de 5 şi una cu o dispersie mai mică, de 0,2. Se vede cum distribuţia cu dispersie mare, adică cu valorile distribuite mai larg e mult aplatizată, iar disribuţia cu dispersie mică e mai ascuţită decît varianta standard. 71
Am ocolit pînă acum formula funcţiei de densitate reprezentate aici. Formula este destul de complexă, dar pot linişti pe oricine, o cunoaştere a ei nu este necesară pentru aplicarea, citirea şi analiza corectă a unor teste statistice şi nici măcar pentru alte procedee statistice chiar mai avansate. Densitatenormală
=
În formula de mai sus, s-a notat, ca de obicei, cu µ media şi cu σ abaterea standard. Distribuţia normală de medie µ şi abatere standard σ, adica dispersie σ2 se notează în general N(µ, σ2). Aşa cum am văzut mai sus distribuţia normală standard este deci N(0, 1). Înainte de a vedea cîteva proprietăţi importante ale distribuţiei normale, să mai luăm o pauza de la partea prea tehnică ca să povestim despre frecvenţa de apariţie a distribuţiei normale. Cum am mai pomenit în capitolul introductiv, distribuţia normală este esenţială în statistică din cauza teoremei limită centrală. Să rememorăm puţin ce zice aceasta. Dacă avem un număr mare de variabile aleatoare, despre care ştim foarte puţine, anume numai că au aceiaşi medie şi dispersie, suma lor tinde la o distribuţie normală cînd numărul lor tinde la infinit. Mai mult dacă aceste variabile aleatoare au media µ şi abaterea standard σ atunci normala la care tinde suma lor este N(nµ, σ2n). Redefinind variabilele din sumă printrun procedeu numit standardizare acestă normală poate fi înlocuită cu distribuţia normală standard N(0, 1). Acum sa vedem ce înseamnă toate acestea. Dacă avem un bun motiv să credem că evenimentele pe care le studiem sunt determinate de o gramadă de variabile care se însumează în efectele lor atunci e de bun simţ să considerăm tot ce nu am luat în seamă în cercetarea noastră, adică acei factori de eroare ca fiind distribuţi normal. Pe o atare presupunere se bazează aproape întreaga teorie a testelor statistice. Există deci o multitudine de situaţii în care putem fi liniştiţi că aşa se întîmplă. Putem fi siguri că comportamentul uman sau instituţional depinde de foarte mulţi factori pe care nu îi cunoaştem. Toţi aceşti factori vor influenţa relaţiile dintre variabilele pe care le studiem ca un fel de distorsiuni, ca nişte erori permanent prezente, inevitabile. Pe de altă parte aceste erori vor fi predictibile în forma lor. Fiind normale ele vor arăta ca o curba clopot standardizată. Adică probabilitatea ca ele să fie 0 va fi mai mare decît oricare altă valoare pe care o pot lua. Mai mult probabilitatea ca eroarea 72
să aibă o valoare anume e cu atît mai mică cu cît această valoare e mai departe de 0. Deci zgomotul care deranjează interpretarea datelor e destul de cuminte, pe măsură ce e mai mare în valoare (adică mai depărtat de 0), deci ar influenţa mai mult rezultatul, şansa ca el să se producă e mai mică. Există totuşi şi situaţii în care distribuţia normală a factorilor neluaţi în seamă în cercetare nu are loc. În primul şi în primul rînd se întîmplă aşa dacă nu am luat în seamă un factor esenţial pentru cele cercetate. Există factori cauzali care sunt atît de importanţi în efectul lor asupra variabilelor cercetate încît nu pot fi luaţi la grămadă. Hai să luăm un exemplu pentru a clarifica lucrurile. Să presupunem că dorim să cercetăm relaţia dintre veniturile angajaţilor din armata romană şi anii de şcoală pe care i-au absolvit. Ipoteza de bun simţ este că pe măsură ce o persoană are mai multe studii va avea şi venituri mai mari. Necazul este că nu e aşa. De ce oare? Ei bine tocmai pentru că o variabilă importantă, cu efect mare nu a fost luată în seamă. Şi anume vechimea. Am luat exemplul cu armata tocmai pentru că acolo poate fi cel mai evident. Pe măsură ce o persoană îmbătrîneşte în oaste are venituri din ce în ce mai mari. Şi cum expansiunea învăţămîntului superior este la noi un fenomen relativ recent, cei mai în vîrstă au în general (ca să nu vorbim de grade mai mici) mai puţini ani de şcoală. Deci, cu vechime mai mare presupune de regulă mai puţin şcolit dar mai bine plătit. Dacă luăm însă în calcul vechimea, o controlăm cum se spune în jargonul statistic, relaţia dintre venit şi educaţie devine cea bănuită, pozitivă. La aceiaşi vechime, cei mai bine şcoliţi sunt mai bine plătiţi. Ei bine, ce am învăţat? Dacă există variabile care au un efect esenţial asupra variabilelor pe care le studiem, este bine să le găsim. Lăsîndu-le în factorii de eroare nu mai putem miza pe o sumă de multe variabile cu efect individual mic. Aşa cum se spune nimic nu e mai practic decît o bună teorie. Trebuie deci să putem identifica teoretic toate variabilele cu efect mare şi să lăsăm în suma factorilor de eroare numai variabile care au efecte mici oarecum egale ca importanţă. Un alt caz interesant este cînd efectele variabilelor neluate în seamă nu este aditiv ci multiplicativ. Asta ar însemna că efectele nu se adună pur şi simplu ci se potenţează reciproc, se înmulţesc. Nu e uşor de găsit exemple pentru aşa ceva, evident situaţiile fiind de fapt destul de rare. Totuşi, după mai multe căutări şi adîncă chibzuială, iată un caz: să presupunem că avem de făcut un studiu statistic al unui mediu ecologic. Analizăm de exemplu efectul festivalurilor de jazz şi rock asupra crapilor comparînd numărul de crapi pescuiţi an de an în 73
timpul festivalului de la Gărîna în relaţie cu programul muzical. Evident sunt o grămadă de variabile ecologice care au efect (probabil incomparabil mai mare decît cine cîntă la festival) asupra populaţiei de crapi din lac. Aici intră desigur volumul populaţiilor altor peşti, plante, păsări, insecte, şi aşa mai departe. Ei bine, peştii şi plantele depinzînd unii de alţii în lanţul dezvoltării lor nu se pot considera ca efecte aditive. Ele sunt multiplicative5. Şi ca atare pentru modelarea lor nu se poate recurge la teorema limită centrală în forma ei clasică. În acestă situaţie teorema limită centrală se schimbă puţin dar nu esenţial din punctul nostru de vedere. Se foloseşte o aşa zisă teoremă limită centrală multiplicativă. Diferenţa care apare este că distribuţia limită la care tinde combinaţia variabilelor aleatoare nu este o distribuţie normală ci una aşa-zis log-normală. Ecuaţia funcţiei de densitate log-normale diferă puţin de funcţia de densitate normală:
Nu e cazul să ne batem capul prea mult cu această situaţie. Să ţinem doar minte că există soluţii pentru aşa ceva dar e nevoie de alte teste. În fine, problema care este cea mai importantă este că identificarea cazului în care efectele variabilelor neluate în seamă se înmulţesc în loc să se adune este departe de a fi facilă. Bun. Hai să revenim la consideraţiile esenţiale pentru testarea statistică. Am descoperit deci că factorul de eroare într-o relaţie statistică poate fi adesea considerat ca fiind distribuit normal şi în plus standardizat cu media 0 şi dispersia 1. Pentru că distribuţia aceasta, N(0, 1) este complet cunoscută putem să observăm următoarele:
5
Sincer, faptul că relaţiile dintre soiuri într-un mediu natural sînt mai degraba multiplicative decît aditive e un exemplu clasic din literatura statistică pentru distribuţia log-normală. Alte cazuri clasice sunt concentrările de poluanţi, sensibilitatea indiviziilor la substanţe chimice şi medicamente, timpul de supravieţuire după tratament împotriva cancerului, şi altele.
74
Într-un interval de o dispersie de la medie, adică de fapt într-un interval de la -1 la +1 se găsesc 68,26% din toate cazurile unei distribuţii normale. Adică luînd la nimereală o valoare, dacă o variabilă este distribuită normal, şansa ca valoarea aceasta să se afle în intervalul -1, +1 este de 68,26%. Aşa este şi cu factorii de eroare care se adaugă la estimările noastre, pentru că acolo avem o distribuţie normală şi chiar nu ştim exact ce valoare e într-un caz anume. Ştim însă că sunt 68,26% şanse să fie între -1 şi 1 a distribuţiei standardizate. În intervalul de două dispersii, deci de la -2 la +2 sunt 95,44% dintre cazuri. În intervalul de trei dispersii, de la -3 la +3 sunt 99,74% dintre cazuri! Care e atunci logica unui test. Păi să presupunem că dorim să verificăm dacă media numărului la pantof al femeilor din Romania este 36. În paranteză fie spus, faptul că numerele de la pantofi sunt distribuite normal în cadrul unui gen este cu adevărat dovedit empiric. Alegem deci un eşantion reprezentativ le măsurăm pe toate la picioare şi calculăm media. Iese ceva, să zicem 39. Acum trebuie să standardizăm această valoare, pentru că evident distribuţia numerelor de la pantof cît o fi ea de naturală nu are cum avea media 0 şi dispersia 1. În urma standardizării 36-ul devine evident 0, iar 39-le devine de exemplu 2. Atunci ne uităm pe grafic şi vedem că şansa ca eroare statistică să adauge 2 la media standardizată este de 2,27%! Adică există o probabilitate de 2,27% ca totul să fie corect, mediile în regulă, media populaţiei să fie într-adevăr 36 şi aşa mai departe, dar din motive absolut normale ale erorii aleatoare nouă să ne fi ieşit 39. 75
Hai să reluăm un pic ideea. Deci avem o distribuţie normală pe care o luăm de bună pentru început, distribuţia numerelor de la pantofi cu o medie de 36 şi o dispersie σ2 şi o valoare găsită empiric, media eşantionului de 39. Acum ne punem problema: cam care e şansa ca totul să fie în regulă, adică diferenţa dintre cele două medii, cea teoretică (36) şi cea empirică (39) să fie cauzată de eroarea acceptabilă a unui sondaj. Pentru aceasta standardizăm distribuţia. În exemplul nostru găsim că există o şansă de 2,27% să fie aşa. Asta înseamnă că există o şansă de 97,73% să nu fie aşa! Adică, dacă avem deplină încredere în sondajul efectuat de către noi, putem să spunem că există o probabilitate de 97,8% ca media numărului la pantof al femeilor din Romania să nu fie 36. După această gustărică să vedem acum de-a amănuntul cum se face. b. Teste statistice pentru medii şi proporţii. Testarea statistică se descrie de obicei ca un algoritm, adică o serie de paşi care se întreprind pentru a lua o decizie. Totul porneşte de la construirea unei ipoteze şi se termină cu respingerea sau nerespingerea acesteia. Aşa cum am văzut şi mai de vreme, cunoaşterea statistică este una negativă. Nu poate confirma nimic, dar poate infirma. Adică, aşa cum am văzut din exemplu, dacă rezultatul empiric e suficient de aproape de cel teoretic nu avem nimic de spus, decît eventual că nu putem respinge ipoteza. Dacă însă este improbabil de îndepărtat atunci putem spune: asta chiar nu se poate! Ipoteza se poate respinge pentru că dat fiind ce am cules noi din sondaj probabilitatea ca ceea ce am presupus la început să fie adevărat este infimă. Să vedem paşii. În primul rînd se defineşte o ipoteză. În cercetarea empirică acesteia i se spune de obicei ipoteză nulă sau iniţială şi se notează cel mai adesea cu H0. Aceasta este ipoteza pe care vom dori să o putem respinge. Construirea unei ipoteze necesită de obicei o muncă importantă de abstractizare şi modelare. Testele statistice pot respinge numai ipoteze foarte simple. Deci ceva de genul: “este viaţă pe Marte” cît o fi ea de ipoteză nu prea poate fi testată statistic în această formulare. Ipotezele de cercetare care au bază teoretică şi importanţă în cunoaştere trebuie traduse în relaţii matematice simple de genul “media numărului la pantof al femeilor din Romănia este 36” sau “veniturile bărbaţilor şi ale femeilor sunt egale” adică lucruri care cu adevărat se pot respinge. În general ipotezele statistice sunt 76
relaţii de egalitate sau de inegalitate care implică valorile unor variabile şi valori prestabilite. Verificăm deci relaţii între grupuri sau populaţii şi relaţii dintre populaţii şi valori teoretice. Trebuie să putem traduce teoriile noastre în astfel de relaţii pentru ca statistica să ne fie de vreun folos. O dată stabilită ipoteza nulă, în unele cercetări se propun şi una sau mai multe ipoteze alternative, notate de obicei cu Ha. Aceste ipoteze se consideră ca ipoteze de urmat în cercetarea viitoare în caz că se respinge ipoteza nulă. Ele nu sunt ipoteze confirmate nici măcar dacă au fost construite ca negaţii logice ale ipotezei nule. În acest caz sunt pur şi simplu ipoteze care nu au fost respinse. Adică pot fi considerate, în tradiţia popperiană despre care am vorbit în introducere ca fiind “pe moment acceptabile”. După stabilirea ipotezelor trebuie stabilită valoarea testată, numită uneori după obiceiul englezesc şi statistică. Aceasta este o valoare agregată culeasă din date şi care intervine în test. În exemplul cu pantofii este media numărului la pantof. Ar putea fi o medie, o proporţie, sau diferenţa unor medii sau proporţii. Valoarea testată nu este altceva decît un rezultat al operaţionalizării, adică al traducerii în formulă matematică a ipotezei. După aceasta, în funcţie de valoarea pe care dorim să o testăm se determină distribuţia statistică a acesteia. În esenţă e vorba de a stabili dacă se poate presupune că valoarea testată este distribuită normal, iar dacă nu, dacă putem stabili cum o fi distribuită (de exemplu lognormal) şi ce test avem pentru aşa ceva. De exemplu, dacă distribuţia este una normală se poate aplica o metodă de standardizare, se aduce distribuţia la forma N(0, 1) şi se poziţionează valoarea testată pe această distribuţie. Aşa putem spune ce şanse are o asemenea valoare să fie atinsă (sau una mai mare sau mai mică, dacă ipoteza este o inegalitate). O dată stabilită distribuţia statistică, se aplică un test statistic, adică o formulă de calcul valorii testate. Se obţine un fel de indicator, numit adesea după numele testului sau mai general valoare de test. Vom vedea în cele ce urmează valoarea t, valoarea Z, şi aşa mai departe. Fiecare astfel de test nu este de fapt decît o formulă. Apoi se determină zonele critice. Zonele critice, uneori numite şi zone de respingere sau rejecţie sunt intervalele în care trebuie să se găsească valoarea calculată prin testul statistic pentru ca ipoteza să fie respinsă. Aceste intervale ar trebui stabilite dinainte. Există de fapt 77
două moduri de lucru. Varianta obişnuită este de a calcula valoarea de test şi apoi a vedea dacă se află în afara intervalului de probabilitate de 95% sau de 99%. Limitele acestor intervale sunt cele care se numesc valori critice şi intervalele complementare intervalelor de probabilitate de 95% respectiv 99% sunt chiar zonele critice. Dacă valoarea calculată este în aceste zone critice, probabilitatea ca această valoare să fie atinsă în condiţiile validităţii ipotezei este mai mică de 5% sau chiar de 1%. Dacă, de exemplu valoarea calculată este mai mare decît valoarea de test pentru 95%, deci se află în afara intervalului de probabilitate de 95%, atunci probabilitatea ca ipoteza să fie corectă este de cel mult 5%, ceea ce este foarte puţin şi ipoteza poate fi respinsă. Multe din programele pe calculator care efectuează teste statistice calculează o aşa-zisă significanţă a testului. Aceasta e chiar probabilitatea ca valoarea calculată să fie atinsă în condiţiile ipotezei. Nu mai este atunci nevoie să comparăm cu valoarea critică. Putem spune, chiar cît este probabilitatea ca ipoteza să fie adevărată. Şi bineînţeles putem decide pe baza acestei probabilităţi dacă ipoteza se poate respinge sau nu. În literatura de statistică aplicată se definesc în general două tipuri de erori care se pot întîmpla în testarea statistică:
•
Eroarea de tip I, numită şi eroare α sau “fals pozitiv” are loc dacă se respinge o ipoteză nulă care e de fapt adevărată. Probabilitatea de face o astfel de eroare este de fapt acea significanţă a testului statistic.
•
Eroarea de tip II, numită şi eroare β sau “fals negativ” are loc dacă nu se respinge o ipoteză falsă.
Există şi alte clasificări ale erorilor de decizie, dar aceasta este cea mai răspîndită. În experienţa mea trebuie să recunosc că nu am găsit nici o dată vreun uz practic al faptului de a fi ştiut care este diferenţa dintre cele două tipuri de erori. Este însă important să fim conştienţi de faptul că erorile, fie ele de tip I sau tip II nu pot fi cu totul eliminate. Dacă se aplică corect o metodologie statistică se poate însă determina probabilitatea ca ele să apară. În fapt, probabilitatea care determină zona critică aşa cum am văzut mai sus este chiar probabilitatea unei erori de tip I.
78
Dacă pînă acum am vorbit de teste la un mod cam general şi ceea ce am spus era în principiu valabil pentru orice test statistic să trecem acum la lucruri practice. Cum se face de fapt, ce se calculează şi cu ce se compară valoarea de fapt? Testul t pentru media unei variabile aleatoare Testul t (numit şi Student după pseudonimul autorului său, statisticianul englez W.S. Gossett) este un test care verifică ipoteze în condiţii de normalitate a distribuţiei datelor şi cunoaştere a dispersiei datelor. Gossett a fost, în vremea în care a dezvoltat testul, statistician la fabricile Guiness din Dublin, Irlanda şi l-a dezvoltat pentru a verifica cît mai simplu calitatea berii. Ideea era de a calcula cîtă încredere se poate acorda unor analize biochimice ale berii făcute pe eşantioane relativ mici. Deşi am citit pe undeva că Gossett a folosit din modestie un pseudonim, se pare că motivul adevărat pentru care Gossett şi-a publicat metoda în 1908 sub pseudonim a fost faptul că vroia să ocolească contractul care îl lega de fabrica Guiness. Testul se foloseşte şi acum pe scară largă, chiar şi acolo unde avem eşantioane mici. Cu diversele forme ale testului t se pot analiza ipoteze legate de media unei variabile aleatore, comparaţii între mediile unor variabile aleatoare pe două populaţii, precum şi ponderea unor subgrupuri în populaţii şi comparaţii între ponderea unor subgrupuri în două populaţii. Să le luăm însă pe îndelete. În forma cea mai cunoscută testul t verifică o ipoteză exact ca în exemplul nostru. Adică verifică ipoteza dacă media unei variabile la nivelul populaţiei este egală cu media aceleiaşi variabile pe un eşantion. Sau altfel exprimat, este suficient de mare diferenţa între media măsurată pe eşantion şi media presupusă ipotetic pe populaţie pentru a respinge presupunerea. În exemplul nostru media presupusă pentru numărul la pantof al femeilor din Romania era 36 şi media găsită pe eşantion era 39. Testul t este cel ce ne spune dacă putem respinge ipoteza nulă sau nu. Testul t poate fi folosit dacă sînt îndeplinite cîteva precondiţii. În primul rînd trebuie să cunoaştem media şi dispersia la nivelul populaţiei, apoi variabila trebuie să fie distribuită normal şi eşantionul trebuie să fie aleator. În realitate situaţia e cam aşa: media o presupunem teoretic pentru că la urma urmei pe asta dorim să o testăm. Distribuţia normală este o problemă relativ mică, dacă avem un eşantion mare şi nu este un caz special în care distribuţia este evident nenormală presupunem de obicei normalitatea fără să ne batem prea mult capul. 79
Cum am tot povestit teorema limită centrală ne dă aici o mînă serioasă de ajutor. Evident, faptul că eşantionul trebuie să fie aleator nu poate fi însă ocolit. Oricare dintre metodele statistice necesită aceasta. Nu înseamnă că nu se pot face testări şi în alte condiţii dar atunci nu mai e vorba despre a verifica relaţia dintre media unei populaţie şi a unui eşantion, ca în cazul clasic al testului t, ci între mediile a două loturi. Problema care este cea mai mare în cazul testului t este însă faptul că de obicei nu avem cum să cunoaştem dispersia reală a variabilei în populaţie. Aceasta se rezolvă de regulă prin introducerea unei presupuneri suplimentare. Şi anume aceea că dispersia la nivelul populaţiei este aproximativ egală cu dispersia la nivelul eşantionului. Să vedem deci ce valori avem: •
µ – media pe populaţie, pe care o presupunem şi o punem în ipoteză
•
s – abaterea standard pe eşantion care se poate calcula şi înlocuieşte de fapt σ, abaterea standard la nivelul populaţiei pe care nu o putem calcula.
•
x – media pe eşantion care e uşor de calculat
•
n – volumul eşantionului.
Ipoteza va suna deci cam aşa “media variabilei este µ”. În exemplu era: media numerelor la pantofi este 36. Calculăm acum testul t astfel: t = (x – µ) / (s/n½ ) Aceasta nu este altceva decît transformarea din N(µ, s2) în N(0, 1), adică standardizarea distribuţiei normale. Valoarea t se va raporta la curba normală standard aşa cum se raportează valoarea x la curba normală iniţială. Să presupunem că valoarea de 39 la picior a fost obţinută pe un eşantion de 1000 de femei şi abaterea standard la nivelul eşantionului a fost 2. Să vedem ce iese: t = (39 – 36) / (2/10) = 15
80
Să ne aducem aminte de felul cum arată distribuţia normală standard şi cam unde s-ar afla valoare 15 pe axa x a acesteia.
Precum se vede din grafic, probabilitatea ca într-o distribuţie normală standard valoarea să fie mai mare de 3 este de 0,1%. 15 fiind mult mai mare decît 3, probabilitatea ca ipoteza să fie adevărată este mult mai mică decît 0,1%. Avem deci 99,9% motive să respingem ipoteza. Am ocolit însă zonele critice folosite în mod obişnuit. Să vedem care sunt acestea: Intervalul de probabilitate de 95% este (-1,96, 1,96). Această înseamnă că într-o distribuţie normală standard 95% dintre cazuri se găsesc în intervalul (-1,96, 1,96). Deci dacă avem o valoare aflată în afara intervalului acesta, şansa ca valoarea să fie atinsă în condiţiile validităţii ipotezei este mai mică decît 5%. Se mai spune şi că -1,96 şi 1,96 sunt valorile critice de significanţă (sau probabilitate) de 95%. În aceiaşi logică se defineşte şi intervalul de probabilitate de 99%. Acesta este (-2,57, 2,57). Există de asemenea tabele ale valorilor t care dau exact probabilitatea ca o anumită valoare calculată să fie atinsă. Să sistematizăm pentru o mai uşoară privire de ansamblu: Ipoteze de forma “media = valoare” se pot respinge: •
cu probabilitate de 95% dacă valoarea t < -1,96 sau t > 1,96.
•
cu probabilitate de 99% dacă valoarea t < -2,57 sau t > 2,57.
Deoarece 15 este în afara intervalului de probabilitate de 99%, de fapt cum am văzut chiar în afara intervalului de 99,9% ipoteza se poate respinge cu o probabilitate mai mare decît 99% (sau, de fapt 99,9%). La modul de analiză al rezultatelor nu am luat în seamă faptul că 81
rezultatul testului ne spune vrînd – nevrînd şi pe ce parte a intervalului se află rezultatul aceasta înseamnă că de fapt putem să înbunătăţim un pic significanţa sesizînd faptul că de o parte a distribuţiei normale avem de fapt o significanţă de 50% şi doar pe partea cealaltă adăugăm la aceasta jumătate din significanţa datorată zonei critice. Deci dacă suntem în varianta cu 95% putem de fapt considera că respingem ipoteza cu 97,5% iar în varianta cu 99% cu 99,5%. Testul t pentru două medii Adesea ipoteza care se pune nu conţine o valoare explicită, cum era în exemplul precedent. Multe probleme statistice urmăresc de fapt să compare grupuri sau părţi ale unor eşantioane. Ipoteza este în asemenea cazuri ceva de genul “femeile de la ţară au în medie acelaşi număr la picior ca şi femeile de la oraş” sau “fotbaliştii romani dau în medie la fel de multe goluri ca şi fotbaliştii germani” şi alte asemenea probleme cutremurătoare. Un fel de a pune întrebarea care prezintă o gamă largă de probleme este următorul. Este oare posibil ca cele două eşantioane să fie extrase din aceiaşi populaţie. Dacă ar fi aşa mediile calculate pe cele două eşantioane ar trebui să fie suficient de apropiate. Dacă însă aceste medii diferă mult (în sensul testului t) ipoteza că eşantioanele sînt extrase din aceiaşi populaţie se poate chiar respinge. Aşa se poate stabili principial că două grupurie populaţionale diferă esenţial din punctul de vedere al unei anumite variabile. Aşa se poate de exemplu stabili că femeile şi bărbaţii au venituri diferite în Romania. Se iau două eşantioane aleatoare de valori salariale şi se testează dacă acestea ar fi putut fi culese dintr-o singură populaţie. Multe probleme interesante pot fi reduse la ipoteze de acest tip. Avem în asemenea cazuri două grupuri de măsurători, putem să le spunem eşantioane dar nu sunt din punctul de vedere al testului. Şi anume nu sunt eşantioane din punctul de vedere al testului pentru că nu se urmăreşte relaţia dintre aceste date şi o populaţie mai generală ci relaţia dintre cele două grupuri de măsurători. Ca şi în cazul precent, este necesar să avem o distribuţie normală a variabilei testate. În plus cele două eşantioane trebuie să fie independente ceea ce în cazul unei eşantionări corecte aleatoare ar trebui să fie cazul, şi trebuie să cunoaştem următoarele:
•
s1 – abaterea standard pe primul eşantion.
•
x1 – media pe primul eşantion 82
•
n1 – volumul primului eşantionului.
•
s2 – abaterea standard pe al doilea eşantion.
•
x2 – media pe al doilea eşantion
•
n2 – volumul celui de-al doilea eşantionului.
Formula de test care se calculează este:
Analiza rezultatului se face la fel ca şi în cazul precedent. Valorile critice sînt aceleaşi, interpretarea se face la fel. Să luăm deci un exemplu şi să-l calculăm. Voi folosi date dintr-un sondaj de opinie efectuat pe populaţia IMM-urilor din mediul rural din România în 2005. Ipoteza de testat este “vîrsta medie a patronilor de IMM-uri din mediul rural nu diferă în funcţie de gen”. Avem deci două eşantioane, unul cu femei, un altul cu bărbaţi. Volumul eşantionului total a fost de 1122 persoane, dintre acestea 1100 au răspuns la întrebarea de vîrstă (genul a fost completat de operator). În calcule am putut lua 631 de bărbaţi şi 479 de femei. Vîrsta medie a bărbaţilor a fost 45,6 ani, iar a femeilor 42,4. Abaterile standard sînt 10,4 la vîrsta bărbaţilor şi 9,1 la vîrsta femeilor. Este oare diferenţa dintre cele două medii relevantă? Sînt femeile care patronează IMM-uri din zona rurală într-adevăr mai tinere decît bărbaţii? Pentru aceasta trebuie să aplicăm testul t pentru medii. Informaţiile pe care le-am inclus în text sînt suficiente pentru a lua o decizie. Programele de statistică fac prima dată un test de egalitate a dispersiilor. Pentru aceasta se foloseşte testul F al lui Fisher. Nu îl vom discuta în această carte. E bine de ştiut totuşi la ce foloseşte. Ipoteza acestui test este: “dispersia pe primul eşantion e egală cu dispersia pe al doilea eşantion”. Dacă significanţa testului e bună, adică cît mai apropiată de 0, atunci ipoteza aceasta se poate respinge. În funcţie de rezultatul testului, pentru dispersii care nu pot fi considerate egale se foloseşte formula pe care am dat-o. Pentru dispersii egale se putea folosi o formulă simplificată şi oarecum înbunătăţită prin faptul că se putea calcula dispersia pe întreg eşantionului, ceea ce se presupune a fi o estimare mai bună a dispersiei la nivel populaţional.
83
În cazul din exemplu, valoarea testului F este 6,682 şi significanţa este 0,01. Pentru interpretarea testului F se folosesc de regulă tabele, însă aşa cum am spus şi mai sus significanţa este informaţia suficientă pentru analiză. În cazul significanţei de mai sus, care e foarte bună, ipoteza de dispersii egale poate fi respinsă. Se calculează atunci varianta de test t pentru dispersii diferite, adică exact formula de mai sus. Rezultatul este: t = 5,39 cu Sig = 0,000 Deci ipoteza de egalitate a mediilor se poate respinge cu o probabilitate de 99,9%. E aproape sigur: femeile care patronează IMM-uri în mediul rural sînt mai tinere decît bărbaţii cu poziţii similare. Pentru o explicaţie aş presupune de exemplu că printre persoanele de vîrstă mai înaintată femeile sînt mai puţin înclinate spre poziţii patronale decît printre persoanele mai tinere. Astfel distribuţia pe sexe e mai echilibrată la vîrste mai mici şi media de vîrsta a femeilor patron rezultă ca fiind mai mică decît a bărbaţilor patron. Desigur interpretarea aceasta trebuie coroborată cu alte rezultate statistice. Ipotezele discutate pînă aici s-au referit întotdeuna la egalităţi. Testele au încercat să respingă fie faptul că o medie are o anumită valoare exactă, fie faptul că două medii sunt egale. Aceasta a făcut ca zonele critice să fie simetrice. La urma urmei se poate respinge ipoteza de egalitate şi atunci cînd valoarea empirică e mult mai mare şi atunci cînd e mult mai mică decît valoarea din ipoteză. Am menţionat deja că faptul că valoarea empirică e mai mare sau mai mică ne apare ca un rezultat suplimentar şi poate înbunătăţi significanţa. Există însă situaţii în care ipoteza este chiar construită ca o inegalitate. Astfel de ipoteze cer să fie analizate doar prin prisma unei singure zone critice. Să mă explic. Dacă ipoteza era de forma “media = valoare” atunci zonele critice de significanţă 99% sunt intervalele (-∞, 2,58) respectiv (2,58, ∞), adică tot de se află în afara intervalului de probabilitate de 99% care este (-2,58, 2,58). Dacă însă ipoteza este de forma “media > valoare” atunci ea respinge numai dacă ceea ce ne dă testul e mult mai mic decît 0, deci numai un capăt de distribuţie normală respinge ipoteza. Acest capăt e evident totdeuna cel opus semnului din ipoteză. Adică testăm o inegalitate cu semnul > (mai mare) capătul care respinge va fi cel negativ (mai mic decît media standard 0), dacă testăm o inegalitate cu < (mai mic) atunci se poate respinge ipoteza 84
cu intervalul critic pozitiv. Mai avem însă ceva, valorile critice devin mai mici la testele cu inegalitate deoarece intervalul de 95% sau 99% va fi nelimitat pe un capăt. Deci: Ipoteze de forma “media > valoare” se pot respinge: •
cu probabilitate de 95% dacă valoarea t < 1,81.
•
cu probabilitate de 99% dacă valoarea t < 2,23.
Ipoteze de forma “media < valoare” se pot respinge: •
cu probabilitate de 95% dacă valoarea t > 1,81
•
cu probabilitate de 99% dacă valoarea t > 2,23.
Testul Z pentru proporţii În mare parte dintre cercetările empirice nu ne interesează însă testarea unor ipoteze legate de medii. De fapt dacă ne gîndim la sondajele de opinie politice sau sociale pe care le mai vedem din cînd în cînd în presă greu ne vine în minte o situaţie în care să ne fi interesat media unei variabile. Cel mai adesea ceea ce ne interesează mai mult este să testăm ipoteze legate de proporţii. Astfel de ipoteze ar fi de exemplu “Partidul Vieţii Romaneşti va trece pragul electoral” sau “cetăţenii români de religie ortodoxă preferă manelele în mai mare măsură decît cei de religie catolică”. Hai să vedem cum se traduc aceste ipoteze astfel încît să fie testabile. În prima ipoteză menţionată “Partidul Vieţii Romaneşti va trece pragul electoral”, ceea ce vrem să aflăm este de fapt dacă ponderea din electorat a celor care votează cu partidul în cauză e mai mare decît 5%. Bineînţeles la această întrebare se poate răspunde corect într-un exit-poll, adică un sondaj făcut chiar la ieşirea de la urne. În sondaje preelectorale se poate însă face o previziune destul de bună la astfel de întrebări. Indiferent cum ar fi, în chestionar 85
va apărea o întrebare de genul “cu ce partid aţi votat?” sau “cu ce partid veţi vota?”. Dacă m intervievaţi dintr-un eşantion total de volum n, răspund că vor vota cu PVR atunci avem de verificat de fapt dacă m/n este cu adevărat mai mare decît 5%. Ipoteza se va scrie “m/n > 5/100” În a doua ipoteză va trebui să dezvoltăm un chestionar care, pe lîngă alte întrebări, se interesează şi de gusturile muzicale ale celor intervievaţi. Desigur întrebarea se poate pune în multe feluri, în final însă vom determina că un anumit număr de persoane preferă manelele. Acestea vor fi probabil de religii diverse. Să presupunem că dintre aceştia mo vor fi ortodocşi, iar mc catolici. Să notam numărul total al ortodocşilor chestionaţi no, iar al catolicilor nc. Atunci putem spune că dintre ortodoxi mo/no preferă manelele, iar dintre catolici mc/nc. Pentru a testa dacă prima pondere e în mod relevant mai mare decît cea de a doua, ipoteza va avea forma “mo/no > mc/nc”. Perechea de ipoteze din exemplele de mai sus este analoagă celor două metode de testare pe care le-am prezentat deja. Adică primul exemplu testează relaţia dintre o proporţie stabilită empiric şi o valoare teoretică, iar a doua ipoteză relaţia dintre două proporţii, ambele stabilite empiric, adică măsurate. Pentru verificarea ipotezelor legate de proporţii se foloseşte de regulă testul Z. Logica lui este însă aceiaşi ca a testului t discutat pînă acum. Să vedem prima dată formula pentru teste privitoare la o proporţie. Pentru a calcula valoarea de test avem nevoie de p – ponderea empirică (adică de exemplu ponderea celor ce au răspuns că vor vota cu PVR), ^p – ponderea teoretică (adică de exemplu ponderea celor care ar fi trebuit să răspundă pentru ca ponderea să fie exact 5%) şi n – volumul eşantionului. Cu acestea se calculează Z.
Dacă avem două ponderi de comparat ca în exemplul al doilea, formula va avea forma următoare:
86
Aici n1 este numărul de intervievaţi din primul eşantion (în exemplu, numărul total de ortodocşi din eşantionul total), iar n2 este numărul de intervievaţi din al doilea eşantion (în exemplu numărul total de catolici din eşantionul total). p1 şi p2 sunt ponderile persoanelor care intră în categoriile ce se compară (adică p1 = mo/no ponderea celor care preferă manelele dintre ortodocşi, respectiv p2 = mc/nc dintre catolici). În ambele cazuri rezultatul testului, Z se compară cu zonele critice definite ca şi pînă acum. Aceasta pentru că şi acest test face de fapt o transformare a valorilor pe o distribuţie normală standard şi logica respingerii unei ipoteze rămîne aceiaşi, a depărtării faţă de valoarea 0, media distribuţiei normale standard. Iată regulile de decizie simplificate pentru cazul, mai general, al ipotezelor cu două proporţii empirice Ipoteze de forma “p1 = p2” se pot respinge: •
cu probabilitate de 95% dacă valoarea Z < -1,96 sau Z > 1,96.
•
cu probabilitate de 99% dacă valoarea Z < -2,57 sau Z > 2,57.
Ipoteze de forma “p1 > p2” se pot respinge: •
cu probabilitate de 95% dacă Z < 1,81.
•
cu probabilitate de 99% dacă Z < 2,23.
Ipoteze de forma “p1 < p2” se pot respinge: •
cu probabilitate de 95% dacă Z > 1,81.
•
cu probabilitate de 99% dacă Z > 2,23.
Sumarul acesta de reguli se poate aplica uşor în practică. Tot ce trebuie făcut este să se formuleze simplu ipoteza, apoi se calculează valoare t (sau Z), se aplică regula de decizie şi gata: am făcut o cercetare empirică corectă statistic. c. Calculul erorii unui sondaj si interpretarea ei. 87
Calculul erorii unui sondaj de opinie este de fapt o aplicaţie a testelor statistice simple. De aceea am preferat să amîn discutarea acestei probleme pînă acum. Vom vedea deci ce înseamnă acele erori pe care le raportează institutele de sondare a opiniei publice şi de asemenea cum se stabileşte volumul unui eşantion. În mod curent eroarea care se raportează la un sondaj de opinie este eroarea cea mai mare cu care se poate estima o pondere cu o probabilitate de 95%. Am văzut pînă acum că estimarea unei ponderi se poate face doar cu o anumită probabilitate. Nu există o stabilire prin sondaj a unei valori exacte. Probabilitatea cu care se estimează ponderea dictează de fapt care e zona critică. De aici rezultă respingerea unei ipoteze. La sondajele de opinie se foloseşte de regulă intervalul de probabilitate de 95%. Este vorba despre estimarea unei proporţii, folosim deci testul Z pentru o proporţie. Formula, pe care am dat-o şi mai sus este:
Pe noi ne interesează în acest caz însă eroarea, adică cu cît diferă estimarea noastră de valoarea adevărată, într-un sondaj aceasta se interpretează ca fiind diferenţa dintre ponderea găsită în eşantion şi ponderea din populaţie, adică ponderea „reală“. Ca atare extragem din formula de mai sus diferenţa dintre valoarea empirică şi valoarea din populaţie. ^p – p = Z * sqrt (p*(1-p)/n) În această formulă trebuie înlocuit Z cu o valoare critică, astfel încît să se stabilească cu ce probabilitate dorim să ne încadrăm în eroarea calculată. Astfel dacă dorim ca eroarea ^p – p să nu fie depăşită cu o probabilitate de 95% vom lua Z = 1,96. Aceasta este varianta cea mai obişnuită. Dacă dorim o precizie de 99% va trebui însă să calculăm folosind Z = 2,57. Observăm că acestea sunt tocmai valorile critice, adică valorile de 95%, respectiv 99% din distribuţia normală standard.
88
Există mai multe feluri de a folosi această formulă. Putem cu ajutorul ei să calculăm eroarea pentru estimarea unei anumite proporţii în cazul unui sondaj de opinie cunoscut. Atunci cunoaştem valorile p şi n şi stabilim cu o probabilitate de 95% în ce interval se poate afla ^p. Putem de asemenea stabili care este cea mai mare eroare pe care o poate lua estimarea de proporţii în cadrul unui anumit sondaj (ceea ce se numeşte de obicei marjă de eroare). Atunci efectuăm acelaşi calcul dar în aşa fel încît să maximizăm eroarea pentru orice pondere posibilă. Putem să stabilim cu ajutorul aceleiaşi formule şi care e volumul eşantionului necesar pentru a nu depăşi o anumită marjă de eroare. Atunci considerăm diferenţa ^p – p cunoscută. Aceasta este marja de eroare pe care suntem de acord să o acceptăm, şi alegem p astfel încit eroarea să fie maxim posibilă în cazul dat şi îl calculăm pe n, volumul eşantionului. Estimarea marjei de eroare a unui sondaj de opinie Începem cu această aplicaţie a formulei pentru că ea este probabil cea mai importantă. Aţi văzut sau auzit desigur la (aproape) orice prezentare a unui sondaj de opinie specificari de genul “marja de eroare a sondajului este 3% cu o probabilitate de 95%”. Ce înseamnă aceasta? Marja de eroare este abaterea cea mai mare de la valoarea “reală”, adică valoarea pe populaţie pe care o poate avea valoarea calculată pe eşantion în cazul unui sondaj anume. În formula de mai jos, notăm marja de eroare cu E. De fapt E = max (^p – p), adică înlocuind în formula de mai sus: E = max (Z * sqrt (p*(1-p)/n)) În această formulă Z este dat de precizia pe care o dorim, adică pentru precizia de 95% va fi 1,96. n este volumul eşantionului, deci o valoare cunoscută, din moment ce sondajul a avut loc. Singura valoare care se poate alege astfel încît să se maximizeze formula este p. Pentru aceasta observăm că trebuie de fapt să alegem p astfel încît produsul p*(1-p) să fie maxim. Valoarea p este o pondere adică o valoare subunitară. Maximul produsul se atinge ca atare
89
pentru p = 0,5. Cine nu crede poate calcula matematic. Iese. De aici rezultă, că pentru o precizie de 95% avem
E = 1,96 Deci marja de eroare a unui sondaj depinde numai şi numai de volumul eşantionului. Graficul de mai jos ne arată cum arată forma distribuţiei normale centrate în jurul ponderii de 0,5 pentru diferite volume de eşantioane.
Dacă, de exemplu avem un eşantion de 1000 de persoane, un volum uzual, marja de eroare a acestui eşantion va fi: E = 0,98 / sqrt (1000) = 0,03099 Ceea ce se mai poate scrie ca fiind 3,1%.
90
Calcul de mai sus are desigur şi nişte premise matematice. Principala premisă este aceea că eşantionul este aleator. Ştim deja că aceasta nu este chiar întotdeuna perfect îndeplinită, dar un sondaj de opinie bine efectuat se apropie cît se poate de mult de acest deziderat tocmai pentru a putea garanta marja de eroare promisă. Să vedem acum, cum se citeşte de fapt un rezultat statistic prin prisma marjei de eroare. Fie de exemplu un sondaj cu 1000 de interviuri, la care 500 de persoane, adică o pondere de 0,5 (sau 50%) au răspuns că ar vota Partidul Vieţii Romaneşti. Atunci statisticianul responsabil poate spune cam aşa: “Există o probabilitate de 95% ca din ansamblul populaţiei studiate cei care ar vota PVR să reprezinte un procentaj între 46,9% şi 53,1%.” Dacă ponderea pe care trebuie să o estimeze este mai mică sau mai mare decît 0,5 ştim că eroarea poate fi calculată mai exact şi va fi ceva mai mică. La urma urmei marja de eroare este eroarea cea mai mare la estimarea de proporţii şi formula generală a erorii depinde de valoarea p. Calculul volumul eşantionului pe baza marjei de eroare De multe ori problema se pune invers. Avem de efectuat un sondaj de opinie şi clientul nostru îşi doreşte o anumită marjă de eroare, de exemplu 2%, numai aşa ca să aibă el sondajul cel mai tare din judeţ. Atunci vom folosi aceiaşi formulă: E = 0,98 / sqrt (n) Dar vom cunoaşte pe E, marja de eroare dorită şi va trebui să-l calculăm pe n, volumul eşantionului. Dacă extragem pe n din formulă, iese: n = 0,98 / E2 Înlocuind în formulă E = 0,02 obţinem n = 2400, pentru E = 0,03, n = 1067. Tabelul de mai jos conţine şi alte perechi de marje de eroare şi volume de eşantioane: Marja de eroare Volumul eşantionului 1%
9605
2%
2400
3%
1067 91
4%
600
5%
384
10%
96
Calculul erorii pe estimare a unei anumite proporţii Să continuăm cu aplicaţia cea mai simplă a formulei şi una din greşelile cele mai des întîlnite în interpretarea sondajelor de opinie. Cum am văzut, marja de eroare este de fapt eroarea maximă care se face la o estimare cu precizie de 95%. Aceasta e atinsă atunci cînd se estimează valori apropiate de 0,5, adică de 50%. Cu toate acestea nu o dată citim interpretări în care valoarea marjei de eroare este folosită pentru a da intervale de estimare pentru procentaje mult mai mici. De exemplu, iată un fragment de declaraţie a lui Alin Teodorescu, deputat PSD şi, pe deasupra, sociolog: “16% în sondaje înseamnă 19 sau 13. Marja de eroare e de 3%.”6 Are sau nu dreptate politicianul-sociolog. Bineînţeles nu, pentru că pentru estimarea unui procentaj de 16% eroarea este mai mică decît marja de eroare, care este atinsă atunci cînd se estimează 50%. Cu cît este însă mai mică? Articolul de ziar nu ne dă cu exactitate volumul eşantionului, dar dnul Teodorescu ne dă un indiciu foarte bun cînd declară că marja de eroare a sondajului a fost 3%. Deci, volumul eşantionului trebuie să fi fost cam 1067 de persoane. Să înlocuim în formulă şi să calculăm: eroarea = 1,96 * sqrt (p*(1-p)/n) = 1,96 * sqrt ((0,16 * 0,84)/1067) = 0,02199 Exprimată tot în procente eroarea la estimarea unui procentaj de 16% este 2,2%. Corect am putea spune, valoarea procentuală de 16% din eşantion se traduce astfel “procentajul în ansamblul populaţiei studiate este aflat cu o probabilitate de 95% între 13,8% şi 18,2%”. Iată o exprimare de o candoare deosebită, legată de aceiaşi problemă: “Strict sociologic, ce-i sub marja de eroare practic nu se ia in calcul.”7 Evident nu este aşa. Mai mult, valorile mici,
6 7
“Alin Teodorescu: PSD s-a comprimat din cauza integrarii in UE”, interviu în Cotidianul, 1.02.2007. Pavel Lucescu “Chinurile lui Felix”, editorial în Cotidianul, 26.02.2007.
92
adică cele pe care ziaristul le numeşte “sub marja de eroare” se estimează mai exact decît valorile în jur de 50%. Să calculăm puţin. Un procentaj de 3% se va estima într-un sondaj cu marja de eroare de 3% cu o eroare de: eroarea = 1,96 * sqrt ((0,03 * 0,97)/1067) = 0,010. Deci, dacă s-a măsurat un procentaj de 3% pe eşantion, putem spune cu o probabilitate de 95% că ponderea în ansamblul populaţiei este între 2% şi 4%. Factor de corecţie pentru populaţii finite Iată un fragment de articol din ziarul Tricolorul: “Dar, iată, scorurile sondajului real efectuat de IMAS, aşa cum le-am aflat chiar din interiorul PSD. Eşantion: 1.257 de persoane. Marjă de eroare: ± 1,8%.”8 Este aşa ceva posibil de fapt? Am văzut că marja de eroare şi volumul eşantionului sunt legate printr-o formulă cît se poate de simplă şi se poate uşor calcula: pentru 1257 de persoane se obţine o marjă de eroare de 2,7%. Pentru 1,8% ar fi nevoie de un număr de 2963 de interviuri. Şi totuşi ceea ce scrie ziarul nu este întru totul imposibil pentru că în toate exemplele şi discuţiile de pînă acum am considerat că populaţia este foarte mare faţă de volumul eşantionului. Practic am presupus că avem o populaţie infinită. Sau mai exact nu am făcut nici un fel de presupunere despre volumul populaţiei. Este însă de bun simţ să ne gîndim că dacă populaţia pe care o cercetăm e mică, de exemplu, de 1000 de oameni, cum ar fi la un studiu despre elevii unei şcoli, marja de eroare nu poate fi 4% la un eşantion de 600, adică cuprinzînd bine peste jumătate dintre toţi elevii. Trebuie să existe un factor de corecţie care înbunătăţeşte marja de eroare în cazul în care populaţia studiată este mică. Acest factor de corecţie este numit factor de corecţie pentru populaţii finite. El se foloseşte numai atunci cînd volumul eşantionului este suficient de mare faţă de volumul populaţiei. Teoretic însă s-ar putea calcula oricînd, doar că valoarea lui este de obicei foarte aproape de 1. Formula factorului de corecţie este.
8
“Presedintii PRM si PSD vor semna un protocol de colaborare!”, editorial nesemnat, Tricolorul, Anul III, Nr. 643 - 06.05.2006
93
În formulă N este volumul populaţiei şi n volumul eşantionului. Factorul calculat astfel se înmulţeşte cu marja de eroare pentru a da marja de eroare corectată. Să vedem prima dată dacă ar merita calculat factorul pentru eşantioanele obişnuite, de 1067 de persoane, avînd ca populaţie, de exemplu, electoratul României, de aprox 18 milioane de persoane. F = sqrt (18000000 – 1067 / 18000000 – 1) = 0,9999 Ei bine, acest factor de corecţie ar trebui înmulţit cu marja de eroare, dar valoarea e atît de apropiată de 1 încît este evident de ce nu se obişnuieşte aşa ceva. În exemplul dat, raţionamentul este însă altul. Dacă la un eşantion de 1257 de persoane s-a obţinut o marjă de eroare de 1,8% înseamnă că s-a folosit un factor de corecţie şi acest factor a coborît marja de la valoarea de 2,7% care s-ar fi obţinut pentru o populaţie cît România la valoarea de 1,8%. Acest factor de corecţie este de fapt uşor calculabil: 1,8 = F * 2,7 F = 1,8 / 2,7 = 0,67 Înlocuind în formula lui F această valoare precum şi n = 1257, rezultă: 0,67 = sqrt (N – 1257 / N – 1) De aici rezultă: N = (1257 – 0,672) / (1 – 0,672) = 2285. În concluzie articolul din ziar poate avea dreptate doar în măsura în care populaţia din care s-a ales eşantionul avea un volum de 2285 de persoane.
94
Capitolul 6. Feluri principale şi garnituri sau relaţia dintre mai multe variabile Voi încerca şi de astă dată să mă apropii de tema relaţiilor dintre variabile începînd cu ce e mai simplu, reprezentările grafice, şi continuînd apoi cu tabele de frecvenţe, indicatori de relaţionare şi în fine voi încheia capitolul acesta cu o tehnică ceva mai avansată, regresia liniară. Pînă acum în această carte m-am ocupat de o singură variabilă o dată. Am văzut cum se reprezintă o variabilă, grafic sau tabelar, prin frecvenţele ei, am calculat indicatori care descriu o variabilă şi am testat ipoteze referitoare la o variabilă. În cercetarea statistică problemele care ni se pun se referă însă adesea la relaţia dintre două sau chiar mai multe variabile. Multe ipoteze care se pun, se referă la efectul unor variabile asupra altora. Ne interesează cum influenţează vîrsta opţiunile electorale, ce efect are educaţia asupra alegerii unei anumite mărci de bere. Ne interesează ce categorii sociale ascultă anumite emisiuni de radio, pentru a ştii ce tip de publicitate ar fi de interes pentru aceştia. Vrem să aflăm care dintre studenţi vor cu adevărat să emigreze şi care vor să-şi continue studiile în străinătate. Toate aceste întrebări necesită studierea unor relaţii dintre variabile. De multe ori, dar nu întotdeuna, teoria pe care ne bazăm ca să construim ipotezele noastre separă variabilele în cauze şi efecte. În statistică efectele le numim variabile dependente, iar cauzele variabile independente. Nu este întotdeuna simplu, există însă şi variabile care sînt aproape mereu tratate ca independente. Aşa sînt genul, vîrsta, zona de reşedinţă (urban sau rural), statutul marital şi altele care în puţine ipoteze sunt considerate efecte ale altor variabile. În general aceste variabile se suprapun peste aşa-zisele variabile SES (socio-economic status). Genul sau vîrsta celui intervievat, de exemplu, nu se prea pot considera efecte ale unor alte variabile. Pe de altă parte, selecţia aleatoare poate evidenţia faptul că populaţia studiată are o distribuţie a genurilor sau vîrstelor particulară. Aşa este de exemplu dacă populaţia noastră e formată din cei ce îşi fac cumpărăturile într-un anumit magazin. În acest sens şi genul poate fi privit ca un efect al opţiunii de a face aprovizionarea pentru familie. Alte variabile SES, ca de exemplu venitul sînt chiar mai des variabile dependente.
95
Oricum ar fi, cel mai adesea, într-o cercetare statistică relaţionăm variabile numite generic independente cu variabilele ţintă ale cercetării, numite de regulă variabile dependente.
a. Grafice pentru mai multe variabile. Reprezentările grafice pentru mai multe variabile au o paletă mai restrînsă de opţiuni la dispoziţie. O parte din reprezentările uzuale în cazul unei singure variabile nu sunt potrivite în cadrul graficelor cu mai multe variabile. Astfel, graficele plăcintă nu se adaptează prea bine la mai multe variabile. Nici graficele de linii nu se pretează la prezentarea relaţiilor dintre variabile. Ele se pot însă folosi pentru a prezenta mai multe variabile una alături de cealaltă. Reprezentările folosite cel mai des sunt graficele de bare, care permit chiar vizualizarea relaţiilor. Cel mai simplu mod de grafic pentru mai multe variabile prezintă dezvoltarea paralelă a unor variabile. În exemplul de mai jos avem o reprezentare liniară a două variabile. Acestea sînt numărul de studenţi la 10.000 de locuitori pe ansamblul Europei de Est şi de Vest în perioada 1950 – 2000 (dintr-o cercetare proprie, Reisz, Stock, 2007).
96
Graficul se pretează la compararea celor două trenduri dar nu vizualizează cu adevărat relaţia dintre cele două variabile. Le pune doar una lîngă cealaltă. Dar e frumos oricum, nu? Există grafice similare şi cu bare. Să luăm şi aici un exemplu.
1. Cate beri ati baut?
4,00
7. Cat de des v-ar place sa fie Festivalul Berii?
Mittelwert
3,00
2,00
1,00
0,00 dumineca
sambata
ziua
În graficul de mai sus se prezintă un rezultat de la o cercetare efectuată la festivalul berii Timisoara în anul 2003. Barele albastre reprezintă media de beri băute, iar barele verzi un indicator al frecvenţei medii dorite de către intervievaţi pentru festivalul berii. Întrebarea se punea la ieşirea din arealul festivalului. Cele două medii sunt prezentate diferenţiat pentru cele două zile ale festivalului. Totuşi graficul nu ne spune nimic despre felul cum au răspuns la întrebarea a doua cei ce au băut mai multe beri faţă de cei ce au băut mai puţine beri. Pentru asta e nevoie de o altă abordare a relaţiei reprezentate pe grafic. Graficele care prezintă cu adevărat relaţii sunt grafice de bare, în care una dintre variabile este o variabilă categorială, sau tratată ca şi variabilă categorială. Această variabilă are rolul de variabilă independentă. Ea se trece pe axa x, iar variabila sau variabilele dependente apar pe axa y. De fapt chiar şi graficul de mai sus prezenta o relaţie. Variabila independentă era ziua de festival. Dar să revenim la problema enunţată mai sus, cum e relaţia dintre consumul de bere şi frecvenţa dorită a festivalului
97
7. Cat de des v-ar place sa fie Festivalul Berii?
4,00
3,00
2,00
1,00
0,00 Nici o bere
1 - 2 beri
3 - 4 beri
5 beri si mai mult
Bautori
În grafic sunt prezentate medii ale frecvenţei dorite ale festivalului în funcţie de numărul de beri consumate, număr care a fost recodat pe categorii de către mine (întrebarea nu era pe categorii, ci deschisă). S-ar fi putut folosi şi alte valori în loc de medie, cum ar fi dispersia, suma, procentajul peste o anumită valoare, etc. De asemenea valoarea exactă se poate reprezenta sau nu pe grafic, dependent de forma ei, numerică sau nu. Pe lîngă faptul că frecvenţa dorită a festivalurilor berii creşte cu numărul de beri băute se mai observă două lucruri care ţin de reprezentările grafice în general . Anume, că numărul de categorii de pe axa x este relativ mic şi că acestea se citesc într-o formă ordonată pur şi simplu din obiceiul nostru de a parcurge de la stînga la dreapta orice text şi de a impune mental o ordine chiar şi acolo unde aceasta nu există. Prima dintre aceste două observaţii este doar parţial restrictivă. Acolo unde numărul de valori este foarte mare într-adevăr citirea graficului devine anevoioasă dar totuşi numărul de categorii poate fi crescut destul de mult. Aceasta totuşi nu prea se face pentru că graficul construieşte de regulă barele fără să raporteze numărul de cazuri folosite şi ca atare anumite bare pot fi calculate pe un număr foarte mic de cazuri şi pot induce în eroare cititorul. Acest risc există desigur şi la un număr mai mic de categorii dar este mult diminuat. Să vedem un exemplu de grafic de relaţionare cu bare cu un număr mare de categorii: 98
5,00
1. Cate beri ati baut?
4,00
3,00
4
2,00 4
4 3
1,00
2
3
3
3
3
2 2
1
1
3
2
2
4
3
3
3 3 2
2
4 3
2
2 2
1 1 1
2
2 2 2 2 2
2
2 2 2 2
1 1
1 1
1 1
1 1
0
0
0,00
78,00 76,00 73,00 70,00 63,00 61,00 59,00 57,00 55,00 53,00 51,00 49,00 47,00 45,00 43,00 41,00 39,00 37,00 35,00 33,00 31,00 29,00 27,00 25,00 23,00 21,00 19,00 17,00 15,00 13,00
8. Varsta:
Graficul conţine media de beri băute pe vîrste. Informaţia prea detaliată şi incertitudinea numărului de cazuri pe categorii fac graficul foarte greu de citit. Recodarea vîrstei pe categorii mai mari duce la următorul rezultat, mult mai citibil:
2,50
1. Cate beri ati baut?
2,00
1,50
1,00
0,50
0,00 pana la 20
21 - 35
36 - 50
51 - 65
Varsta pe categorii
99
peste 65
Relaţia existentă dintre vîrstă şi consumul de bere la festival devine astfel mult mai clară şi poate produce o ipoteză statistică care merită verificată. Evident graficul nu trebuie însă considerat ca fiind suficient pentru a trage concluzia “la festivalul berii, cu cît un vizitator e mai bătrîn bea mai puţină bere”. Această ipoteză merită însă testată. Pentru o declaraţie de genul “tinerii beau mai multă bere decît bătrînii” nu există oricum nici o bază. Nu trebuie nici o clipă uitat că studiul s-a ocupat de festivalul berii, într-un an dat, în condiţii meteo aşa cum au fost, cu muzica aşa cum a fost, şi aşa mai departe. Toate aceste condiţii de mediu fac total imposibilă generalizarea la un consum de bere sau chiar alcool în condiţii nespecificate. Cea de a doua observaţie, cea legată de ordinea implicită sau explicită a categoriilor reprezentate necesită de asemenea o anumită atenţie. Bineînţeles, dacă variabila de pe axa x, cea considerată categorială, este o variabilă ordinală sau chiar intervalică sau raţională, trebuie să fim atenţi ca ordinea reprezentată a categoriilor să corespundă ordinii matematice a acestora. Dacă însă variabila categorială nu are o anume ordine, este o variabilă nominală reprezentarea devine problematică atunci cînd numărul de categorii e mare. La un număr mic de categorii tentaţia de a le privi ca o serie e mult mai mică. În fine, tot ce putem şi trebuie să facem în asemenea cazuri este să atenţionăm cititorul rezultatelor noastre, respectiv să nu ne lăsăm noi înşine prinşi în capcana automatismelor de gîndire. Să lăsăm acum berea şi să trecem şi la un alt tip de grafic de relaţionare cu bare. Cu ajutorul graficelor cu bare se poate reprezenta şi mai bine relaţia dintre două variabile, e drept poate ceva mai dificil citibil. Mă refer la grafice care suprapun bare cu dimensiuni proporţionale cu categoriile unor variabile definite de o altă variabilă. Să vedem însă cum arată aşa un grafic pentru a îl putea descrie mai bine.
100
25.1. Grupe de varsta
250
Intre 20 - 29 19
Intre 30 si 39 Intre 40 si 49
200
Intre 50 si 59 Peste 60
58
150 48
100
26
0
0
34 0
50
50
31
29
83 19 0
29
0
17 0
0
16
17
1 11
40 0 0
ab nt
tii
e at ilit
c tru ns
ra tu ul
je ta co tri ra tu ul ic lv si ii ic rv t se an m ta va in rie st du in
co
co
to au
ric ag
1. In ce domeniu ati lucrat inainte de a intra in somaj?
Graficul face parte dintr-o cercetare care a inclus un sondaj de opinie efectuat pe şomeri din mediul rural din Romania în 2005. În imagine avem relaţionarea dintre domeniul în care persoana a lucrat înainte de a intra în şomaj şi grupa de vîrstă. Valorile trecute pe grafic sunt valori absolute, adică exact numărul de persoane din fiecare categorie. Se vede nu numai cît de mare este o categorie a axei x, dar şi cum se distribuie ea pe grupele de vîrstă. Un astfel de graf se numeşte “stacked bar graph”, adică grafic de bare stivuite. O altă formă a barelor stivuite reprezintă distribuţia procentual, extinzînd fiecare categorie a axei x la 100% şi prezentînd subcategoriile definite de cea de a doua variabilă în procentaje. Graficul, care ar putea fi mai uşor de citit, obturează bineînţeles dimensiunea categoriilor. Totuşi aceasta poate fi intuită, prin afişarea procentajelor subcategoriilor din ansamblul eşantionului aşa cum se vede în exemplul de mai jos.
101
1,0
0,0%
0,0%
0,0%
0,0%
0,0%
0,0%
0,0%
0,18%
3,39%
25.1. Grupe de varsta Intre 20 - 29 Intre 30 si 39
0,8
Intre 40 si 49
0,54%
6,07%
10,36%
Intre 50 si 59
5,54%
Peste 60
8,93%
0,6
8,57%
5,18%
3,04%
2,86% 4,64%
0,4
3,04%
3,39%
2,14%
1,96%
7,14%
0,2
14,82%
5,18%
2,86%
0,0
0,0%
0,0%
0,0%
je ta co tri ra tu ul vic sil ii ic rv t se an m ta va in rie st du e in at ilit ab nt co ii ct tru ns co
to au ra tu ul ric ag
1. In ce domeniu ati lucrat inainte de a intra in somaj?
Am prezentat graficele de relaţionare cele mai uzuale, nu există însă restricţii, orice grafice corecte matematic se pot la o adică folosi. Vreau sa repet însă un comentariu pe care l-am făcut legat de graficele referitoare la o singură variabilă. Se zice că o imagine spune mai mult decît 1000 de cuvinte. Tot ce se poate, dar o imagine este şi mult mai puţin exactă decît cele 1000 de cuvinte, ca atare: prezentaţi grafice, dar analizaţi valorile care stau la baza acestora. b. Tabele de relaţionare, Teste de relaţionare Tabelele de relaţionare sunt de fapt tabelele care stau la baza graficelor stivuite. Astfel de tabele au fost gîndite iniţial pentru variabile categoriale, şi sînt practice într-adevăr numai pentru variabile cu un număr relativ mic de valori, de indiferent ce tip de variabilă. Iată în tabela de mai jos tocmai datele care stau la baza graficelor stivuite prezentate mai înainte.
102
1. In ce domeniu ati lucrat inainte de a intra in somaj? * 25.1. Grupe de varsta Valori absolute 25.1. Grupe de varsta
1. In ce domeniu ati lucrat inainte de a
agricultura
intra in somaj?
auto
Intre 20 -
Intre 30 si
Intre 40 si
Intre 50 si
Peste
29
39
49
59
60
29
29
34
0
0
0
0
16
0
0
16
constructii
83
26
48
58
19
234
functionar
0
0
1
17
0
18
Industrie
16
19
31
0
0
66
invatamant
17
0
0
0
0
17
servicii
11
3
1
0
0
15
silvicultura
40
50
0
0
0
90
tricotaje Total
Total 92
0
12
0
0
0
12
196
139
131
75
19
560
Tabela conţine numărul de cazuri care corespund fiecărei corespondenţe a celor două variabile. Aşa cum se vede, o celulă e definită de categoriile pe rînduri şi coloane. Un exemplu va clarifica cel mai bine aceasta. Dacă dorim de exemplu să aflăm cîţi din eşantion care au lucrat în construcţii înainte de a intra în şomaj sunt din categoria de vîrstă între 20 şi 29 de ani, vom căuta coloana aferentă acestei categorii de vîrstă apoi o vom parcurge pentru a găsi linia care conţine valorile celor ce au lucrat în construcţii. Valoarea din celula cu pricina este 83. Deci 83 de persoane din această subcategorie au fost intervievate în cadrul cercetării. Linia şi coloana de total sunt şi mai uşor de citit. Astfel ultima linie, cea marcată “Total” conţine numărul de intervievaţi pe categoriile specificate în capetele de coloană. De exemplu, 196 de persoane pentru categoria “între 20 şi 29 ani”, 139 în categoria “între 30 şi 39 ani” şi aşa mai departe. Ultima coloană, marcată de asemenea “Total” conţine valorile aferente categoriilor definite în capetele de linii. De exemplu, pentru “construcţii” valoarea este 234. Volumul total al eşantionului se va găsi în colţul din dreapta jos al tabelului, la intersecţia liniei şi coloanei de total. În cazul cercetării din care am extras tabelul de mai sus s-au efectuat 560 de interviuri. O astfel de tabelă ne permite să comparăm uşor categoriile şi subcategoriile. Urmărind numai coloana şi linia de total putem spune astfel că “cei mai mulţi şomeri au lucrat în domeniul construcţiilor” şi “cei mai mulţi şomeri sunt între 20 şi 29 de ani”. De asemenea putem spune că “numărul şomerilor scade pe măsură ce categoria de vîrstă e mai mare”. Dacă comparăm 103
diferitele coloane sau linii între ele mai putem face şi observaţii de forma “între 20 şi 39 de ani numărul şomerilor proveniţi din silvicultură îl depăşeşte pe cel al celor ce provin din orice alt domeniu cu excepţia construcţiilor”9 sau “în categoria de vîrstă între 50 si 59 de ani există şomeri proveniţi din functionari, probabil din foste CAP-uri şi SMA-uri, o categorie care nu apare la alte grupe de vîrstă”. De asemenea putem stabili cea mai mare categorie, numită şi categorie modală, după indicatorul de tendinţă centrală pentru variabile nominale – modul care e valoarea care apare cel mai des într-o distribuţie. În exemplul nostru este tocmai cea a “şomerilor care au lucrat în construcţii şi au între 20 şi 29 de ani”. Toate observaţiile de mai sus le-am bazat pe valorile absolute din tabel. Pentru a putea avea însă o bază de comparaţie cel mai adesea tabelele de relaţionare conţin procentaje pe rînduri şi coloane. Mai jos se află tabela recalculată conţinînd aceste procentaje. 1. In ce domeniu ati lucrat inainte de a intra in somaj? * 25.1. Grupe de varsta 25.1. Grupe de varsta
1. In ce domeniu ati lucrat
agricultura
inainte de a intra in somaj? auto
constructii
functionar
industrie
Nr.
Intre 50 si
Peste
49
59
60
29
34
0
0
92
31,5%
37,0%
,0%
,0%
100,0%
% coloană
14,8%
20,9%
26,0%
,0%
,0%
16,4%
0
0
16
0
0
16
% linie
,0%
,0%
100,0%
,0%
,0%
100,0%
% coloană
,0%
,0%
12,2%
,0%
,0%
2,9%
Nr.
Nr.
83
26
48
58
19
234
% linie
35,5%
11,1%
20,5%
24,8%
8,1%
100,0%
% coloană
42,3%
18,7%
36,6%
77,3%
100,0%
41,8%
0
0
1
17
0
18
% linie
,0%
,0%
5,6%
94,4%
,0%
100,0%
% coloană
,0%
,0%
,8%
22,7%
,0%
3,2%
16
19
31
0
0
66
24,2%
28,8%
47,0%
,0%
,0%
100,0%
8,2%
13,7%
23,7%
,0%
,0%
11,8%
Nr.
Nr.
Nr. % coloană Nr. % linie % coloană Nr. % linie
9
Intre 40 si
39 29
% linie
silvicultura
Intre 30 si
29 31,5%
% coloană
servicii
Intre 20 -
% linie
% linie invatamant
Total
17
0
0
0
0
17
100,0%
,0%
,0%
,0%
,0%
100,0%
8,7%
,0%
,0%
,0%
,0%
3,0%
11
3
1
0
0
15
73,3%
20,0%
6,7%
,0%
,0%
100,0%
5,6%
2,2%
,8%
,0%
,0%
2,7%
40
50
0
0
0
90
44,4%
55,6%
,0%
,0%
,0%
100,0%
Populaţia studiului a fost cea a şomerilor din mediul rural din Romania.
104
% coloană tricotaje
20,4%
36,0%
,0%
,0%
,0%
0
12
0
0
0
12
,0%
100,0%
,0%
,0%
,0%
100,0%
,0%
8,6%
,0%
,0%
,0%
2,1%
196
139
131
75
19
560
Nr. % linie
16,1%
% coloană
Total
Nr. % linie % coloană
35,0%
24,8%
23,4%
13,4%
3,4%
100,0%
100,0%
100,0%
100,0%
100,0%
100,0%
100,0%
Să vedem cum se citesc asemenea tabele. Primele indicii sînt poziţiile celulelor de 100% de pe ultima linie şi ultima coloană. Să căutăm aceiaşi celulă ca şi în exemplul cu valori absolute, “şomeri proveniţi din domeniul construcţiilor cu vîrste între 20 şi 29 de ani”. Găsim următoarea configuraţie de celule: Nr.
83
% linie
35,5%
% coloană
42,3%
Valoarea Nr. este desigur cea pe care am ştiut-o deja. Cele două procentaje de citesc astfel: •
35,5% dintre şomerii care au lucrat în construcţii au între 20 şi 29 de ani.
•
42,3% dintre şomerii cu vîrste între 20 şi 29 de ani au lucrat în construcţii.
Acestă citire este cel mai uşor de reţinut în relaţie cu poziţia valorii de 100%. Dacă această valoare este pe linie, cum e în cazul “% linie”, evident procentajul e o parte din categoria ce apare pe linie. Şi anume partea care e definită de către coloana în care apare valoarea. Valoarea de pe linie este “construcţii”. Deci e vorba de 35,5% dintre cei care au lucrat în construcţii. Ei bine, ce e cu ei? Ei fac parte din categoria care e definită pe coloană, adică au între 20 şi 29 de ani. Procentaje fac categoriile comparabile. Abia prin compararea procentajelor se poate spune ce e mult şi ce e puţin în rezultatele statistice ale unui sondaj. Pe de altă parte, procentajele pot induce în eroare dacă sunt calculate pentru categorii foarte mici. Să privim şi un alt tabel de relaţionare. Tabelul provine dintr-o cercetare efectuată pe populaţia intreprinderilor mici şi mijlocii din mediul rural din Romania în 2005. În tabel găsim relaţia dintre nivelul de pregătire şi genul patronilor de IMM-uri din mediul rural. Care este nivelul cel mai inalt de pregatire pe care l-ati absolvit? * Genul
105
Genul masculin Care este nivelul cel mai inalt de pregatire pe care l-ati
Fara pregatire scolara
absolvit?
Nr. % linie % coloana
Scoala primara
Nr. % linie % coloana
Scoala generala
Nr. % linie % coloana
Scoala profesionala /
Nr.
Liceu
% linie % coloana
Colegiu / Universitate
Nr. % linie % coloana
Studii post-universitare
Nr. % linie % coloana
Total
Nr. % linie % coloana
feminin
Total
4
0
4
100,0%
,0%
100,0%
,6%
,0%
,4%
7
0
7
100,0%
,0%
100,0%
1,1%
,0%
,6%
16
9
25
64,0%
36,0%
100,0%
2,6%
1,9%
2,3%
298
194
492
60,6%
39,4%
100,0%
48,0%
41,1%
45,0%
251
208
459
54,7%
45,3%
100,0%
40,4%
44,1%
42,0%
45
61
106
42,5%
57,5%
100,0%
7,2%
12,9%
9,7%
621
472
1093
56,8%
43,2%
100,0%
100,0%
100,0%
100,0%
Un exemplu de citire al tabelului ar fi cam aşa: “Majoritatea patronilor de IMM-uri din mediul rural sînt bărbaţi, aceştia reprezentînd 56,8% din total. Există totuşi o categorie educaţională, a celor cu studii post-universitare, unde femeile sunt preponderente, reprezentînd 57,5%”. Să vedem cum am găsit valorile din fragmentul de interpretare al tabelului. Am prezentat linia de total, apoi am găsit că una singură dintre categorii prezintă o altă distribuţie a genurilor decît aceasta. Am ales deci pentru raportare “% linie” pentru categorie “Studii postuniversitare” şi am prezentat în text una dintre valori, cealaltă e bineînţeles complementară faţă de 100% fiimd vorba de distribuţia genurilor. Tot aceiaşi relaţie linie / coloană se putea citi şi astfel: “Din ansamblul patronilor de IMM-uri intervievaţi 9,7% au studii post106
universitare, categoria aceasta este însă suprareprezentată printre femeile patroni, unde reprezintă 12,9% faţă de numai 7,2% dintre bărbaţii patroni.” Pentru această prezentare am folosit procentajele de pe coloane pentru total, femei şi bărbaţi aferente categoriei “Studii post-universitare”. Mai jos, fragmentul de tabelă cu datele: Nr. % linie % coloana
45
61
106
42,5%
57,5%
100,0%
7,2%
12,9%
9,7%
Pentru cine e curios cum de se poate aşa ceva, şi ce caută oricum aşa mulţi patroni cu studii post-universitare, iată pe scurt explicaţia. În mediul rural sînt puţine firme, ca atare dintre acestea cabinetele medicale şi farmaciile au o pondere relativ mare. Medicii şi farmaciştii au adesea studii post-universitare, rezidenţiate, specializări, şi alte cursuri. De asemenea aceste profesii includ un număr mare de femei, chiar o preponderenţă a femeilor, în special la nivelul mediciilor de familie. Ca o regulă simplă dar nu obligatorie, analiza unui tabel se face în următorii paşi: •
Primele informaţii pe care le dăm de obicei despre un tabel se referă la linia şi/sau coloana de total.
•
Apoi dăm valorile modale, celulele care conţin cele mai multe cazuri.
•
Urmează categoriile distribuite altfel decît cele de total. Acestea se prezintă comparativ cu coloana sau linia de total.
•
În fine, dacă dorim, putem face comparaţii între linii sau coloane alese.
Aşa cum am făcut şi în exemplu, cînd prezentăm distribuţia pe o anumită linie sau coloană trebuie să o comparăm cu distribuţia pe linia, respectiv coloana de total. Altfel păţim ca acela care aflînd că 80% dintre cei răniţi în accidente de circulaţie nu au cartea de identitate la ei, a hotărît să îşi ia întotdeuna cartea de identitate cu el. A socotit el că are de 4 ori mai puţine şanse să fie rănit într-un accident! Ce a greşit individul de fapt? Păi nu a luat în seamă că avea de a face cu două variabile: rănit în accident sau nu, cu cartea de identitate la el sau nu. Numai dacă am ştii cîţi dintre toţi participanţii la trafic au cartea de identitate la ei, adică distribuţia de total, am putea trage o concluzie, comparînd cu datele din categoria “accidentat”. Am putea atunci descoperi prin comparaţie dacă persoanele care nu au acte de identitate la ei au un profil care îi predispune la a deveni victimele unul accidente. Şi bineînţeles nici atunci decizia de nu lua actele la el nu îi foloseşte la nimic şi asta pentru că posesia actului de 107
identitate şi accidentarea sînt evenimente totuşi independente. Modificînd unul dintre ele de fapt nu îl influenţăm pe celălalt. S-ar putea însă amîndouă să fie efecte ale unor caracteristici comportamentale comune. S-ar putea să fie. Sau nu. Încă două reguli, de astă dată aproape obligatorii, dacă nu vreţi să fiţi acuzaţi de ageamie statistică. Nici o dată nu raportaţi într-un sondaj procentaje cu mai mult decît o zecimală. Şi aşa valorile sunt supuse unor erori, prezentînd mai multe zecimale daţi impresia că aveţi nişte informaţii mai exacte sau nu înţelegeţi sensul statistic al rezultatelor. De fapt, mai bine ar fi să nu se raporteze nici o zecimală. Totuşi cutuma de a raporta o zecimală există pentru că rotunjirea sau trunchierea poate obtura o valoare de 0,5 ceea ce e deja destul de mult. A doua regulă: nu prezentaţi procentaje acolo unde numărul cazurilor e mic. De exemplu, în cercetarea din care provine tabelul de mai sus s-au nimerit doar patru patroni de IMM-uri care au declarat că nu au nici o pregătire şcolară. Faptul că toţi aceştia sînt bărbaţi nu este relevant şi nu e cazul să ascundem numărul mic scriind ceva de genul “100% dintre patronii de IMM fără pregătire şcolară sînt bărbaţi”. Toate observaţiile pe care le-am făcut pe baza tabelelor au un caracter de ipoteze. Ele nu sunt confirmate în relevanţa lor statistică. Aceasta însă se poate face. Există o serie de teste de relaţionare care sunt specifice diferitelor tipuri de variabile şi care verifică în general ipoteze de dependenţă. Astfel de ipoteze au forma generală “valorile variabilei 1 sînt independente de valorile variabilei 2”. Dacă reuşim să respingem această ipoteză avem bune motive să considerăm variabilele ca fiind relaţionate, dependente una de alta. De obicei putem face chiar mai mult. Putem, pe baza rezultatelor de test să spunem cam cît de “tare” este această relaţie. Pentru a ajunge însă acolo cred că ar merita să vorbesc puţin despre conceptul de “independenţă” statistică. Am pomenit de cîteva ori pe parcursul acestei cărţi despre independenţă. Am vorbit despre independenţă în special cînd am vorbit despre eşantionare, dar a trebuit să menţionăm conceptul şi cînd am comentat istoria statisticii şi principalele legi statistice. De asemenea, vreau să elimin o confuzie din capul locului, conceptul de variabilă independentă în relaţia cu o variabilă dependentă se referă la o relaţie unde nu există “independenţă” între variabile. Variabilele se influenţează între ele, şi care este cea pe care o considerăm independentă şi care dependentă ţine de construcţia modelului, adică de partea ne-
108
statistică din teorie. Denumirile de “independenţă” sînt întîmplător aceleaşi, conceptele nu au nici o legătură. Ce e deci “independenţa” evenimentelor aleatoare? Fie prima dată o definiţie simplă din teoria probabilităţilor apoi o voi comenta. Un eveniment este independent de un altul dacă probabilitatea ca evenimentul să aibă loc nu se schimbă dacă are loc sau nu cel de-al doilea eveniment. Să începem comentariul iar cu prietenul nostru care umblă fără acte la el. După ce a aflat că probabilitatea ca pe avion să fie o bombă este de 1 la 10.000 iar probabilitatea ca pe avion să fie două bombe e 1 la 100.000.000 a hotărît să plece el cu o bombă în concediu. În exemplul de mai sus avem un eveniment repetat: o bombă pe avion. Probabilitatea de a avea două bombe se calculează atunci aşa: p2 = p1 * p1 unde p1 este probabilitatea de a avea o bombă pe avion, deci p2 = 1/10.000 * 1/10.000 = 1/100.000.000 Această regulă de înmulţire este regula de compunere a probabilităţii evenimentelor independente. Adică dacă existenţa unei bombe este independentă de existenţa celei de a doua bombe, deci nici unul din terorişti nu ştie de celălalt atunci probabilitatea de a avea două bombe pe avion e produsul probabilităţilor celor două evenimente luate separat. Dacă tot am început, ce a greşit din nou amicul nostru? Păi dacă a luat cu el o bombă probabilitatea ca aceasta să fie pe avion este 1, evident dacă trece prin verificare, dar dacă e găsită, oricum nici omul nu ajunge pe avion ci în altă parte. Atunci însă probabilitatea de a avea două bombe devine aceiaşi cu probabilitatea de a avea o bombă pe avion. p’2 = p1 * 1 = p1
109
Regula de înmulţire a probabilităţilor este valabilă la compunerea unor evenimente independente. Regula generală e puţin mai complicată. Fie două evenimente A şi B, atunci probabilitatea ca ele să aibă loc de o dată este: P(A şi B) = P(A) * P(B | A) Unde P(B | A) este probabilitatea evenimentului B condiţionat de A, adică probabilitatea să aibă loc B dacă are loc şi A. Evident, dacă A şi B sînt independente, adică nu se influenţează reciproc atunci P(B | A) = P(B) adică probabilitatea că să aibă loc B nu se schimbă dacă are, sau nu are, loc A. Conceptul pe care l-am descris mai sus este cel de independenţă a evenimentelor probabiliste. În testele statistice lucrurile nu stau însă aşa de simplu şi aşa de transparent. Variabilele statistice culese empiric nu prezintă nici o dată o independenţă atît de perfectă ca variabilele teoretice din probabilităţi. Datele pe care le culegem sînt întotdeuna dependente de o grămadă de factori care mai de care mai greu de prevăzut. În fine, rezultatul este că orice este legat de orice în mai mare sau mai mică măsură. Testul trebuie să determine dacă legătura poate fi considerată întîmplătoare, un zgomot sau factor de eroare, sau este esenţială şi necesită explicaţii teoretice. Principiul de bază al acestei verificări este în majoritatea cazurilor unul care se poate înţelege cel mai bine prin conceptul de tabelă de relaţionare. Faptul că două variabile sînt independente înseamnă de fapt că modificarea uneia nu afectează modificarea celei de a doua. Asta înseamnă că în tabela care le relaţionează faptul că o variabilă se distribuie într-un fel nu poate avea efect pe felul cum se distribuie cealaltă variabilă. Şi de aici decurge faptul că rîndurile, respectiv coloanele aferente diferitelor categorii ale uneia din variabile sunt proporţionale, sau pentru că trebuie să gîndim statistic, nu se abat prea mult de la proporţionalitate. Deci independenţa statistică a două variabile se testează de fapt tot prin testarea egalităţii între nişte proporţii, anume proporţiile determinate de apartenenţa la categoriile unei variabile pe distribuţia celeilalte variabile. O să dau un exemplu teoretic pentru că mi se pare mai simplu: Fie variabila x cu categoriile x1 şi x2 şi variabila y cu categoriile y1 şi y2. O tabelă de relaţionare ar arăta cam aşa: x
110
y
x1
x2
total
y1
C11
C12
C1t
y2
C21
C22
C2t
Ct1
Ct2
Ctt
total
În tabel C11 este numărul de indivizi care au valoarea x1 la variabila x şi valoarea y1 la variabila y. C1t este numărul total de indivizi care au valoarea 1 la variabila y şi orice valoare la variabila x şi aşa mai departe. Faptul că x şi y sînt independente ar însemna, cum am spus că distribuţia lui x nu o influenţează pe cea a lui y, deci ipoteza de independenţă se traduce astfel: C11 / C12 = C21 / C22 = Ct1 / Ct2 sau C11 / C21 = C12 / C22 = C1t / C2t Testele care au fost dezvoltate pentru aceste ipoteze depind de tipul variabilelor. Aşa cum am formulat ipoteza mai sus ea e posibilă pentru orice tip de variabilă, dar metodele calculatorii permit o mai mare complexitate şi rezultate mai diferenţiate pe măsură ce tipul de variabilă este mai numeric (iertată-mi fie folosirea abuzivă a comparativului, dar sper că se înţelege ce vreau să spun). Principalele teste care verifică significanţa relaţionării dintre două variabile depind de tipul acestora:
•
Pentru variabile nominale: Testele Phi şi Cramer, coeficientul de contingenţă
•
Pentru variabile ordinale: Testele Gamma şi Kendall, Coeficienţii de corelaţie ρ (rho) al lui Spearman şi τ (tau) al lui Kendall.
•
Pentru variabile intervalice şi raţionale: Testele Eta, Coeficientul de corelaţie r al lui Pearson, dar şi ρ al lui Spearman şi τ al lui Kendall.
•
Pentru orice tip de variabilă: Coeficientul χ2 (Chi2) al lui Pearson.
111
Cei mai importanţi dintre cei de mai sus sînt coeficienţii de corelaţie şi coeficientul χ 2. Următoarea secţiune ne vom preocupa de coeficienţii de corelaţie, iar apoi în capitolul viitor vom discuta mai pe larg coeficientul χ 2. Cît despre celelalte teste, următoarea regulă simplă facilitează citirea rezultatelor acestora. Orice program de statistică care calculează astfel de teste le raportează împreună cu un rezultat de significanţă care este o valoare cu atît mai bună cu cît e mai aproape de 0. Practic trebuie să citim acest rezultat care este de obicei notat Sig sau S sau chiar “significance” sau ceva similar. Acest rezultat este probabilitatea de a face o eroare de tip I, adică să respingem ipoteza de independenţă în condiţiile în care aceasta este adevărată. Mai simplu spus cu cît significanţa testului e mai aproape de 0, ipoteza de independenţă se poate respinge mai sigur. Există aici o problemă care nu trebuie însă neglijată. Testele de relaţionare pot fi influenţate disproporţioat de mult de diferenţe pe anumite categorii. Aceasta se întîmplă în special cînd eşantionul e suficient de mare dar variabilele testate au un număr mare de categorii. În acest caz o diferenţă pe o anumită categorie poate duce la respingerea unei ipoteze care este adevărată. E o situaţie în care o relaţie dintre cele două variabile face ca rapoartele din ipoteză să fie aproape egale cu excepţia unuia care însă se abate mult de la celelalte. Rămîne în asemenea cazuri de obicei să continuăm testarea şi prelucrarea eventual separînd una dintre cele două variabile în două astfel încît valoarea care se abate de la regulă să fie modelată de către o variabilă de sine stătătoare, numită de regulă variabilă filtru. c. Corelaţia simplă şi parţială Corelaţia Pearson Corelaţia Pearson este o metodă de testare a relaţiei dintre două variabile raţionale sau intervalice. Din păcate se foloseşte uneori în mod abuziv şi la variabile ordinale. Coeficientul de corelaţie este o valoare numerică care indică gradul de dependenţă şi direcţia dependenţei între două variabile statistice. Deşi în general identificată cu matematicianul britanic Karl Pearson care a analizat şi descris metoda pe larg, coeficientul a fost prima dată introdus de către Francis Galton, un statistician (şi nu numai) britanic dintr-o generaţie anterioară.
112
Dat fiind două variabile x şi y, valorile pe care le iau acestea pentru un individ i, xi şi yi, coeficientul de corelaţie rxy “al lui Pearson” se calculează astfel:
Formula nu e foarte simplă, există însă bineînţeles tot felul de programe pe calculator care ştiu să o calculeze astfel încît bătaia noastră de cap nu este să înmulţim şi să ridicăm la pătrat ci să interpretăm rezultatele. Există însă şi cîteva precondiţii ale utilizării coeficientului de corelaţie care sînt foarte importante: •
Cele două variabile care se relaţionează trebuie să fie raţionale şi distribuite normal, dacă aceasta nu e cazul trebuie folosit un alt indicator de relaţionare, de ex. Chi2
•
Cele două variabile aleatoare trebuie să aibă dispersii finite şi nenule. Această condiţie e relativ slabă fiind considerată practic îndeplinită întotdeuna.
•
Coeficientul de corelaţie verifică numai relaţii liniare între variabile. Două variabile aflate într-o relaţie neliniară, de exemplu x = sin y, deşi se determină complet una pe alta, vor ieşi ca fiind necorelate.
Să vedem însă ce valori dă coeficientul de corelaţie şi cum se interpretează acestea: Intervalul de valori al coeficientului de corelaţie este (-1, +1). rxy = -1
determinare complet negativă. Atunci cînd x creşte, y scade.
rxy între -1 şi -0,7
corelaţie negativă puternică.
rxy între -0,7 şi -0,3
corelaţie negativă medie
rxy între -0,3 şi 0
corelaţie negativă slabă
rxy = 0
înseamnă că cele două variabile nu sunt relaţionate
rxy între 0 şi 0,3
corelaţie pozitivă slabă
rxy între 0,3 şi 0,7
corelaţie pozitivă medie
rxy între 0,7 şi 1
corelaţie pozitivă puternică
rxy = 1
determinare completă pozitivă 113
Criteriile din tabelul de mai sus sînt cele care se folosesc de regulă în sociologie. În psihologie se preferă adesea intervale mai apropiate de origine, o corelaţie fiind considerată puternică chiar de la un coeficient de 0,5 în sus. Oricum trebuie observat că intervalele sînt în mare măsură arbitrare şi trebuie privite mai mult ca nişte indicaţii decît ca regulă. În practica de cercetare e mai bine să se analizeze corelaţiile comparativ cu ansamblul valorilor de corelare din cadrul cercetării. Aceasta este adevărat şi referitor la indicatorii de regresie care au o semnificaţie înrudită cu coeficienţii de corelaţie. Un exemplu de interpretare cred că este oricum necesar. În tabelul de mai jos se găseşte corelaţia dintre vîrstă patronilor de IMM-uri din Transilvania şi cifra de afaceri a firmei, conform unei alte cercetări efectuate în 2006:
12. Care a fost cifra de afaceri a firmei
Corelaţia Pearson
in 2005?
Significanţă
12. Care a fost cifra de afaceri a firmei
48. Ce varsta
in 2005?
aveti? 1
,096(*) ,028
(bilaterală) N 48. Ce varsta aveti?
Corelaţia Pearson Significanţă
539
530
,096(*)
1
,028
(bilaterală) N
530
980
* Corelatia este significantă cu nivelul de 0,05 (bilateral).
Tabelul prezintă valorile coeficientului de corelaţie, significanţa acestuia şi numărul de valori utilizate pentru calcul. Prima observaţie ce trebuie făcută în cazul acestui tabel e discrepanţa mare în număr de răspunsuri la întrebări. Astfel, se vede că la întrebarea “12. Care a fost cifra de afaceri a firmei in 2005?” au răspuns 539 persoane, iar la întrebarea “48. Ce vîrstă aveţi?” au răspuns 980 de persoane. Pentru corelaţie s-au putut folosi 530 de cazuri, cei ce au răspuns la ambele întrebări. De altfel, eşantionul final a avut exact 1000 de persoane. Faptul că puţin peste jumătate au răspuns numai la întrebarea 12. poate duce la bănuiala unei selecţii defazate. Adică, cei ce au răspuns la întrebare au ceva aparte, o caracteristică diferenţiatoare faţă de cei care nu au răspuns. Chiar şi aşa, putem testa dacă pentru ei există o legătură cu între vîrstă şi cifra de afaceri a firmei. Valoarea coeficientului de corelaţie este 114
0,096 deci o valoare foarte mică. Aceasta înseamnă că putem liniştiţi considera că cifra de afaceri a firmei şi vîrsta patronului nu au o legătură statistică. Bine, bine, dar ce ne facem cu significanţa? Am spus doar că aceasta este probabilitatea de a face o eroare de tip I. Adică de a respinge o ipoteză de independenţă adevărată. Şi în cazul de mai sus significanţa este sub 0,05 deci şansa ca să respingem o ipoteză adevărată e foarte mică. Ca să înţelegem corect cele două valori trebuie să separăm două concepte: Cît de tare sînt relaţionate cele două variabile? respectiv Cît de siguri putem fi de această relaţionare? Coeficientul de corelaţie ne răspunde la prima dintre aceste întrebări, significanţa lui la cea de a doua. Să mai luăm un exemplu din aceiaşi cercetare, relaţia dintre cifra de afaceri şi profitul net al firmei:
12. Care a fost cifra de afaceri a
Corelaţia Pearson
firmei in 2005?
Significanţă
12. Care a fost cifra de afaceri a
13. Care a fost profitul net al
firmei in 2005?
firmei in 2005? 1
,394
(bilaterală) N 13. Care a fost profitul net al
Corelaţia Pearson
firmei in 2005?
Significanţă
,045
539
368
0,045
1
0,394
(bilaterală) N
368
399
Din tabela de sus se vede că nici între cifra de afaceri şi profitul net al IMM-urilor nu există o corelaţie, dar că nici significanţa nu e prea grozavă. Deci şansa de a face o eroare de tip I, adică de a respinge o ipoteză adevărată este mare, de vreo 40%. Asta înseamnă că în primul caz putem spune că există o corelaţie foarte slabă între cele două variabile, pe cînd în acest al doilea caz nu putem respinge ipoteza de independenţă a variabilelor. Există în practică vreo diferenţă între aceste două interpretări? Da şi nu. Ambele ne încurajează să considerăm variabilele ca fiind în mare măsură independente. Dacă însă significanţa e bună, adică apropiată de 0, avem o mai mare încredere în rezultat, rezultatul e mai sigur. Alţi coeficienţi de corelaţie Am văzut mai înainte că coeficientul de corelaţie al lui Pearson presupune variabile raţionale sau intervalice. Există însă şi coeficienţi care permit relaţionarea de variabile ordinale. Cei 115
mai uzuali sînt coeficientul ρ (rho) al lui Spearman şi coeficienţii τ (tau) ai lui Kendall, din care există trei variante a, b şi c. Aceşti coeficienţi nu fac presupuneri asupra distribuţiei datelor, aşa că pot fi folosiţi nu numai atunci cînd datele nu sînt intervalice sau raţionale ci şi atunci cînd, deşi sînt intervalice sau raţionale, ele nu sînt distribuite normal sau relaţia dintre ele nu este liniară. Ne vom ocupa acum numai de coeficientul ρ al lui Spearman, numit şi coeficientul de ordine de rang (rank-order), care are avantajul de a avea o formă şi ca atare şi o interpretare foarte asemănătoare cu coeficientul r al lui Pearson. Să vedem formula prima dată, deşi şi în acest caz este foarte puţin probabil să o calculăm de mînă:
În formulă n este numărul de perechi pentru care se calculează corelaţia. d este diferenţa dintre rangul lui x şi rangul lui y pentru cîte o pereche. Rangul este poziţia pe care o are o valoare x sau y în lista ordonată a tuturor valorilor culese. De fapt, coeficientul lui Spearman este exact coeficientul lui Pearson la care valorile variabilei sînt înlocuite cu rangurile lor. Aşa se elimină problema caracterului lor nenumeric şi se foloseşte numai faptul că sînt ordonate. Rangurile elimină problema diferenţei inegale între valorile ordonate consecutiv ale variabilelor ordinale. Deoarece am văzut că metoda de calcul poate fi interpretată ca un coeficient de tip Pearson al rangurilor şi interpretarea valorilor rezultate din calcul se face la fel. Să vedem deci un exemplu. În tabelul de mai jos avem corelaţia dintre “viteza” de acomodare cu locul de muncă şi gradul de satisfacţie cu acesta la un grup de absolvenţi ai secţiei de informatică a Universităţii de Vest din Timişoara. Ambele variabile sînt ordinale. Deşi numărul de cazuri e mic se observă o corelaţie cu o significanţă foarte bună. Ipoteza de independenţă dintre cele două variabile se poate respinge cu o certitudine mai mare de 99%. Nivelul de corelaţie nu este însă foarte puternic, valoarea coeficientului fiind 0,509. Cît de mare este de fapt această valoare ar trebui determinat prin comparaţie cu alţi coeficienţi de corelaţie din acelaşi studiu.
116
Cât de repede
Spearman-Rho
Cât de repede s-a
Coeficient
acomodat cu jobul
Sig. (bilateral)
(1,…,5)
N
Este satisfacut de
Coeficient
jobul actual?
Sig. (bilateral) N
s-a acomodat
Este
cu jobul
satisfacut de
(1,…,5)
jobul actual?
1,000
,509(**)
.
,000
54
54
,509(**)
1,000
,000
.
54
54
** Corelatia este significanta cu nivelul de 0,01 (bilateral).
Corelaţia parţială O problemă importantă a coeficienţilor de corelaţie aşa cum i-am prezentat pînă acum este influenţa pe care o pot avea alte variabile asupra relaţiei studiate. Din cele văzute pînă acum nu am putut aplica principiul ceteris paribus. Adică nu am putut studia efectul unei variabile asupra alteia păstrînd factorii de mediu constanţi. Corelaţia parţială este o metodă de a studia relaţia dintre două variabile controlînd efectul unei de a treia. Ca de obicei, devine mai uşor de înţeles cu un exemplu. Mă voi folosi de un sondaj de opinie făcut în judeţul Arad, atît în mediul rural cît şi urban, pentru a studia consumul cultural. În următorul tabel apare corelaţia (Pearson) dintre numărul de cărţi cumpărate anual şi vîrstă: Q15. În medie, câte carti cumparati I2. vârsta: Corelaţie Pearson
I2. vârsta:
Coeficient Sig. (bilateral) N
pe an?
1,000
-,212(**)
.
,000
594
594
-,212(**)
1,000
Q15. În medie, câte
Coeficient
carti cumparati pe
Sig. (bilateral)
,000
.
an?
N
594
595
** Corelatia este significanta cu nivelul de 0,01 (bilateral).
Corelaţia dă un rezultat cît se poate de clar: cu cît vîrsta e mai mică numărul de cărţi cumpărate anual e mai mare. Analizînd valorile din tabelă găsim o corelaţie negativă, de 117
putere mică, dar significanţă foarte bună. Întrebarea pe care putem să ne-o punem în acest caz este însă dacă efectul e dat chiar de vîrstă sau există variabile mediatoare în acest lanţ cauzal. Fiind vorba de o temă de consum cultural este normal să studiem care e de fapt influenţa nivelului de pregătire, variabila care are de regulă efectul cel mai mare asupra consumului cultural. Q15. În medie, câte Variabile de control
carti cumparati I2. vârsta:
I4. nivel de pregatire:
I2. vârsta:
Corelatie Sig. (bilateral) Grade de libertate
pe an?
1,000
-,087
.
,034
0
591
-,087
1,000
Q15. În medie, câte
Corelatie
carti cumparati pe an?
Sig. (bilateral)
,034
.
Grade de libertate
591
0
Într-adevăr controlînd efectul nivelului de pregătire, efectul vîrstei se diminuează de la o corelaţie de peste -0,2 se ajunge la un nivel de sub -0,1. Deci efectul sesizat al vîrstei nu este independent de nivelul de pregătire. Faptul că significanţa a rămas bună ne asigură importanţa rezultatului. Tinerii avînd în general mai multă educaţie decît vîrstnicii, efect al expansiunii învăţămîntului în ultimele două decenii, ajung să şi cumpere mai multe cărţi. Pe de altă parte discrepanţa dintre rezultate nu este atît de mare încît să nu putem totuşi spune că tinereţea are un efect, foarte mic dar semnificativ, asupra cumpăratului de cărţi chiar în condiţiile controlării nivelului de pregătire. Am analizat corelaţiile parţiale după aceiaşi metodologie pe care o folosim şi pentru corelaţiile simple, fie ele Pearson sau Spearman. Şi e corect aşa. Corelaţiile parţiale sînt corelaţii de tip Pearson, aceasta înseamnă că ele verifică de regulă relaţii liniare între variabile intervalice sau raţionale (în general variabile cantitative) distribuite normal. De aici provine o premisă importantă, corelaţia parţială trebuie analizată în relaţie cu corelaţia Pearson şi nu cu alte forme de corelaţii. Ca atare, în exemplu am forţat un pic metoda. Şi anume, am folosit o variabilă de control ordinală. Celelalte două variabile în cauză sînt raţionale şi se pot presupune a fi distribuite mai mult sau mai puţin normal. Verificarea normalităţii se poate face de fapt cu un test, testul 118
Kolmogorow-Smirnow, dar de regulă nu este necesară pentru a accepta rezultatele unei analize corelaţionale. Variabila de control are însă un cu totul alt rol în felul în care se calculează corelaţia parţială. Corelaţia parţială nu este o “corelaţie de trei variabile”. Utilizarea variabilelor ordinale pe post de variabile de control, deşi nu întru totul corectă este foarte des făcută şi de fapt acceptabilă. d. Regresia liniară simplă şi multiplă Analiza de regresie este o metodă statistică considerată în general a fi ceva mai avansată. Şi aceasta, în special pentru că presupune o serie de condiţii ce se impun datelor. În sine metoda este destul de uşor de aplicat şi de analizat fiind practic un pas mai departe în ordinea lucrurilor pornind de la corelaţia Pearson. Regresia liniară analizează de asemenea relaţii liniare între variabile cantitative distribuite normal, dar pe lîngă puterea relaţiei încearcă să traseze de fapt chiar forma acesteia. Modelul regresiei liniare presupune existenţa unei relaţii de cauzalitate între o variabilă aşa-zis dependentă şi una, sau mai multe, variabile independente care o influenţează pe cea dependentă. Metoda încearcă să găsească cît de mult determină modificarea unei variabile modificarea celeilalte şi cît din modificarea unei variabile e explicabilă prin modificarea celeilalte. Pentru a ne apropia cît mai corect de problema ce şi-o pune analiza de regresie, cel mai bine ar fi să luăm un set de date şi să urmăm pas cu pas construirea regresiei liniare. Vom exemplifica bineînţeles pentru început întregul demers pentru regresia liniară simplă, adică cu o singură variabilă independentă. Vom folosi o relaţie cît se poate de clară, cea dintre numărul de studenţi la 10.000 de locuitori şi produsul intern brut pe cap de locuitor. Datele provin din diferiţi ani (de fapt anii 1950 - 2000) din aproape toate ţările europene (25 de ţări) şi au fost colectate pentru un studiu bazat tocmai pe diverse tipuri de ecuaţii de regresie (Reisz, Stock, 2006). Primul pas într-o analiză de regresie, numit uneori excesiv de pretenţios şi “metoda grafică” este reprezentarea relaţiei dintre cele două variabile ca un nor de puncte şi încercarea de a construi ipoteze pe baza efectului pur vizual. Graficul de mai jos este acest “nor de puncte” pentru cazul nostru.
119
600,00
500,00
studper10000
400,00
300,00
200,00
100,00
0,00 0
5000
10000
15000
20000
25000
30000
GDP
Ce putem observa este că valori mai mari ale numărului de studenţi la 10.000 locuitori par a se asocia cu valori mai mari ale produsului intern pe cap de locuitor. Asocierea se poate presupune a fi oarecum liniară. Graficul e dominat de un grup compact de puncte care se grupează asemănător cu o linie. Pe lîngă acest grup există însă şi multe puncte care se prezintă oarecum disparat de rest. Rolul modelului de regresie este să descrie matematic linia principală şi să determine cam cît din relaţie dintre cele două variabile se regăseşte în aceasta şi cît e de fapt cuprins în cazurile “excepţionale”. Altfel, metoda încearcă să determine cît e regularitate liniară în relaţia dintre cele două variabile. Ideea e de a trasa o dreapta pe graficul de puncte de mai sus astfel încît ea să fie cît mai apropiată de toate punctele reprezentate. Această apropiere de “toate” punctele e tocmai problema majoră pe care o ridică regresia.
120
studper10000
500,00
400,00
300,00
200,00
100,00
0,00 5000
10000
15000
20000
25000
GDP În graficul de mai sus apare acelaşi nor de puncte, de astă dată cu o linie trasată pe poziţia dreptei de regresie. Ca orice dreaptă şi aceasta are o ecuaţie de forma următoare: S = b0 + b1 * GDP GDP e desigur valoarea x a dreptei, iar S este valoarea de pe axa y pentru dreaptă. Valoarea S se doreşte să fie un fel de aproximare a valorii studper10000. Este o aproximare pentru ca aşa cum spuneam, S se determină astfel încit să fie cît mai aproape de punctele norului. Desigur punctele de pe dreaptă aferente valorilor variabilei GDP nu au cum sa fie egale cu punctele potrivite cu valorile Studper10000. Dacă ar fi egale, ar ieşi tocmai norul de puncte şi nu o dreaptă. Fiecare din punctele din nor diferă de punctele de pe dreaptă printr-o abatere. Deci Studper10000 – S = abatere, adică, înlocuind formula dreptei care determină S avem Studper10000 – (b0 + b1 * GDP) = abatere 121
Studper10000 = b0 + b1 * GDP + abatere Dat fiind că ecuaţia de mai sus trebuie să fie satisfăcută pentru toate valorile măsurate ea se traduce de fapt într-un număr atît de mare de ecuaţii cîte perechi de măsurători există. Dacă notăm cu indici i aceste perechi rezultă formula: Studper10000i = b0 + b1 * GDPi + abaterei Această ultimă formă este ceea ce în general numim ecuaţia de regresie. În această ecuaţie Studper10000, GDP şi abatere sînt variabile aleatoare, iar b0 şi b1 pur şi simplu numere, adică aşa-numite valori scalare. Studper10000 se numeşte de obicei variabilă ţintă sau variabilă dependentă, GDP este pe poziţia numită regresor, variabilă explicativă sau independentă. Modelul presupune de fapt că variabila independentă se repercutează cauzal asupra variabilei dependente şi felul cum ea o cauzează pe aceasta este unul modelabil liniar, adică în practică, apropiat de o linie. Abaterea se mai numeşte uneori şi reziduu sau eroare. În cazul unei cercetări, valorile variabilelor, atît cea dependentă cît şi cea independentă sînt cunoscute. Ele rezultă din măsurători, indiferent de ce tip ar fi acestea. Ceea ce trebuie calculat sînt coeficienţii ecuaţiei, adică coeficienţii dreptei de regresie, valorile b0 şi b1. Coeficienţii aceştia trebuie găsiţi în aşa fel încît abaterea să fie cît mai mică. Abaterea care se minimizează trebuie să se refere la toate punctele. De aceea prima idee ar fi să minimizăm suma tuturor abaterilor. Ştim deja că asta nu e o idee bună, de cînd am calculat dispersia. Şi anume, nu e o idee bună pentru că abateri pozitive şi negative se atentuează şi ceea ce dorim noi este ca abaterile să fie cît mai mici în valoare absolută. De aceea cel mai bine este să încercăm să minimizăm suma pătratelor abaterilor. Metoda care se bazează pe acest principiu este una dintre cele mai importante în statistică şi se numeşte de regulă metoda celor mai mici pătrate. În engleză se zice ordinary least squares şi de aceea cel mai adesea se prescurtează cu OLS. Metoda e surpinzător de veche, fiind publicată la începutul secolului al nouăsprezecelea în mod independent de către americanul Robert Adrain (1808), Gauss (1809) şi Legendre (1805). Gauss a fost însă cel care a enunţat teorema care ne asigură de faptul că estimarea dată de metoda celor mai mici pătrate este cea mai bună estimare liniară nebiasată a dreptei de regresie. O asemenea estimare se mai numeşte BLUE (best liniar 122
unbiased estimate). Deoarece teorema a fost demonstrată mai tîrziu de către statisticianul rus Andrei Markov, ea poartă în general numele de teorema Gauss-Markov. Metoda OLS este însă destul de pretenţioasă din punct de vedere al condiţiilor necesare pentru ca ea să fie aplicabilă şi eficientă. Condiţiile, care se numesc de regulă condiţiile GaussMarkov sînt următoarele:
•
Variabilele aleatoare abaterei au media 0.
•
Variabilele aleatoare abaterei au o dispersie finită egală pentru toţi indicii i. Aceasta se numeşte homoschedasticitate (sau omogenitate a dispersiei).
•
Variabilele aleatoare abaterei sînt necorelate între ele. Condiţia se mai numeşte absenţa autocorelaţiei.
Prima dintre condiţii este nesemnificativă. La urma urmei dacă media variabilelor abaterei are fi nenulă s-ar putea adăuga această valoare la termenul liber al ecuaţiei şi abaterile s-ar aduce astfel la media nulă. Celelalte două condiţii pot fi uneori greu de îndeplinit în cercetări cu date reale. Cu toate acestea, metodă OLS se foloseşte chiar şi în cazurile în care condiţiile GaussMarkov nu sînt perfect îndeplinite. Condiţia de homoschedasticitate se poate testa cu testul Breusch-Pagan. Dacă se aplică OLS în condiţii de heteroschedasticitate de obicei coeficientul de corelaţie r al lui Pearson (şi coeficientul de determinare R2 despre care vom vorbi în curînd) pot fi subestimaţi. Aceasta e mai puţin grav decît supraestimarea. În practică s-ar putea să nu recunoaştem nişte relaţii existente dar e puţin probabil să găsim ceva acolo unde nu e nimic. Altfel spus ipoteza de independenţă între variabilele din ecuaţia de regresie este mai greu de respins în condiţii de heteroschedasticitate decît ar trebui să fie. Condiţia de absenţă a autocorelaţiei se testează cu testul Durbin-Watson10. Problema autocorelaţiei abaterilor este cel mai adesea prezentă în cercetările cu serii de timp, adică cu valori ale unor variabile care sînt măsurători ale aceluiaşi fenomen în diferite momente de timp. Abaterile care rezultă din ecuaţii cu valori pentru aceiaşi indivizi în diverse momente de
10
Ca şi în cazul Breusch-Pagan şi pentru testul Durbin-Watson, consider că modul de calcul şi interpretare a acestor teste depăşeşte cadrul unui manual introductiv de statistică. Importantă este cunoaşterea numelui testului pentru ca la nevoie să fie posibilă documentarea. Iar ca regulă generală, citirea valorii de significanţă a testului pe care o dau aproape toate soft-urile statistice poate da o indicaţie bună de interpretare.
123
timp au toate şansele să prezinte autocorelaţii. Autocorelaţia duce de obicei la supraevaluarea significanţei testelor, de exemplu al testului t. Există o serie întreagă de variante de rezolvare ale acestei probleme. Fiecare dintre ele are însă dezavantaje. Cercetări recente au ajuns la concluzia că folosirea metodei OLS rămîne de preferat multor variante mai complicate de definire sau/şi rezolvare a regresiei liniare. Pentru a avea încredere în rezultatele date de metoda OLS în condiţii de autocorelaţie a abaterilor, se impun o serie de alte condiţii asupra variabilelor. Să vedem deci care sînt rezulatatele regresiei liniare şi cum se citesc ele. Fie deci ecuaţia de regresie pe care am prezentat-o mai sus. Să vedem rezultatele metodei OLS şi apoi să le explic pas cu pas.
Model
R
1
,728(a)
R-Patrat
Eroarea standard a estimatorului
,530
78,75713
Coeficienti
Coeficienti nestandardizati Model 1
B (Constanta) GDP
Coeficienţi standardizati
Eroarea standard
-7,664
5,143
,016
,000
T
Beta ,728
Significanta
-1,490
,136
35,052
,000
a Variabila dependenta: studper10000
Tabelele de mai sus sînt o parte a rezultatelor metodei OLS. De obicei se mai raportează şi valori intermediare cum ar fi chiar sumele de pătrate calculate şi altele. Prima tabelă ne precizează cît de puternică este legătura dintre cele două variabile din ecuaţie. Coeficientul R este chiar coeficientul de corelaţie al lui Pearson. Valoarea este în cazul nostru o valoare care desemnează o corelaţie destul de puternică, 0,728. Acest coeficient se ridică la pătrat şi se obţine R2 = 0,530, coeficientul de determinare. Coeficientul acesta reprezintă procentul din modificarea variabilei ţintă care se poate explica prin modificare variabilei regresor. În cazul nostru am citi cam aşa: 53% din variaţia numărului de studenţi la 10,000 de
124
locuitori se explică prin variaţia produsului intern brut pe cap de locuitor11. Deci, cu cît R2 e mai mare, regresorii au un efect mai mare asupra variabilei dependente. Ca efect al intervalelor de evaluare a coeficientului de corelaţie, o regresie este puternică dacă R2 e mai mare decît 0,5 (corespunzător unui R mai mare de 0,7 ridicat la pătrat). De fapt, valorile trebuie şi de această dată privite în contextul cercetării practice. Dacă în general în teme de natură psihologică chiar şi un R2 de 0,3 e considerat bun, în econometrie, unde relaţiile dintre indicatori se supun unor reguli mai simple, valori mari, de peste 0,9 nu sînt chiar o raritate. Al doilea tabel conţine coeficienţii de regresie, numiţi adesea b sau B. Coeficienţii b sînt cei din ecuaţia de regresie propriu-zisă. Deci pe baza tabelei putem spune că: Studper10000i = -7,664 + 0,012 GDPi + abaterei sau, că Si = -7,664 + 0,012 GDPi este ecuaţia dreptei de regresie. Pentru fiecare dintre aceşti coeficienţi se propune şi o ipoteză de forma: “coeficientul b este nul” ceea ce echivalează cu a spune “regresorul nu are nici un efect asupra variabilei ţintă”. Pentru această ipoteză se efectuează testul t şi se dă în tabel valoarea testului şi significanţa lui. Vedem că significanţa coeficientului lui GDP este foarte bună (testul t dă peste 35), însă significanţa coeficientului termenului liber nu e aşa grozavă (t = -1,49). Deci acest coeficient al termenului liber este ceva mai nesigur. Coeficientul lui GDP se poate citi astfel. Dacă valoarea GDP creşte cu o unitate, numărul studenţilor la 10000 de locuitori creşte cu 0,012 unităţi. Desigur exprimarea aceasta sună foarte mecanicist şi nu trebuie înţeleasă altfel decît ca o modelare, sau poate chiar mai vag, ca o metaforă a relaţiei dintre variabile. Totuşi vom vedea că interpretarea coeficienţilor de regresie, precum şi a coeficientului de determinare, ne poate da indicaţii despre puterea cu care influenţează diferite variabile independente variabila dependentă a unei cercetări.
11
În cercetările mele pe această temă, rezultatul a fost pînă la urmă mai nuanţat, varianta de mai sus neluînd în seamă eterogenităţi locale existente în felul cum variabilele educaţionale şi economice se influenţează reciproc. Am ales să prezint aici însă forma cea mai simplă, scopul fiind la urma urmei unul educaţional. Deci, nu mă citaţi cu rezultatul din exemplu, legătura dintre numărul de studenţi şi produsul intern brut e mai complicată decît pare aici!
125
Coeficientul Beta din tabel este o valoare standardizată care ia în seamă valoarea medie şi dispersia variabilei independente. Aceasta va fi interesant, cum vom vedea, în special la regresia multiplă pentru că va permite compararea efectelor mai multor variabile independente care evident au medii diferite. Regresia multiplă extinde metoda prezentată mai sus la un număr mai mare de variabile independente care se repercutează asupra aceleiaşi variabile ţintă. Voi descrie în continuare şi aceasta pentru ca apoi să vedem în continuare cum se pot analiza acestea. Pentru a exemplifica regresia multiplă o să folosesc o extindere a aceleiaşi probleme. Regresia multiplă diferă de cea simplă prin numărul regresorilor. Deci, dacă în exemplul precedent am avut un singur regresor al cărei efect asupra variabilei ţintă ne interesa, în cazul unei regresii multiple numărul regresorilor va fi mai mare. Pentru a păstra lucrurile cît mai simple posibil să luăm doi regresori. În exemplul simplu, ţinta era numărul de studenţi la 10.000 de locuitori şi regresorul era produsul intern brut pe cap de locuitor. Să luăm acum un al doilea regresor, numărul de organizaţii neguvernamentale internaţionale active în anul studiat în ţara cu pricina. Motivaţia acestei extinderi a modelului este următoarea: teoriile globalizării ale şcolii neoinstituţionaliste de la Stanford (John Meyer, Francesco Ramirez, şi alţii) găsesc că expansiunea învăţămîntului are loc peste tot în lume indiferent de nivelul de dezvoltare economică. Mai mult, ei găsesc că în a doua jumătate a secolului 20, expansiunea educaţională a avut loc peste tot în lume, indiferent dacă economia era în creştere sau în descreştere. De aici ei ajung la concluzia că dezvoltarea învăţămîntului nu are legătură cu dezvoltarea economică. Ipoteza lor este însă aceea că dezvoltarea învăţămîntului este un epifenomen al globalizării şi ca atare ar trebui să depindă de un indicator care măsoară nivelul de globalizare al unei ţări. Tot ei propun numărul de organizaţii non-guvernamentale internaţionale active la un moment dat într-o ţară ca un astfel de indicator. Acest indicator este notat de regulă cu ingo (de la international non-governmental organizations). Am avea atunci o ecuaţie de regresie în care avem doi regresori, unul indicînd dezvoltarea economică şi un altul gradul de globalizare. Ecuaţia este următoarea: Studper10000i = b0 + b1 * GDPi + b2 * ingoi + abaterei 126
Observăm că logica formulei rămîne aceiaşi, apare un termen în plus, cu coeficientul de regresie b2 şi variabila de regresie ingoi. Statistic vorbind, pînă acum efectul pe care îl avea ingo asupra variabilei ţintă nu era evidenţiat separat, deci făcea parte din ansamblul de efecte care se adună în abatare pentru a forma o variabilă aleatoare. Desigur, aşa cum vom vedea o parte a efectului variabilei ingo era de asemenea inclus implicit în efectul produsului intern brut pe cap de locuitor. Deci abaterea din noua ecuaţie de regresie nu mai conţine aceiaşi lucru ca şi abaterea din ecuaţia simplă, ea este “curăţată” de efectul pe care l-ar putea avea ingo. Cît de mare este acest efect ne poate spune o comparaţie între ecuaţia de regresie simplă şi cea multiplă. Pînă acolo, cîteva remarci. Condiţiile pe care le-am specificat pentru ca metoda celor mai mici pătrate să fie funcţională rămîn aceleaşi. Apare însă un fel de condiţie suplimentară. Aceasta nu influenţează eficienţa metodei dar schimbă modul cum se citesc rezultatele. Ea se referă la coliniaritatea regresorilor, adică independenţa lor. În esenţă este de preferat ca regresorii să fie independenţi. Dacă sînt independenţi efectele lor asupra variabilei ţintă sînt pur şi simplu însumate. Dacă însă nu este aşa, şi de obicei în lumea reală nu este aşa, atunci efectul sumei regresorilor este cu atît mai mic faţă de suma efectelor regresorilor cu cît regresorii sînt mai corelaţi între ei. Poate sună puţin neclar, ce vreau eu să zic de fapt. Fiecare regresor ar putea apărea într-o regresie simplă, de exemplu, una cu produsul intern brut, ca şi în exemplu, şi una cu organizaţiile non-guvernamentale internaţionale. Fiecare dintre acestea două ar da un anume nivel de explicare a variaţiei numărului de studenţi, o valoare specifică a R2. În exemplul nostru, această valoare este ceva peste 50% pentru ambii regresori (vezi Reisz, Stock, 2006). Dacă cei doi regresori ar fi independenţi, sau aproape independenţi, regresia multiplă ar trebuie să dea o valoare R2 de 100%!. Este însă de bun simţ să observăm că o ţară este cu atît mai încadrată în societatea globală cu cît este mai dezvoltată economic. Deci cei doi indicatori trebuie să fie corelaţi destul de puternic. De fapt, coeficientul de corelaţie este de 0,83 şi relevant cu o significanţă de 0,000. Fiind o corelaţie atît de mare e de bănuit că adăugînd la regresia simplă ce verifică efectul produsului intern brut şi efectul globalizării ţării nu se schimbă mare lucru. O astfel de situaţie se numeşte multicoliniaritate sau, dacă corelaţia e aproape perfectă, redundanţă. Să vedem rezultatele ecuaţiei noastre de regresie multiplă:
127
Model 1
R ,753
R-Patrat
Eroarea standard a estimatorului
,566
76,00829
Coeficienti
Coeficienti nestandardizati Model 1
B (constanta)
Coeficienti standardizati
Standardfehler
-4,468
5,123
GDP
,009
,001
ingo
,059
,006
T
Beta
Significanta
-,872
,383
,413
11,559
,000
,376
10,528
,000
a Variabila dependenta: studper10000
Să analizăm acum rezultatele. Prima tabelă ne dă indicatorii de corelaţie (R) şi determinare (R2) dintre variabila ţintă şi grupul de regresori luat în ansamblu. Importantă este aici citirea coeficientului de determinare. Exact ca şi în cazul regresiei simple coeficientul de determinare ne spune ce procent din modificarea variabilei ţintă se explică prin modificarea variabilelor de regresie. În cazul nostru observăm că R2-ul regresiei simple era de 0,530, iar cel al regresiei multiple cu adăugarea indicatorului de globalizare este de 0,566. Diferenţă, numită uneori şi R2c sau modificare a coeficientului de determinare (c vine de la change, modificare sau schimbare) este foarte mică, de 0,036. Pentru a analiza această modificare este însă obligatorie analiza corelaţiei regresorilor. În cazul nostru, cum am mai spus, regresorii sînt puternic corelaţi. Dacă regresorii ar fi fost independenţi, valoarea R2c ar fi fost interpretabilă ca efect al indicatorului de globalizare. Dat fiind corelaţia existentă valoarea R2c este cîştigul de informaţie pe care îl adaugă regresorul suplimentar. Să mergem mai departe şi să studiem mai de aproape tabela a doua, cea cu coeficienţii de regresie. Din ea rezultă că ecuaţia de regresie are forma: Studper10000i = -4,468 + 0,009 GDPi + 0,059 * ingoi + abaterei Valoarea coeficientului GDP nu diferă radical de valoarea pe care acest coeficient o avea în cazul regresiei simple, aceasta fiind explicabil tot prin corelaţia mare dintre regresori. Din ecuaţia de mai sus putem extrage următoarele două declaraţii:
128
•
Dacă produsul intern brut pe cap de locuitor creşte cu un dolar, numărul studenţilor la 10.000 de locuitori creşte cu 0,009.
•
Dacă numărul organizaţiilor non-guvernamentale internaţionale active într-o ţară creşte cu una, numărul studenţilor la 10.000 de locuitori creşte cu 0,059.
Desigur, cum am mai scris şi mai sus, exprimate aşa relaţiile par imposibil de simple şi directe. Şi desigur o citire atît de naivă ar fi greşită. Totuşi pînă la urmă, considerînd cauzalităţi complexe şi reţele de influenţă evident indirecte şi complicate rezultatul acesta este. Un produs intern brut pe cap de locuitor mai mare cu un dolar e legat de un număr de studenţi la 10,000 de locuitori mai mare cu 0,009. Ne-am dori să comparăm coeficienţii de regresie între ei. Este într-adevăr 0.059 mai mare decît 0,009? Care dintre cele două variabile de regresie are efectul mai mare în realitate? Pentru aceasta se poate folosi un indicator numit puterea unui regresor care se calculează foarte simplu ca produs la coeficientului de regresie cu media variabilei regresor. La urma urmei, ne interesează care e valoarea medie numerică ce se repercutează asupra variabilei ţintă. În exemplu avem: Media
Coeficientul
Puterea
GDP
9740,97
0,009
87,66
Ingo
1139,7700
0,059
67,24
Observăm că citirea pur şi simplu a coeficienţilor de regresie b ne-ar fi dus puţin în eroare. Coeficientul indicatorului de globalizare era de vreo 6 ori mai mare decît coeficientul indicatorului economic. Aceasta ar fi putut să ne ducă cu gîndul la un efect mult mai mare al acestuia. Pentru a putea însă compara cu adevărat efectele nu trebuie uitată valoarea în sine a indicatorilor. Şi într-adevăr media indicatorului economic este de aproape 9 ori mai mare decît media indicatorului de globalizare. Înmulţind, rezultă puterile relative şi rezultă că numărul de studenţi este determinat în mai mare măsură de creşterea economică decît de globalizare. Trebuie să observăm şi faptul că cele două puteri sînt totuşi destul de apropiate. Ele au acelaşi ordin de mărime. Diferenţa dintre ele se poate da, de exemplu, procentual. Astfel putem spune că efectul creşterii economice este cu aproape 30% mai mare decît efectul globalizării în modelul de regresie liniară de mai sus sau invers, puterea efectului globalizării 129
asupra expansiunii învăţămîntului superior este aproximativ trei-sferturi din puterea efectului creşterii economice. Evident, modelul în sine, explică, aşa cum am văzut, numai jumătate din variaţia variabilei ţintă. Tabelele ecuaţiei de regresie ne oferă şi ele un indicator comparativ apropiat de puterea unei variabile independente, valorile Beta. Aceste valori reprezintă coeficienţi standardizaţi pentru variabilele aleatoare, coeficienţi care iau în considerare valoarea medie a variabilelor independente, dar şi dispersia lor. În exemplul nostru valorile Beta au fost: 0,412 pentru GDP şi 0,376 pentru ingo reproducînd destul de îndeaproape calculele noastre de mai sus. Desigur o decizie rapidă asupra importanţei regresorilor într-o ecuaţie de regresie multiplă este mai uşor de luat folosind ceea ce raportează softul statistic. Pe de altă parte “puterea regresorului” aşa cum am calculat-o mai sus este un concept mai simplu şi poate duce ca atare la mai puţine confuzii. Să rezumăm acum avantajele şi dezavantajele regresiei multiple. Regresia multiplă are ca principal avantaj posibilitatea comparării efectelor unor variabile (definite în model ca regresori) asupra variabilei ţintă. Pentru asta luăm în seamă gradul lor de corelare reciprocă, să calculăm modificarea coeficientului de determinare şi puterile regresorilor. Al doilea mare avantaj este că regresia multiplă poate “curăţa” abaterile de efecte care nu pot fi considerate pur şi simplu aleatoare. Dacă avem un singur regresor tot ce mai are efect asupra variabilei ţintă este împins în factorul abatere (sau eroare). Aceasta poate duce la neîndeplinirea condiţiilor Gauss-Markov, cele cu lipsa autocorelării şi a heteroschedasticităţii. Deci o regresie multiplă poate avea efecte benefice asupra modelului. Îl poate face mai exact, prin creşterea coeficientului de determinare, şi îl poate face şi mai uşor rezolvabil matematic. Atunci ar trebui să tot adăugăm regresori pînă ajungem să descriem toată variaţia variabilei ţintă şi gata: am descris complet problema! Din păcate aşa ceva în lumea reală nu se prea poate şi în plus regresia multiplă are şi anumite dezavantaje care ne determină să o folosim cu oarecare măsură. Necazul cel mai mare cu regresia multiplă este supraspecificarea modelului. Nu e chiar tragic dar poate duce la anumite incurcături dacă nu este interpretată cu grijă. Supraspecificarea înseamnă de fapt includerea unui număr prea mare de regresori. În astfel de situaţii analiza 130
relaţiilor dintre regresori nu se mai poate face atît de simplu ca în cazul exemplului nostru în care deşi exista multicoliniaritate, erau numai doi regresori. Un efect al supraspecificării este desigur creşterea şanselor de multicoliniaritate. Pe de o parte, avînd mulţi regresori există şanse mai mari ca unii dintre ei să fie puternic corelaţi cu alţii. Pe de altă parte, mai apare şi posibilitatea ca un regresor să fie foarte apropiat de o combinaţie liniară a altor regresori. Ce se întîmplă în astfel de cazuri este că acelaşi obiect sau fenomen apare în ecuaţia de regresie de mai multe ori prin mai multe măsurători diferite între ele. Pericolul supraspecificării nu apare deci, atunci cînd fenomene diferite, bine-definite teoretic (ca în exemplu, creşterea economică şi globalizarea) sînt în mod dovedit corelate, ci atunci cînd folosim mai multe variabile care măsoară acelaşi fenomen. De ce? Ei bine, pentru că estimarea efectului fenomenului în sine devine problematică. Utilizînd mai multe măsurători pentru fiecare din fenomenele studiate, compararea efectelor acestor fenomene devine incertă. Fiecare dintre măsurătorile fenomenului vor avea un impact subestimat prin prezenţa celorlalte măsurători. Suma impactelor variabilelor care aparţin aceluiaşi complex teoretic trebuie de asemenea tratată cu grijă pentru că poate fi influenţată de relaţii diferite cu celelalte variabile ale modelului. Desigur, aşa cum am mai spus, multicoliniaritatea nu este o problemă care să facă modelul inutil sau metoda inexactă. Multicoliniaritatea cu un număr mare de regresori complică însă semnificativ analiza modelului. A doua problemă a supraspecificării este legată de alegerea variabilelor. Incluzînd în model un număr mare de variabile, multe dintre acestea vor avea un impact redus asupra variabilei ţintă. Astfel de efecte, care ajung să fie de a dreptul neglijabile nu fac decît să complice modelul şi să acorde unor variabile o nemeritată atenţie. Variabile care au fost incluse în model şi au un efect foarte mic au probabil acelaşi impact cu o gramadă de alte variabile care nu au fost incluse în model. Prezenţa lor acolo face însă ca ele să fie interpretate, discutate şi să li se atribuie, chiar fără a supraevalua valorile, o importanţă mai mare decît altor variabile. Să discutăm în încheierea acestui capitol puţin despre felul cum ar fi bine să se facă specificarea modelului de regresie liniară. În general se consideră modelul de regresie ideal, un model cu un număr minim de variabile, cît mai puţin dependente între ele şi cu un impact individual cît mai mare. Nu întotdeuna există aşa ceva, şi chiar dacă există, în majoritatea cercetărilor nu avem cum să găsim un asemenea model. Mai mult decît atît, găsind variabile de impact maxim asupra variabilei ţintă s-ar putea să nu găsim altceva decît o măsură a 131
aceluiaşi fenomen. Oricum, dezideratul fiind găsirea unui număr mic de variabile independente de impact mare, cercetătorul trebuie să îşi dea silinţa să determine variabilele care au efectul cel mai mare asupra variabilei ţintă. Pentru asta bineînţeles trebuie să-şi folosească cît de mult posibil bunul simţ ştiinţific şi cultura de specialitate. Trebuie să modelez creşterea numărului de studenţi, ce regresori iau? Trebuie să pornesc de la un soi de repertoar al fenomenelor pe care teoria le-a pus în legătură cu fenomenul ţintă al modelării. Apoi trebuie să verific prin regresii simple efectul acestor regresori asupra variabilei ţintă şi prin analiză de corelaţie gradul de multicoliniaritate dintre regresori. De obicei în finalul acestui demers se dezvoltă mai multe modele concurente la explicarea fenomenului ţintă. Acestea se calculează, iar rezultatele se compară între ele.
132
Capitolul 7. Pentru vegetarieni. Analiza datelor nenumerice. În acest capitol mă voi referi la modurile cum statistica se poate apropia de date care nu au caracter numeric, cantitativ. Datele acestea, numite de regulă calitative nu permit utilizarea oricăror metode statistice. Ele sînt mai pretenţioase, se pot face mai multe greşeli la “prepararea” lor. Pe de altă parte, datele calitative ne pot oferi o pătrundere în subiect la un nivel mult mai amănunţit. Ele permit trecerea dincolo de mult criticata superficialitate a cantitativului. Aşa cum am văzut deja astfel de date sînt prezente foarte des în cercetările sociale, economice, şi nu numai. Din experienţa mea aceste variabile sînt chiar majoritare în cercetările de acest tip. Arareori avem nevoie de valori simple cantitative în studii legate de comportamentul oamenilor, fie el social, economic sau politic. Cu excepţia vîrstei, aproape că nu avem date raţionale în studiile de piaţă, de exemplu. Nici măcar informaţiile legate de venituri nu sînt cu adevărat raţionale, pentru că nu avem la dispoziţie statele de plată ale celor intervievaţi, ci o auto-estimare a venitului lunar, de obicei pe categorii. Ce să mai spun, greutatea sau înălţimea persoanelor intervievate interesează prea puţini clienţi ai marketing research-ului. Chiar dacă acestea ar avea vreo legătură, de exemplu, cu consumul de bere al celui intervievat, atîta timp cît nu au relevanţă din punct de vedere al planificării şi designului publicităţii sau distribuţiei, interprinderile producătoare sînt prea puţin interesate de ele. Deci, majoritatea întrebărilor de interes pentru cercetările statisticii sociale se dovedesc a fi categoriale, uneori chiar nominale, dar cel mai adesea ordinale. A nu se înţelege de aici că datele cantitative sînt chiar irelevant de rare. Ele apar adesea în cercetări medicale, geografice, economice, uneori în studii politice comparative internaţional, în sociologie organizaţională şi ecologie. În capitolele precedente am trecut în revistă o serie întreagă de metode care nu erau gîndite a fi utilizate pentru variabile fără caracter cantitativ. Cu toate acestea, o parte dintre ele îşi păstrează validitatea şi atunci cînd sînt aplicate unor date calitative. Problema esenţială legată de alegerea metodei este simplă: cu date calitative nu se fac calcule. Aceasta însă nu înseamnă că nu se pot calcula frecvenţele de apariţie a lor. Deci, de exemplu, nu se poate face o corelaţie simplă Pearson cu date cu care nu se poate calcula. Am văzut însă că se poate face o corelaţie Spearman, pentru că acolo calculele nu se fac cu valorile variabilelor în sine ci cu poziţiile lor într-o listă ordonată de ranguri. Un alt exemplu. Desigur nu se pot efectua teste 133
legate de media unor variabile calitative (chiar dacă ele sînt reprezentate prin valori numerice), pe de altă parte se pot foarte bine efectua teste cu frecvenţele de apariţie a unor astfel de variabile. Hai să fiu mai clar, fie o întrebare de opinie, de genul: “Sunteţi de acord cu ...?” şi răspunsurile sînt “1. Da; 2. Nu”. Calculul mediei răspunsurilor este total lipsit de sens pentru că presupune adunarea de valori 1 şi 2 adică adunarea de Da şi Nu şi împărţirea la numărul lor. Pe de altă parte testarea faptului că frecvenţa de apariţie a unui Da este relevant diferită de 50% este absolut corectă. E vorba despre un test similar la urma urmei, diferenţa este că în primul caz se fac calcule cu valorile variabilei iar în al doilea caz cu frecvenţele de apariţie a acestor valori. Tot ce am discutat pănă acum legat de prezentări tabelare, grafice, indicatori, teste, etc. are valabilitate şi în cazul variabilelor calitative atît timp cît metoda nu presupune calcule cu valorile variabilelor. În cele ce urmează o să adaug la reţaterul nostru de metode cîteva care au fost gîndite special pentru variabile calitative. Cel mai adesea ele se evidenţiază printr-un număr mai mic de restricţii sau presupuneri legate de variabile. De aceea ele se folosesc adesea şi în cazul unor variabile raţionale sau intervalice despre care avem mai puţine informaţii. De exemplu, variabile despre care nu putem presupune că ar fi distribuite normal. Astfel de metode sînt adesea numite şi metode non-parametrice sau cu distribuţie liberă. Denumirea de nonparametric poate să inducă în eroare de-a binelea. Şi eu am fost multă vreme convins că aşa se numesc metode care pur şi simplu nu au parametrii. Ei bine, nu e aşa. Metodele nonparametrice sînt metode la care nu se fac presupuneri a-priori despre parametrii. E mult mai simplu să le numim metode fără distribuţii presupuse a-priori, sau metode libere de distribuţie. Din păcate e bine să ţinem minte şi denumirea inducătoare în eroare pentru că ea e folosită în diverse programe statistice (de ex. în SPSS) şi în multe cărţi de statistică. Cea mai utilă şi răspîndită metodă non-parametrică este testul Chi2. a. Testul Chi2 De fapt există o întreagă familie de teste numite Chi2. Ele efectuează testarea folosindu-se de o familie de distribuţii de probabilitate numită Chi2. Familia aceasta este mai largă decît familia de distribuţii normale şi o include pe aceasta din urmă ca o limită a ei.
134
Cel mai important dintre testele Chi2 este testul Chi2 al lui Pearson. Simplu, puternic, fără presupuneri greu de îndeplinit, testul se poate folosi cu încredere aproape peste tot. E aproape un panaceu universal. De obicei se foloseşte la variabile calitative pentru că nu presupune efectuarea de calcule cu variabilele testate. Cu toate acestea se poate folosi liniştit şi în cazul variabilelor raţionale sau intervalice şi este chiar indicat în cazul în care acestea nu au o distribuţie normală sau log-normală. Singura condiţie practică este ca numărul de valori pe care le ia variabila să nu fie prea mare. Să vedem însă ce testăm. Ipoteza pe care o testează testul Chi2 al lui Pearson este că distribuţia unei variabile nu diferă semnificativ de o distribuţie teoretică dată. Adică frecvenţele de apariţie a valorilor unei variabile corespund unei reguli, unei distribuţii cunoscute. De exemplu, această distribuţie ar putea fi uniformă, adică fiecare valoare să apară de un număr egal de ori, sau ar putea fi orice altă distribuţie fie că are vreo relevanţă teoretică sau e pur şi simplu propusă de cercetător. Hai să luăm un exemplu pentru a clarifica felul cum se pune o ipoteză pentru testul Chi2. Să luăm de exemplu o cercetare pe care am mai folosit-o pe parcursul acestei cărţi. E vorba despre un studiu de piaţă efectuat în Baia Mare în 2003. În tabelul de mai jos apare distribuţia pe frecvenţe a unei întrebări simple cu răspunsurile organizate sub forma unei scale ordonate. Evident, variabila răspuns este o variabilă ordinală: 10. Cat de des se fac cumparaturile la dvs. in familie?
Frecvenţă
Procent
zilnic
446
42,4
de mai multe ori pe saptamana
370
35,2
saptamanal
168
16,0
67
6,4
1051
100,0
mai rar Total
Ipoteza tipică pentru un test Chi2 va compara distribuţia valorilor cu o distribuţie uniformă. Distribuţia de mai sus este de fapt lista de frecvenţe ce apare pe a doua coloană a tabelului: 446 - 370 - 168 - 67. Distribuţia uniformă ar fi atinsă dacă toate valorile ar fi la fel de probabile, adică am avea o listă care se obtine împărţind volumul populaţiei (aici 1051) la numărul valorilor posibile (aici patru), deci: 263 – 263 – 263 – 263. Testul verifică dacă cele două liste diferă semnificativ una de alta. Poate nu pare foarte interesant. Hai să luăm însă 135
puţin altfel problema. Să considerăm un subgrup din populaţia noastră. De exemplu, cei care au studii superioare. Pentru ei frecvenţa cumpărăturilor arată astfel: 10. Cat de des se fac cumparaturile la dvs. in familie?
Frecvenţă
Procent
Zilnic
102
36,6
de mai multe ori pe saptamana
118
42,3
Saptamanal
55
19,7
mai rar
4
1,4
279
100,0
Total
Lista de frecvenţe este de 102 – 118 – 55 – 4. Diferă oare cu adevărat această listă de distribuţia celor care nu au studii superioare, vizibilă în tabela de mai jos: 10. Cat de des se fac cumparaturile la dvs. in familie?
Frecvenţă
Procent
Zilnic
344
44,6
de mai multe ori pe saptamana
252
32,6
Saptamanal
113
14,6
mai rar
63
8,2
Total
772
100,0
Ipoteza de egalitate ar suna atunci cam aşa: “fie că au sau nu studii superioare, locuitorii din Baia Mare fac cumpărăturile la fel de des“. Asta e mult mai interesant pentru o firmă de marketing. De o asemenea observaţie sau observaţii de acest gen poate depinde modul cum se organizează o campanie de publicitate sau de promovare a unui produs. Observăm că este o ipoteză de acelaşi tip ca şi în primul caz. Avem două liste de frecvenţe: 102 – 118 – 55 – 4 şi 344 – 252 – 113 – 63. “La ochi” ele diferă. Valorile procentuale pentru primele două categorii par a se inversa, iar a patra categorie care e nesemnificativă pentru prima listă e considerabil mai mare în cea de a doua. Totuşi sînt oare aceste diferenţe suficiente ca să respingem ipoteza, adică să spunem că între cele două grupuri existe diferenţe semnificative în frecvenţa cu care îşi fac cumpărăturile. Să vedem deci cum se calculează. Valoarea de test Chi2 se obţine astfel:
136
În formulă Oi sînt frecvenţele observate ale valorilor variabilei, Ei frecvenţele aşteptate, sau teoretice. i ia valori de la 1 la 4, adică are atîtea valori cîte valori poate lua variabila noastră. Avem de comparat doua liste de frecvenţe de lungime i, unele vor lua locul valorilor Oi, celelalte vor sta la baza calcului valorilor Ei. O sa luăm acum valorile pentru intervievaţii cu studii superioare ca fiind valorile Oi. Valorile Ei vor fi valorile care s-ar găsi în grupul celor cu studii superioare dacă distribuţia ar fi aceiaşi ca şi în grupul celor fără studii superioare. Pentru a găsi valorile Ei trebuie să proiectăm procentajele aşa cum apar în tabela de referinţă la numărul total de cazuri din tabela testată. Mai clar, dacă distribuţia ar fi aceiaşi atunci procentele aşa cum apar la cei fără studii superioare ar trebui să apară şi la cei cu studii superioare. Atunci 44,6% ar trebui să fie în categoria “zilnic”. Adică numărul aşteptat de cazuri este pentru această categorie 44,6% din volumul eşantionului de test, adică 279. Calculul e deci foarte simplu, o regulă de trei simplă aplicată volumului total, sumei de valori Oi pentru procentajul fiecărei frecvenţe din cel de-al doilea grup: E1 = 279 * 44,6 / 100 = 124,4. Valoarea 124,4 diferă faţă de 102, cîte cazuri sînt de fapt în eşantion. Calculînd şi celelalte procente rezultă o listă de frecvenţe astfel: 124,4 – 91,0 – 40,7 – 22,9. Valorile nu sînt întregi pentru că se obţin aplicînd procentajele aşa cum am explicat. Să exemplificăm acum calculul valorii Chi2: Chi2 = (102 – 124,4)2/124,4 + (118 – 91)2/91 + (55 – 40,7)2/40,7 + (4 – 22,9)2/ 22,9 Valoarea calculată este Chi2 = 32,66. Programele statistice ne-ar da şi o significanţă. În cazul de faţă ar fi 0,000, deci foarte bună. Dacă însă nu am folosi un soft statistic ar trebui să folosim o tabelă de valori. Astfel de tabele pentru valorile Chi2 se găsesc de obicei la capătul cărţilor de statistică (inclusiv în această carte), dar există şi pe internet, de exemplu la adresa http://www.statsoft.com/textbook/sttable.html unde se găsesc tabele de valori şi pentru alte teste foarte des utilizate, testele t, Z şi F (tabelele pentru t şi Z se găsesc şi în cartea de faţă). 137
Să studiem puţin tabela de la pagina ***. Pentru a citi această tabelă de valori Chi2 avem nevoie de încă un termen numit grad de libertate, prescurtat df, din engleză, de la “degrees of freedom”. În cazul testelor Chi2 acest grad de libertate nu este altceva decît numărul valorilor pe care le-a luat variabila testată minus 1. Adică, în exemplul nostru unde aveam patru valori posibile, 4 – 1 = 3 grade de libertate. Căutăm în tabel pe linia potrivită numărului de grade de libertate pînă dăm de prima valoare care e mai mare decît valoarea Chi2 obţinută prin calcul. Significanţa, adică probabilitatea de a face o eroare de tip I, va fi atunci valoarea din capul de tabel a coloanei precedente. Observăm că pe măsură ce creşte valoarea Chi2, se înbunătăţeşte, adică scade ca valoare significanţa. În exemplul nostru valoarea calculată e mai mare decît oricare din valorile de pe linia pentru 3 grade de libertate. Deci significanţa e mai bună decît cea mai bună significanţă din tabel. Deci şansa de a respinge o ipoteză corectă, căci aceasta era eroarea de tip I, este foarte, foarte mică, de fapt mai mică decît 0,001. Putem ca atare respinge liniştit ipoteza. În concluzie, testul Chi2 din exemplu permite respingerea ipotezei de egalitate între cele două distribuţii. Adică datele noastre sînt suficiente pentru a putea spune că cei cu studii superioare au o distribuţie a frecvenţei de a face cumpărături semnificativ diferită de cei ce nu au asemenea studii. Exact la fel ca şi în exemplu se pot compara orice două liste de valori de frecvenţe. Fie că una este empirică şi una teoretică, fie că ambele sînt empirice. b. Testele Wilcoxon, Mann-Whitney şi Kruskal Wallis Vom continua cu alte teste non-parametrice. Testul Wilcoxon este o alternativă nonparametrică la testul t al lui Student pentru două medii, pe care l-am descris în capitolul 5. Deşi testul Wilcoxon a fost propus pentru un nivel de măsurare a datelor cel puţin intervalic, nu se fac nici un fel de presupuneri despre distribuţia datelor. Ca atare testul este potrivit de cîte ori nu sînt satisfăcute condiţiile testului t, care presupune normalitate. Să rememorăm scurt ipoteza testului t pentru două medii. Testul t pentru două medii verifica o ipoteză de egalitate sau inegalitate a două valori care se obţineau ca medii ale unei variabile 138
aleatoare. Mediile se calculează pentru două eşantioane. Cele două eşantioane trebuie să prezinte o distribuţie normală de aceiaşi dispersie a variabilei a cărei medie se testează şi pot fi independente sau dependente. Ipoteza de normalitate cu dispersie egală este destul de tare, în multe situaţii o asemenea presupunere restricţionînd mult posibilitatea de folosire a testului. Aici intervine testul Wilcoxon. Pe de altă parte, trebuie să observăm că testul t presupune întotdeuna un calcul de medie, deci testul se poate referi numai la variabile cantitative. Şi aici e nevoie de o generalizare care să facă metoda folositoare şi în alte cazuri. Testul Wilcoxon face o asemenea generalizare folosind în locul valorilor poziţiile într-o ierarhie de frecvenţe. De fapt, testul Wilcoxon transformă testul t într-un mod analog cu felul cu corelaţia Spearman transformă corelaţia Pearson. Ca atare, variabilele testate prin testul Wilcoxon trebuie să fie ordinale, dar nu neapărat intervalice sau raţionale. Deşi se efectuează nişte diferenţe între valori în cazul Wilcoxon scopul acestora este doar de a stabili care valori sînt mai îndepărtate sau mai apropiate de o cvasi-medie. Testul se foloseşte frecvent pentru întrebări de opinie. Să vedem însă ce şi cum calculează. Ipoteza testului de defineşte astfel. Fie două eşantioane, care pot fi total independente, dar cel mai adesea sînt rezultate din reinterogarea aceluiaşi eşantion. Pe cele două eşantioane se identifică o aceiaşi variabilă. Ipoteza este că distribuţia acestei variabile este egală în cele două eşantioane. Un exemplu simplu: să presupunem că am efectuat un tratament oarecare şi dorim să vedem dacă se repercutează asupra unei variabile. Ştiu eu, am tuns un preşedinte şi vrem să vedem dacă aceasta a dus la creşterea sau scăderea popularităţii lui. Variabila de popularitate va fi atunci culeasă o dată înainte de tundere, o dată după. Deoarece această variabilă nu este de fapt cantitativă nu se poate stabili cu un test t dacă diferenţa medie sesizată este relevantă statistic sau nu. Se pot folosi evident teste Z pentru a stabili dacă a crescut relevant procentul simpatizanţilor sau nu, testul Wilcoxon ne oferă însă o singură testare de ansamblu a diferenţei distribuţiei. Pentru această se acţionează astfel: 1. Să notăm cele două valori ale variabilei, simpatia înainte de tuns – x, şi simpatia după tuns – y. Pentru fiecare individ i chestionat vom avea două valori xi şi yi. 2. Calculăm modulul diferenţei zi = | xi –yi | 3. Ordonăm valorile zi, eliminăm valorile nule şi acordăm fiecărei valori o valoare rang în funcţie de poziţia pe care o ocupă în lista ordonată. Dacă două sau mai multe valori 139
z sînt egale punem rangul mediu. De exemplu dacă valorile de pe poziţia 5 şi poziţia 6 sînt egale, ambele primesc rangul 5,5. 4. Calculăm acum suma rangurilor care corespund abaterilor pozitive şi suma rangurilor care corespund abaterilor negative12. Valoarea cea mai mică dintre acestea două este valoarea de test. Valoarea de test se numeşte uneori T, alteori S sau chiar W. Valorile critice pentru testul Wilcoxon se găsesc de asemenea în tabele organizate în funcţie de significanţă şi numărul de cazuri. O regulă simplă este: cu cît valoare e mai mare cu atît significanţa e mai bună, dar evident trebuie verificată tabela pentru a decide într-un caz particular. Soft-urile statistice care efectuează testul Wilcoxon raportează desigur şi significanţa rezultatului care se citeşte cum ne-am obişnuit deja, ca probabilitate de a efectua o eroare de tip I. Deci cu cît valoarea significanţei e mai mică cu atît putem respinge ipoteza de nemodificare a variabilei cu un risc de eroare mai mic. O significanţă bună este, de regulă, una cu valoare sub 0,05. O dezvoltare interesantă a testului Wilcoxon este testul U, numit şi Mann-Whitney, MannWhitney-Wilcoxon sau Wilcoxon-Mann-Whitney. Am văzut că testul Wilcoxon se putea folosi acolo unde aveam un design de tip înainte-după, adică valori înperecheate. Trebuia să avem două eşantioane în care să construim perechi. Aceasta este o situaţie care apare desigur la anumite tipuri de cercetări dar testul de tip rang merită extins şi la alte situaţii. De aici ideea testului U. Idee pe care de altfel tot Frank Wilcoxon a propus-o şi încă în acelaşi articol din 1945 cînd a definit şi testul numit de obicei testul Wilcoxon, cel pe care l-am prezentat anterior. Şi asta cu toate că era chimist şi nu statistician. Ipoteza testului U este că două eşantioane provin din aceiaşi populaţie, adică au o distribuţie egală a variabilei testate. O asemenea ipoteză poate fi de folos în multe întrebări de cercetare. Să vedem nişte exemple. Situaţia de cercetare pe care am folosit-o pentru a prezenta testul Chi2 se pretează şi pentru utilizarea testului U. Verificarea faptului că frecvenţele de a face cumpărături ale celor cu sau fără studii superioare sînt sau nu diferite se poate traduce şi în limbajul ipotezei testului U. Avem în acest caz o populaţie de ansamblu cu anumite obiceiuri legate de frecvenţa de a face cumpărături. Dacă am alege aleator două eşantioane din această populaţie ele ar putea diferi 12
De fapt ajunge dacă calculăm una dintre aceste sume.Cealaltă rezultă uşor pentru că suma tuturor rangurilor este oricum n(n+1)/2 unde n este numărul de valori.
140
doar întîmplător din punctul de vedere al variabilei frecvenţă de cumpărare. Să presupunem însă că alegerea se face pe baza unei caracteristici, cum ar fi prezenţa studiilor superioare. Atunci, dacă această caracterististică nu are nici o relevanţă asupra variabilei “frecvenţă a cumpărăturilor” cele două eşantioane rămîn din perspectiva acestei variabile ca eşantioane aleatoare provenite din aceiaşi populaţie. Dacă însă testul ne permite să respingem această ipoteză înseamnă că variabila de selecţie, prezenţa studiilor superioare, are un efect semnificativ asupra variabilei testate, frecvenţa cumpărăturilor. Deci cele două eşantioane nu se pot considera ca aparţinînd aceleiaşi populaţii. În mod similar orice situaţie în care o variabilă categorială binară se repercutează pe o variabilă ordinală se poate testa cu testul U. Regula de ansamblu este următoarea. Variabila categorială care împarte eşantionul nostru în două defineşte de fapt două eşantioane. Testul verifică faptul că cele două eşantioane nu diferă din punctul de vedere al distribuţiei unei variabile ordinale. Hai să mai luăm un exemplu tipic. Să presupunem că cele două eşantioane sînt determinate de gen. Avem deci un eşantion de bărbaţi şi unul de femei şi o variabilă de test care este răspunsul la întrebarea: Care este venitul lunar al familiei dumneavoastră? Evident răspunsul la o astfel de întrebare este o estimare a venitului lunar familial. Dacă am obţine o diferenţă semnificativă am putea deduce că cele două genuri estimează diferit veniturile lor familiale. De exemplu, nu m-aş mira dacă bărbaţii ar avea o tentaţie de a supraevalua venitul şi femeile de a-l subevalua. Dacă ambele grupuri evaluează corect, sau se abat în aceiaşi direcţie, ar trebui să nu avem nici o diferenţă statistic semnificativă. Deci, am putea conclude că nu se poate respinge ipoteza cum că estimările făcute de bărbaţi şi femei fac parte din aceiaşi distribuţie, sînt eşantioane ce provin din aceiaşi populaţie. De altfel, aplicînd testul U pentru întrebarea de mai sus, folosind date din sondajul la care mam mai referit, cel din Baia Mare, din 2003. obţinem următorul rezultat: Rang
Suma 61. Genul
N
Rang mediu
rangurilor
66. Venitul lunar
feminin
553
504,28
278865,00
familiar?
masculin
474
525,34
249013,00
Total
1027
Statistica de test
141
66. Venitul lunar familiar? Mann-Whitney-U
125684,000
Significanţă (două capete)
,229
a Variabila de grupare: 61. Genul
Cel mai uşor putem să analizăm acest rezultat citind significanţa. După cum se vede ea nu e suficient de bună pentru a respinge ipoteza. Deci, nu putem spune că femeile şi bărbaţii estimează în mod diferit veniturile lor familiale. Metoda de calcul a testului U este foarte simplă. 1. Se ordonează toate valorile variabilei testate (venitul lunar familial), indiferent dacă fac parte din grupul 1 (la noi, femeile), sau grupul 2 (bărbaţii). 2. Fiecărei valori i se asociază rangul ei în lista ordonată. Ca şi în cazul testului Wilcoxon, valori egale vor primi un rang mediu. 3. Se calculează suma rangurilor pentru grupul 1 (R1) şi suma rangurilor pentru grupul 2 (R2). 4. Valoarea de test U este valoarea mai mică dintre U1 şi U2 unde acestea se calculează asfel: U1 = R1 – (n1* (n1+1))/2 şi U2 = R2 – (n2* (n2+1))/2. Există desigur tabele care dau valorile critice pentru testul U. În aceste tabele valorile sînt specificate în relaţie cu volumele celor două eşantioane, n1 şi n2. Un pas mai departe pe acelaşi fir logic îl face testul Kruskal-Wallis. Anume, dacă în testul Mann-Whitney comparaţie se face între două grupuri, testul Kruskal-Wallis permite comparaţii între mai multe grupuri, sau mai multe eşantioane ca să folosim chiar limbajul testului. Ipoteza testului Kruskal-Wallis este analogă ipotezei Mann-Whitney: Un număr oarecare de eşantioane au fost extrase din aceiaşi populaţie. Ca şi în cazul Mann-Whitney de fapt eşantioanele le definim printr-o variabilă de categorisire, cel mai adesea o variabilă nominală, şi testarea o facem pe o variabilă care este cel puţin ordinală. Ca şi în cazul precedentelor teste
142
non-parametrice nu există presupuneri de normalitate a distribuţiilor sau alte restricţii similare. Aceasta permite utilizarea şi acestui test cu o varietate foarte mare de date. De fapt putem înţelege testul Kruskal-Walis ca un test de relaţionare între două variabile, una categorială, posibil chiar nominală şi una cel puţin ordinală. Testul verifică dacă prima variabilă are repercursiuni asupra distribuţiei celei de a doua. Metoda de calcul se bazează pe aceiaşi idee ca şi în cazul precedentelor două teste. Toate valorile, independent de grupul din care fac parte se ordonează şi fiecărei valori i se asignează rangul ei. Apoi se efectuează următorul calcul:
Unde: •
g este numărul grupurilor.
•
N este suma volumurilor eşantioanelor, adică N = n1 + n2 + ... ng
•
ni este volumul eşantionului i, adică corespunzător categoriei i a variabilei de selecţie
•
rij este rangul observaţiei j din grupul i
• •
, adică media tuturor rangurilor din grupul i , adică media tuturor rangurilor.
Uneori valoarea calculată la testul Kruskal-Wallis se notează H, alteori K. Cu toate că formula poate părea ceva mai complicată ea nu este decît o extindere logică a formulei U pentru un număr mai mare de grupuri. Merită de observat că toate calculele care se fac se fac cu ranguri şi nu cu valorile propriu-zise ale variabilelor. Aşa se elimină de fapt presupunerile asupra distribuţiei variabilei testate. Tot ce ne trebuie este să existe o ordine a valorilor pentru a putea atribui ranguri. Există o metodă mai confortabilă de a analiza testul Kruskal-Wallis care simplifică şi mai mult lucrurile. Varianta pe care o prefer şi eu şi v-o propun şi vouă reduce testul la un test Chi2 în următorul fel. Se calculează pentru fiecare grup de valori, sau eşantion rangul mediu şi 143
apoi se aplică pur şi simplu un Chi2 pentru ipoteza de egalitate a tuturor rangurilor medii. Adică, dacă eşantioanele sînt provenite din aceiaşi populaţie, deci aproximează aceiaşi distribuţie a datelor, diferenţele dintre rangurile medii trebuie să fie pur aleatoare, întîmplătoare. Atunci însă ele nu vor fi în mod relevant diferite de o distribuţie uniformă. Astfel am tradus ipoteza testului Kruskal-Wallis la o ipoteză de tip Chi2 cu distribuţie uniformă. Majoritatea soft-urilor statistice pe care le cunosc abordează testul Kruskal-Wallis în acest fel. Să vedem un exemplu de aplicaţie, de astă dată folosind un alt set de date. Populaţia cercetării este populaţia intreprinderilor mici şi mijlocii din mediul rural din Transilvania. Am testat dacă numărul de proprietari ai intreprinderii depinde de domeniul principal de activitate. Domeniul de activitate este evident o variabilă nominală. Nu există o ordine între “agricultură” şi “transporturi”! Pe de altă parte domeniul de activitate defineşte pe populaţia firmelor subgrupuri care pot fi înţelese ca eşantioane diferite. Variabila “număr de proprietari” este raţională, dar probabil nu este distribuită normal, nici măcar cu aproximaţie. Rang
5. Care este domeniul N
principal de activitate? 3. Care este numarul de
Agricultura
proprietari ai firmei?
Rang mediu 16
423,50
Comert - en detail
454
488,43
Comert - en gros
45
497,28
Productie
76
495,32
Servicii - profesiuni
147
381,39
Servicii - turism
107
417,61
39
381,00
5
313,00
33
599,50
Servicii - consultanta Servicii - agricole Constructii Total
922
Statistica pentru Testul(a,b)
3. Care este numarul de proprietari ai firmei? Chi-patrat
55,822
Df
8
Significanta asimptotica
144
,000
a Kruskal-Wallis-Test b variabila de grupare: 5. Care este domeniul principal de activitate?
Valoarea Chi2 şi significanţa testului sînt cît se poate de concludente. Ipoteza că firmele din grupurile definite de domeniul principal de activitate au la fel de mulţi proprietari poate fi respinsă cu o probabilitate de a greşi de 0.000. Să închei acest capitol în care am trecut în revistă cîteva teste printr-o înţelepciune simplă dar utilă. În esenţă, tot ce e variabilă raţională sau intervalică trebuie să se poată testa cu t sau Z (ceea ce e cam acelaşi lucru), iar tot ce e variabilă ordinală sau nominală se poate testa într-un fel sau altul folosind Chi2. Există desigur şi variante mai complicate şi multe, multe alte teste gîndite pentru diferite ipoteze, dar pentru multe din lucrările mai mult sau mai puţin ştiinţifice şi utilizarea acestor teste simple ar fi deja un cîştig extraordinar pentru cunoaştere. c. Regresia categorială. În capitolul precedent am prezentat analiza de regresie liniară atît în forma ei simplă cît şi multiplă. În toate aceste variante datele implicate în ecuaţiile de regresie erau date numerice cu care se efectuau calcule. Această restricţie limita desigur utilizarea metodei regresiei la un anume tip de cercetări. Există însă şi tipuri de regresie care au fost gîndite să analizeze relaţii între variabile care pot avea diferite forme, chiar şi variabile nominale. Aceste modele de regresie nu sînt utile numai pentru luarea în considerare a unor variabile nominale, ci şi în cazul unor variabile care pur şi simplu nu se supun pretenţiilor metodelor de rezolvare ale regresiei liniare. Regresia categorială nu este un singur tip de regresie. Mai mult, putem să o considerăm ca o clasă de modele care în forma generală a ecuaţiei de regresie, aceiaşi ca şi în capitolul precedent includ variabile care nu se supun regulilor obişnuite. Principalele modele care implică variabile nenumerice în ecuaţii de regresie sînt:
•
Regresia liniară cu utilizarea variabilelor dummy, care permite modelarea efectelor variabilelor nominale.
•
Regresia logistică binară sau multinomială (ambele pot avea formele logit şi probit), care permite definirea unor variabile nominale ca variabile ţintă a regresiei.
•
Regresia logit sau probit ordonată, care permite utilizarea variabilelor ţinte ordinale. 145
Unele soft-uri de statistică oferă şi o aşa-zisă regresia categorială cu scalare optimală care permite definirea scalei pentru fiecare variabilă din ecuaţia de regresie în parte. Aceasta este o alternativă generală la care utilizatorul nu trebuie să-şi bată prea tare capul cu modelul folosit şi primeşte rezultatele sub o formă interpretabilă uşor, la fel ca la o regresie liniară obişnuită. În această secţiunea nu doresc mai mult decît să clarific primul dintre modelele enumerate mai sus, modelarea variabilelor nominale cu ajutorul variabilelor dummy. Variabilele dummy sînt variabile care au două valori, de obicei codate 0 şi 1. De fapt, modul de codificare nici nu prea are vreo importanţă, sensul acestuia fiind mai mult unul logic decît numeric. Adică 0 înseamnă fals sau absent, 1 înseamnă adevărat sau prezent. În mod tradiţional variabilele dummy au apărut în cercetările economice pentru a modela sezonalitatea. E foarte simplu. Să considerăm o ecuaţie de regresie liniară cu două variabile regresor din care una dummy: yi = a + b1 xi + b2 di + ei unde yi este variabila ţintă, xi variabila regresor, di variabila dummy şi ei eroarea pentru fiecare caz i la care s-au cules date. Să zicem, de exemplu că dorim să modelăm relaţia dintre consumul de bere (y) şi consumul de alune (x). Să zicem că am cules date de la buticuri, reprezentînd vînzări zilnice. Observaţiile ne-au dus însă la gîndul că această relaţie depinde cumva de anotimp. Faptul că iarna se bea mai puţină bere decît vara nu ar trebui neapărat să modifice relaţia dintre cantităţile de bere şi cele de alune. Dar observaţiile ne duc cu gîndul că iarna se mănîncă mai multe alune la aceiaşi cantitate de bere. Deci s-ar putea dependenţa să fie cumva diferită. Pentru a putea lua aceasta în considerare am putea să modelăm relaţia cu două ecuaţii una pentru vară şi una pentru iarnă. Sau am putea folosi o variabilă dummy, o variabilă cu două valori. În modelul din exemplu aceasta este variabila d. Luăm ca atare d = 1 pentru acei i pentru care valorile x (alune) şi y (bere) au fost culese vara şi d = 0 pentru acei i pentru care valorile au fost culese în alte anotimpuri. De fapt am împărţit eşantionul şi avem: pentru d = 1: yi = a + b1 xi + b2 + ei = (a + b2) + b1 xi + ei 146
iar pentru d = 0: yi = a + b1 xi + ei Cele două ecuaţii diferă prin termenul liber, în primul caz acesta este a + b2, iar în al doilea caz a. Deci, dacă am reprezenta grafic cele două drepte ele ar fi paralele. Altfel spus, efectul sezonalităţii modelat cu variabile dummy presupune că relaţia dintre consumul de alune şi consumul de bere nu diferă prin cantitatea de bere care se consumă la o creştere a consumului de alune de o alună ci pur şi simplu consideră că sezoanele pornesc de la un nivel diferit al relaţiei dintre consumul de bere şi cel de alune. Faptul că efectul sezonalităţii este dat la aceste modele de o valoare scalară, valoarea b2 şi nu de o variabilă aleatoare face ca astfel de modele să se mai numească modele cu efecte fixe. Cu o asfel de extindere a modelului regresiei liniare putem lua în calcul nu numai efecte de sezonalitate ci şi orice efecte care sînt modelabile cu variabile cu două valori. Pe parcursul cărţii am mai avut ca exemple de astfel de variabile, genul sau prezenţa studiilor superioare. Interesant este că o foarte simplă generalizare ne permite să includem în ecuaţii de regresie variabile nominale cu oricîte valori. Să luăm o variabilă nominală cu mai multe valori, de exemplu, religia. Mai jos este o tabelă de frecvenţe care reprezintă religiile locuitorilor judeţului Arad conform unui sondaj de opinie: I8. religie:
Frecventa adventist
Procent
5
,8
baptist
30
5,0
catolic
76
12,8
evanghelic
1
,2
fara religie
5
,8
grecocatolic
2
,3
martor al lui iehova
1
,2
neoprotestant
4
,7
147
ortodox
437
73,4
28
4,7
6
1,0
595
100,0
penticostal reformat Total
Datele culese prezintă 11 categorii, pentru o modelare corectă probabil diversele rituri neoprotestante ar trebui reunite, ca şi cele protestante, obţinîndu-se astfel un număr mai mic de categorii: ortodox, catolic, greco-catolic, protestant şi neoprotestant şi fără religie. Modelarea cu variabile dummy presupune construirea cîte unei variabile pentru fiecare dintre aceste valori. Deci în locul variabilei “religie” cu valorile din listă vom avea o variabilă “ortodox” cu valorile “da” şi “nu”, o variabilă “catolic” cu valorile “da” şi “nu” şi aşa mai departe. În total modelarea cu variabile dummy presupune înlocuirea unei variabile nominale cu atîtea variabile dummy cîte valori poate lua variabila nominală. Să considerăm relaţia de regresie care modelează dependenţa dintre numărul de cărţi cumpărate anual şi vîrstă. Cartei = a + b1 Virstai + ei Modelul rezolvat cu metoda celor mai mici pătrate dă: Cartei = 2,146 – 0,026 Virstai + ei Relaţia este deci negativă, cei cu vîrsta mai mică cumpără mai multe cărţi. Significanţele coeficienţilor sînt bune, dar coeficientul de determinare este mic (0,098) deci vîrsta explică în mică măsură cumpărarea de carte. Să vedem dacă nu cumva religia, care este la urma urmei o caracteristică culturală, are şi ea un efect asupra obiceiului de a cumpăra cărţi. Pentru aceasta redefinim religia sub forma unor variabile dummy. Considerăm deci 6 variabile şi rezultă modelul următor: Cartei = a + b1 Virstai + b2 Ortodoxi + b3 Catolici + b4 Greco-Catolici + b5 Protestanti + b6 Neoprotestanti + b7 FaraReligiei + ei Rezolvarea cu metoda celor mai mici pătrate ne dă următorul rezultat prezentat ca şi tabelă:
148
Model
B 1
T
Coeficienti
Significanta
Eroare standard
(constanta)
1,899
,604
3,142
,002
I2. vârsta:
-,025
,003
-7,891
,000
,252
,579
,436
,663
ortodox catolic
,187
,593
,315
,753
grecocatolic
-,120
1,074
-,112
,911
protestant
-,051
,778
-,065
,948
,255
,596
,427
,669
neoprotestant
a Variabilă dependentă: Q15. Cate carti cumparati pe an?
În tabela de mai sus sînt coeficienţii ecuaţiei de regresie, împreună cu rezultatele unor teste de significanţă. Testele verifică ipoteza că variabila regresor nu are efect asupra variabilei ţintă. Altfel spus verifică ipoteza că coeficientul variabilei este semnificativ diferit de 0. Tabela arată că deşi significanţa efectului vîrstei rămîne bună şi coeficientul vîrstei este stabil faţă de regresia simplă, significanţa variabilelor dummy aferente diferitelor grupuri religioase este foarte proastă. Practic nu putem respinge ipoteza generală: “apartenenţa religioasă nu are efect asupra numărului de cărţi cumpărate anual”. În acest context o discuţie a semnelor coeficienţilor diferitelor variabile dummy este lipsită de sens, ar reprezenta chiar o greşeală gravă, deşi acesta ar fi fost următorul pas dacă significanţele ar fi fost bune. Am fi observat atunci că anumite religii au efect pozitiv, adică coeficienţi pozitivi, altele efect negativ asupra numărului de cărţi cumpărate. Să alegem acum o altă variabilă calitativă, nivelul de pregătire. Am recodat nivelul de pregătire pe patru categorii: şcoală generală sau mai puţin, studii liceale, studii postliceale, studii superioare. Pentru fiecare am construit o variabilă dummy exact ca în exerciţiul precedent şi am calculat ecuaţia de regresie. Rezultatul tabelar este mai jos:
Model
B 1
T
Coeficienti
Significanta
Standardfehler
(constanta)
1,747
,466
3,746
,000
I2. vârsta:
-,016
,003
-4,759
,000
generala
-,580
,461
-1,260
,208
149
liceu
-,109
,454
-,239
,811
postliceala
,851
,489
1,738
,083
superioare
,906
,468
1,936
,053
a Variabila dependenta: Q15. Cate carti cumparati pe an?
Efectul variabilei “nivel de pregătire” este mult mai clar. Pentru a analiza tabela ne uităm la semnul şi valoarea coeficienţilor precum şi la significanţa lor. Se observă că efectul este mai significant pentru treptele de pregătire mai înalte. Astfel efectul studiilor superioare este singurul clar semnificativ. Ipoteza de independenţă a numărului de cărţi cumpărate anual de nivelul de pregătire poate fi respinsă cu o probabilitate de 95% pentru cei cu studii superioare. De asemenea efectul este evident pozitiv. O influenţă pozitivă ceva mai mică şi mai puţin semnificativă au şi studiile postliceale. Pe de altă parte efectul studiilor liceale sau generale este negativ asupra numărului de cărţi cumpărat, dar în acelaşi timp mai puţin significativ. În special în cazul celor care au numai studii liceale este greu să vedem vreun efect asupra numărului de cărţi cumpărate. O citire corectă ar fi de fapt: cei cu studii liceale par a cumpăra mai puţine cărţi, dar acest rezultat este insuficient de sigur. Interesant este şi faptul că coeficientul de determinare al ecuaţiei de regresie care era de sub 10% creşte la 23% prin introducerea variabilei “nivel de pregătire”. Am putea lua în seamă variabila ordinală “nivel de pregătire” şi altfel. Am putea să o recodăm numeric, de genul “şcoală generală” este 1, “studii liceale” este 2, etc. şi să o considerăm ca variabilă numerică. O asemenea abordare ar fi însă mult mai brutală, în esenţa ei incorectă şi mult mai puţin nuanţată pentru că nu ar putea determina efecte individuale ale diferitelor nivele de pregătire. Pe de altă parte abordarea efectelor individuale ale nivelelor de pregătire este o utilizare nominală a variabilei şi omite faptul că aceste nivele au de fapt o ordine bine definită.
150
Capitolul 8. Analiza seriilor de timp Foarte des analiza statistică caută să afle cate ceva despre derularea unor evenimente în timp sau dezvoltarea în timp a unor caracteristici. Însăşi modul nostru de a cunoaşte conţine adesea intrinsec o raportare la timp. Vorbim despre “o vară calduroasă” implicit comparand-o cu alte veri; observăm o relaţie între evenimente şi o identificăm ca pe o cauzalitate, asumand evident o relaţie de consecutivitate temporală; spunem că, de exemplu, “preţurile astea cresc mereu” sau că “e din ce in ce mai greu să găseşti un meşter zilele astea!” considerand existenţa unor trenduri temporale.
151
Capitolul 9. Deserturi şi cum putem să le stricăm sau cum se poate greşi în statistică După ce Darrel Huff a publicat celebra şi deja pomenita lui carte “Cum să minţi cu statistici”, multe cărţi de statistică introductive au inclus capitole de genul “cele mai frecvente 10 erori” sau greşeli care se fac în statistică. Nu vreau să mă sustrag de la această plăcută sarcină deşi pînă acum am pomenit multe dintre greşelile tipice şi pe ici pe colo am dat şi exemple de cum se fac ele, dacă cineva ar dori să se inspire. Oricum în acest capitol de final o să reiau cu noi exemple o parte din ele, cele care mi se par cele mai frecvente şi cele mai dăunătoare. Aşa cum observa şi Huff, argoul statistic, precum şi al altor ştiinţe, presupune nu numai un scriitor atent şi precaut, dar şi un cititor avizat. Declaraţiile bazate pe statistici induc în eroare cel mai adesea prin omisiuni. Iar cititorul neavizat este tocmai acela care nu sesizează ce lipseşte în informaţia publicată. Omisiunile fatale Anumite ingrediente nu au voie să lipsească din meniul pe care statistica îl pune pe masa cititorului, fie el avizat, fie nu. Pentru ca o informaţie de natură statistică să aibă sens şi valoare de cunoaştere, o serie de informaţii colaterale sînt necesare. De exemplu, la un sondaj trebuie să ştim volumul eşantionului, metoda de eşantionare, şi aşa mai departe. Majoritatea mass mediei, precum şi a cercetătorilor au aflat aceasta şi ne raportează cu sinceritate şi volumul eşantionului şi marja de eroare. Ceea ce e desigur foarte bine. Mai există şi excepţii memorabile, în care omisiunile sînt atît de multe, încît nu mai ştim de fapt de ce ni s-a comunicat ceva. Iata ştire din ziarul Libertatea, Nr. 3392, sâmbãtã 22 septembrie 2001 pe care o reproduc în întregime (!). “Potrivit rezultatelor unui sondaj de opinie, 53% din cetatenii rusi nu cred in existenta unei a doua vieti. In cadrul aceluiasi sondaj, 36% dintre subiecti au declarat ca sunt convinsi in existenta vietii dupa moarte. 11% dintre participantii la sondaj au declarat ca nu pot raspunde la aceasta intrebare.” Aici nu ştim volumul eşantionului, şi bineînţeles nici marja de eroare. Aici trebuie să recunosc că Libertatea este în general consecvent în a omite asemenea informaţii. Ce e mai interesant e 152
felul cum par a fi formulate răspunsurile la întrebare. Dacă adunăm procentajele iese exact 100%. De unde rezultă că scala de opţiuni nu a permis “cetăţenilor ruşi” din sondaj nici un fel de dileme. Fie “nu cred”, fie sînt “convinşi”. E încă bine că s-a acceptat că unii chiar nu pot răspunde. Cam puţini după experienţa mea. Oricum, astfel de informaţii cu tentă statistică chiar nu au nici o valoare de informare. Să trecem însă la treburi mai serioare. Mai rar decît neprezentarea volumului eşantionului se evită o altă omisiune. Cînd ni se prezintă o valoare procentuală trebuie să ştim pe cîte cazuri s-a obţinut acel procentaj. Aceasta este obligatoriu dacă numărul de cazuri este deosebit de mic. Nu este de regulă nici o problemă la procentaje care se calculează din ansamblul eşantionului, pentru că volumul acestuia este cel mai adesea cunoscut. Necazul apare cînd, de exemplu într-o tabelă de relaţionare, apar procentaje ale unor categorii subordonate. În asemenea cazuri procentajul nu se mai referă la întreg eşantionul. E vorba de cazuri de genul “25% dintre bărbaţii de sub 25 de ani sînt de părere că ...”. La astfel de propoziţii precizarea volumul e esenţială. O opinie împărtăşită de către un sfert dintr-o categorie populaţională este desigur importantă. Ceea ce totuşi nu e cazul dacă în eşantion întreaga categorie e reprezentată de 12 persoane, din care un sfert sînt abia 4 oameni. Ştim că matematic vorbind, ceea ce contează sînt la urma urmei numerele mari. Cazul de mai jos nu e chiar o “infracţiune statistică” pentru că informaţia din articol este pînă la urmă suficientă dacă dorim să refacem noi calculele. Dar pe cititorul neavizat tot îl induce în eroare, ceea ce putem liniştit incadra la “contravenţii”. Astfel de omisiuni apar cel mai adesea în lucrări cu pretenţii ştiinţifice. Exemplul de mai jos provine dintr-o teză de doctorat în pedagogie de la Universitatea de Stat din Moldova13: “În funcţie de gen, înregistrăm recunoaşterea unei palete mai largi de forme de instruire la bărbaţi: (3% dintre bărbaţii chestionaţi şi-au exprimat opţiune pentru lucrul în bibliotecă, faţă de 0% la femei; 4% dintre bărbaţi şi-au exprimat opţiunea pentru mass-media).” Ce a vrut autorul să ne spună de fapt? Ei bine, a vrut să compare genurile din perspectiva modurilor de instruire recunoscute şi a conchis că bărbaţii menţionează mai multe astfel de forme. Pentru a susţine aceasta ni se exemplifică două forme de instruire (folosesc termenul 13
Am decis să nu dau mai multe amănunte bibliografice.
153
autorului) menţionate într-o chestionare de către bărbaţi în mai mare măsură decît de către femei. Prima omisiune este cea a procentajului de femei care declară mass-media ca fiind o formă de instruire. Din tabelele din document se poate afla însă că acest procentaj este de 1%. Problema cea mare este însă că nu se specifică volumul asociat acestor procentaje. Nici în tabelele care apar pe lîngă fragmentul citat mai sus nu apar frecvenţe, ci numai procentaje. Căutînd un pic prin teză găsim pînă la urmă volumul eşantionului. Aici surpiză maximă, pentru mine, cel puţin: “Populaţia investigată: Subiecţii studiului au fost 175 de adulţi, participanţi la diferite seminarii (...), dintre care 116 femei şi 79 de bărbaţi” Din cele de mai sus eşantionul nu pare a fi aleator. Mai departe: Hai să nu fiu cîrcotaş şi să nu adun 116 cu 79. Observ însă că 3% dintre bărbaţi sînt probabil 4 persoane, iar 4% sînt 5 persoane. 1% dintre femei este 1 persoană. Ei bine, nu numai că omisiunea este nepermisă la numere aşa mici, dar concluzia din studiu este absolut hazardată. O altă omisiune foarte des întîlnită se referă la formularea întrebării. De multe ori un concept complex şi chiar ambiguu este prezentat ca fiind rezultat direct dintr-un sondaj de opinie. Iată un exemplu tipic din Evenimentul Zilei Nr. 4892, 31 Mai 2007. Prezentînd un sondaj de opinie cu informaţiile de rigoare (“Sondajul a fost efectuat pe un esantion de 1.244 de persoane si are o marja de eroare de 2,8%”) se face în text remarca: “Sondajul IMAS constata modificari substantiale si la capitolul increderii in personalitatile politice: Traian Basescu, 60%, inregistrand un plus de 11 procente: Theodor Stolojan (32%), Gigi Becali (30%), Calin Popescu-Tariceanu (19%), Mircea Geoana (16%).” Nu ni se spune desigur ce este acea “încredere” şi, ceea ce e şi mai grav, nu ni se spune ce reprezintă procentajele raportate. Putem doar bănui răspunsul la prima întrebare, dar la a doua întrebare nu avem nici un indiciu. Întrebarea pe care o pun de obicei sondajele de opinie la acest subiect este ceva de genul “Cîtă încredere aveţi în următoarele personalităţi politice?”. Răspunsurile posibile sînt de obicei “Foarte multă”, “Multă”, “Puţină”, “Foarte puţină” eventual cu o opţiune la mijlocul scalei. Prima omisiune este absenţa specificării răspunsurilor care au fost incluse în procentajul de încredere. E oare vorba despre suma categoriilor “foarte 154
multă” şi “multă” încredere? Probabil. Dar exista oare o categorie medie sau nu? Şi dacă da, cum a fost formulată? Şi unde intră ea, la încredere sau la absenţa încrederii? Apoi, problema esenţială: cum au interpretat intervievaţii conceptul de încredere? Încercaţi să răspundeţi la întrebare. Cîtă încredere aveţi într-un anume politician? La ce vă gîndiţi cînd trebuie să răspundeţi? Vă gîndiţi la încrederea că va face se spune, sau la încrederea că va spune ce crede, sau la încrederea că ceea ce spune vă va conveni. Poate că e vorba despre o senzaţie mai generală de simpatie sau de familiaritate mai de grabă decît de predictibilitate. Faptul că conceptul de încredere este un concept destul de larg face ca răspunsul să fie dependent de contextul în care se pune întrebarea. Contextul poate face ca încrederea să fie interpretată întrun anumit fel. Dacă înainte de întrebarea de încredere se discută despre acţiuni politice sau anumite declaraţii politice aceasta poate induce o anumită înţelegere şi poate duce la o evaluare de un anumit fel. Bineînţeles un articol de ziar nu poate şi nu trebuie să dea întregul chestionar, dar astfel de consideraţii fac discutabilă comparabilitatea rezultatelor la “cote de încredere”. Aşa că aserţiunea din articol, cum că Traian Băsesc înregistrează “un plus de 11 procente” nu prea înseamnă mare lucru. Omisiunile pe care le-am menţionat, volumul eşantionului, volumul unei categorii, formularea întrebărilor şi a răspunsurilor, nu au de obicei intenţia de a induce în eroare. Totuşi în unele cazuri ele o fac pentru că încurajează implicit o citire mai generală a rezultatelor decît ar fi permis. Ele pot implica, în special pentru cititorul neavizat, generalizări sau comparaţii care sînt nesusţinute. O altă problemă care este conexă omisiunii formulării întrebării este confunzia legată de variabila măsurată. Aşa cum am văzut din întrebarea despre încredere nu este întotdeuna evident ce se măsoară. O eroare gravă este confuzia de variabilă. Ce măsurăm de fapt? De multe ori cercetările ştiinţifice, şi în special cele din domeniul social şi economic conceptualizează la un nivel teoretic abstract. Apoi statisticianul este pus în situaţia de a operaţionaliza teoria, adică de a găsi ceva suficient de măsurabil şi suficient de apropiat de formularea teoretică astfel încît ipotezele de cercetare să poată fi testate. Atunci cînd un concept teoretic este prea vag pentru a putea fi măsurat direct, statisticianul trebuie să găsească o variabilă care să ţină locul acestui concept în cercetarea empirică. Metoda se numeşte de regulă analiză cu variabile proxy după cuvîntul englezesc pentru înlocuitor. Cît de bine se pretează o variabilă proxy pentru a ţine locul unui concept nemăsurabil este de obicei 155
nedecidabil. Totuşi o doză de bun simţ ştiinţific există în modul cum se pot face astfel de definiţii. O altă cale de abordare a aceleiaşi probleme este utilizarea analizei de cale (sau, iarăşi englezeşte, analiză path). În acest caz variabila nemăsurabilă este inclusă într-o cale logică deductivă, şi înlocuită în cercetare printr-o variabilă care îi este precursor logic. Desigur determinarea logică a variabilei care este oricum nemăsurabilă printr-o altă variabilă nu poate fi completă şi oricum nu poate fi determinată prea clar. Sigur înlocuiri de acest tip se pot face, dar nu trebuie nici o clipă uitat că înlocuirea e valabilă foarte limitat şi doar la nivelul conceptual al respingerii de ipoteze, al contraexemplului deci. După introducerea aceasta puţintel cam filosofică, ce e de spus, de fapt? O mare grijă trebuie avută de cîte ori în cercetare sau în prezentarea unor rezultate apar concepte ce par a fi greu de măsurat. Textul nostru trebuie să spună exact ce am măsurat de fapt şi de ce. Hai să dau un exemplu autocritic. Într-o serie de cercetări am avut nevoie să măsor ceva ce teoria numea “gradul de globalizare” sau de “includere în societatea globală” a unei ţări într-un moment anume. Am mai dat exemple din aceste cercetări aşa că unii poate îşi amintesc că am folosit numărul de organizaţii non-guvernamentale active în ţara respectivă pentru a măsură globalizarea. Este evident o variabilă proxy. Cît e de bună? Nu pot spune decît că am decis după o cumpănire destul de serioasă a alternativelor pe care le propune literatura din domeniu. Ce pot spune în apărarea mea? Faptul că am prezentat în articolele ştiinţifice rezultate din aceste cercetări, ce este de fapt variabila şi nu am pretins că ar fi mai mult decît un indicator posibil al gradului de globalizare. Erorile cele mai frecvente legate de obiectul unei măsurători se fac în studii de marketing în care adesea consumul este identificat cu estimarea consumului, cheltuieli cu estimarea cheltuielilor. Întrebări de genul “cît cheltuiţi lunar pe preparate din peşte?” pot cu greu fi interpretate ca reprezentînd un indicator cît de cît fidel al consumului. Ţin minte primul sondaj pe care le-am condus în România. Printre altele am întrebat atunci locuitori ai Timişorii cu ce partid au votat la alegerile precedente, de la care trecuse mai bine de un an. Am regăsit un rezultat care e descris şi în literatura de statistică politică. Anume că oamenii uită ce au ales şi sînt mulţi care identifică partidul cîştigător al alegerilor cu opţiunea lor, deşi în realitate au votat la vremea respectivă cu un alt partid. Sondajul meu avea rezultate bune de test, adică eşantionarea avea caracteristicile unei eşantionări aleatoare. Totuşi proporţiile voturilor pe partide nu corespundeau de fel rezultatelor reale de la alegerile precedente. Variabila culeasă de mine cu era deci “opţiunea politică de la precedentele alegeri”, ceea ce de fapt îmi doream să măsor, ci “impresia de la momentul chestionării asupra opiniei politice 156
de la precedentele alegeri”. Diferenţa e mare, pentru că ne împiedică să avem un indicator al schimbărilor de opţiune. Raportarea selectivă a rezultatelor O altă eroare tipică pentru mass media, dar şi pentru politicieni şi universitari sau cercetători care se transformă în politicieni prin partizanat, este raportarea selectivă a rezultatelor. Desigur un context restrictiv cum ar fi cel al unui articol de ziar sau al unei declaraţii de presă nu poate acomoda toate rezultatele unei cercetări, cu toate acestea uneori nu avem cum să nu suspectăm intenţie în asemenea situaţii. Pe la începutul anilor 1990 am auzit de la un cunoscut sociolog român, nu spui cine, persoană importantă, o declaraţie televizată care m-a minunat puţintel. Încerc să o reproduc cît de exact pot: “în Statele Unite, în anii 50 sectorul universitar privat includea jumătate dintre instituţii, dar s-a ajuns ca în 1990 numai 20% dintre studenţi să studieze la universităţi private”. Negreşit ambele valori sînt corecte, ceea ce se omite este că şi în 1990 ponderea universităţilor private era tot de vreo 50% din ansamblul universităţilor americane. Declaraţia pune faţă în faţă două valori care nu sînt direct comparabile, o pondere de instituţii din 1950 şi o pondere a studenţilor din 1990 creind astfel senzaţia unui trend. Adevărul este că un astfel de trend există şi ponderea studenţilor din sistemul privat a scăzut cu adevărat, deoarece sistemul universitar american public a expandat mult mai mult decît cel privat. Cu toate acestea, felul cum a fost făcută declaraţia a fost evident manipulator. Şi aceasta şi prin faptul că a prezumat o scădere a sistemului privat ceea ce nu a avut de fapt loc. Ceea ce s-a întîmplat a fost o creştere mai accentuată a sistemului public. Prezentarea numai a acelor rezultate care convin din punctul de vedere al cercetării, fie ea ştiinţifică sau mai puţin, este o boală care nu prea are leac. În multe cercetări de natură politică se pun, pe lîngă întrebările “pe bune” şi anumite întrebări special pentru a obţine rezultate publicabile sau care să susţină decizii gata luate. Se poate raporta selectiv şi altfel, poate ceva mai puţin manipulativ, dar totuşi. Iată un fragment din ziarul Cotidianul, din 3 August 2007:
157
“(...) 44% dintre romani considera ca premierul Tăriceanu nu trebuia să demisioneze ca urmare a rezultatului referendumul pentru demiterea preşedintelui Băsescu.” Nu ni se spune ce consideră ceilalţi 56% dintre români. Că premierul trebuia să demisioneze? Probabil că nu, sigur există şi foarte mulţi care nu au o opinie pe această temă. Şi totuşi cîţi cred că trebuia să demisioneze? Felul cum e formulată propoziţia ne face să presupunem că procentul celor care consideră că premierul trebuia să demisioneze a fost mai mic decît 44%. Şi totuşi contează cu cît a fost mai mic. A fost 10% sau 40%? Sau poate nici nu a fost mai mic? Matematic este cît se poate de posibil. Uneori prezentarea selectivă a rezultatelor nu pare a avea nici un scop. Un text a fost scurtat şi a ieşit ce a ieşit. Iată un exemplu din Evenimentul Zilei, Nr. 4892, din 6 Iulie 2006. Restul articolului îl face să fie şi mai criptic. “36% dintre români şi-ar dori sa lucreze acasă, în timp ce doar 11% preferă să meargă la birou, deşi au posibilitatea de a lucra din incinta propriului cămin, potrivit unui sondaj realizat de portalul de recrutare on-line bestjobs.neogen.ro.” Senzaţional, dar ce au spus de fapt? Cine sînt aştia, ce vor ei, şi ce au fost întrebaţi, şi ce au răspuns, şi cîţi şi de ce scrie la ziar? Asta ca să nu spun că nu e clar dacă cei 36% şi cei 11% provin din aceiaşi întrebare sau nu, şi ce părere au restul de nici nu ştiu şi nici nu pot şti cîţi. Eşantioane nealeatoare şi biasate O altă eroare frecventă este “înnobilarea” unei chestionări oarecare cu titlul de sondaj de opinie. Am discutat deja că regulile unei eşantionări au ca scop posibilitatea de generalizare de la eşantion la ansamblul populaţiei. Deci, ca să putem spune, ca într-unul din exemplele de mai sus “românii consideră” trebuie ca populaţia studiului să fie “românii” şi eşantionarea să fie aleatoare sau o aproximare cît bună posibil a unei eşantionări aleatoare. Regula de bază pe care nu obosesc să o repet şi studenţilor mei e simplă: fiecare individ din populaţia de bază trebuie să aibă aceiaşi şansă să fie parte din eşantion. Sigur acesta e un ideal nici o dată atins. Există nomazi, şi există oameni bolnavi şi încarceraţi şi alte diverse categorii care nu prea au aceleaşi şanse să fie parte din eşantion ca şi restul populaţiei. Aceasta însă nu trebuie să ducă
158
a renunţarea la principiu ci la redefinirea populaţiei. Adică nu toţi “românii consideră”, ci numai românii cu domiciliul stabil, etc. Un caz interesant în care eşantionul este în principiu aleator dar totuşi din cauza unei greşeli de proeictare a cercetării sau a unei particularităţi pe care cercetătorul nu a luat-o în seamă eşantionul diferă printr-o anumită caracteristică faţă de populaţia dorită a fi studiată. Asemenea eşantioane se numesc biasate. Cuvîntul “bias” înseamnă în engleză ceva gen prejudecată, dar sensul lui statistic este de defazare, eroare sistematică. Dacă se foloseşte cuvîntul în sensul de prejudecată, s-ar zice că o opinie este biasată dacă ea este necondiţionat negativă sau pozitivă. În statistică un eşantion este biasat dacă valorile unei variabile sînt defazate către o valoare sau o parte a scalei de răspunsuri. Dacă, de exemplu, pentru un studiu de piaţă legat de consumul de detergenţi se fac interogări la domiciliu înainte de masă, eşantionul va prinde o pondere anormal de mare de studenţi, gospodine şi pensionari. Eşantionul va fi defazat către anumite categorii ocupaţionale. Vor fi subreprezentate tocmai persoanele angajate în muncă, eşantionul altfel produs va putea fi de fapt aleator. Totuşi nu va fi reprezentativ pentru ca va fi biasat. Am mai dat pe parcursul cărţii şi exemplul chestionării duminică înainte de masă. Acolo biasarea e şi mai clară pentru că cei ce nu vor fi interogaţi sînt cei ce merg la biserică adică persoane care evident au o caracteristică particulară care le poate influenţa opinia pe multe teme. În acest caz eşantionul chiar va avea un fel de prejudecată, adică va elimina din start anumite opinii. Institutele serioase de sondare a opiniei publice nu fac greşeli de acest tip. Eşantionări nealeatoare sau biasate se regăsesc însă la aşa-zise sondaje efectuate de organe de presă sau site-uri de internet, dar adesea şi în cercetări ştiinţifice din domenii în care o eşantionare este greu de întreprins. Să mai las puţin în pace presa, hai să dau un exemplu din dintr-o teză de doctorat în psihologie, tot de la Universitatea de Stat din Moldova. “... trebuie să menţionăm că 75% dintre copiii cercetaţi proveneau din mediul rural, faţă de 25% - care erau din mediul urban. Acest procentaj este cu atît mai semnificativ cu cît este peste nivelul mediu de urbanizare pe ţară a populaţiei Republicii Moldova: în mediul rural – circa 60%, iar în mediul urban – circa 40%. Aşa că repartizarea (...) denotă o tendinţă de răspîndire a (...), mai cu seamă la populaţia din mediul rural”
159
Evident procentajele pe eşantion nu sînt peste, ci sub nivelul mediu de urbanizare din Republica Moldova, dar aceasta e probabil o scăpare neesenţială, o eroare de exprimare. În text se generalizează apoi de la distribuţia pe eşantion la răspîndirea caractisticii investigate în ansamblul populaţional. Ceea ce se poate desigur face dacă este reprezentativ. De fapt este însă vorba despre 30 (treizeci!) de interviuri. Acum că aceşti 30 erau dintribuiţi între mediile rural şi urban 75% - 25% faţă de ansamblul populaţiei care se distribuie 60% - 40% este departe de a permite orice fel de concluzii. La urma urmei 25% din eşantion sînt 7-8 persoane, iar dacă ar fi fost 40% ar fi fost 12 persoane. În plus, eşantionul nefiind oricum reprezentativ, generalizarea la nivel populaţional nu e acceptabilă. Tipice pentru astfel de situaţii sînt cercetări din medicină, ştiinţe ale educaţiei sau psihologie. Şi aceasta deorece multe dintre aceste cercetări se ocupă de populaţii rare, populaţii la care o eşantionare aleatoare este fie imposibilă, fie foarte problematică. Bine atunci ce trebuie să facă sărmanii oameni? Ei bine, trebuie să nu pretindă că rezultatele lor sînt generalizabile statistic la nivel populaţional. Corelaţii şi regresii prost interpretate Interpretarea corelaţiilor şi a regresiilor este problematică în special atunci cînd se caută relaţii cauzale. Cum am mai spus calculele statistice pot respinge anumite cauzalităţi nu pot însă propune cauzalităţi. Aceasta stă numai în puterea unor teorii. Totuşi cînd sîntem puşi în faţa faptului că există o relaţie între două variabile, sau că se poate respinge independenţa a două variabile, sîntem şi tentaţi şi nevoiţi să propunem explicaţii pentru acest fapt. Deci, nu numai teoria naşte testare statistică ci şi invers. Cercetarea statistică produce ipoteze teoretice prin interpretările rezultatelor. Deci trebuie să avem grijă cum interpretăm ceea ce găsim pentru ca paşii pe care îi intreprindem în continuarea cercetărilor noastre să nu o ia pe cîmp prea departe de potecă. Din păcate aici reguli nu prea există. Interpretările proaste nu sînt neapărat interpretări greşite. Prostiile rezultă cel mai adesea nu din citirea greşită a rezultatelor de test ci din incultură sau nerăbdare ştiinţifică. Nu este vorba despre neglijarea significanţei şi a valorii de test. Astfel de situaţii nu necesită prea multe comentarii. Se întîmplă însă ca citirea unei relaţii ca şi cauzalitate directă să fie suficient de absurdă ca cercetătorul să abandoneze o cale care ar putea fi fertilă. Am menţionat pe undeva ipoteza “berzele aduc bebeluşii”. Tot aşa 160
interpretarea corelaţiei şi regresiei ca şi cauzalitate directă poate duce la abandonarea căutării unor relaţii cauzale mai complexe dar posibil interesante de studiat, care ar putea fi ipoteze pentru cercetări viitoare. Uite o situaţie similară cu povestea berzelor şi a natalităţii. Este cunoscută şi testată de mai multe ori relaţia dintre înălţime fizică şi venit individual. Persoanele înalte au venituri mai mari. Relaţia, care a fost observată prima oară în Statele Unite (), s-a dovedit valabilă aproape în orice populaţie. Dacă privim corelaţia ca pe o cauzalitate directă ea nu prea are sens. La urma urmei condiţiile salariale sînt negociabile liber pentru destul de puţine locuri de muncă şi nu cred că la asemenea negocieri înălţimea fizică are vreo importanţă. Mai mult, uneori salariile se negociază telefonic. Totuşi corelaţia există. Prima ipoteză de cercetare este includerea în lanţul cauzal al variabilei gen. Genul are efect asupra înălţimii şi asupra venitului mediu. Bărbaţii sînt în medie mai înalţi şi au în medie venituri mai mari. Aceste două determinări sînt bine cunoscute. Dintre ele cel puţin cea de a doua a fost mult cercetată. Determinările au ca efect o corelaţie între înălţime şi venit. Explicaţia aceasta e deja acceptabilă. Deci, în primul rînd, corelaţia dintre înălţime fizică şi venit nu trebuie respinsă ca fiind o “falsă corelaţie” (în engleză le zice spurious correlations), pentru că există o explicaţie bună. Explicaţia aceasta este însă insuficientă. Dacă refacem calculele pe genuri obţinem următoarea surpiză. La femei corelaţia nu există, femeile mai înalte nu au venituri mai mare decît cele mai puţin înalte. La bărbaţi însă corelaţia rămîne. Cu cît e un bărbat mai înalt, are un venit mai mare, statistic vorbind. Deci, trebuie săpat în continuare. După ce se poate uşor respinge ipoteza cum că bărbaţii mai înalţi au mai multă şcoală, rămîne să căutăm alte explicaţii. O explicaţie care funcţionează este faptul că bărbaţii înalţi au o şansă mai mare să deţină funcţii de conducere şi să beneficieze ca atare de sporuri la venit din acest motiv. Înălţimea e receptată ca prestanţă, sau chiar e prestanţă (poate v-aţi prins, eu sînt mai de grabă mic!) şi duce la obţinerea mai uşoară a unor poziţii de decizie. Această caracteristică se regăseşte la toate palierele de pregătire şi este chiar mai importantă la nivele de pregătire mai reduse. Controlînd, pe lîngă gen, şi influenţa poziţiei decizionale asupra corelaţiei, aceasta se reduce şi mai mult şi devine foarte slabă. Asta a fost deci. Se pare, cel puţin. E de observat că cele două variabile pe care le-am introdus în schemă au poziţii cauzale diferite. Genul se repercutează asupra înălţimii şi, printr-un lanţ cauzal mai complex şi controversat, determină şi venitul. Poziţia decizională este însă interpusă între înălţime şi venit. Poziţia decizională determină direct venitul şi este determinată, iarăşi probabil printr-un lanţ cauzal mai complex şi printre multe alte caracteristici, de către înălţime. 161
Am dat un exemplu de corelaţie care putea fi respinsă uşor ca fiind o prostie. Hai să dau şi un exemplu în care interpretarea unei corelaţii a fost într-adevăr o prostie. Într-un articol dintr-o revistă de altfel bună, un cercetător american (Kuh, 1999) construieşte următoarea corelaţie: există o relaţie puternică negativă între beneficiile auto-declarate obţinute din învăţămîntul superior şi ponderea disciplinelor ocupaţionale în sistemul de învăţămînt superior. El extrage această concluzie dintr-o corelaţie efectuată pe serii de timp între 1960 şi 1990. Adică, pe măsură ce ponderea disciplinelor care pregătesc studenţi pentru meserii bine definite a crescut, a scăzut beneficiul auto-declarat obţinut de pe urma studiilor universitare. Şi corelaţia aşa este. De aici autorul ajunge la concluzia că studiile cu caracter ocupaţional aduc de fapt mai puţine beneficii absolvenţilor. E vorba aici de discipline precum medicina, ingineria, arhitectura, etc. care sînt strict legate de meserii, faţă de discipline precum filosofia, fizica sau matematica care sînt legate de domenii ale cunoaşterii, de ştiinţe. Problema este că autorului îi scapă o variabilă esenţială, volumul total al absolvenţilor, adică gradul de cuprindere al învăţămîntului superior. Acesta a crescut foarte mult în Statele Unite în anii studiaţi, deci între 1960 şi 1990. Crescînd numărul de absolvenţi de învăţămînt superior are loc un soi de “inflaţie” de diplome. Poziţiile sociale înalte nu devin neapărat mai multe, dar absolvenţii de învăţămînt superior se înmulţesc foarte tare. Astfel o diplomă universitară nu mai garantează o poziţie socială şi economică aşa bună cum garanta în anii 1960. Deci expansiunea învăţămîntului superior e principala cauză pentru reducerea beneficiilor obţinute de pe urma studiilor. Pe de altă parte creşterea ponderii disciplinelor cu caracter ocupaţional este, măcar parţial, influenţată tot de expansiune. Aici mecanismele sînt mai complexe şi includ schimbarea rolului învăţămîntului superior de la cel de legitimare a unei elite sociale la cel de pregătire profesională, precum şi intrarea în învăţămîntul superior a din ce în ce mai mulţi studenţi proveniţi din medii sociale mai joase şi cu interese mai de grabă profesionale decît academice. În concluzie, interpretarea cum că disciplinele ocupaţionale dau beneficii mai mici e o prostie. Corelaţie e determinată de efectele pe care lea avut expansiunea învăţămîntului superior asupra celor două variabile şi nu de o relaţie dintre ele. Ar fi trebuit studiată măcar o corelaţie parţială controlînd efectul volumului total de studenţi sau de absolvenţi, fiind însă vorba despre serii de timp metodele de cercetare ar fi trebuit să includă şi alte calcule pe care nici nu le mai pomenesc aici.
162
163
În loc de încheiere “- Statistica ne spune că astfel de crime sînt comise de către rude. - Dar vă jur, nu am fost eu! - Statistica nu minte. Criminalii însă da.“ (The District, serial TV, 2000) Dialogul de mai sus este desigur memorabil de inept. Şi tot ce sper de la această carte este să vă fi făcut să înţelegeţi de ce. Poliţistul din fragmentul de dialog, a cărui încredere în statistică ne bucură desigur, nu pare să priceapă felul cum funcţionează statistica. Pe parcursul acestei cărţi am încercat să arăt că statistică poate să nu mintă şi în acelaşi timp să nu spună adevărul, sau în orice caz să nu spună un adevăr care să fie valabil în justiţie. Adevărul statisticii nu este unul simplu, nu este univoc şi exact. Dar cu toate acestea este un adevăr dacă ştim cum să-l citim. Am încercat în paginile de pînă acum să descriu cît mai bine am putut cum “gîndeşte” metoda statistică şi cum trebuie noi să interpretăm rezultatele ei. Bine, bine, dar dacă adevărul statistic nu e un adevăr simplu, univoc şi exact şi în plus pentru a îl înţelege trebuie să ne şi batem capul sau, doamne fereşte, să şi calculăm cîte ceva, atunci de ce mai folosim statistica? Ei bine, pentru că statistică este o metodă de cunoaştere care îşi asumă imperfecţiunea ei şi de obicei chiar ne permită să determinăm această imperfecţiune, să o delimităm. Cu ajutorul statisticii nu putem spune exact care e adevărul. Putem să ne apropiem de el şi, ce e cel mai important, putem spune ceva de genul, “nu e ăsta adevărul dar există o probabilitate destul de mare astfel ca adevărul să fie pe undeva pe aproape”. Sună foarte slab? Poate, dar e mai mult decît ne pot oferi multe alte metode de cunoaştere. Statistica nu ne oferă certitudini, dar ne oferă garanţii suficiente pentru a lua decizii. Certitudinile sînt oricum supraevaluate. Puţinele propoziţii din ştiinţă despre care putem spune cu certitudine că sînt adevărate sunt truisme. Ele nu ne interesează în cercetarea ştiinţifică reală14. Statistica ne poate spune despre o propoziţie, care nu este o certitudine, cam care ar fi şansele să greşim dacă o declarăm falsă. Şi astfel statistica ne poate ajuta să decidem atît în ştiinţă cît şi în alte domenii ale activităţii umane, în economie, în politică, şi aşa mai departe.
14
Matematica s-ar putea să fie o excepţie, dar încă nu sînt sigur.
164
165
Anexe. Tabele pentru testele t, Z şi Chi2 (de adăugat pentru publicare)
166
View more...
Comments