Gizapedia

Giza · Gizarte · Zientziak

Ikasliburua: Estatistikaren oinarriak

Datuen analisirako tresna nagusiak ezagutzeko ikasbidea: populazioa eta lagina, deskribapen estatistikoa, zentralitatea eta sakabanatzea, probabilitatea eta inferentzia.

7 artikulu 7 kapitulu
1. Kapitulua

Populazioa (estatistika)

351 hitz

Populazioari buruz jakiteko, lagin bat erauzten dugu eta hura aztertu, populazio osoa aztertu beharrean. Lagina adierazgarria izan dadin, zoriz aukeratu behar da.

Populazio estatistikoa, unibertso ere deitua, ikerketa batean aztergai diren**indibiduo** edo elementu guztien multzo homogeneoa da. Homogeneotasunak adierazten du populazioko elementuek ezaugarri komunak dituztela, aldakorrak izan arren; adibidez, enpresetako langile kopuruak aztertzean, agian ezingo ditugu jarri industria eta zerbitzu desberdinetako enpresak batera jarri eta beraz azpipopulazio desberdinetan bereizi beharko ditugu, langile kopuruari buruz oso ezaugarri desberdinak dituztelako, industrialek langile kopuru orohar handiak eta zerbitzu sektorekoek txikiak. Eguneroko hizkeran erabiltzen den beste adiera arrunt baten arabera, populazioa izaki bizidunen multzo bat ere bada, toki jakin batean, baina estatistikan pertsonak, animaliak, objektuak zein fenomenoak izan  daitezke, ikerketaren oinarrizko unitateen multzo osoa.

Gehienetan populazio osoa aztertzea ezinezkoa da, horren elementu kopurua oso handia delako, eta orduan populazioaren ezaugarriak ikertzeko populazioaren azpimultzo bat aukeratzen da datuak hortik bakarrik jasotzeko, lagin izenekoa, zoriz jasotzen dena populazioaren islada adierazgarria izan dadin. Populazioaren ezaugarriak, beraz, horren lagin baten bitartez aztertzen dira beraz.

Populazio mota hauek bereizten dira tamainaren arabera:

  • Populazio finituak; adibidez herri bateko 5000 bizilagunen iritziak jakin nahi direnean.

  • Populazio infinituak; adibidez, 50-54 urteko emakumeen pisuek, izan ere, denboran mugarik jartzen ez bada, zerrenda osatzen ez genuke inoiz bukatuko. Populazioa oso handia denean ere infinitutzat hartzen da.

Eta izaeraren arabera,

  • Populazio izandunak, populazio elementu guztiak existitu egiten direnean ikerketaren unean. Finituak edo oso handiak dira.

  • Populazio esperimentalak, behaketak esperimentalki jasotzen direnean; adibidez, dado bat behin eta berriz bota behar denean. Populazio esperimentalak infinituak direla esan daiteke. Ikus, gainera

  • Helburu populazioa

  • Estaldura-errorea

2. Kapitulua

Lagin estatistikoak

205 hitz

Lagin estatistikoa populazio bateko elementu edo indibiduoen azpimultzo bat da, horretan oinarrituta populazio osoari buruzko propietateak eta ezaugarriak, parametroak bereziki, inferitu edo ondorioztatzeko erabiltzen dena.  Lagina erauzi eta aztertzearen abantaila nagusia kostu murritza da, populazio osoa aztertzeko kostuaren aldean.

Lagina populazioaren islada egokia izan dadin, lagineko elementuak zoriz aukeratu behar dira, eta prozesu hori hainbat laginketa-metodo garatuz egin daiteke. Lagin batetik eskuratutako emaitzak populazio osora zabaltzean, ordea, beti sortuk da errore bat,  lagin-errorea izenekoa. Beste hizkuntzetan: ingelesez, sample; gazteleraz muestra; frantsesez, échantillon.

Ikus, gainera

3. Kapitulua

Estatistika deskribatzailea

174 hitz

Estatistika deskribatzailea, estatistika deskriptiboa edo estatistika deduktiboa lagin bateko informazioa laburbiltzen duten diagramak (histograma, sektore-diagramak, …) eta neurri estatistikoak (batezbestekoa, desbideratze estandarra, …)  aurkeztu egiten dituen estatistikaren adarra da, lagin horretako emaitzak populaziora zabaldu gabe, eta beraz haietan egin daitekeen lagin errorea kontuan hartu gabe. Ohikoa da estatistika deskribatzailea estatistikaren hastapen moduan ikasteko, horren edukiak lagin batetik populazio edo eredu estatistikoaren parametroak estimatzen dituen  inferentzia estatistikoa baino errazagoa izanik, horren kontzeptuak eta prozedurak inferentzia estatistikoaren sarrera moduan egokiak direlako.

4. Kapitulua

Bariantza

461 hitz

Bariantza aldagai estatistiko bakun baten sakabanatzea, datuen arteko gorabehera alegia, adierazten duen neurri bat da.  Probabilitate-banakuntzetan ere, sakabanatzea neurtzeko erabiltzen da, beste era batera kalkulatuta. Horretaz gainera, ohiko parametroa da eredu estatistikoetan, beste parametro batzuekin batera eredua erabat zehazteko. Gainera, estatistika-teknika askotan bariantzan oinarritzen dira, bariantza-analisian esaterako, non aztertutako faktoreek aldagai batean duten eraginaren ebaluazioa bariantzetan oinarritzen den.

Kalkulua datuetarako: populazio-bariantza

Adibidez, $x_1,\ x_2,\ldots,x_n$ datuetarako honela kalkulatzen da:

$$s_x^2=\frac{\sum_i(x_i-\overline{x})^2}{n}$$

Honela garatzen da kalkulua formula horrekin:

  1. Batezbesteko aritmetiko sinplea kalkulatu.

  2. Datu bakoitzetik $\overline{x}$ batezbesteko aritmetiko sinplera dagoen $(x_i-\overline{x})^2$ distantzia karratua kalkulatu

  3. Distantzia karratu horien batezbestekoa kalkulatu.

Horren arabera, bariantza zenbat eta handiagoa izan, datuak batezbestekotik desbideratzen diren magnitudea orduan eta handiagoa da, eta sakabanatzea ere bai. Dena den, sakabanatze-neurri gisa bariantzaren erro karratua ere erabiltzen da, $s_x$ adierazi eta desbideratze estandarra deitzen dena, eta datu bakoitza batezbestekotik batez beste zenbat desbideratzen den adierazten duena.

Kalkuluak eskuz egiterakoan, ohikoa da bariantzarako beste formula hau erabiltzea, jatorriko formulatik eratortzen dena:

$$s_x^2=\frac{\sum_ix_i^2}{n}-\overline{x}^2$$

Populazio-bariantza eta lagin-bariantza

Lagin-datuetatik kalkulaturiko estatistikoak populazioaren parametroak estimatzeko erabiltzen direnean, estatistiko horiek errore txikia izan eta parametroen egiazko baina ezezaguna den baliora ahalik eta gehien hurbiltzea bilatzen da. Aurreko ataleko bariantzaren formulak populazioaren bariantza estimatzean errore sistematiko bat dakarrela froga daiteke. Errore sistematiko hori zuzentzeko, bariantzaren honako formula erabiltzen da  (ikus, gainera, Bessel-en zuzenketa):

$$\hat{s}_x^2=\frac{\sum_i(x_i-\overline{x})^2}{n-1}$$

Bariantza zuzendu honi lagin-bariantza, kuasibariantza edo bariantza zuzendua deitzen zaio, lagin bateko datuetatik populazioaren bariantza estimatzeko formula egokiena delako. Zuzendu gabeko $s_x^2$ formulari, berriz, populazio-bariantza deitzen zaio, datuak populaziotzat hartu eta, beraz, bariantzaren kalkuluan estimazio-errorerik ez dagoenean erabiltzen baita.

Aise igarotzen da populazio-bariantzatik lagin-bariantzara, eta alderantziz, erlazio honen bitartez:

$$\hat{s}_x^2=\frac{n}{n-1}s_x^2$$

Ikusten denez, lagin-tamaina handia zenbat eta handiagoa izan, orduan eta alde txikiagoa dago lagin-bariantzaren eta populazio-bariantzaren artean.

Populazio-bariantzarako $s_{n}^2$ eta lagin-bariantzarako $s_{n-1}^2$ adierazpenak ere erabiltzen dira.

Adibide bat

Lantegi batean, langileen lagin bat aukeratu eta horien adinak jaso dira: 22, 25, 28, 26, 24. Populazio-bariantza eta lagin-bariantza kalkulatu behar dira. Horretarako, kalkulurako taula hau eratzen da:

Azken errenkadako baturak harturik, kalkula dezagun lehenbizi populazio-bariantza (langile horien bariantza, besterik gabe, lantegi osoko langileei - populazio osoari - erreferentzia egin gabe):

$$\overline{x}=\frac{125}{5}=25\ urte$$$$s_x^2=\frac{20}{5}=4\ urte^2$$

Edota formula eratorriarekin kalkulaturik: $s_x^2=\frac{3145}{5}-25^2=4\ urte^2$

Lagin-bariantza, berriz, hau izango da: $\hat{s}_x^2=\frac{20}{5-1}=5\ urte^2$

Edota populazio-bariantzatik eratorrita: $\hat{s}_x^2=\frac54 \times 4=5\ urte^2$

Ikus, gainera

5. Kapitulua

Mediana estatistikoa

301 hitz

Mediana (Me), datuak ordenaturik, erdian geratzen den balioa da, alde banatara datuen %50ak uzten dituena. Probabilitate-banaketa bati buruz berriz, alde banatara 0.5eko probabilitatea uzten duen balioa da. Estatistikan, zentralizazio-neurri gisa erabiltzen da, besteak beste batezbesteko aritmetikoarekin eta modarekin batera, baina bereziki gomendatzen da datu atipikoak daudenean, batezbesteko aritmetiko sinplea ez bezala, haiek eragiten duten distortsioa ezabatuz.

Adibidez, har ditzagun 3-5-6-8-28 datuak. Batezbesteko aritmetiko sinplea (3+5+6+8+28)/5=10 da. 10 ez da, ordea, datu horien zentroaren neurri adierazgarria, eta horren kausa 28ko datu atipikoa da, batezbestekoa gora ekartzen duena. Distortsio hori saihesteko erabil daiteke mediana: erdiko datua da mediana, 6 beraz, zentroaren neurri egokitzat har daitekeena egoera horretan. Datu atipikoei “aurre egin” ahal izateko ahalmen hori izateagatik mediana estatistiko sendoa dela esaten da.

Aldi berean, medianak erdiko datua bakarrik hartzea oztopoa ere bada: datu batzuen zentro edo erdigunea jasotzeko ,datu guztiak hartu beharko lirateke printzipioz, eta beraz ez dirudi oso egokia erdiko datua beste ezer kontuan ez hartzea.

Medianaren kalkulua datu isolatuekin

Datuak banaka zerrendaturik ditugunean, medianaren kalkuluak ezberdinak dira datu kopuruak bakoitia eta bikoitia izanda:

  • datu kopurua bakoitia denean: adibidez, 1-2-4-6-9 datuetarako, mediana 4 da: Me=4.

  • datu kopurua bikoitia denean: adibidez, 1-2-4-6 datuetarako, erdiko bi datuak 2 eta 4 dira, eta medianatzat horien batezbestekoa hartzen da orokorrean: Me=(2+4)72=3.

6. Kapitulua

Probabilitate subjektiboa

281 hitz

Ikus, probabilitate subjektibo, Gizapediako hiztegian, definizio labur baterako.

Probabilitate subjektiboa probabilitatearen kontzeptua eta estimazioa indibiduo arrazional batek gertaera ziurgabe jakin baten gauzatzeari edo egia izateari buruz duen sinesmen edo konfiantza maila da. Bi erako subjektibismoa dago probabilitateari buruz: subjektibismo ahulean, indibiduoak irizpide arrazionalak barnehartzen ditu probabilitatearen kuantifikazioan, hala nola kausalitatea edo iraganeko esperientzia, eta probabilitate epistemikoa deitu izan dena kalkulatzen du horrela; subjektibismo gogorrean berriz, indibiduoak irizpide subjektibo soilak hartzen ditu oinarritzat probabilitatearen zenbatespena egiteko. Probabilitate subjektiboa bereziki erabilgarria da probabilitatearen beste bi interpretazio nagusiak (maiztasun-interpretazioa eta interpretazio klasikoa, azken hau Laplaceren erregelaren bitartez gauzatzen dena) baliatu ezin daitezkeen egoeretan, adibidez kasu bakarreko gertaeretan (adibidez, indibiduo batek azterketa bat gainditzeko duen probabilitatea edota datorren urtean petrolioaren prezioa igotzeko probabilitatea zenbatestean).

XX. mendean Frank Ramseyk, Leonard Savagek eta Bruno de Finettik frogatu zutenez, probabilitate subjektiboek ere probabilitatearen axiomak bete behar dituzte, arrazionalak eta koherenteak izateko. Horrela ez balitz, indibiduoak galerak izateko arriskua izango luke, finantza zurrupaketaren argudioaren bitartez (“dutch book”, “lock” ingelesez; frantsesez, “argument du pari hollandais”, gaztelaniaz, “succión financiera”), zeinaren arabera galerak ziurtatzen dituen transakzio-multzo bat egongo litzatekeen.

Ikus, gainera

7. Kapitulua

Inferentzia estatistikoa

247 hitz

Inferentzia estatistikoa laginetan oinarrituz populazio bati buruzko konklusioak (inferentziak, alegia) ateratzen dituen estatistikaren adarra da, laginetik populazioko parametroak (batezbestekoa, adibidez) dagoen lagin errorea kontuan hartuz. Inferentzia estatistikoak populazioetako parametroak estimatzeko zenbatesleen zehaztapena, konfiantza tarteen eraketa, proba estatistikoak eta abar biltzen ditu.

Hainbat ikuspegitik gara daiteke inferentzia estatistikoa, baina orokorrean errealitatea, zehatzago aztergai ditugun populazioa, zorizko osagaiak dituela suposatzen da, zorizko eredu batean ezartzen direnak, parametro determinista ezezagun batzuekin batera, eredu parametriko izenekoak osatuz; ohikoena den ikuspegi horretatik, inferentziaren helburua lagin datuetatik parametro ezezagun horien estimazioa edo kontrastazioa egitea litzateke, beti ere haietan dauden errorearen estimazio batekin. Adibidez, pieza mota baten iraupena zorizkoa dela dakigu, batezbesteko eta bariantza finko baina ezezagunekin; pieza bakan batzuen osaturiko lagin batean suertatutako iraupenari buruzko datuetatik, pieza guztien populazioko parametro haiei buruzko estimazioak egiten dira inferentzian, zenbatesleen bitartez, esaterako lagineko datuen batezbestekoarekin eta bariantzarekin.

Ikus, gainera

Irakurleari

Artikulu bat eskatu

Erabili galdetegi hau artikulu eskaera bat bidaltzeko. Lehenbailehen osatzen saiatuko gara.

Harpidetu zaitez

Gure azken edukien berri jaso nahi baduzu zure email helbidean, egin zaitez harpidedun.