Apmācība: Pearson ir Chi-kvadrātveida Tests Neatkarību

Link: http://www.ling.upenn.edu/~clight/chisquared.htm

Līdaka 300, rudens 2008

Kas ir Chi-kvadrātveida tests?

Chi-square tests ir paredzēts, lai pārbaudītu, cik liela ir iespējamība, ka novērota sadales cēlonis ir nejaušība. To sauc arī par “labestības fit” statistika, jo tā pasākumus, kā arī novēroto izplatīšanas datu der ar sadales, kas ir sagaidāms, ja mainīgie lielumi ir neatkarīgi.

A Chi-square tests ir paredzēts, lai analizētu kategorisks dati. Tas nozīmē, ka dati ir skaitītas un sadalīti kategorijās. Tas nav darbs ar parametru vai nepārtrauktu datu (piemēram, augstumu collās). Piemēram, ja jūs vēlaties, lai pārbaudītu, vai apmeklējot klases ietekmē to, kā skolēni veic eksāmena kārtošana, izmantojot testa rezultāti (sākot no 0-100), kā dati nebūtu piemērots Chi-square tests. Tomēr, organizē skolēnus kategorijas – “Caurlaide” un “Fail”. Turklāt datu Chi-square tīkla nevajadzētu būt procentus, vai kaut ko citu, nekā biežums (skaits) dati. Tādējādi, dalot klasi 54 grupās atkarībā no tā, vai viņi apmeklēja klases un vai tie, kas izturējušas eksāmenu, jūs varētu izveidot datu kopas, piemēram, šo:

Iet Neizdoties
Apmeklēja 25 6
Izlaidis 8 15

SVARĪGI: Jābūt ļoti uzmanīgiem, kad būvē savu kategoriju! A Chi-square tests var pateikt, informāciju, pamatojoties uz to, kā jūs sadalīt datus. Tomēr tā nevar pateikt, vai kategorijām, jūs jākonstruē tā ir jēgpilnas. Piemēram, ja jūs strādājat ar datiem par cilvēku grupu, jūs varat tās sadalīt vecuma grupām (no 18-25, 26-40, 41-60…), vai ienākuma līmenī, bet Chi-square tests būs pret sadalījumu starp šīm kategorijām, tieši tas pats kā dalījums starp vīrišķo un sievišķo, vai dzīvs un miris! Tas ir atkarīgs no jums, lai novērtētu, vai jūsu kategorijām, ir jēga, un vai atšķirība (piemēram) starp 25 gadu vecumam, un vecums 26 ir pietiekami, lai veiktu kategoriju 18-25 un 26-40 jēgu. Tas nenozīmē, ka kategorijām, pamatojoties uz to vecumu ir slikta ideja, bet tikai to, ka jums ir nepieciešams, lai būtu informēti par kontroli pār organizējot datus, kas kārtot.

Vēl viens veids, kā aprakstīt Chi-square tests ir tas, ka testi nulles hipotēze, ka mainīgie lielumi ir neatkarīgi. Testa salīdzina novēroto datu modeli, kas sadala datus saskaņā ar cerībām, ka mainīgie lielumi ir neatkarīgi. Kur novēroto datu neiederas modelī, iespēja, ka mainīgie lielumi ir atkarīgi kļūst spēcīgāka, tādējādi pierādot, nulles hipotēze nepareizs!

Tabulā nozīmētu, iespējams, ievadi Chi-square tests, izmantojot 2 mainīgajiem lielumiem, lai sadalītu datu: dzimumu un partijas piederību. 2×2 tīkli, piemēram, šo vienu, ir bieži pamata piemērs Chi-square tests, bet patiesībā jebkura lieluma tīkla darbosies kā arī: 3×3, 4×2, utt.

Demokrāts U
Vīrieši 20 30
Sieviešu 30 20

Tas rāda pamata 2×2 režģis. Tomēr, tas faktiski ir nepilnīga, savā ziņā; vispār, datu tabulā jāiekļauj vārds “papildu” informāciju, kas dod kopējais skaits katras kolonnas un rindas, kā arī visu datu kopumu:

Demokrāts U Kopā
Vīrieši 20 30 50
Sieviešu 30 20 50
Kopā 50 50 100

Mums tagad ir pilnīgs datu kopu izplatīšanai 100 personām kategorijās dzimumu (Vīrietis/Sieviete) un partijas piederību (Demokrāts/U). A Chi-square tests ļaus jums, lai pārbaudītu kā var tā ir, ka dzimumu un partijas piederību, ir pilnīgi neatkarīgi; vai, citiem vārdiem sakot, cik iespējams ir tas, ka sadalījums vīriešu un sieviešu katra puse ir radušās nejaušības dēļ.

So, as iespējamo, the null hypothesis in this case would be that gender and party affiliation are independent of another one. To test this hypothesis, we need to construct a modeli which estimates how the data should be distributed if our hypothesis of independence is correct. This is where the totals laikā put in the margins will become handy: later on, i ‘ ll show how you can calculate your estimated data using the marginals. Meanwhile, however, i ‘ ve constructed an example which will allow very easy calculations. Assuming that there ‘ s a 50/50 chance of males or females being in either party, we get the very simple distribution shown below.

Democrat Republican Total
Male 25 25 50
Female 25 25 50
Total 50 50 100

 

This is the information we would need to calculate the varbūtība daļēju reakcijas that gender and party affiliation are independent. I will discuss the next steps in calculating a Chi-square value later, but for now i ‘ ll focus on the background information.

Piezīme: vai varat assume a different null hypothesis for a Chi-square test. Using the scenario suggested above, you could test the hypothesis that women are twice as likely to register as Democrats than men and a Chi-square test would tell you how likely it is that the observed data reflects that relationship between your variables. In this case, you would simply run the test using a model of expected datums built under the pārņemšana that this hypothesis is true, and the formula will (as before) testu how well that distribution fits the observed data. I will not discuss in this more detail, but it is important to know that the null hypothesis is not some abstract “fakts” about the test, but rather a choice you make when calculating your model.

What is the Chi-square test NOT for?

This is also an important question-tas ir risināt, of course. Using a statistical test without having a good idea of what it can and cannot do means that you may misuse the test, but also that you won ‘ t have a clear grasp of what your results really mean. Even if you don ‘t understand the detailed matemātikas underlying the test, it is not difficult to have a good comprehension of where it is or isn’ t appropriate to use. Un mentioned some of this above, when contrasting types of data and so on. This section will consider other things that the Chi-square test is not meant to do.

First of all, the Chi-square test is tikai to test the probability of independence of a distribution of data. It will NOT tell you any details about the relationship between them. If you want to calculate how much more likely it is that will be a woman a Democrat than a man, the Chi-square test is not going to be very būt noderīgi. However, once you have determined the probability that the two variables irrelated (using the Chi-square test), you can use other methods to explore viņu mijiedarbība in more detail. For a fairly simple way of discussing the relationship between variables, I recommend the odds ratio.

Some further considerations are necessary when selecting or organizing your data to run a Chi-square test. The variables you consider must be mutually exclusive; līdzdalību in one category should not entail or allow līdzdalību in another. In other words, the data from all of your cells should add up to the total count, and no item should be counted divreiz.

You should also never exclude some part of your data set. If your study examined males and females registered as Republikas, Democrat, <>un Independent, tad izslēgt to category from the grid varētu conceal critical data about the distribution of your data.

It is also important that you have enough data to perform a viable Chi-square test. If the estimated data in any given cell is below 5, then there is not enough data to perform a Chi-square test. In a case like this, you should research some other techniques for smaller data komplekti: for example, there is a correction for the Chi-square test to use with small data komplekti, called the Yates correction. There are also tests written specifically for smaller data komplekti, like the Fisher Exact Test.

Degrees of Freedom

A broader description of this topic can be found šeit.

The degrees of freedom (often abbreviated as df vai d) tell you how many numbers in your grid are patiesībā independent. For a Chi-square grid, the degrees of freedom can be said to be the number of cells you need to fill in before, given the totals in the margins, you can fill in the rest of the grid using a formula. You can see the idea intended; if you have a given set of totals for each column un row, then you don ‘ t have unlimited brīvības when filling in the cells. You can only fill in a certain amount of cells with “random” numbers before the rest just becomes dependent on making sure the cells add up to the kopsummas. Tādējādi, the number of cells that can be filled in independently tell us something about the actual amount of variation permitted by the data set.

The degrees of freedom for a Chi-square grid are equal to the number of rows minus one times, the number of columns mīnus viens: that is, (R-1)*(C-1). In our simple 2×2 režģis, the degrees of independence are therefore (2-1)*(2-1), or 1! Note that once you have put a number into one cell of a 2×2 režģis, the totals determine the rest for you.

Degrees of freedom are important in a Chi-square test because they faktors into your calculations of the probability of independence. Once you calculate a Chi-square value, you use this number and the degrees of freedom to decide the probability, or p-value of independence. This is the crucial result of a Chi-square tests, which means that zinot the degrees of freedom is crucial!

Building a Model of Expected Dati

Earlier, I showed a simple example of observed vs. expected data using an artificial data set on the party affiliations of males and females. Un show them again zemāk.

Observed

Democrat Republican Total
Male 20 30 50
Female 30 20 50
Total 50 50 100

 

Gaidīts (pieņemot, ka neatkarība)

Demokrāts U Kopā
Vīrieši 25 25 50
Sieviešu 25 25 50
Kopā 50 50 100

 

Mēs koncentrēsies uz modeļiem, kas balstīti uz nulles hipotēzi par to, ka izplatīšanas datu cēlonis ir nejaušība — tas ir, mūsu modeļi atspoguļo paredzamo izplatīšanu gadījumos, kad dati, ka hipotēze ir pieņemts, ka, lai būtu patiesi. Bet kā jau minēju, tās viegli sadala šo datu ir saistīts ar vienkāršību sadales es izvēlējos. Kā mēs aprēķināt paredzamo sadalījumu sarežģītāka datu kopa?

Iet Neizdoties Kopā
Apmeklēja 25 6 31
Izlaidis 8 15 23
Kopā 33 21 54

Šeit ir režģis agrāk, piemēram, es apsprieda, kas parāda, kā studentiem, kas piedalījās vai izlaidis klases veikts uz eksāmenu. Numuri šis piemērs nav tik tīrs! Par laimi, mums ir formula, lai palīdzētu mums.

Paredzamā vērtība katrā šūnā ir kopā tās rindas, kas reizināta ar kopējiem slejas, pēc tam dala ar kopsummu tabulā: tas ir, (RowTotal*ColTotal)/GridTotal. Tādējādi, mūsu tabulā, gaidāmā skaits šūnā (1,1) (33*31)/54, vai 18.94. Nebaidieties no decimālzīmes par jūsu gaidāms skaits; viņi ir domāts, lai būtu tāmes!

Es jums parādīs, atšķirīgu metodi notating novērota pret paredzamo skaitu zemāk: sagaidāmais biežums parādās iekavās zem novērotās frekvences. Tas ļauj jums, lai parādītu visu savu datu vienā tīru tabulā.

 

Iet Neizdoties Kopā
Apmeklēja 25
(18.94)
6
(12.05)
31
Izlaidis 8
(14.05)
15
(8.94)
23
Kopā 33 21 54

 

Mēs tagad esam aprēķina sadales mūsu kopsummas, pamatojoties uz pieņēmumu, ka apmeklē klase būs absolūti nekādas ietekmes uz jūsu testa rezultātiem. Pieņemsim visi ceram, ka mēs varam pierādīt to, nulles hipotēze nepareizi.

Chi-square Formula

Tas ir beidzot laiks, lai mūsu datu pārbaudes. Jūs varat atrast daudzas programmas, kas aprēķinās Chi-kvadrāta vērtība jums, un vēlāk es jums parādīs, kā, lai to izdarītu, programmā Excel. Tagad, tomēr, sāksim ar cenšoties izprast formula pati par sevi.

Ko tas nozīmē?? Faktiski, tas ir diezgan vienkāršas attiecības. Mainīgie lielumi šo formulu ir ne tikai simboli, bet faktiskā jēdzieniem, ka mēs esam bijuši apspriežam visi kopā. ,O statīvi Observed frekvenci. ,E statīvi Expected frekvenci. Jūs paredzamo skaits no novērotā skaits atrast atšķirība starp abiem (ko sauc arī par “atlikuma”). Jūs aprēķināt kvadrāta, ka numuru, lai atbrīvotos no pozitīvas un negatīvas vērtības (jo kvadrātu 5 un -5 ir, protams, gan 25). Pēc tam rezultāts jādala ar paredzamo biežumu, lai normalizētu lielāku un mazāku skaitu (jo mēs nav gribu, formula, kas dos mums lielāku Chi-kvadrāta vērtība tikai tāpēc, ka jūs strādājat ar lielāku datu kopa). Milzīgs sigma, sēžot visu, kas lūdz, lai summa no katras es, kas jūs aprēķināt šīs attiecības – citiem vārdiem sakot, jūs aprēķināt to ar katru šūnu tabulā un pēc tam pievienot to visu kopā. Un ka ‘ s it!

Izmantojot šo formulu, mēs atrodam, ka Chi-kvadrāta vērtību mūsu dzimumu/puse, piemēram,((20-25)^2/25) + ((30-25)^2/25) + ((30-25)^2/25) + ((20-25)^2/25), vai (25/25) + (25/25) + (25/25) + (25/25), vai 1 + 1 + 1 + 1, kas nāk, lai 4.

Labi, bet ko tas nozīmē?? savā ziņā, ne daudz kas vēl. Chi-square vērtība, kas kalpo kā izejvielas daudz interesantu gabalu informācija: p-vērtības. Aprēķinot p-vērtība ir mazāka intuitīva nekā Chi-kvadrāta vērtību, tāpēc es ne apspriest faktiskā formula šeit, bet vienkārši rīkus izmantot, lai aprēķinātu šos datus. Mums būs nepieciešami šādi, lai iegūtu p-vērtības mūsu dati:

(1) Chi-kvadrāta vērtību.
(2) brīvības pakāpes.

Tiklīdz jums ir šī informācija, ir pāris metodes, jūs varat izmantot, lai saņemtu savu p-vērtība. Piemēram, diagrammas, piemēram, šī viena vai pat Javascript programmas, piemēram, viena uz šajā lapā ņems Chi-square vērtības un brīvības pakāpes, kā ievadi, un vienkārši atgriezties p-vērtību. Diagrammā, jūs izvēlaties savu brīvības pakāpi (df) vērtību, kreisajā pusē, sekot līdzi savu rindu uz tuvāko skaits, lai jūsu Chi-kvadrāta vērtību, un pēc tam atzīmējiet atbilstošo cipara augšējā rindā, lai redzētu aptuveno varbūtību (“Būtiskuma Līmeni”), kuras vērtība. Javascript programmas ir vairāk tieši, kā tu vienkārši ievadi savu numuru un noklikšķiniet uz “aprēķināt.” Vēlāk, es arī parādīs, kā padarīt Excel darīt to darbu jums.

Tātad, mūsu piemērā mēs veikt Chi-kvadrāta vērtību 4 un nk 1, kas dod mums p-vērtība 0.0455. Tas tiek interpretēts kā 4.6% iespējamība, ka nulles hipotēze ir pareiza. Lai to labāko, , ja sadales šī datu pilnībā noteica iespēja, tad jums ir 4.6% iespējas atrast atšķirības starp novēroto un paredzamo peļņas sadali, ka ir vismaz šī galējā.

Pēc vienošanās, “nogriešana” punkts p-vērtība ir 0,05; kaut ko tālāk, ko var uzskatīt par ļoti zemu varbūtību, bet kaut ko virs tā tiek uzskatīta par saprātīgu iespējamību. Tomēr tas nenozīmē, ka mums vajadzētu pieņemt mūsu 0.046 vērtības un saka: “Eureka! Viņi ir atkarīgi!” Faktiski, 0.046 ir tik tuvu 0.05, ka tur tiešām nav daudz, mēs, varat norādiet, no šī piemēra; tas ir teetering uz sliekšņa iespēja. Tā ir ļoti laba lieta saprast, jo no šī, mēs atklājam, ka, lai gan sadales, šķiet, ir diezgan skaidrs, tendences, atsevišķos virzienos, ja jūs tikai apskatīt to, dati liecina, ka tas nav , tā maz ticams, ka tas parādās tikai nejauši.

Tātad, pieņemsim, mēģiniet ar citiem mūsu datu kopu, un redzēt, ja apmeklē klases tiešām ietekmē jūsu eksāmenu rezultātiem.

 

Iet Neizdoties Kopā
Apmeklēja 25
(18.94)
6
(12.05)
31
Izlaidis 8
(14.05)
15
(8.94)
23
Kopā 33 21 54

 

Es esmu gatavojas izlaist īpašu formulu šajā laikā, un izmantojiet javascript programmas uz šajā lapā veikt aprēķinu par mani. Tā atgriež vērtību 11.686. Mums vēl tikai ir 1 grādu brīvība, tā mūsu p-vērtība tiek aprēķināta kā 0.0006. Citiem vārdiem sakot, ja šis sadalījums bija saistīts ar iespēju, mēs varētu redzēt, tieši tā, šis sadalījums ir tikai 0.06% no laika! Vērtība 0.0006 ir daudz mazāka varbūtība, nekā vērtība 0.05. Tādējādi varam droši apgalvot, ka nulles hipotēze ir nepareiza; apmeklē klases un jānokārto eksāmens tiek noteikti ir atkarīgas cita no citas. (Protams, ja jums ir pārbaudes nulles hipotēzi, ka jums ir gaidījis, lai pareizi, pēc tam jūs gribētu ļoti augstu p-vērtība. Iemesls, kādēļ mēs vēlamies zema viens šajā lietā ir tas, ka mēs cenšamies apgāztu hipotēzi, ka mainīgie lielumi ir neatkarīgi.)

Tas ir viss, kas jums jāzina, lai aprēķinātu un saprast, Pearson ir Chi-square tests neatkarību. Tas ir ļoti populārs testu, jo, kad jūs zināt, formulas, to visu var izdarīt ar kabatas kalkulatoru, un pēc tam salīdzinot ar vienkāršu topu, lai dotu jums varbūtības vērtību. Jūs varat arī izmantot šo izklājlapu, lai spēlēt aptuveni ar visām darbības, testa (izklājlapu izveidots ar Likumprojektu Labov, ar kādu mazu papildinājumu, ko Joel Wallenberg). Chi-square tests izrādīsies ērts rīks, analizējot visu veidu attiecības; tiklīdz jūs zināt pamatus par 2×2 režģis, paplašinot lielāku vērtību kopa ir viegli. Labu veiksmi!