Statistika Chí-náměstí (χ2)

Co je statistika Chi-Square?

Statistika chí-kvadrát (χ2) je test, který měří, jak model porovnává se skutečnými pozorovanými daty. Data použitá při výpočtu statistiky chí-kvadrát musí být náhodná, nezpracovaná, vzájemně se vylučující, získaná z nezávislých proměnných a získaná z dostatečně velkého vzorku. Například výsledky hodu spravedlivou mincí tato kritéria splňují.

Testy chí-kvadrát se často používají při testování hypotéz. Statistika chí-kvadrát porovnává velikost případných nesrovnalostí mezi očekávanými výsledky a skutečnými výsledky vzhledem k velikosti vzorku a počtu proměnných ve vztahu.

U těchto testů se využívají stupně volnosti k určení, zda lze určitou nulovou hypotézu odmítnout na základě celkového počtu proměnných a vzorků v rámci experimentu. Stejně jako u jiných statistik platí, že čím větší je velikost vzorku, tím spolehlivější jsou výsledky.

Klíčové způsoby

Vzorec pro Chi-Square je



χ

c

2

=

(

O

i

E

i

(Text s významem pro EHP)

2

E

i

kde:

c

=

Stupně svobody

O

=

Zjištěná hodnota (hodnoty)

\begin{aligned}&\chi^2_c = \sum \frac{(O_i – E_i)^2}{E_i} \\&\textbf{where:}\\&c=\text{Stupně volnosti}\\&O=\text{Pozorovaná hodnota(y)}\\&E=\text{Očekávaná hodnota(y)}\end{aligned}

​χc2​=∑Ei​(Oi​−Ei​)2​kde:c=Stupně volnostiO=Pozorovaná hodnota(y)​

Co vám říká statistika Chi-Square?

Existují dva hlavní druhy testů chí-kvadrát: test nezávislosti, který si klade otázku vztahu, například: „Existuje vztah mezi studentským sexem a výběrem kurzu?“, a test dobroty-fit, který se ptá něco jako „Jak dobře se mince v mé ruce shoduje s teoreticky spravedlivou mincí?“.

Analýza chí-kvadrát se aplikuje na kategorické proměnné a je užitečná zejména tehdy, jsou-li tyto proměnné nominální (kde nezáleží na pořadí, jako je rodinný stav nebo pohlaví).

Nezávislost

Při zvažování pohlaví studenta a výběru kurzu by mohl být použit χ2 test nezávislosti. K provedení tohoto testu by výzkumník shromáždil údaje o dvou vybraných proměnných (pohlaví a vybrané kurzy) a poté by porovnal frekvence, se kterými studenti a studentky vybírají mezi nabízenými třídami pomocí výše uvedeného vzorce a χ2 statistické tabulky.

ČTĚTE:   Astronomie

Pokud neexistuje žádný vztah mezi pohlavím a výběrem kurzu (tedy pokud jsou nezávislé), pak je třeba očekávat, že skutečná četnost, s jakou studenti a studentky vybírají každý nabízený kurz, bude přibližně stejná, nebo naopak podíl studentů a studentek v jakémkoli vybraném kurzu by měl být přibližně stejný jako podíl studentů a studentek ve vzorku.

χ2 test nezávislosti nám může říct, jak je pravděpodobné, že náhodná náhoda může vysvětlit jakýkoliv pozorovaný rozdíl mezi skutečnými frekvencemi v datech a těmito teoretickými očekáváními.

Goodness-of-Fit

χ2 poskytuje způsob, jak otestovat, jak dobře vzorek dat odpovídá (známým nebo předpokládaným) charakteristikám větší populace, kterou má vzorek reprezentovat. Tomu se říká vhodnost. Pokud vzorek dat neodpovídá očekávaným vlastnostem populace, o kterou se zajímáme, pak bychom nechtěli tento vzorek používat k vyvozování závěrů o větší populaci.

Příklad

Vezměme si například imaginární minci s přesně 50/50 šancí, že padne panna nebo orel, a pravou minci, kterou hodíte 100 krát. Pokud je tato mince spravedlivá, pak bude mít také stejnou pravděpodobnost, že dopadne na obě strany, a očekávaný výsledek hodu mincí 100 krát je, že panna padne 50 krát a orel padne 50 krát.

V tomto případě nám χ2 může říct, jak dobře se skutečné výsledky 100 hodů mincí srovnávají s teoretickým modelem, že poctivá mince dá výsledky 50/50. Skutečný hod může být 50/50, nebo 60/40, nebo dokonce 90/10. Čím dál jsou skutečné výsledky 100 hodů od 50/50, tím méně se hodí tato sada hodů do teoretického očekávání 50/50 a tím pravděpodobněji můžeme dojít k závěru, že tato mince není ve skutečnosti spravedlivá mince.

Kdy použít Chi-Square test

Test chí-kvadrát se používá k tomu, aby se zjistilo, zda jsou pozorované výsledky v souladu s očekávanými výsledky, a aby se vyloučilo, že pozorování jsou náhodná. Test chí-kvadrát je k tomu vhodný, pokud jsou analyzovaná data z náhodného vzorku a pokud je dotyčná proměnná kategorickou proměnnou. Kategorická proměnná je taková, která se skládá z výběrů, jako je typ auta, rasa, dosažené vzdělání, muž vs. žena, jak moc má někdo rád politického kandidáta (od velmi po velmi málo) atd.

ČTĚTE:   Pojistně-matematický věk

Tyto typy dat jsou často shromažďovány prostřednictvím odpovědí z průzkumů nebo dotazníků. Proto je při analýze tohoto typu dat často nejužitečnější analýza chí-kvadrát.

K čemu se používá test chí-kvadrát?

Chi-kvadrát je statistický test, který se používá ke zkoumání rozdílů mezi kategorickými proměnnými z náhodného vzorku, aby bylo možné posoudit vhodnost mezi očekávanými a pozorovanými výsledky.

Kdo používá Chi-Square analýzu?

Vzhledem k tomu, že chí-kvadrát se vztahuje na kategorické proměnné, je nejvíce využíván výzkumníky, kteří studují data odpovědí z průzkumů. Tento typ výzkumu může sahat od demografie přes spotřebitelský a marketingový výzkum až po politické vědy a ekonomii.

Používá se analýza chí-kvadrát, když nezávislá proměnná je nominální nebo ordinální?

Nominální proměnná je kategorická proměnná, která se liší kvalitou, ale jejíž číselné pořadí by mohlo být irelevantní. Například když se někoho zeptáte na jeho oblíbenou barvu, vznikne nominální proměnná. Když se naopak zeptáte na něčí věk, vznikne ordinální soubor dat. Na nominální data lze nejlépe aplikovat chí-kvadrát.