Test du Khi-deux (Χ²) et calcul de l'équation de la formule

Test du Khi-deux (Χ²) et calcul de l’équation de la formule

MentorShow

4 novembre 2023

8 minutes de lecture

Le chi carré (χ2) est utilisé pour tester des hypothèses sur la distribution des observations dans des catégories sans classement inhérent.

Qu’est-ce qu’une statistique du chi carré ?

Le test du khi-deux (prononcé Kai) examine le schéma des observations et nous indique si certaines combinaisons de catégories sont plus fréquentes que ce que nous attendrions par hasard, compte tenu du nombre total de fois où chaque catégorie est apparue.

Il recherche une association entre les variables. Nous ne pouvons pas utiliser un coefficient de corrélation pour rechercher des modèles dans ces données car les catégories ne forment souvent pas un continuum.

Il existe trois principaux types de tests du chi-deux, les tests d’adéquation, le test d’indépendance et le test d’homogénéité. Ces tests fonctionnent en déchiffrant les relations entre les ensembles de données observés et les ensembles de données théoriques ou « attendus » qui correspondent à l’hypothèse nulle.

CHAPITRES
Toggle

Qu’est-ce qu’un tableau de contingence ?
Calcul de la formule
Interprétation
Comment rapporter
p -valeur Interprétation
Utilisation de SPSS
Test d’adéquation
Test d’indépendance
Test d’homogénéité
FAQs

Qu’est-ce qu’un tableau de contingence ?

Les tableaux de contingence (également appelés tableaux à double entrée) sont des grilles dans lesquelles les données du khi-deux sont organisées et affichées. Ils fournissent une image de base de l’interrelation entre deux variables et peuvent aider à trouver des interactions entre elles.

Dans les tableaux de contingence, une variable et chacune de ses catégories sont listées verticalement, et l’autre variable et chacune de ses catégories sont listées horizontalement.

En outre, l’inclusion des totaux des colonnes et des lignes, également connus sous le nom de « fréquences marginales », facilitera le processus de test du chi-deux.

Pour que le test du chi-deux soit considéré comme fiable, chaque cellule de votre tableau de contingence prévu doit avoir une valeur d’au moins cinq.

Chaque test du chi-deux comportera un tableau de contingence représentant les effectifs observés (voir Fig. 1) et un tableau de contingence représentant les effectifs attendus (voir Fig. 2).

Figure 1.Tableau observé (qui contient les effectifs observés).

Pour obtenir les fréquences attendues pour toute cellule d’un tableau croisé dans lequel les deux variables sont supposées indépendantes, multipliez les totaux des lignes et des colonnes pour cette cellule et divisez le produit par le nombre total de cas dans le tableau.

Figure 2.Tableau attendu (ce à quoi nous nous attendons à ce que le tableau à double entrée ressemble si les deux variables catégorielles sont indépendantes).

Pour décider si notre valeur calculée pour le χ2 est significative, nous devons également calculer les degrés de liberté de notre tableau de contingence à l’aide de la formule suivante : df= (lignes – 1) x (colonnes – 1).

Calcul de la formule

Calculez la statistique du chi-deux (χ2) en effectuant les étapes suivantes:

Calculez les fréquences attendues et les fréquences observées.

Pour chaque nombre observé dans le tableau, soustrayez le nombre attendu correspondant (O – E).

Mettez au carré la différence (O – E)².

Divisez les carrés obtenus pour chaque cellule du tableau par le nombre attendu pour cette cellule (O – E)² / E.

Sommez toutes les valeurs pour (O – E)² / E. Il s’agit de la statistique du khi-deux.

Calculez les degrés de liberté du tableau de contingence à l’aide de la formule suivante : df= (lignes – 1) x (colonnes – 1).

Une fois que nous avons calculé les degrés de liberté (df) et la valeur du chi-deux (χ2), nous pouvons utiliser le tableau du χ2 (souvent à la fin d’un livre de statistiques) pour vérifier si notre valeur du χ2 est supérieure à la valeur critique indiquée dans le tableau. Si c’est le cas, notre résultat est significatif au niveau indiqué.

Interprétation

La statistique du chi-deux vous indique la différence entre le nombre observé dans chaque cellule du tableau et les nombres auxquels vous vous attendriez s’il n’y avait aucune relation dans la population.

Petite statistique du chi-deux : Si la statistique du khi-deux est petite et que la valeur p est grande (généralement supérieure à 0,05), cela indique souvent que les fréquences observées dans l’échantillon sont proches de ce que l’on attendrait sous l’hypothèse nulle.

L’hypothèse nulle stipule généralement qu’il n’y a pas d’association entre les variables étudiées ou que la distribution observée correspond à la distribution attendue.

En théorie, si les valeurs observées et attendues étaient égales (aucune différence), la statistique du khi-deux serait égale à zéro, mais il est peu probable que cela se produise dans la réalité.

Grande statistique du khi-deux : si la statistique du khi-deux est importante et que la valeur p est faible (généralement inférieure à 0,05), la conclusion est souvent que les données ne correspondent pas bien au modèle, c’est-à-dire que, les valeurs observées et attendues sont significativement différentes. Cela conduit souvent au rejet de l’hypothèse nulle.

Comment rapporter

Pour rapporter un résultat chi-carré dans une section de résultats de style APA, utilisez toujours le modèle suivant :

χ2 (degrés de liberté, N = taille de l’échantillon ) = valeur de la statistique du khi-deux, p = p valeur .

Dans le cas de l’exemple ci-dessus, les résultats seraient écrits comme suit:

Un test d’indépendance du chi-carré a montré qu’il existait une association significative entre le sexe et les projets d’études supérieures, χ2 (4, N = 101) = 54.50, p &lt ; .001.

Règles de style de l’APA

Ne pas utiliser de zéro avant une décimale lorsque la statistique ne peut être supérieure à 1 (proportion, corrélation, niveau de signification statistique).

Reporter les valeurs exactes de p à deux ou trois décimales (par ex, p = .006, p = .03).

Toutefois, rapportez les valeurs p inférieures à .001 comme « p &lt ; .001. »

Mettez un espace avant et après un opérateur mathématique (par ex, moins, plus, plus grand que, moins que, signe égal).

Ne répétez pas les statistiques à la fois dans le texte et dans un tableau ou une figure.

p -valeur Interprétation

Vous vérifiez si un χ2 donné est statistiquement significatif en le testant par rapport à une table de distributions du chi-deux, en fonction du nombre de degrés de liberté de votre échantillon, qui est le nombre de catégories moins 1. Le chi-carré suppose que vous avez au moins 5 observations par catégorie.

Si vous utilisez SPSS, vous aurez une valeur p attendue.

Pour un test du chi-carré, une valeur p inférieure ou égale au niveau de signification de .05 indique que les valeurs observées sont différentes des valeurs attendues.

Ainsi, des valeurs p faibles (p&lt ; .05) indiquent une différence probable entre la population théorique et l’échantillon collecté. Vous pouvez conclure qu’il existe une relation entre les variables catégorielles.

N’oubliez pas que les valeurs p n’indiquent pas les chances que l’hypothèse nulle soit vraie, mais fournissent plutôt la probabilité d’obtenir la distribution observée de l’échantillon (ou une distribution plus extrême) si l’hypothèse nulle était vraie.

Un niveau de confiance nécessaire pour accepter l’hypothèse nulle ne peut jamais être atteint. Par conséquent, les conclusions doivent choisir de ne pas rejeter l’hypothèse nulle ou d’accepter l’hypothèse alternative, en fonction de la valeur p calculée.

Utilisation de SPSS

Les quatre étapes ci-dessous vous montrent comment analyser vos données à l’aide d’un test d’adéquation du chi carré dans SPSS (lorsque vous avez émis l’hypothèse que les proportions attendues sont égales).

Étape 1 : Analyze &gt ; Nonparametric Tests &gt ; Legacy Dialogs &gt ; Chi-square… on the top menu as shown below:

Étape 2 : Déplacez la variable indiquant les catégories dans la case « Test Variable List : ».

Étape 3 : Si vous souhaitez tester l’hypothèse selon laquelle toutes les catégories ont la même probabilité, cliquez sur « OK ». »

Étape 4 : indiquez le nombre attendu pour chaque catégorie en cliquant d’abord sur le bouton « Valeurs » sous « Valeurs attendues ».

Étape 5 : dans la case située à droite de « Valeurs », entrez le nombre attendu pour la catégorie un et cliquez sur le bouton « Ajouter ». Saisissez ensuite le nombre attendu pour la catégorie 2 et cliquez sur « Ajouter » Continuez ainsi jusqu’à ce que tous les nombres attendus aient été saisis.

Etape 6 : Cliquez ensuite sur « OK. »

Les quatre étapes ci-dessous vous montrent comment analyser vos données à l’aide d’un test du chi carré d’indépendance dans SPSS Statistics.

Etape 1 : Ouvrez la boîte de dialogue Tableaux croisés (Analyze &gt ; Descriptive Statistics &gt ; Crosstabs).

Étape 2 : Sélectionnez les variables que vous souhaitez comparer à l’aide du test du khi-deux. Cliquez sur une variable dans la fenêtre de gauche, puis cliquez sur la flèche en haut pour déplacer la variable. Sélectionnez la variable de ligne et la variable de colonne.

Étape 3 : Cliquez sur Statistiques (une nouvelle fenêtre contextuelle apparaît). Cochez Chi-carré, puis cliquez sur Continuer.

Étape 4 : (Facultatif) Cochez la case Afficher les diagrammes à barres groupées.

Étape 5 : Cliquez sur OK.

Test d’adéquation

Le test d’adéquation du Khi-deux est utilisé pour comparer un échantillon collecté au hasard et contenant une seule variable catégorielle à une population plus large.

Ce test est le plus souvent utilisé pour comparer un échantillon aléatoire à la population à partir de laquelle il a été potentiellement collecté.

Le test commence par la création d’une hypothèse nulle et d’une hypothèse alternative. Dans ce cas, les hypothèses sont les suivantes:

Hypothèse nulle (Ho) : L’hypothèse nulle (Ho) est que les fréquences observées sont les mêmes (à l’exception des variations dues au hasard) que les fréquences attendues. Les données collectées sont conformes à la distribution de la population.

Hypothèse alternative (Ha) : Les données collectées ne sont pas conformes à la distribution de la population.

L’étape suivante consiste à créer un tableau de contingence qui représente la manière dont les données seraient distribuées si l’hypothèse nulle était exactement correcte.

Test d’indépendance

Le test du Khi-deux pour l’indépendance recherche une association entre deux variables catégorielles au sein d’une même population.

Contrairement au test d’ajustement, le test d’indépendance ne compare pas une seule variable observée à une population théorique, mais plutôt deux variables d’un ensemble d’échantillons l’une par rapport à l’autre.

Les hypothèses pour un test d’indépendance du Khi-deux sont les suivantes:

Hypothèse nulle (Ho) : Il n’y a pas d’association entre les deux variables catégorielles dans la population d’intérêt.

Hypothèse alternative (Ha) : il n’y a pas d’association entre les deux variables catégorielles dans la population concernée.

L’étape suivante consiste à créer un tableau de contingence des valeurs attendues qui reflète l’apparence d’un ensemble de données correspondant parfaitement à l’hypothèse nulle.

La façon la plus simple de procéder consiste à calculer les fréquences marginales de chaque ligne et de chaque colonne ; la fréquence attendue de chaque cellule est égale à la fréquence marginale de la ligne et de la colonne qui correspond à une cellule donnée dans le tableau de contingence observé, divisée par la taille totale de l’échantillon.

Test d’homogénéité

Le test du Khi-deux pour l’homogénéité est organisé et exécuté exactement de la même façon que le test pour l’indépendance.

La principale différence à retenir entre les deux est que le test d’indépendance recherche une association entre deux variables catégorielles au sein d’une même population, tandis que le test d’homogénéité détermine si la distribution d’une variable est la même dans chacune de plusieurs populations (en attribuant donc la population elle-même comme deuxième variable catégorielle).

Les hypothèses pour un test d’indépendance du Khi-deux sont les suivantes:

Hypothèse nulle (Ho) : il n’y a pas de différence dans la distribution d’une variable catégorielle pour plusieurs populations ou traitements.

Hypothèse alternative (Ha) : il existe une différence dans la distribution d’une variable catégorielle pour plusieurs populations ou traitements.

La différence entre ces deux tests peut être quelque peu délicate à déterminer, en particulier dans les applications pratiques d’un test du Khi-deux. Une règle empirique fiable consiste à déterminer comment les données ont été collectées.

Si les données consistent en un seul échantillon aléatoire dont les observations sont classées selon deux variables catégorielles, il s’agit d’un test d’indépendance. Si les données consistent en plus d’un échantillon aléatoire indépendant, il s’agit d’un test d’homogénéité.

FAQs

Qu’est-ce que le test du chi-carré ?

Le test du khi-deux est un test statistique non paramétrique utilisé pour déterminer s’il existe une association significative entre deux ou plusieurs variables catégorielles dans un échantillon.

Il compare les fréquences observées dans chaque catégorie d’un tableau croisé avec les fréquences attendues sous l’hypothèse nulle, qui suppose qu’il n’y a pas de relation entre les variables.

Ce test est souvent utilisé dans des domaines tels que la biologie, le marketing, la sociologie et la psychologie pour tester des hypothèses.

Qu’est-ce que le chi-carré vous dit ?

Le test du chi-deux indique s’il existe une association significative entre deux variables catégorielles. Supposons que la valeur du Khi-deux calculée soit supérieure à la valeur critique de la distribution du Khi-deux.

Dans ce cas, cela suggère une relation significative entre les variables, rejetant l’hypothèse nulle d’absence d’association.

Comment calculer le chi-deux ?

Pour calculer la statistique du chi-deux, suivez les étapes suivantes:

1. Créez un tableau de contingence des fréquences observées pour chaque catégorie.

2. Calculez les fréquences attendues pour chaque catégorie sous l’hypothèse nulle.

3. Calculez la statistique du Khi-deux à l’aide de la formule : Χ² = Σ [ (O_i – E_i)² / E_i ], où O_i est la fréquence observée et E_i la fréquence attendue.

4. Comparez la statistique calculée avec la valeur critique de la distribution du Khi-deux pour tirer une conclusion.