Calculateur de bornes IQR et valeurs aberrantes
Identifiez les valeurs aberrantes statistiques de votre jeu de données avec la méthode des bornes de l’écart interquartile (IQR). Saisissez des nombres séparés par des virgules pour trouver instantanément Q1, Q3, l’IQR et les deux bornes.
Saisissez vos valeurs séparées par des virgules, cliquez sur Calculer, puis consultez la borne supérieure, la borne inférieure et les éventuelles valeurs aberrantes de votre jeu de données.
Calculateur de bornes IQR et valeurs aberrantes
Identifiez les valeurs aberrantes statistiques de votre jeu de données avec la méthode des bornes de l’écart interquartile (IQR). Saisissez des nombres séparés par des virgules pour trouver instantanément Q1, Q3, l’IQR et les deux bornes.
À propos du calculateur de bornes supérieure et inférieure
La méthode des bornes supérieure et inférieure est la technique standard pour identifier les valeurs aberrantes dans un jeu de données à l’aide de l’écart interquartile (IQR). Développée dans le cadre de l’analyse exploratoire des données de John Tukey en 1977, elle fournit une méthode robuste et non paramétrique pour signaler des observations inhabituelles sans supposer que les données suivent une distribution particulière. Cette méthode est largement enseignée dans les cours d’introduction aux statistiques et constitue l’approche par défaut de détection des valeurs aberrantes dans les boîtes à moustaches.
Le calcul commence par le tri du jeu de données et la détermination des premier et troisième quartiles. Q1 (25e percentile) est la valeur sous laquelle se trouvent 25% des données, tandis que Q3 (75e percentile) est la valeur sous laquelle se trouvent 75% des données. L’IQR est simplement Q3 moins Q1 et représente la dispersion de la moitié centrale des données. Comme l’IQR ignore les valeurs extrêmes aux deux extrémités de la distribution, il résiste aux valeurs aberrantes mêmes qu’il cherche à détecter, ce qui rend la méthode des bornes plus fiable que les méthodes fondées sur l’étendue.
Une fois l’IQR calculé, les bornes sont fixées à 1.5 × IQR sous Q1 (borne inférieure) et à 1.5 × IQR au-dessus de Q3 (borne supérieure). Tout point de données situé sous la borne inférieure ou au-dessus de la borne supérieure est classé comme valeur aberrante. Le multiplicateur 1.5 a été choisi empiriquement par Tukey parce qu’il fonctionne bien pour des données approximativement normales : dans une distribution normale, cette règle signale environ 0.7% des observations comme aberrantes, ce qui correspond à des valeurs situées à plus d’environ 2.7 écarts-types de la moyenne.
Pour les valeurs aberrantes plus extrêmes, certaines applications utilisent un multiplicateur de 3 au lieu de 1.5 et qualifient ces points de valeurs aberrantes lointaines ou extrêmes. Les points situés hors de la borne 1.5 × IQR mais à l’intérieur de la borne 3 × IQR sont parfois appelés valeurs aberrantes modérées. Ce calculateur utilise la règle standard 1.5 × IQR, adaptée à la plupart des analyses exploratoires.
La détection des valeurs aberrantes est une étape essentielle du nettoyage des données, du contrôle qualité et de la modélisation statistique. En fabrication, une mesure de procédé hors borne peut indiquer une unité défectueuse ou une erreur de mesure. En finance, des rendements extrêmes peuvent signaler des erreurs de données, des anomalies de marché ou de véritables événements nécessitant une enquête. En recherche clinique, les valeurs physiologiquement impossibles sont identifiées et examinées. En apprentissage automatique, les valeurs aberrantes peuvent fausser l’entraînement du modèle si elles ne sont pas traitées.
Il est important de rappeler que les valeurs aberrantes statistiques ne sont pas nécessairement des valeurs erronées. Une valeur aberrante est simplement une observation inhabituellement éloignée de la masse des données selon la règle IQR. Une investigation est nécessaire pour déterminer si la valeur représente un événement extrême réel, une erreur de mesure ou une erreur de saisie.
Exemples de bornes supérieure et inférieure
Exemples résolus étape par étape montrant comment la méthode des bornes identifie les valeurs aberrantes dans des jeux de données typiques.
| Jeu de données | Bornes et valeurs aberrantes | Interprétation |
|---|---|---|
| 10, 12, 14, 16, 18, 20, 100 | Inférieure : 4 | Supérieure : 28 | Aberrante : 100 | Q1=13, Q3=19, IQR=6. Borne inférieure = 13 − 9 = 4. Borne supérieure = 19 + 9 = 28. La valeur 100 dépasse la borne supérieure et est signalée comme aberrante. |
| 5, 7, 8, 9, 10, 11, 12, 14 | Inférieure : 2.5 | Supérieure : 16.5 | Aucune valeur aberrante | Q1=7.75, Q3=11.25, IQR=3.5. Les bornes sont 2.5 et 16.5. Toutes les valeurs (5 à 14) se trouvent dans les bornes, il n’y a donc aucune valeur aberrante. |
| 2, 3, 5, 7, 8, 9, 10, 11, 12, 50 | Inférieure : −2.375 | Supérieure : 18.625 | Aberrante : 50 | Q1=5.5, Q3=10.75, IQR=5.25. Borne supérieure = 10.75 + 7.875 = 18.625. La valeur 50 est largement au-dessus de la borne supérieure et constitue une valeur aberrante évidente. |
Comment utiliser le calculateur de bornes
- Saisissez vos valeurs dans le champ de saisie, séparées par des virgules ou des espaces. Il faut au moins 4 valeurs pour calculer des quartiles significatifs.
- Cliquez sur Calculer pour obtenir Q1, Q3, l’IQR, la borne inférieure (Q1 − 1.5 × IQR) et la borne supérieure (Q3 + 1.5 × IQR).
- Examinez les valeurs de bornes mises en évidence : tout point de données sous la borne inférieure ou au-dessus de la borne supérieure est une valeur aberrante.
- Consultez la section Valeurs aberrantes pour voir les valeurs signalées listées explicitement.
- Cliquez sur Réinitialiser pour effacer la saisie et recommencer avec un nouveau jeu de données.
FAQ sur les bornes supérieure et inférieure
Que sont les bornes supérieure et inférieure ?
La borne supérieure est Q3 + 1.5 × IQR et la borne inférieure est Q1 − 1.5 × IQR. Tout point de données situé hors de ces bornes est considéré comme une valeur aberrante. Les bornes créent une plage qui englobe la dispersion attendue d’une distribution approximativement en cloche.
Pourquoi utiliser 1.5 fois l’IQR ?
Le multiplicateur 1.5 a été choisi par John Tukey car il est approximativement optimal pour détecter les valeurs aberrantes dans des données normales tout en gardant un faible taux de faux positifs. Dans une distribution normale, il signale environ 0.7% des observations. Doubler le multiplicateur à 3 ne retient que les valeurs aberrantes extrêmes.
Qu’est-ce que l’IQR et comment se calcule-t-il ?
L’IQR (écart interquartile) est Q3 moins Q1 et représente la dispersion des 50% centraux des données. Il se calcule en triant les données, en trouvant le 25e percentile (Q1) et le 75e percentile (Q3), puis en soustrayant. L’IQR résiste aux valeurs aberrantes parce qu’il ignore les 25% de valeurs les plus hautes et les plus basses.
Une valeur aberrante signifie-t-elle que les données sont fausses ?
Pas nécessairement. Une valeur aberrante est simplement une observation inhabituellement extrême par rapport à la masse des données. Elle peut être un événement extrême réel, une erreur de mesure ou une erreur de saisie. Chaque valeur signalée doit être examinée dans son contexte avant d’être supprimée ou corrigée.
Quel est le lien entre les bornes et les boîtes à moustaches ?
Les bornes supérieure et inférieure définissent les moustaches dans une boîte à moustaches standard de Tukey. La boîte couvre l’IQR (Q1 à Q3), la ligne dans la boîte est la médiane, et les moustaches s’étendent jusqu’aux points de données les plus extrêmes encore situés dans les bornes. Les points au-delà des moustaches sont tracés individuellement comme points aberrants.
La méthode des bornes convient-elle aux petits jeux de données ?
La méthode fonctionne mieux avec au moins 10 à 20 observations. Avec moins de valeurs, les estimations de quartiles sont imprécises et les bornes peuvent être peu fiables. Pour de très petits jeux de données, envisagez d’examiner toutes les valeurs visuellement plutôt que de vous fier uniquement à la règle automatique des bornes.