Калькулятор верхней и нижней границы IQR
Определяйте статистические выбросы в наборе данных с помощью метода границ межквартильного размаха (IQR). Введите числа через запятую, чтобы мгновенно найти Q1, Q3, IQR и обе границы.
Введите значения данных через запятую, нажмите «Рассчитать» и посмотрите верхнюю границу, нижнюю границу и все выбросы в наборе данных.
Калькулятор верхней и нижней границы IQR
Определяйте статистические выбросы в наборе данных с помощью метода границ межквартильного размаха (IQR). Введите числа через запятую, чтобы мгновенно найти Q1, Q3, IQR и обе границы.
О калькуляторе верхней и нижней границы
Метод верхней и нижней границы — стандартная техника выявления выбросов в наборе данных с использованием межквартильного размаха (IQR). Разработанный как часть концепции разведочного анализа данных Джона Тьюки в 1977 году, он дает устойчивый непараметрический способ отмечать необычные наблюдения без предположения, что данные следуют какому-либо конкретному распределению. Метод широко преподается во вводных курсах статистики и является стандартным подходом к обнаружению выбросов на диаграммах «ящик с усами».
Расчет начинается с сортировки набора данных и нахождения первого и третьего квартилей. Q1 (25-й процентиль) — это значение, ниже которого находится 25% данных, а Q3 (75-й процентиль) — значение, ниже которого находится 75% данных. IQR — это просто Q3 минус Q1, то есть разброс средней половины данных. Поскольку IQR игнорирует экстремальные значения на обоих концах распределения, он устойчив к тем самым выбросам, которые пытается обнаружить. Благодаря этому метод границ надежнее методов, основанных на полном размахе.
После вычисления IQR границы устанавливаются на уровне 1.5 × IQR ниже Q1 (нижняя граница) и 1.5 × IQR выше Q3 (верхняя граница). Любая точка данных ниже нижней границы или выше верхней границы классифицируется как выброс. Множитель 1.5 был эмпирически выбран Тьюки, поскольку он хорошо работает для примерно нормальных данных: в нормальном распределении это правило помечает около 0.7% наблюдений как выбросы, что соответствует значениям более чем примерно в 2.7 стандартного отклонения от среднего.
Для более экстремальных выбросов в некоторых приложениях используют множитель 3 вместо 1.5, называя такие точки дальними или экстремальными выбросами. Точки вне границы 1.5 × IQR, но внутри границы 3 × IQR иногда называют умеренными выбросами. Этот калькулятор использует стандартное правило 1.5 × IQR, подходящее для большинства разведочных анализов.
Обнаружение выбросов — важный этап очистки данных, контроля качества и статистического моделирования. В производстве измерение процесса вне границы может указывать на дефектное изделие или ошибку измерения. В финансах экстремальная доходность может сигнализировать об ошибках данных, рыночных аномалиях или реальных событиях, требующих расследования. В клинических исследованиях физиологически невозможные значения выявляются и проверяются. В машинном обучении выбросы могут исказить обучение модели, если их не обработать.
Важно помнить, что статистические выбросы не обязательно являются ошибочными значениями. Выброс — это просто наблюдение, необычно далекое от основной массы данных согласно правилу IQR. Необходимо расследование, чтобы определить, является ли значение реальным экстремальным событием, ошибкой измерения или ошибкой ввода данных.
Примеры верхней и нижней границы
Пошаговые примеры показывают, как метод границ выявляет выбросы в типичных наборах данных.
| Набор данных | Границы и выбросы | Интерпретация |
|---|---|---|
| 10, 12, 14, 16, 18, 20, 100 | Нижняя: 4 | Верхняя: 28 | Выброс: 100 | Q1=13, Q3=19, IQR=6. Нижняя граница = 13 − 9 = 4. Верхняя граница = 19 + 9 = 28. Значение 100 превышает верхнюю границу и помечается как выброс. |
| 5, 7, 8, 9, 10, 11, 12, 14 | Нижняя: 2.5 | Верхняя: 16.5 | Нет выбросов | Q1=7.75, Q3=11.25, IQR=3.5. Границы равны 2.5 и 16.5. Все значения (от 5 до 14) находятся в пределах границ, поэтому выбросов нет. |
| 2, 3, 5, 7, 8, 9, 10, 11, 12, 50 | Нижняя: −2.375 | Верхняя: 18.625 | Выброс: 50 | Q1=5.5, Q3=10.75, IQR=5.25. Верхняя граница = 10.75 + 7.875 = 18.625. Значение 50 намного выше верхней границы и является явным выбросом. |
Как пользоваться калькулятором границ
- Введите значения данных в поле ввода, разделяя их запятыми или пробелами. Нужно не менее 4 значений, чтобы рассчитать осмысленные квартили.
- Нажмите «Рассчитать», чтобы вычислить Q1, Q3, IQR, нижнюю границу (Q1 − 1.5 × IQR) и верхнюю границу (Q3 + 1.5 × IQR).
- Проверьте выделенные значения границ: любая точка данных ниже нижней границы или выше верхней границы является выбросом.
- Посмотрите раздел «Выбросы», чтобы увидеть конкретные отмеченные значения, перечисленные явно.
- Нажмите «Сбросить», чтобы очистить ввод и начать заново с новым набором данных.
FAQ по верхней и нижней границе
Что такое верхняя и нижняя границы?
Верхняя граница равна Q3 + 1.5 × IQR, а нижняя граница — Q1 − 1.5 × IQR. Любая точка данных вне этих границ считается выбросом. Границы создают диапазон, который охватывает ожидаемый разброс примерно колоколообразного распределения.
Почему используют 1.5 IQR?
Множитель 1.5 был выбран Джоном Тьюки, потому что он примерно оптимален для обнаружения выбросов в нормальных данных при низкой доле ложных срабатываний. В нормальном распределении он помечает примерно 0.7% наблюдений. Удвоение множителя до 3 выявляет только экстремальные выбросы.
Что такое IQR и как он рассчитывается?
IQR (межквартильный размах) — это Q3 минус Q1, отражающий разброс средних 50% данных. Он вычисляется путем сортировки данных, нахождения 25-го процентиля (Q1) и 75-го процентиля (Q3), затем вычитания. IQR устойчив к выбросам, потому что игнорирует верхние и нижние 25% значений.
Означает ли выброс, что данные неверны?
Не обязательно. Выброс — это просто необычно экстремальное наблюдение по отношению к основной массе данных. Это может быть реальное экстремальное событие, ошибка измерения или ошибка ввода данных. Каждое отмеченное значение нужно рассмотреть в контексте перед удалением или исправлением.
Как границы связаны с диаграммами размаха?
Верхняя и нижняя границы определяют «усы» в стандартной диаграмме Тьюки «ящик с усами». Ящик покрывает IQR (от Q1 до Q3), линия внутри ящика — медиана, а усы тянутся до самых экстремальных точек данных, которые еще находятся в пределах границ. Точки за пределами усов отображаются отдельно как точки-выбросы.
Подходит ли метод границ для малых наборов данных?
Метод лучше всего работает при наличии как минимум 10–20 наблюдений. При меньшем числе значений оценки квартилей неточны, а границы могут быть ненадежными. Для очень малых наборов данных лучше визуально просмотреть все значения, а не полагаться только на автоматическое правило границ.