상한·하한 펜스 계산기 - IQR 이상치
사분위 범위(IQR) 펜스 방법으로 데이터셋의 통계적 이상치를 식별합니다. 쉼표로 구분한 숫자를 입력하면 Q1, Q3, IQR, 양쪽 펜스를 즉시 계산합니다.
데이터 값을 쉼표로 구분해 입력하고 계산을 클릭하면 상한 펜스, 하한 펜스, 데이터셋의 이상치를 확인할 수 있습니다.
상한·하한 펜스 계산기 - IQR 이상치
사분위 범위(IQR) 펜스 방법으로 데이터셋의 통계적 이상치를 식별합니다. 쉼표로 구분한 숫자를 입력하면 Q1, Q3, IQR, 양쪽 펜스를 즉시 계산합니다.
상한·하한 펜스 계산기 소개
상한·하한 펜스 방법은 사분위 범위(IQR)를 사용해 데이터셋의 이상치를 식별하는 표준 기법입니다. 1977년 John Tukey의 탐색적 데이터 분석 프레임워크의 일부로 개발되었으며, 데이터가 특정 분포를 따른다고 가정하지 않고 특이한 관측값을 표시하는 견고한 비모수적 방법을 제공합니다. 이 방법은 입문 통계 과정에서 널리 다루어지며, 상자수염그림에서 기본 이상치 탐지 방식으로 사용됩니다.
계산은 데이터셋을 정렬하고 제1사분위수와 제3사분위수를 찾는 것으로 시작합니다. Q1(25번째 백분위수)은 데이터의 25%가 그 아래에 있는 값이고, Q3(75번째 백분위수)은 데이터의 75%가 그 아래에 있는 값입니다. IQR은 단순히 Q3에서 Q1을 뺀 값으로, 데이터 가운데 절반의 퍼짐을 나타냅니다. IQR은 분포 양끝의 극단값을 무시하므로, 탐지하려는 이상치 자체의 영향에 강합니다. 이 특성 때문에 펜스 방법은 범위 기반 방법보다 더 신뢰할 수 있습니다.
IQR을 계산하면 펜스는 Q1보다 1.5 × IQR 낮은 위치(하한 펜스)와 Q3보다 1.5 × IQR 높은 위치(상한 펜스)에 설정됩니다. 하한 펜스보다 낮거나 상한 펜스보다 높은 데이터점은 이상치로 분류됩니다. 1.5 배수는 Tukey가 경험적으로 선택한 값으로, 대략 정규적인 데이터에서 잘 작동합니다. 정규분포에서는 이 규칙이 관측값의 약 0.7%를 이상치로 표시하며, 이는 평균에서 약 2.7 표준편차 이상 떨어진 값에 해당합니다.
더 극단적인 이상치의 경우 일부 응용에서는 1.5 대신 3의 배수를 사용하고, 이러한 점을 먼 이상치 또는 극단 이상치로 부릅니다. 1.5 × IQR 펜스 밖이지만 3 × IQR 펜스 안에 있는 점은 때때로 경미한 이상치라고 합니다. 이 계산기는 대부분의 탐색적 분석에 적합한 표준 1.5 × IQR 규칙을 사용합니다.
이상치 탐지는 데이터 정제, 품질 관리, 통계 모델링에서 중요한 단계입니다. 제조 분야에서는 펜스 밖의 공정 측정값이 불량품이나 측정 오류를 나타낼 수 있습니다. 금융에서는 극단적인 수익률이 데이터 오류, 시장 이상 현상 또는 조사가 필요한 실제 사건을 의미할 수 있습니다. 임상 연구에서는 생리적으로 불가능한 값이 식별되고 검토됩니다. 머신러닝에서는 이상치를 처리하지 않으면 모델 학습이 왜곡될 수 있습니다.
통계적 이상치가 반드시 잘못된 값은 아니라는 점을 기억해야 합니다. 이상치는 IQR 규칙에 따라 데이터의 대부분에서 비정상적으로 멀리 떨어진 관측값일 뿐입니다. 해당 값이 실제 극단 사건인지, 측정 오류인지, 데이터 입력 실수인지 판단하려면 조사가 필요합니다.
상한·하한 펜스 예제
일반적인 데이터셋에서 펜스 방법이 이상치를 어떻게 식별하는지 단계별 예제로 보여줍니다.
| 데이터셋 | 펜스 및 이상치 | 해석 |
|---|---|---|
| 10, 12, 14, 16, 18, 20, 100 | 하한: 4 | 상한: 28 | 이상치: 100 | Q1=13, Q3=19, IQR=6. 하한 펜스 = 13 − 9 = 4. 상한 펜스 = 19 + 9 = 28. 값 100은 상한 펜스를 초과하므로 이상치로 표시됩니다. |
| 5, 7, 8, 9, 10, 11, 12, 14 | 하한: 2.5 | 상한: 16.5 | 이상치 없음 | Q1=7.75, Q3=11.25, IQR=3.5. 펜스는 2.5와 16.5입니다. 모든 값(5부터 14까지)이 펜스 안에 있으므로 이상치가 없습니다. |
| 2, 3, 5, 7, 8, 9, 10, 11, 12, 50 | 하한: −2.375 | 상한: 18.625 | 이상치: 50 | Q1=5.5, Q3=10.75, IQR=5.25. 상한 펜스 = 10.75 + 7.875 = 18.625. 값 50은 상한 펜스보다 훨씬 높아 명확한 이상치입니다. |
펜스 계산기 사용 방법
- 입력 필드에 데이터 값을 입력하고 쉼표나 공백으로 구분합니다. 의미 있는 사분위수를 계산하려면 최소 4개의 값이 필요합니다.
- 계산을 클릭해 Q1, Q3, IQR, 하한 펜스(Q1 − 1.5 × IQR), 상한 펜스(Q3 + 1.5 × IQR)를 계산합니다.
- 강조 표시된 펜스 값을 확인하세요. 하한 펜스보다 낮거나 상한 펜스보다 높은 데이터점은 이상치입니다.
- 이상치 섹션에서 명시적으로 나열된 표시 값을 확인합니다.
- 초기화를 클릭해 입력을 지우고 새 데이터셋으로 다시 시작합니다.
상한·하한 펜스 FAQ
상한 펜스와 하한 펜스란 무엇인가요?
상한 펜스는 Q3 + 1.5 × IQR이고 하한 펜스는 Q1 − 1.5 × IQR입니다. 이 펜스 밖의 모든 데이터점은 이상치로 간주됩니다. 펜스는 대략 종 모양 분포에서 기대되는 퍼짐을 포함하는 범위를 만듭니다.
왜 IQR의 1.5배를 사용하나요?
1.5 배수는 John Tukey가 선택한 값으로, 정규 데이터에서 이상치를 탐지하는 데 거의 최적이면서 위양성률을 낮게 유지하기 때문입니다. 정규분포에서는 관측값의 약 0.7%를 표시합니다. 배수를 3으로 늘리면 극단 이상치만 포착합니다.
IQR은 무엇이며 어떻게 계산하나요?
IQR(사분위 범위)은 Q3에서 Q1을 뺀 값으로, 데이터 가운데 50%의 퍼짐을 나타냅니다. 데이터를 정렬하고 25번째 백분위수(Q1)와 75번째 백분위수(Q3)를 찾은 뒤 빼서 계산합니다. IQR은 상위와 하위 25% 값을 무시하므로 이상치에 강합니다.
이상치는 데이터가 잘못되었다는 뜻인가요?
반드시 그렇지는 않습니다. 이상치는 데이터의 대부분과 비교해 비정상적으로 극단적인 관측값일 뿐입니다. 실제 극단 사건, 측정 오류 또는 데이터 입력 실수일 수 있습니다. 표시된 각 값은 제거하거나 수정하기 전에 맥락 속에서 조사해야 합니다.
펜스는 상자그림과 어떤 관련이 있나요?
상한·하한 펜스는 표준 Tukey 상자그림의 수염을 정의합니다. 상자는 IQR(Q1부터 Q3까지)을 나타내고, 상자 안의 선은 중앙값이며, 수염은 펜스 안에 있는 가장 극단적인 데이터점까지 확장됩니다. 수염을 벗어난 점은 이상치 점으로 개별 표시됩니다.
펜스 방법은 작은 데이터셋에 적합한가요?
이 방법은 관측값이 최소 10~20개일 때 가장 잘 작동합니다. 값이 적으면 사분위수 추정이 부정확하고 펜스가 신뢰하기 어려울 수 있습니다. 매우 작은 데이터셋에서는 자동 펜스 규칙에만 의존하기보다 모든 값을 시각적으로 살펴보는 것이 좋습니다.