上限・下限フェンス計算機 - IQR外れ値
四分位範囲(IQR)のフェンス法で、データセット内の統計的外れ値を特定します。カンマ区切りの数値を入力すると、Q1、Q3、IQR、上下のフェンスをすぐに求められます。
データ値をカンマで区切って入力し、「計算」をクリックすると、上限フェンス、下限フェンス、データセット内の外れ値を確認できます。
上限・下限フェンス計算機 - IQR外れ値
四分位範囲(IQR)のフェンス法で、データセット内の統計的外れ値を特定します。カンマ区切りの数値を入力すると、Q1、Q3、IQR、上下のフェンスをすぐに求められます。
上限・下限フェンス計算機について
上限・下限フェンス法は、四分位範囲(IQR)を使ってデータセット内の外れ値を特定する標準的な手法です。1977年に John Tukey の探索的データ解析の枠組みの一部として開発され、データが特定の分布に従うと仮定せずに異常な観測値を示す、頑健でノンパラメトリックな方法を提供します。この方法は入門統計の授業で広く教えられており、箱ひげ図における標準的な外れ値検出法でもあります。
計算は、データセットを並べ替え、第1四分位数と第3四分位数を求めることから始まります。Q1(25パーセンタイル)はデータの 25% がそれ以下に入る値、Q3(75パーセンタイル)はデータの 75% がそれ以下に入る値です。IQR は単に Q3 から Q1 を引いた値で、データ中央半分の広がりを表します。IQR は分布の両端にある極端な値を無視するため、検出しようとしている外れ値そのものの影響を受けにくく、この性質によりフェンス法は範囲に基づく方法より信頼性が高くなります。
IQR が計算されると、フェンスは Q1 から 1.5 × IQR だけ下に下限フェンス、Q3 から 1.5 × IQR だけ上に上限フェンスとして設定されます。下限フェンスより小さい、または上限フェンスより大きいデータ点は外れ値に分類されます。1.5 という倍率は Tukey が経験的に選んだもので、ほぼ正規的なデータでよく機能します。正規分布では、この規則により観測値のおよそ 0.7% が外れ値として示され、平均から約 2.7 標準偏差を超える値に相当します。
より極端な外れ値については、1.5 の代わりに 3 の倍率を用い、そのような点を遠い外れ値または極端な外れ値と呼ぶ用途もあります。1.5 × IQR フェンスの外側で、3 × IQR フェンスの内側にある点は、軽度の外れ値と呼ばれることがあります。この計算機は標準的な 1.5 × IQR ルールを使用しており、ほとんどの探索的分析に適しています。
外れ値検出は、データクリーニング、品質管理、統計モデリングにおける重要な手順です。製造業では、フェンス外の工程測定値が不良品や測定誤差を示す場合があります。金融では、極端なリターンがデータ誤り、市場の異常、または調査が必要な実際の出来事を示すことがあります。臨床研究では、生理学的に不可能な値が特定され、確認されます。機械学習では、外れ値に対処しないとモデル学習を歪める可能性があります。
統計的外れ値は必ずしも誤った値ではないことを覚えておくことが重要です。外れ値とは、IQR ルールに従ってデータの大部分から異常に離れている観測値にすぎません。その値が実際の極端な事象なのか、測定誤差なのか、データ入力ミスなのかを判断するには調査が必要です。
上限・下限フェンスの例
典型的なデータセットでフェンス法が外れ値をどのように特定するかを、手順付きの例で示します。
| データセット | フェンスと外れ値 | 解釈 |
|---|---|---|
| 10, 12, 14, 16, 18, 20, 100 | 下限:4 | 上限:28 | 外れ値:100 | Q1=13、Q3=19、IQR=6。下限フェンス = 13 − 9 = 4。上限フェンス = 19 + 9 = 28。値 100 は上限フェンスを超えているため、外れ値として示されます。 |
| 5, 7, 8, 9, 10, 11, 12, 14 | 下限:2.5 | 上限:16.5 | 外れ値なし | Q1=7.75、Q3=11.25、IQR=3.5。フェンスは 2.5 と 16.5 です。すべての値(5 から 14)はフェンス内にあるため、外れ値はありません。 |
| 2, 3, 5, 7, 8, 9, 10, 11, 12, 50 | 下限:−2.375 | 上限:18.625 | 外れ値:50 | Q1=5.5、Q3=10.75、IQR=5.25。上限フェンス = 10.75 + 7.875 = 18.625。値 50 は上限フェンスを大きく上回っており、明確な外れ値です。 |
フェンス計算機の使い方
- 入力欄にデータ値を入力し、カンマまたはスペースで区切ります。意味のある四分位数を計算するには、少なくとも 4 個の値が必要です。
- 「計算」をクリックして、Q1、Q3、IQR、下限フェンス(Q1 − 1.5 × IQR)、上限フェンス(Q3 + 1.5 × IQR)を計算します。
- 強調表示されたフェンス値を確認します。下限フェンスより下、または上限フェンスより上のデータ点は外れ値です。
- 「外れ値」セクションで、具体的に示された該当値を確認します。
- 「リセット」をクリックすると入力が消去され、新しいデータセットでやり直せます。
上限・下限フェンスのFAQ
上限フェンスと下限フェンスとは何ですか?
上限フェンスは Q3 + 1.5 × IQR、下限フェンスは Q1 − 1.5 × IQR です。これらのフェンスの外側にあるデータ点は外れ値とみなされます。フェンスは、おおむね釣鐘型の分布で期待される広がりを囲む範囲を作ります。
なぜ IQR の 1.5 倍を使うのですか?
1.5 という倍率は John Tukey が選んだもので、正規データにおける外れ値検出にほぼ最適でありながら、偽陽性率を低く保てるためです。正規分布では、およそ 0.7% の観測値を示します。倍率を 3 にすると、極端な外れ値だけを捕捉します。
IQR とは何で、どのように計算しますか?
IQR(四分位範囲)は Q3 から Q1 を引いた値で、データ中央 50% の広がりを表します。データを並べ替え、25パーセンタイル(Q1)と75パーセンタイル(Q3)を求めてから引き算します。IQR は上位 25% と下位 25% の値を無視するため、外れ値に強い指標です。
外れ値はデータが間違っているという意味ですか?
必ずしもそうではありません。外れ値とは、データの大部分に比べて異常に極端な観測値にすぎません。実際の極端な事象、測定誤差、またはデータ入力ミスの可能性があります。削除や修正を行う前に、各値を文脈に沿って調査する必要があります。
フェンスは箱ひげ図とどう関係しますか?
上限・下限フェンスは、標準的な Tukey の箱ひげ図におけるひげを定義します。箱は IQR(Q1 から Q3)を表し、箱の中の線は中央値、ひげはフェンス内にある最も極端なデータ点まで伸びます。ひげを超えた点は外れ値の点として個別に描画されます。
フェンス法は小さなデータセットに適していますか?
この方法は少なくとも 10 から 20 個の観測値がある場合に最もよく機能します。値が少ないと四分位数の推定が不正確になり、フェンスが信頼できないことがあります。非常に小さなデータセットでは、自動的なフェンス規則だけに頼らず、すべての値を目視で確認することを検討してください。