Калькулятор остатков - линейная регрессия

Проверка гипотез и статистический вывод

Этот инструмент вычисляет остатки простой линейной регрессионной модели. Введите свои точки X и Y, чтобы найти линию регрессии и проанализировать ошибки прогнозирования.

Калькулятор остатков - линейная регрессия
Проверка гипотез и статистический вывод

О калькуляторе остатков

Остаток — это разница между наблюдаемым значением и значением, предсказанным статистической моделью. В контексте простой линейной регрессии остаток для наблюдения i определяется как e_i = y_i − ŷ_i, где y_i — фактически наблюдаемое значение, а ŷ_i — значение, предсказанное линией регрессии наименьших квадратов ŷ = b₀ + b₁x. Метод наименьших квадратов (OLS) находит линию регрессии, минимизирующую сумму квадратов остатков (SSE = Σe_i²). Этот инструмент вычисляет наклон (b₁) и свободный член (b₀) по стандартным формулам: b₁ = Σ(xᵢ − x̄)(yᵢ − ȳ) / Σ(xᵢ − x̄)² и b₀ = ȳ − b₁x̄. Анализ остатков — фундаментальный этап регрессионной диагностики. После подгонки модели следует изучить остатки, чтобы проверить ключевые предположения: линейность (при построении остатков по x не должно быть систематического рисунка), гомоскедастичность (дисперсия остатков должна быть примерно постоянной), независимость (остатки не должны быть автокоррелированы) и нормальность (остатки должны следовать примерно нормальному распределению). График остатков — диаграмма рассеяния остатков по отношению к прогнозируемым значениям или к независимой переменной — является основным диагностическим инструментом. Случайное рассеяние остатков вокруг нуля без рисунка указывает на пригодность линейной модели. Систематические рисунки, такие как U-образная форма, говорят о нелинейности, воронкообразные формы — о гетероскедастичности, а кластеры — о наличии влиятельных наблюдений или выбросов. Коэффициент детерминации R² показывает, какая часть дисперсии y объясняется x. R² принимает значения от 0 (модель не объясняет дисперсию) до 1 (идеальное соответствие). Он вычисляется как 1 − SSE/SST, где SST = Σ(yᵢ − ȳ)². Этот калькулятор идеально подходит студентам, изучающим регрессию, аналитикам, быстро проверяющим качество данных, и исследователям, которые оценивают качество модели перед переходом к более сложному моделированию. Результаты включают полное уравнение регрессии, таблицу остатков по каждой точке, общий SSE и значение R² для немедленной интерпретации.

Примеры расчёта остатков

Эти примеры показывают, как вычисляются остатки из пар данных X и Y.

Данные X → YЛиния регрессии
X: 1,2,3,4,5 / Y: 2,4,5,4,5ŷ = 0.6x + 2.2R² = 0.60
X: 1,2,3,4 / Y: 2,4,6,8ŷ = 2x + 0R² = 1.00 (идеальное соответствие)
X: 1,2,3,4,5 / Y: 5,3,4,2,1ŷ = -0.9x + 5.7R² = 0.81

Как пользоваться этим калькулятором

  1. Введите независимые значения (X) в первое текстовое поле, разделяя их запятыми или пробелами.
  2. Введите соответствующие наблюдаемые значения (Y) во второе текстовое поле в том же порядке, что и X.
  3. Нажмите 'Рассчитать', чтобы построить линию наименьших квадратов и вычислить все остатки.
  4. Просмотрите таблицу остатков, чтобы определить наблюдения, далеко отклоняющиеся от линии регрессии.
  5. Оцените R², чтобы понять, насколько хорошо линейная модель подходит вашим данным.

Часто задаваемые вопросы

Что означает большой остаток?
Большой остаток означает, что наблюдаемое значение сильно отличается от предсказания регрессионной модели. Большие остатки могут указывать на выбросы, влиятельные наблюдения или на то, что линейная модель не является лучшим вариантом для ваших данных. Изучите такие точки, прежде чем делать выводы.
Почему в OLS-регрессии остатки суммируются в ноль?
Когда OLS-регрессия включает свободный член, сумма остатков всегда точно равна нулю. Это математическое свойство оценки наименьших квадратов: линия регрессии должна проходить через точку (x̄, ȳ), поэтому положительные и отрицательные отклонения взаимно компенсируются.
В чём разница между остатком и ошибкой?
Ошибка — это ненаблюдаемая разница между наблюдаемым значением и истинной популяционной линией регрессии. Остаток — это наблюдаемая разница между наблюдаемым значением и оценённой линией регрессии. На практике остатки используют для оценки и анализа ошибок.
Что R² говорит мне об остатках?
R² (коэффициент детерминации) — это доля общей дисперсии Y, объясняемая линейной регрессионной моделью. Высокий R² означает, что модель хорошо подходит данным, а остатки малы по сравнению с общей изменчивостью Y. Однако высокий R² сам по себе не гарантирует соблюдение предположений модели.
Как обнаружить гетероскедастичность в остатках?
Постройте график остатков по отношению к рассчитанным значениям. Если разброс остатков систематически увеличивается или уменьшается вместе с рассчитанными значениями (воронкообразный рисунок), присутствует гетероскедастичность. Статистически это подтверждают формальные тесты, такие как Бройша-Пагана или Уайта.
Поддерживает ли этот калькулятор множественную линейную регрессию?
Нет, этот калькулятор работает только с простой линейной регрессией с одной независимой переменной (X) и одной зависимой переменной (Y). Для множественной регрессии с двумя и более предикторами используйте статистическое ПО, такое как R, Python (statsmodels), Excel или SPSS.