Что такое функция регрессии. Основы анализа данных

Что такое функция регрессии. Основы анализа данных

После того как с помощью корреляционного анализа выявлено наличие статистических связей между переменными и оценена степень их тесноты, обычно переходят к математическому описанию конкретного вида зависимостей с использованием регрессионного анализа. С этой целью подбирают класс функций, связывающий результативный показатель у и аргументы х 1, х 2,…, х к отбирают наиболее информативные аргументы, вычисляют оценки неизвестных значений параметров уравнения связи и анализируют свойства полученного уравнения.

Функция f(х 1, х 2,…, х к) описывающая зависимость среднего значения результативного признака у от заданных значений аргументов, называется функцией (уравнением) регрессии. Термин «регрессия» (лат. -regression- отступление, возврат к чему-либо) введен английским психологом и антропологом Ф.Гальтоном и связан исключительно со спецификой одного из первых конкретных примеров, в котором это понятие было использовано. Так, обрабатывая статистические данные в связи с анализом наследственности роста, Ф. Гальтон нашел, что если отцы отклоняются от среднего роста всех отцов на x дюймов, то их сыновья отклоняются от среднего роста всех сыновей меньше, чем на x дюймов. Выявленная тенденция была названа «регрессией к среднему состоянию». С тех пор термин «регрессия» широко используется в статистической литературе, хотя во многих случаях он недостаточно точно характеризует понятие статистической зависимости.

Для точного описания уравнения регрессии необходимо знать закон распределения результативного показателя у. В статистической практике обычно приходится ограничиваться поиском подходящих аппроксимаций для неизвестной истинной функции регрессии, так как исследователь не располагает точным знанем условного закона распределения вероятностей анализируемого результатирующего показателя у при заданных значениях аргумента х.

Рассмотрим взаимоотношение между истинной f(х) = М(у1х), мо дельной регрессией? и оценкой y регрессии. Пусть результативный показатель у связан с аргументом х соотношением:

где - е случайная величина, имеющая нормальный закон распределения, причем Ме = 0 и D е = у 2 . Истинная функция регрессии в этом случае имеет вид: f (х) = М(у/х) = 2х 1.5 .

Предположим, что точный вид истинного уравнения регрессии нам не известен, но мы располагаем девятью наблюдениями над двумерной случайной величиной, связанной соотношением уi= 2х1,5+е, и представленной на рис. 1

Рисунок 1 - Взаимное расположение истиной f (х) и теоретической? модели регрессии

Расположение точек на рис. 1 позволяет ограничиться классом линейных зависимостей вида? = в 0 +в 1 x. С помощью метода наименьших квадратов найдем оценку уравнения регрессии у = b 0 +b 1 x. Для сравнения на рис. 1 приводятся графики истинной функции регрессии у=2х 1,5 , теоретической аппроксимирующей функции регрессии? = в 0 +в 1 x .

Поскольку мы ошиблись в выборе класса функции регрессии, а это достаточно часто встречается в практике статистических исследований, то наши статистические выводы и оценки окажутся ошибочными. И как бы мы ни увеличивали объем наблюдений, наша выборочная оценка у не будет близка к истинной функции регрессии f (х). Если бы мы правильно выбрали класс функций регрессии, то неточность в описании f(х) с помощью? объяснялась бы только ограниченностью выборки.

С целью наилучшего восстановления по исходным статистическим данным условного значения результативного показателя у(х) и неизвестной функции регрессии f(х) = М(у/х) наиболее часто используют следующие критерии адекватности (функции потерь).

Метод наименьших квадратов. Согласно ему минимизируется квадрат отклонения наблюдаемых значений результативного показателя у, (i = 1,2,..., п) от модельных значений,? = f(х i), где, х i - значение вектора аргументов в i-м наблюдении: ?(y i - f(х i) 2 > min. Получаемая регрессия называется среднеквадратической.

Метод наименьших модулей. Согласно ему минимизируется сумма абсолютных отклонений наблюдаемых значений результативного показателя от модульных значений. И получаем,? = f(х i), среднеабсолютную медианную регрессию? |y i - f(х i)| >min.

Регрессионным анализом называется метод статистического анализа зависимости случайной величины у от переменных х j = (j=1,2,..., к), рассматриваемых в регрессионном анализе как неслучайные величины, независимо от истинного закона распределения х j.

Обычно предполагается, что случайная величина у имеет нормальный закон распределения с условным математическим ожиданием у, являющимся функцией от аргументов х/ (/= 1, 2,..., к) и постоянной, не зависящей от аргументов, дисперсией у 2 .

В общем линейная модель регрессионного анализа имеет вид:

Y = Уk j=0 вj цj (x1 , x2 . . .. ,xk )+Э

где ц j - некоторая функция его переменных - x 1 , x 2 . . .. ,x k , Э - случайная величина с нулевым математическим ожиданием и дисперсией у 2 .

В регрессионном анализе вид уравнения регрессии выбирают исходя из физической сущности изучаемого явления и результатов наблюдения.

Оценки неизвестных параметров уравнения регрессии находят обычно методом наименьших квадратов. Ниже остановимся более подробно на этой проблеме.

Двумерное линейное уравнение регрессии. Пусть на основании анализа исследуемого явления предполагается, что в «среднем» у есть линейная функция от х, т. е. имеется уравнение регрессии

у=М(у/х)=в 0 + в 1 х)

где М(у1х) - условное математическое ожидание случайной величины у при заданном х; в 0 и в 1 - неизвестные параметры генеральной совокупности, которые надлежит оценить по результатам выборочных наблюдений.

Предположим, что для оценки параметров в 0 и в 1 из двухмерной генеральной совокупности (х, у) взята выборка объемом n, где (х, у,) результат i-го наблюдения (i = 1, 2,..., n). В этом случае модель регрессионного анализа имеет вид:

y j = в 0 + в 1 x+е j .

где е j .- независимые нормально распределенные случайные величины с нулевым математическим ожиданием и дисперсией у 2 , т. е. М е j . = 0;

D е j .= у 2 для всех i = 1, 2,..., n.

Согласно методу наименьших квадратов в качестве оценок неизвестных параметров в 0 и в 1 следует брать такие значения выборочных характеристик b 0 и b 1 , которые минимизируют сумму квадратов отклонений значений результативного признака у i от условного математического ожидания? i

Методику определения влияния характеристик маркетинга на прибыль предприятия рассмотрим на примере семнадцати типичных предприятий, имеющих средние размеры и показатели хозяйственной деятельности.

При решении задачи учитывались следующие характеристики, выявленные в результате анкетного опроса как наиболее значимые (важные):

* инновационная деятельность предприятия;

* планирование ассортимента производимой продукции;

* формирование ценовой политики;

* взаимоотношения с общественностью;

* система сбыта;

* система стимулирования работников.

На основе системы сравнений по факторам были построены квадратные матрицы смежности, в которых вычислялись значения относительных приоритетов по каждому фактору: инновационная деятельность предприятия, планирование ассортимента производимой продукции, формирование ценовой политики, реклама, взаимоотношения с общественностью, система сбыта, система стимулирования работников.

Оценки приоритетов по фактору «взаимоотношения с общественностью» получены в результате анкетирования специалистов предприятия. Приняты следующие обозначения: > (лучше), > (лучше или одинаково), = (одинаково), < (хуже или одинаково), <

Далее решалась задача комплексной оценки уровня маркетинга предприятия. При расчете показателя была определена значимость (вес) рассмотренных частных признаков и решалась задача линейного свертывания частных показателей. Обработка данных производилась по специально разработанным программам.

Далее рассчитывается комплексная оценка уровня маркетинга предприятия -- коэффициент маркетинга, который вносится в таблице 1. Кроме того, в названую таблицу включены показатели, характеризующие предприятие в целом. Данные в таблице будут использованы для проведения регрессионного анализа. Результативным признаком является прибыль. В качестве факторных признаков наряду с коэффициентом маркетинга использованы следующие показатели: объем валовой продукции, стоимость основных фондов, численность работников, коэффициент специализации.

Таблица 1 - Исходные данные для регрессионного анализа


По данным таблицы и на основе факторов с наиболее существенными значениями коэффициентов корреляции были построены регрессионные функции зависимости прибыли от факторов.

Уравнение регрессии в нашем случае примет вид:

О количественном влиянии рассмотренных выше факторов на величину прибыли говорят коэффициенты уравнения регрессии. Они показывают, на сколько тысяч рублей изменяется ее величина при изменении факторного признака на одну единицу. Как следует из уравнения, увеличение коэффициента комплекса маркетинга на одну единицу дает прирост прибыли на 1547,7 тыс. руб. Это говорит о том, что в совершенствовании маркетинговой деятельности кроется огромный потенциал улучшения экономических показателей предприятий.

При исследовании эффективности маркетинга наиболее интересным и самым важным факторным признаком является фактор Х5 -- коэффициент маркетинга. В соответствии с теорией статистики достоинство имеющегося уравнения множественной регрессии является возможность оценивать изолированное влияние каждого фактора, в том числе фактора маркетинга.

Результаты проведенного регрессионного анализа имеют и более широкое применение, чем для расчета параметров уравнения. Критерий отнесения (КЭф,) предприятий к относительно лучшим или относительно худшим основан на относительном показателе результата:

где Y фактi - фактическая величина i-го предприятия, тыс. руб.;

Y расчi -величина прибыли i-го предприятия, полученная расчетным путем по уравнению регрессии

В терминах решаемой задачи величина носит название «коэффициент эффективности». Деятельность предприятия можно признать эффективной в тех случаях, когда величина коэффициента больше единицы. Это означает, что фактическая прибыль больше прибыли, усредненной по выборке.

Фактические и расчетные значения прибыли представлены в табл. 2.

Таблица 2 - Анализ результативного признака в регрессионной модели

Анализ таблицы показывает, что в нашем случае деятельность предприятий 3, 5, 7, 9, 12, 14, 15, 17 за рассматриваемый период можно признать успешной.

В своих работах, датированных ещё 1908 годом. Он описал его на примере работы агента, осуществляющего продажу недвижимости. В своих записях специалист по торговле домами вёл учёт широкого спектра исходных данных каждого конкретного строения. По результатам торгов определялось, какой фактор имел наибольшее влияние на цену сделки.

Анализ большого количества сделок дал интересные результаты. На конечную стоимость оказывали влияние множество факторов, иногда приводя к парадоксальным выводам и даже к явным «выбросам», когда дом с высоким изначальным потенциалом продавался по заниженному ценовому показателю.

Вторым примером применения подобного анализа приведена работа которому было доверено определение вознаграждения сотрудникам. Сложность задачи заключалась в том, что требовалась не раздача фиксированной суммы каждому, а строгое соответствие её величины конкретно выполненной работе. Появление множества задач, имеющих практически сходный вариант решения, потребовало более детального их изучения на математическом уровне.

В существенное место было отведено под раздел «регрессионный анализ», в нём объединились практические методы, используемые для исследования зависимостей, подпадающих под понятие регрессионных. Эти взаимосвязи наблюдаются между данными, полученными в ходе статистических исследований.

Среди множества решаемых задач основными ставит перед собой три цели: определение для уравнения регрессии общего вида; построение оценок параметров, являющихся неизвестными, которые входят в состав уравнения регрессии; проверка статистических регрессионных гипотез. В ходе изучения связи, возникающей между парой величин, полученных в результате экспериментальных наблюдений и составляющих ряд (множество) типа (x1, y1), ..., (xn, yn), опираются на положения теории регрессии и предполагают, что для одной величины Y наблюдается определённое вероятностное распределение, при том, что другое X остаётся фиксированным.

Результат Y зависит от значения переменной X, зависимость эта может определяться различными закономерностями, при этом на точность полученных результатов оказывает влияние характер наблюдений и цель анализа. Экспериментальная модель основывается на определённых допущениях, которые являются упрощёнными, но правдоподобными. Основным условием является то, что параметр X является величиной контролируемой. Его значения задаются до начала эксперимента.

Если в ходе эксперимента используется пара неконтролируемых величин XY, то регрессионный анализ осуществляется одним и тем же способом, но для интерпретации результатов, в ходе которой изучается связь исследуемых случайных величин, применяются методы Методы математической статистики не являются отвлеченной темой. Они находят себе применение в жизни в самых различных сферах деятельности человека.

В научной литературе для определения выше указанного метода нашёл широкое использование термин линейный регрессионный анализ. Для переменной X применяют термин регрессор или предиктор, а зависимые Y-переменные ещё называют критериальными. В данной терминологии отражается лишь математическая зависимость переменных, но никак не следственно-причинные отношения.

Регрессионный анализ служит наиболее распространённым методом, который используется в ходе обработки результатов самых различных наблюдений. Физические и биологические зависимости изучаются по средствам данного метода, он реализован и в экономике, и в технике. Масса других областей используют модели регрессионного анализа. Дисперсионный анализ, статистический анализ многомерный тесно сотрудничают с данным способом изучения.

Регрессионный анализ исследует зависимость определенной величины от другой величины или нескольких других величин. Регрессионный анализ применяется преимущественно в среднесрочном прогнозировании, а также в долгосрочном прогнозировании. Средне- и долгосрочный периоды дают возможность установления изменений в среде бизнеса и учета влияний этих изменений на исследуемый показатель.

Для осуществления регрессионного анализа необходимо:

    наличие ежегодных данных по исследуемым показателям,

    наличие одноразовых прогнозов, т.е. таких прогнозов, которые не поправляются с поступлением новых данных.

Регрессионный анализ обычно проводится для объектов, имеющих сложную, многофакторную природу, таких как, объем инвестиций, прибыль, объемы продаж и др.

При нормативном методе прогнозирования определя­ются пути и сроки достижения возможных состояний явле­ния, принимаемых в качестве цели. Речь идет о прогнози­ровании достижения желательных состояний явления на основе заранее заданных норм, идеалов, стимулов и целей. Такой прогноз отвечает на вопрос: какими путями можно достичь желаемого? Нормативный метод чаще применяется для программ­ных или целевых прогнозов. Используются как количествен­ное выражение норматива, так и определенная шкала воз­можностей оценочной функции

В случае использования количественного выражения, например физиологических и рациональных норм потреб­ления отдельных продовольственных и непродовольствен­ных товаров, разработанных специалистами для различных групп населения, можно определить уровень потребления этих товаров на годы, предшествующие достижению ука­занной нормы. Такие расчеты называют интерполяцией. Интерполяция - это способ вычисления показателей, недо­стающих в динамическом ряду явления, на основе установ­ленной взаимосвязи. Принимая фактическое значение по­казателя и значение его нормативов за крайние члены ди­намического ряда, можно определить величины значений внутри этого ряда. Поэтому интерполяцию считают норма­тивным методом. Ранее приведенная формула (4), исполь­зуемая в экстраполяции, может применяться в интерполя­ции, где у п будет характеризовать уже не фактические данные, а норматив показателя.

В случае использования в нормативном методе шкалы (поля, спектра) возможностей оценочной функции, т. е. фун­кции распределения предпочтительности, указывают при­мерно следующую градацию: нежелательно - менее же­лательно - более желательно - наиболее желательно - оптимально (норматив).

Нормативный метод прогнозирования помогает выра­ботать рекомендации по повышению уровня объективнос­ти, следовательно, эффективности решений.

Моделирование , пожалуй, самый сложный метод про­гнозирования. Математическое моделирование означает опи­сание экономического явления посредством математичес­ких формул, уравнений и неравенств. Математической ап­парат должен достаточно точно отражать прогнозный фон, хотя полностью отразить всю глубину и сложность прогно­зируемого объекта довольно трудно. Термин "модель" об­разован от латинского слова modelus, что означает "мера". Поэтому моделирование правильнее было бы считать не методом прогнозирования, а методом изучения аналогично­го явления на модели.

В широком смысле моделями называются заместители объекта исследования, находящиеся с ним в таком сход­стве, которое позволяет получить новое знание об объек­те. Модель следует рассматривать как математическое опи­сание объекта. В этом случае модель определяется как яв­ление (предмет, установка), которое находиться в некотором соответствии с изучаемым объектом и может его замещать в процессе исследования, представляя информацию об объекте.

При более узком понимании модели она рассматрива­ется как объект прогнозирования, ее исследование позво­ляет получить информацию о возможных состояниях объек­та в будущем и путях достижения этих состояний. В этом случае целью прогнозной модели является получение ин­формации не об объекте вообще, а только о его будущих состояниях. Тогда при построении модели бывает невозмож­но провести прямую проверку ее соответствия объекту, так как модель представляет собой только его будущее состояние, а сам объект в настоящее время может отсут­ствовать или иметь иное существование.

Модели могут быть материальными и идеальными.

В экономике используются идеальные модели. Наиболее совершенной идеальной моделью количественного описания социально-экономического (экономического) явления является математическая модель, использующая числа, формулы, уравнения, алгоритмы или графическое представление. С помощью экономических моделей определяют:

    зависимость между различными экономическими по­казателями;

    различного рода ограничения, накладываемые на по­казатели;

    критерии, позволяющие оптимизировать процесс.

Содержательное описание объекта может быть пред­ставлено в виде его формализованной схемы, которая ука­зывает, какие параметры и исходную информацию нужно собрать, чтобы вычислить искомые величины. Математичес­кая модель в отличие от формализованной схемы содержит конкретные числовые данные, характеризующие объект Разработка математической модели во многом зависит от представления прогнозиста о сущности моделируемого про­цесса. На основе своих представлений он выдвигает рабочую гипотезу, с помощью которой создается аналитическая за­пись модели в виде формул, уравнений и неравенств. В ре­зультате решения системы уравнений получают конкретные параметры функции, которыми описывается изменение ис­комых переменных величин во времени.

Порядок и последовательность работы как элемент организации прогнозирования определяется в зависимости от применяемого метода прогнозирования. Обычно эта ра­бота выполняется в несколько этапов.

1-й этап - прогнозная ретроспекция, т. е. установле­ние объекта прогнозирования и прогнозного фона. Работа на первом этапе выполняется в такой последовательности:

    формирование описания объекта в прошлом, что включает предпрогнозный анализ объекта, оценку его параметров, их значимости и взаимных связей,

    определение и оценка источников информации, по­рядка и организации работы с ними, сбор и разме­щение ретроспективной информации;

    постановка задач исследования.

Выполняя задачи прогнозной ретроспекции, прогнозис­ты исследуют историю развития объекта и прогнозного фона с целью получения их систематизированного описания.

2-й этап - прогнозный диагноз, в ходе которого ис­следуется систематизированное описание объекта прогно­зирования и прогнозного фона с целью выявления тенден­ций их развития и выбора моделей и методов прогнозиро­вания. Работа выполняется в такой последовательности:

    разработка модели объекта прогноза, в том числе формализованное описание объекта, проверка сте­пени адекватности модели объекту;

    выбор методов прогнозирования (основного и вспо­могательных), разработка алгоритма и рабочих про­грамм.

3-й этап - протекция, т. е. процесс обширной разра­ботки прогноза, в том числе: 1) расчет прогнозируемых па­раметров на заданный период упреждения; 2) синтез от­дельных составляющих прогноза.

4-й этап - оценка прогноза, в том числе его верифи­кация, т. е. определение степени достоверности, точности и обоснованности.

В ходе проспекции и оценки на основании предыдущих этапов решаются задачи прогноза и его оценка.

Указанная этапность является примерной и зависит от основного метода прогнозирования.

Результаты прогноза оформляются в виде справки, док­лада или иного материала и представляются заказчику.

В прогнозировании может быть указана величина отклонения прогноза от действительного состояния объекта, которая называется ошибкой прогноза, которая рассчитывается по формуле:

;
;
. (9.3)

Источники ошибок в прогнозировании

Основными источниками могут быть:

1. Простое перенесение (экстраполяция) данных из прошлого в будущее (например, отсутствие у фирмы иных вариантов прогноза, кроме 10% роста продаж).

2. Невозможность точно определить вероятность события и его воздействия на исследуемый объект.

3. Непредвиденные трудности (разрушительные события), влияющие на осуществление плана, например, внезапное увольнение начальника отдела сбыта.

В целом точность прогнозирования повышается по мере накопления опыта прогнозирования и отработки его методов.

В статистическом моделировании регрессионный анализ представляет собой исследования, применяемые с целью оценки взаимосвязи между переменными. Этот математический метод включает в себя множество других методов для моделирования и анализа нескольких переменных, когда основное внимание уделяется взаимосвязи между зависимой переменной и одной или несколькими независимыми. Говоря более конкретно, регрессионный анализ помогает понять, как меняется типичное значение зависимой переменной, если одна из независимых переменных изменяется, в то время как другие независимые переменные остаются фиксированными.

Во всех случаях целевая оценка является функцией независимых переменных и называется функцией регрессии. В регрессионном анализе также представляет интерес характеристика изменения зависимой переменной как функции регрессии, которая может быть описана с помощью распределения вероятностей.

Задачи регрессионного анализа

Данный статистический метод исследования широко используется для прогнозирования, где его использование имеет существенное преимущество, но иногда это может приводить к иллюзии или ложным отношениям, поэтому рекомендуется аккуратно его использовать в указанном вопросе, поскольку, например, корреляция не означает причинно-следственной связи.

Разработано большое число методов для проведения регрессионного анализа, такие как линейная и обычная регрессии по методу наименьших квадратов, которые являются параметрическими. Их суть в том, что функция регрессии определяется в терминах конечного числа неизвестных параметров, которые оцениваются из данных. Непараметрическая регрессия позволяет ее функции лежать в определенном наборе функций, которые могут быть бесконечномерными.

Как статистический метод исследования, регрессионный анализ на практике зависит от формы процесса генерации данных и от того, как он относится к регрессионному подходу. Так как истинная форма процесса данных, генерирующих, как правило, неизвестное число, регрессионный анализ данных часто зависит в некоторой степени от предположений об этом процессе. Эти предположения иногда проверяемы, если имеется достаточное количество доступных данных. Регрессионные модели часто бывают полезны даже тогда, когда предположения умеренно нарушены, хотя они не могут работать с максимальной эффективностью.

В более узком смысле регрессия может относиться конкретно к оценке непрерывных переменных отклика, в отличие от дискретных переменных отклика, используемых в классификации. Случай непрерывной выходной переменной также называют метрической регрессией, чтобы отличить его от связанных с этим проблем.

История

Самая ранняя форма регрессии - это всем известный метод наименьших квадратов. Он был опубликован Лежандром в 1805 году и Гауссом в 1809. Лежандр и Гаусс применили метод к задаче определения из астрономических наблюдений орбиты тел вокруг Солнца (в основном кометы, но позже и вновь открытые малые планеты). Гаусс опубликовал дальнейшее развитие теории наименьших квадратов в 1821 году, включая вариант теоремы Гаусса-Маркова.

Термин «регресс» придумал Фрэнсис Гальтон в XIX веке, чтобы описать биологическое явление. Суть была в том, что рост потомков от роста предков, как правило, регрессирует вниз к нормальному среднему. Для Гальтона регрессия имела только этот биологический смысл, но позже его работа была продолжена Удни Йолей и Карлом Пирсоном и выведена к более общему статистическому контексту. В работе Йоля и Пирсона совместное распределение переменных отклика и пояснительных считается гауссовым. Это предположение было отвергнуто Фишером в работах 1922 и 1925 годов. Фишер предположил, что условное распределение переменной отклика является гауссовым, но совместное распределение не должны быть таковым. В связи с этим предположение Фишера ближе к формулировке Гаусса 1821 года. До 1970 года иногда уходило до 24 часов, чтобы получить результат регрессионного анализа.

Методы регрессионного анализа продолжают оставаться областью активных исследований. В последние десятилетия новые методы были разработаны для надежной регрессии; регрессии с участием коррелирующих откликов; методы регрессии, вмещающие различные типы недостающих данных; непараметрической регрессии; байесовские методов регрессии; регрессии, в которых переменные прогнозирующих измеряются с ошибкой; регрессии с большей частью предикторов, чем наблюдений, а также причинно-следственных умозаключений с регрессией.

Регрессионные модели

Модели регрессионного анализа включают следующие переменные:

  • Неизвестные параметры, обозначенные как бета, которые могут представлять собой скаляр или вектор.
  • Независимые переменные, X.
  • Зависимые переменные, Y.

В различных областях науки, где осуществляется применение регрессионного анализа, используются различные термины вместо зависимых и независимых переменных, но во всех случаях регрессионная модель относит Y к функции X и β.

Приближение обычно оформляется в виде E (Y | X) = F (X, β). Для проведения регрессионного анализа должен быть определен вид функции f. Реже она основана на знаниях о взаимосвязи между Y и X, которые не полагаются на данные. Если такое знание недоступно, то выбрана гибкая или удобная форма F.

Зависимая переменная Y

Предположим теперь, что вектор неизвестных параметров β имеет длину k. Для выполнения регрессионного анализа пользователь должен предоставить информацию о зависимой переменной Y:

  • Если наблюдаются точки N данных вида (Y, X), где N < k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Если наблюдаются ровно N = K, а функция F является линейной, то уравнение Y = F (X, β) можно решить точно, а не приблизительно. Это сводится к решению набора N-уравнений с N-неизвестными (элементы β), который имеет единственное решение до тех пор, пока X линейно независим. Если F является нелинейным, решение может не существовать, или может существовать много решений.
  • Наиболее распространенной является ситуация, где наблюдается N > точки к данным. В этом случае имеется достаточно информации в данных, чтобы оценить уникальное значение для β, которое наилучшим образом соответствует данным, и модель регрессии, когда применение к данным можно рассматривать как переопределенную систему в β.

В последнем случае регрессионный анализ предоставляет инструменты для:

  • Поиска решения для неизвестных параметров β, которые будут, например, минимизировать расстояние между измеренным и предсказанным значением Y.
  • При определенных статистических предположениях, регрессионный анализ использует избыток информации для предоставления статистической информации о неизвестных параметрах β и предсказанные значения зависимой переменной Y.

Необходимое количество независимых измерений

Рассмотрим модель регрессии, которая имеет три неизвестных параметра: β 0 , β 1 и β 2 . Предположим, что экспериментатор выполняет 10 измерений в одном и том же значении независимой переменной вектора X. В этом случае регрессионный анализ не дает уникальный набор значений. Лучшее, что можно сделать, оценить среднее значение и стандартное отклонение зависимой переменной Y. Аналогичным образом измеряя два различных значениях X, можно получить достаточно данных для регрессии с двумя неизвестными, но не для трех и более неизвестных.

Если измерения экспериментатора проводились при трех различных значениях независимой переменной вектора X, то регрессионный анализ обеспечит уникальный набор оценок для трех неизвестных параметров в β.

В случае общей линейной регрессии приведенное выше утверждение эквивалентно требованию, что матрица X Т X обратима.

Статистические допущения

Когда число измерений N больше, чем число неизвестных параметров k и погрешности измерений ε i , то, как правило, распространяется затем избыток информации, содержащейся в измерениях, и используется для статистических прогнозов относительно неизвестных параметров. Этот избыток информации называется степенью свободы регрессии.

Основополагающие допущения

Классические предположения для регрессионного анализа включают в себя:

  • Выборка является представителем прогнозирования логического вывода.
  • Ошибка является случайной величиной со средним значением нуля, который является условным на объясняющих переменных.
  • Независимые переменные измеряются без ошибок.
  • В качестве независимых переменных (предикторов) они линейно независимы, то есть не представляется возможным выразить любой предсказатель в виде линейной комбинации остальных.
  • Ошибки являются некоррелированными, то есть ковариационная матрица ошибок диагоналей и каждый ненулевой элемент являются дисперсией ошибки.
  • Дисперсия ошибки постоянна по наблюдениям (гомоскедастичности). Если нет, то можно использовать метод взвешенных наименьших квадратов или другие методы.

Эти достаточные условия для оценки наименьших квадратов обладают требуемыми свойствами, в частности эти предположения означают, что оценки параметров будут объективными, последовательными и эффективными, в особенности при их учете в классе линейных оценок. Важно отметить, что фактические данные редко удовлетворяют условиям. То есть метод используется, даже если предположения не верны. Вариация из предположений иногда может быть использована в качестве меры, показывающей, насколько эта модель является полезной. Многие из этих допущений могут быть смягчены в более продвинутых методах. Отчеты статистического анализа, как правило, включают в себя анализ тестов по данным выборки и методологии для полезности модели.

Кроме того, переменные в некоторых случаях ссылаются на значения, измеренные в точечных местах. Там могут быть пространственные тенденции и пространственные автокорреляции в переменных, нарушающие статистические предположения. Географическая взвешенная регрессия - единственный метод, который имеет дело с такими данными.

В линейной регрессии особенностью является то, что зависимая переменная, которой является Y i , представляет собой линейную комбинацию параметров. Например, в простой линейной регрессии для моделирования n-точек используется одна независимая переменная, x i , и два параметра, β 0 и β 1 .

При множественной линейной регрессии существует несколько независимых переменных или их функций.

При случайной выборке из популяции ее параметры позволяют получить образец модели линейной регрессии.

В данном аспекте популярнейшим является метод наименьших квадратов. С помощью него получают оценки параметров, которые минимизируют сумму квадратов остатков. Такого рода минимизация (что характерно именно линейной регрессии) этой функции приводит к набору нормальных уравнений и набору линейных уравнений с параметрами, которые решаются с получением оценок параметров.

При дальнейшем предположении, что ошибка популяции обычно распространяется, исследователь может использовать эти оценки стандартных ошибок для создания доверительных интервалов и проведения проверки гипотез о ее параметрах.

Нелинейный регрессионный анализ

Пример, когда функция не является линейной относительно параметров, указывает на то, что сумма квадратов должна быть сведена к минимуму с помощью итерационной процедуры. Это вносит много осложнений, которые определяют различия между линейными и нелинейными методами наименьших квадратов. Следовательно, и результаты регрессионного анализа при использовании нелинейного метода порой непредсказуемы.

Расчет мощности и объема выборки

Здесь, как правило, нет согласованных методов, касающихся числа наблюдений по сравнению с числом независимых переменных в модели. Первое правило было предложено Доброй и Хардином и выглядит как N = t^n, где N является размер выборки, n - число независимых переменных, а t есть числом наблюдений, необходимых для достижения желаемой точности, если модель имела только одну независимую переменную. Например, исследователь строит модель линейной регрессии с использованием набора данных, который содержит 1000 пациентов (N). Если исследователь решает, что необходимо пять наблюдений, чтобы точно определить прямую (м), то максимальное число независимых переменных, которые модель может поддерживать, равно 4.

Другие методы

Несмотря на то что параметры регрессионной модели, как правило, оцениваются с использованием метода наименьших квадратов, существуют и другие методы, которые используются гораздо реже. К примеру, это следующие методы:

  • Байесовские методы (например, байесовский метод линейной регрессии).
  • Процентная регрессия, использующаяся для ситуаций, когда снижение процентных ошибок считается более целесообразным.
  • Наименьшие абсолютные отклонения, что является более устойчивым в присутствии выбросов, приводящих к квантильной регрессии.
  • Непараметрическая регрессия, требующая большого количества наблюдений и вычислений.
  • Расстояние метрики обучения, которая изучается в поисках значимого расстояния метрики в заданном входном пространстве.

Программное обеспечение

Все основные статистические пакеты программного обеспечения выполняются с помощью наименьших квадратов регрессионного анализа. Простая линейная регрессия и множественный регрессионный анализ могут быть использованы в некоторых приложениях электронных таблиц, а также на некоторых калькуляторах. Хотя многие статистические пакеты программного обеспечения могут выполнять различные типы непараметрической и надежной регрессии, эти методы менее стандартизированы; различные программные пакеты реализуют различные методы. Специализированное регрессионное программное обеспечение было разработано для использования в таких областях как анализ обследования и нейровизуализации.

В предыдущих заметках предметом анализа часто становилась отдельная числовая переменная, например, доходность взаимных фондов, время загрузки Web-страницы или объем потребления безалкогольных напитков. В настоящей и следующих заметках мы рассмотрим методы предсказания значений числовой переменной в зависимости от значений одной или нескольких других числовых переменных.

Материал будет проиллюстрирован сквозным примером. Прогнозирование объема продаж в магазине одежды. Сеть магазинов уцененной одежды Sunflowers на протяжении 25 лет постоянно расширялась. Однако в настоящее время у компании нет систематического подхода к выбору новых торговых точек. Место, в котором компания собирается открыть новый магазин, определяется на основе субъективных соображений. Критериями выбора являются выгодные условия аренды или представления менеджера об идеальном местоположении магазина. Представьте, что вы - руководитель отдела специальных проектов и планирования. Вам поручили разработать стратегический план открытия новых магазинов. Этот план должен содержать прогноз годового объема продаж во вновь открываемых магазинах. Вы полагаете, что торговая площадь непосредственно связана с объемом выручки, и хотите учесть этот факт в процессе принятия решения. Как разработать статистическую модель, позволяющую прогнозировать годовой объем продаж на основе размера нового магазина?

Как правило, для предсказания значений переменной используется регрессионный анализ. Его цель - разработать статистическую модель, позволяющую предсказывать значения зависимой переменной, или отклика, по значениям, по крайней мере одной, независимой, или объясняющей, переменной. В настоящей заметке мы рассмотрим простую линейную регрессию - статистический метод, позволяющий предсказывать значения зависимой переменной Y по значениям независимой переменной X . В последующих заметках будет описана модель множественной регрессии, предназначенная для предсказания значений независимой переменной Y по значениям нескольких зависимых переменных (Х 1 , Х 2 , …, X k ).

Скачать заметку в формате или , примеры в формате

Виды регрессионных моделей

где ρ 1 – коэффициент автокорреляции; если ρ 1 = 0 (нет автокорреляции), D ≈ 2; если ρ 1 ≈ 1 (положительная автокорреляции), D ≈ 0; если ρ 1 = -1 (отрицательная автокорреляции), D ≈ 4.

На практике применение критерия Дурбина-Уотсона основано на сравнении величины D с критическими теоретическими значениями d L и d U для заданного числа наблюдений n , числа независимых переменных модели k (для простой линейной регрессии k = 1) и уровня значимости α. Если D < d L , гипотеза о независимости случайных отклонений отвергается (следовательно, присутствует положительная автокорреляция); если D > d U , гипотеза не отвергается (то есть автокорреляция отсутствует); если d L < D < d U , нет достаточных оснований для принятия решения. Когда расчётное значение D превышает 2, то с d L и d U сравнивается не сам коэффициент D , а выражение (4 – D ).

Для вычисления статистики Дурбина-Уотсона в Excel обратимся к нижней таблице на рис. 14 Вывод остатка . Числитель в выражении (10) вычисляется с помощью функции =СУММКВРАЗН(массив1;массив2), а знаменатель =СУММКВ(массив) (рис. 16).

Рис. 16. Формулы расчета статистики Дурбина-Уотсона

В нашем примере D = 0,883. Основной вопрос заключается в следующем - какое значение статистики Дурбина-Уотсона следует считать достаточно малым, чтобы сделать вывод о существовании положительной автокорреляции? Необходимо соотнести значение D с критическими значениями (d L и d U ), зависящими от числа наблюдений n и уровня значимости α (рис. 17).

Рис. 17. Критические значения статистики Дурбина-Уотсона (фрагмент таблицы)

Таким образом, в задаче об объеме продаж в магазине, доставляющем товары на дом, существуют одна независимая переменная (k = 1), 15 наблюдений (n = 15) и уровень значимости α = 0,05. Следовательно, d L = 1,08 и d U = 1,36. Поскольку D = 0,883 < d L = 1,08, между остатками существует положительная автокорреляция, метод наименьших квадратов применять нельзя.

Проверка гипотез о наклоне и коэффициенте корреляции

Выше регрессия применялась исключительно для прогнозирования. Для определения коэффициентов регрессии и предсказания значения переменной Y при заданной величине переменной X использовался метод наименьших квадратов. Кроме того, мы рассмотрели среднеквадратичную ошибку оценки и коэффициент смешанной корреляции. Если анализ остатков подтверждает, что условия применимости метода наименьших квадратов не нарушаются, и модель простой линейной регрессии является адекватной, на основе выборочных данных можно утверждать, что между переменными в генеральной совокупности существует линейная зависимость.

Применение t -критерия для наклона. Проверяя, равен ли наклон генеральной совокупности β 1 нулю, можно определить, существует ли статистически значимая зависимость между переменными X и Y . Если эта гипотеза отклоняется, можно утверждать, что между переменными X и Y существует линейная зависимость. Нулевая и альтернативная гипотезы формулируются следующим образом: Н 0: β 1 = 0 (нет линейной зависимости), Н1: β 1 ≠ 0 (есть линейная зависимость). По определению t -статистика равна разности между выборочным наклоном и гипотетическим значением наклона генеральной совокупности, деленной на среднеквадратичную ошибку оценки наклона:

(11) t = (b 1 β 1 ) / S b 1

где b 1 – наклон прямой регрессии по выборочным данным, β1 – гипотетический наклон прямой генеральной совокупности, , а тестовая статистика t имеет t -распределение с n – 2 степенями свободы.

Проверим, существует ли статистически значимая зависимость между размером магазина и годовым объемом продаж при α = 0,05. t -критерий выводится наряду с другими параметрами при использовании Пакета анализа (опция Регрессия ). Полностью результаты работы Пакета анализа приведены на рис. 4, фрагмент, относящийся к t-статистике – на рис. 18.

Рис. 18. Результаты применения t

Поскольку число магазинов n = 14 (см. рис.3), критическое значение t -статистики при уровне значимости α = 0,05 можно найти по формуле: t L =СТЬЮДЕНТ.ОБР(0,025;12) = –2,1788, где 0,025 – половина уровня значимости, а 12 = n – 2; t U =СТЬЮДЕНТ.ОБР(0,975;12) = +2,1788.

Поскольку t -статистика = 10,64 > t U = 2,1788 (рис. 19), нулевая гипотеза Н 0 отклоняется. С другой стороны, р -значение для Х = 10,6411, вычисляемое по формуле =1-СТЬЮДЕНТ.РАСП(D3;12;ИСТИНА), приближенно равно нулю, поэтому гипотеза Н 0 снова отклоняется. Тот факт, что р -значение почти равно нулю, означает, что если бы между размерами магазинов и годовым объемом продаж не существовало реальной линейной зависимости, обнаружить ее с помощью линейной регрессии было бы практически невозможно. Следовательно, между средним годовым объемом продаж в магазинах и их размером существует статистически значимая линейная зависимость.

Рис. 19. Проверка гипотезы о наклоне генеральной совокупности при уровне значимости, равном 0,05, и 12 степенях свободы

Применение F -критерия для наклона. Альтернативным подходом к проверке гипотез о наклоне простой линейной регрессии является использование F -критерия. Напомним, что F -критерий применяется для проверки отношения между двумя дисперсиями (подробнее см. ). При проверке гипотезы о наклоне мерой случайных ошибок является дисперсия ошибки (сумма квадратов ошибок, деленная на количество степеней свободы), поэтому F -критерий использует отношение дисперсии, объясняемой регрессией (т.е. величины SSR , деленной на количество независимых переменных k ), к дисперсии ошибок (MSE = S Y X 2 ).

По определению F -статистика равна среднему квадрату отклонений, обусловленных регрессией (MSR), деленному на дисперсию ошибки (MSE): F = MSR / MSE , где MSR = SSR / k , MSE = SSE /(n – k – 1), k – количество независимых переменных в регрессионной модели. Тестовая статистика F имеет F -распределение с k и n – k – 1 степенями свободы.

При заданном уровне значимости α решающее правило формулируется так: если F > F U , нулевая гипотеза отклоняется; в противном случае она не отклоняется. Результаты, оформленные в виде сводной таблицы дисперсионного анализа, приведены на рис. 20.

Рис. 20. Таблица дисперсионного анализа для проверки гипотезы о статистической значимости коэффициента регрессии

Аналогично t -критерию F -критерий выводится в таблицу при использовании Пакета анализа (опция Регрессия ). Полностью результаты работы Пакета анализа приведены на рис. 4, фрагмент, относящийся к F -статистике – на рис. 21.

Рис. 21. Результаты применения F -критерия, полученные с помощью Пакета анализа Excel

F-статистика равна 113,23, а р -значение близко к нулю (ячейка Значимость F ). Если уровень значимости α равен 0,05, определить критическое значение F -распределения с одной и 12 степенями свободы можно по формуле F U =F.ОБР(1-0,05;1;12) = 4,7472 (рис. 22). Поскольку F = 113,23 > F U = 4,7472, причем р -значение близко к 0 < 0,05, нулевая гипотеза Н 0 отклоняется, т.е. размер магазина тесно связан с его годовым объемом продаж.

Рис. 22. Проверка гипотезы о наклоне генеральной совокупности при уровне значимости, равном 0,05, с одной и 12 степенями свободы

Доверительный интервал, содержащий наклон β 1 . Для проверки гипотезы о существовании линейной зависимости между переменными можно построить доверительный интервал, содержащий наклон β 1 и убедиться, что гипотетическое значение β 1 = 0 принадлежит этому интервалу. Центром доверительного интервала, содержащего наклон β 1 , является выборочный наклон b 1 , а его границами - величины b 1 ± t n –2 S b 1

Как показано на рис. 18, b 1 = +1,670, n = 14, S b 1 = 0,157. t 12 =СТЬЮДЕНТ.ОБР(0,975;12) = 2,1788. Следовательно, b 1 ± t n –2 S b 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, или + 1,328 ≤ β 1 ≤ +2,012. Таким образом, наклон генеральной совокупности с вероятностью 0,95 лежит в интервале от +1,328 до +2,012 (т.е. от 1 328 000 до 2 012 000 долл.). Поскольку эти величины больше нуля, между годовым объемом продаж и площадью магазина существует статистически значимая линейная зависимость. Если бы доверительный интервал содержал нуль, между переменными не было бы зависимости. Кроме того, доверительный интервал означает, что каждое увеличение площади магазина на 1 000 кв. футов приводит к увеличению среднего объема продаж на величину от 1 328 000 до 2 012 000 долларов.

Использование t -критерия для коэффициента корреляции. был введен коэффициент корреляции r , представляющий собой меру зависимости между двумя числовыми переменными. С его помощью можно установить, существует ли между двумя переменными статистически значимая связь. Обозначим коэффициент корреляции между генеральными совокупностями обеих переменных символом ρ. Нулевая и альтернативная гипотезы формулируются следующим образом: Н 0 : ρ = 0 (нет корреляции), Н 1 : ρ ≠ 0 (есть корреляция). Проверка существования корреляции:

где r = + , если b 1 > 0, r = – , если b 1 < 0. Тестовая статистика t имеет t -распределение с n – 2 степенями свободы.

В задаче о сети магазинов Sunflowers r 2 = 0,904, а b 1 - +1,670 (см. рис. 4). Поскольку b 1 > 0, коэффициент корреляции между объемом годовых продаж и размером магазина равен r = +√0,904 = +0,951. Проверим нулевую гипотезу, утверждающую, что между этими переменными нет корреляции, используя t -статистику:

При уровне значимости α = 0,05 нулевую гипотезу следует отклонить, поскольку t = 10,64 > 2,1788. Таким образом, можно утверждать, что между объемом годовых продаж и размером магазина существует статистически значимая связь.

При обсуждении выводов, касающихся наклона генеральной совокупности, доверительные интервалы и критерии для проверки гипотез являются взаимозаменяемыми инструментами. Однако вычисление доверительного интервала, содержащего коэффициент корреляции, оказывается более сложным делом, поскольку вид выборочного распределения статистики r зависит от истинного коэффициента корреляции.

Оценка математического ожидания и предсказание индивидуальных значений

В этом разделе рассматриваются методы оценки математического ожидания отклика Y и предсказания индивидуальных значений Y при заданных значениях переменной X .

Построение доверительного интервала. В примере 2 (см. выше раздел Метод наименьших квадратов ) регрессионное уравнение позволило предсказать значение переменной Y X . В задаче о выборе места для торговой точки средний годовой объем продаж в магазине площадью 4000 кв. футов был равен 7,644 млн. долл. Однако эта оценка математического ожидания генеральной совокупности является точечной. для оценки математического ожидания генеральной совокупности была предложена концепция доверительного интервала. Аналогично можно ввести понятие доверительного интервала для математического ожидания отклика при заданном значении переменной X :

где , = b 0 + b 1 X i – предсказанное значение переменное Y при X = X i , S YX – среднеквадратичная ошибка, n – объем выборки, X i - заданное значение переменной X , µ Y | X = X i – математическое ожидание переменной Y при Х = Х i , SSX =

Анализ формулы (13) показывает, что ширина доверительного интервала зависит от нескольких факторов. При заданном уровне значимости возрастание амплитуды колебаний вокруг линии регрессии, измеренное с помощью среднеквадратичной ошибки, приводит к увеличению ширины интервала. С другой стороны, как и следовало ожидать, увеличение объема выборки сопровождается сужением интервала. Кроме того, ширина интервала изменяется в зависимости от значений X i . Если значение переменной Y предсказывается для величин X , близких к среднему значению , доверительный интервал оказывается уже, чем при прогнозировании отклика для значений, далеких от среднего.

Допустим, что, выбирая место для магазина, мы хотим построить 95%-ный доверительный интервал для среднего годового объема продаж во всех магазинах, площадь которых равна 4000 кв. футов:

Следовательно, средний годовой объем продаж во всех магазинах, площадь которых равна 4 000 кв. футов, с 95% -ной вероятностью лежит в интервале от 6,971 до 8,317 млн. долл.

Вычисление доверительного интервала для предсказанного значения. Кроме доверительного интервала для математического ожидания отклика при заданном значении переменной X , часто необходимо знать доверительный интервал для предсказанного значения. Несмотря на то что формула для вычисления такого доверительного интервала очень похожа на формулу (13), этот интервал содержит предсказанное значение, а не оценку параметра. Интервал для предсказанного отклика Y X = Xi при конкретном значении переменной X i определяется по формуле:

Предположим, что, выбирая место для торговой точки, мы хотим построить 95%-ный доверительный интервал для предсказанного годового объема продаж в магазине, площадь которого равна 4000 кв. футов:

Следовательно, предсказанный годовой объем продаж в магазине, площадь которого равна 4000 кв. футов, с 95%-ной вероятностью лежит в интервале от 5,433 до 9,854 млн. долл. Как видим, доверительный интервал для предсказанного значения отклика намного шире, чем доверительный интервал для его математического ожидания. Это объясняется тем, что изменчивость при прогнозировании индивидуальных значений намного больше, чем при оценке математического ожидания.

Подводные камни и этические проблемы, связанные с применением регрессии

Трудности, связанные с регрессионным анализом:

  • Игнорирование условий применимости метода наименьших квадратов.
  • Ошибочная оценка условий применимости метода наименьших квадратов.
  • Неправильный выбор альтернативных методов при нарушении условий применимости метода наименьших квадратов.
  • Применение регрессионного анализа без глубоких знаний о предмете исследования.
  • Экстраполяция регрессии за пределы диапазона изменения объясняющей переменной.
  • Путаница между статистической и причинно-следственной зависимостями.

Широкое распространение электронных таблиц и программного обеспечения для статистических расчетов ликвидировало вычислительные проблемы, препятствовавшие применению регрессионного анализа. Однако это привело к тому, что регрессионный анализ стали применять пользователи, не обладающие достаточной квалификацией и знаниями. Откуда пользователям знать об альтернативных методах, если многие из них вообще не имеют ни малейшего понятия об условиях применимости метода наименьших квадратов и не умеют проверять их выполнение?

Исследователь не должен увлекаться перемалыванием чисел - вычислением сдвига, наклона и коэффициента смешанной корреляции. Ему нужны более глубокие знания. Проиллюстрируем это классическим примером, взятым из учебников. Анскомб показал, что все четыре набора данных, приведенных на рис. 23, имеют одни и те же параметры регрессии (рис. 24).

Рис. 23. Четыре набора искусственных данных

Рис. 24. Регрессионный анализ четырех искусственных наборов данных; выполнен с помощью Пакета анализа (кликните на рисунке, чтобы увеличить изображение)

Итак, с точки зрения регрессионного анализа все эти наборы данных совершенно идентичны. Если бы анализ был на этом закончен, мы потеряли бы много полезной информации. Об этом свидетельствуют диаграммы разброса (рис. 25) и графики остатков (рис. 26), построенные для этих наборов данных.

Рис. 25. Диаграммы разброса для четырех наборов данных

Диаграммы разброса и графики остатков свидетельствуют о том, что эти данные отличаются друг от друга. Единственный набор, распределенный вдоль прямой линии, - набор А. График остатков, вычисленных по набору А, не имеет никакой закономерности. Этого нельзя сказать о наборах Б, В и Г. График разброса, построенный по набору Б, демонстрирует ярко выраженную квадратичную модель. Этот вывод подтверждается графиком остатков, имеющим параболическую форму. Диаграмма разброса и график остатков показывают, что набор данных В содержит выброс. В этой ситуации необходимо исключить выброс из набора данных и повторить анализ. Метод, позволяющий обнаруживать и исключать выбросы из наблюдений, называется анализом влияния. После исключения выброса результат повторной оценки модели может оказаться совершенно иным. Диаграмма разброса, построенная по данным из набора Г, иллюстрирует необычную ситуацию, в которой эмпирическая модель значительно зависит от отдельного отклика (Х 8 = 19, Y 8 = 12,5). Такие регрессионные модели необходимо вычислять особенно тщательно. Итак, графики разброса и остатков являются крайне необходимым инструментом регрессионного анализа и должны быть его неотъемлемой частью. Без них регрессионный анализ не заслуживает доверия.

Рис. 26. Графики остатков для четырех наборов данных

Как избежать подводных камней при регрессионном анализе:

  • Анализ возможной взаимосвязи между переменными X и Y всегда начинайте с построения диаграммы разброса.
  • Прежде чем интерпретировать результаты регрессионного анализа, проверяйте условия его применимости.
  • Постройте график зависимости остатков от независимой переменной. Это позволит определить, насколько эмпирическая модель соответствует результатам наблюдения, и обнаружить нарушение постоянства дисперсии.
  • Для проверки предположения о нормальном распределении ошибок используйте гистограммы, диаграммы «ствол и листья», блочные диаграммы и графики нормального распределения.
  • Если условия применимости метода наименьших квадратов не выполняются, используйте альтернативные методы (например, модели квадратичной или множественной регрессии).
  • Если условия применимости метода наименьших квадратов выполняются, необходимо проверить гипотезу о статистической значимости коэффициентов регрессии и построить доверительные интервалы, содержащие математическое ожидание и предсказанное значение отклика.
  • Избегайте предсказывать значения зависимой переменной за пределами диапазона изменения независимой переменной.
  • Имейте в виду, что статистические зависимости не всегда являются причинно-следственными. Помните, что корреляция между переменными не означает наличия причинно-следственной зависимости между ними.

Резюме. Как показано на структурной схеме (рис. 27), в заметке описаны модель простой линейной регрессии, условия ее применимости и способы проверки этих условий. Рассмотрен t -критерий для проверки статистической значимости наклона регрессии. Для предсказания значений зависимой переменной использована регрессионная модель. Рассмотрен пример, связанный с выбором места для торговой точки, в котором исследуется зависимость годового объема продаж от площади магазина. Полученная информация позволяет точнее выбрать место для магазина и предсказать его годовой объем продаж. В следующих заметках будет продолжено обсуждение регрессионного анализа, а также рассмотрены модели множественной регрессии.

Рис. 27. Структурная схема заметки

Используются материалы книги Левин и др. Статистика для менеджеров. – М.: Вильямс, 2004. – с. 792–872

Если зависимая переменная является категорийной, необходимо применять логистическую регрессию.



просмотров