При изучении эмпирических распределений выявляются определенные закономерности изменения частот при изменении значений признака. Эти закономерности получили название закономерностей распределения.
Теорией вероятностей и математической статистикой рассматривается множество теоретическихзаконов распределения вероятностей(нормальное распределение, логарифмически нормальное, распределение Пуассона, биномиальное и др.),полное соответствие которым в распределении эмпирических данных обнаружить не удается.Кривые теоретических распределений – это предел, к которому стремятся эмпирические распределения при условии неограниченного увеличения объема совокупности и сокращении величины группировочного интервала. Гладкие непрерывные кривые теоретических распределений не могут быть получены по результатам эмпирических исследований, поскольку на практике объем совокупности ограничен. Задача исследователя состоит в нахождении теоретического распределения, которому соответствует изучаемое фактическое распределение, что дает возможность не только учитывать свойства теоретического распределения при исследовании конкретного эмпирического, но и моделировать эмпирическое распределение.
Для поиска теоретического распределения, которому соответствует распределение единиц изучаемой совокупности, осуществляется выравнивание (сглаживание) эмпирического распределения. Процедура выравнивания заключается в замене фактических частот изучаемого распределения теоретическими, которые рассчитываются по формуле соответствующего теоретического распределения с использованием фактических (анализируемых) данных. На базе сравнения эмпирических и теоретических частот рассчитываются специальные критерии, оценивающие степень расхождения между частотами, и, следовательно, позволяющие ответить на вопрос о соответствии исследуемого распределения тому или иному типу теоретических распределений. Но уже при наложении кривых теоретических распределений на гистограмму (полигон) фактического распределения можно сформулировать гипотезу о соответствии закономерности распределения единиц изучаемой совокупности тому или иному теоретическому закону распределения.
Чаще всего оценивается степень соответствия эмпирических распределений нормальному закону распределения. Необходимость такой оценки связана с тем, что множество эмпирических распределений подчинено именно нормальному закону, а также с тем, что большинство методов статистического анализа разработаны, исходя из предположения о нормальном законе распределения изучаемой совокупности.
На рисунке 3.2 приведена гистограмма распределения регионов России по величине среднедушевых денежных доходов населения с наложением кривой нормального распределения.
Рисунок 3.2 — Гистограмма распределения регионов России по величине СДДН с наложением кривой нормального распределения, 2013 г.
Глядя на рисунок, можно предположить несоответствие анализируемого распределения нормальному закону распределения. Однако это предположение должно быть доказано.
Для проверки гипотезы о законе распределения используются критерии, получившие название критериев согласия:Пирсона, Романовского, Колмогорова.
Более широкое практическое применение получил универсальный критерий согласия Пирсона – хи квадрат:
, (3.16)
где — фактические частоты изучаемого распределения; — теоретические частоты изучаемого распределения.
Теоретическая частота при выравнивании по нормальному закону распределению рассчитывается следующим образом:
, (3.17)
где — нормированное отклонение, параметр нормального распределения; ?, е – математические константы (?=3,1415, е=2,7182); — объем совокупности; h – величина группировочного интервала в таблице фактического распределения; — среднее значение признака в изучаемой совокупности; – значение признака у i-й единицы совокупности,?– стандартное отклонение.
Очевидно, что чем меньше различаются эмпирические и теоретические частоты, тем меньше величина критерия, следовательно, он отражает степеньсоответствия эмпирическогораспределениятеоретическому.
Критерий Пирсона табулирован, т.е. составлены таблицы распределения . В таблицах указаны критические значения критерия, превышение которых будет означать, что отклонение эмпирических частот от теоретических неслучайно, следовательно, изучаемое распределение не соответствует теоретическому распределению, с которым производится сравнение. Входом в таблицу значений критерия являются: уровень значимости принятия нулевой гипотезы ( , где P — уровень вероятности, задаваемый исследователем) и число степеней свободы, обозначаемое в специализированных компьютерных программах (numberofdegreesoffreedom). Уровень значимости — это вероятность того, что будет ошибочно отклонена верная (нулевая) гипотеза. Нулевая гипотеза ( ) записывается: т.е. фактические частоты соответствуют теоретическим для данного типа распределения, расхождение между частотами нулевое. Альтернативная гипотеза ( ) записывается: , т.е. эмпирические и теоретические частоты не равны. В практике статистических исследований, как правило, используются:
1) = 0,10, т.е. P = 0,90;
2) = 0,05, т.е. P = 0,95;
3) = 0,01, т.е. P = 0,99.
Уровень значимости 0,05, например, будет означать, что лишь в пяти случаях из ста может быть отклонена верная гипотеза.
Число степеней свободы находится: = , где — число групп (интервалов) в таблице распределения; — число параметров теоретического распределения, оцениваемых по фактическим данным. Если, например, проверяется соответствие эмпирического распределения нормальному закону распределения, то оцениваются два параметра: математическое ожидание ( ) и среднее квадратическое отклонение ( ). Следовательно, r = 2, а число степеней свободы: = .
Для оценки существенности расхождений между теоретическими и фактическими частотами расчетное значение сравнивают с табличным. Если , то при заданном уровне значимости и соответствующем числе степеней свободы гипотеза о несущественности (случайности) расхождений между частотами отвергается, что означает несоответствие изучаемого распределения данному теоретическому закону распределения. Если , то фактическое распределение соответствует данному виду распределений, и с вероятностью (1- ) можно утверждать, что расхождения между теоретическими и эмпирическими частотами — результат влияния случайных факторов.
Проведем проверку соответствия распределения регионов России по величине СДДН нормальному закону распределения. Процедуру выполним с использованием программы STATISTICA. Расчет критерия представлен в таблице 2.14.
Таблица 3.4 — Расчет критерия для оценки соответствия распределения регионов России по величине СДДН нормальному закону распределения, 2013 г.
Первые четыре графы таблицы содержат наблюдаемые (Observed), т.е. фактические значения абсолютных частот, накопленных абсолютных частот, относительных частот и накопленных относительных частот. Следующие четыре графы содержат теоретические (расчетные) значения аналогичных характеристик. В последней графе рассчитаны отклонения теоретических частот от фактических. Нулевая гипотеза формулируется так: , т.е. расхождения между теоретическими и эмпирическими частотами случайны и анализируемое распределение соответствует нормальному. Расчетное значение критерия = 7,11. Число степеней свободы в данном примере =4-2-1=1, поскольку при расчете критерия программа объединяет мало наполненные группы (три последних) и критерий рассчитывается, исходя из числа групп k= 4.
В таблице распределения (см. приложение) находится критическое значение критерия, оно равно 3,841. Поскольку расчетное значение 7,11 превышает табличное, нулевая гипотеза отклоняется. В пользу несостоятельности нулевой гипотезы говорит и расчетное значения уровня значимости принятия нулевой гипотезы, которое заметно ниже установленного в данном исследовании: 0,00767 0,05. Отвергая нулевую гипотезу, принимаем альтернативную. Суть которой в том, что различия между теоретическими и фактическими частотами не случайны, следовательно, распределение регионов России по величине среднедушевых доходов населения не соответствует нормальному закону распределения.
Можно попытаться оценить соответствие анализируемого распределения другим типам распределений, например,логарифмически нормальному, которое используют для оценки заведомо асимметричных распределений. Расчетное значения критерия при оценке соответствия логарифмически нормальному распределению составило = 2,94 (см. таблицу3.5)
Таблица 3.5 — Расчет критерия для оценки соответствия распределения регионов России по величине СДДН логарифмически нормальному закону распределения, 2013 г.
Исходя из того, что расчетное значение критерия ниже табличного (2,940,05), следует принять нулевую гипотезу о случайном характере расхождений между фактическими и теоретическими частотами, рассчитанными на основе логнормального распределения. Таким образом, с вероятностью 0,95 можно утверждать, что изучаемое распределение соответствует логарифмически нормальному закону распределения.