Вычисление асимметрии и эксцесса эмпирического распределения в Excel. Асимметрия и эксцесс распределения случайной величины Найти асимметрию

Определение. Модой М 0 дискретной случайной величины называется ее наиболее вероятное значение. Для непрерывной случайной величины мода – такое значение случайной величины, при которой плотность распределения имеет максимум.

Если многоугольник распределения для дискретной случайной величины или кривая распределения для непрерывной случайной величины имеет два или несколько максимумов, то такое распределение называется двухмодальным или многомодальным .

Если распределение имеет минимум, но не имеет максимума, то оно называется антимодальным .

Определение. Медианой M D случайной величины Х называется такое ее значение, относительно которого равновероятно получение большего или меньшего значения случайной величины.

Геометрически медиана – абсцисса точки, в которой площадь, ограниченная кривой распределения делится пополам.

Отметим, что если распределение одномодальное, то мода и медиана совпадают с математическим ожиданием.

Определение. Начальным моментом порядка k случайной величины Х называется математическое ожидание величины Х k .

Для дискретной случайной величины: .

.

Начальный момент первого порядка равен математическому ожиданию.

Определение. Центральным моментом порядка k случайной величины Х называется математическое ожидание величины

Для дискретной случайной величины: .

Для непрерывной случайной величины: .

Центральный момент первого порядка всегда равен нулю, а центральный момент второго порядка равен дисперсии. Центральный момент третьего порядка характеризует асимметрию распределения.

Определение. Отношение центрального момента третьего порядка к среднему квадратическому отклонению в третьей степени называется коэффициентом асимметрии .

Определение. Для характеристики островершинности и плосковершинности распределения используется величина, называемая эксцессом.

Кроме рассмотренных величин используются также так называемые абсолютные моменты:

Абсолютный начальный момент: .

Абсолютный центральный момент: .

Квантилем , отвечающий заданному уровню вероятности Р , называют такое значение, при котором функция распределения принимает значение, равное Р , т.е. где Р - заданный уровень вероятности.

Другими словами квантиль есть такое значение случайной величины, при котором

Вероятность Р , задаваемая в процентах, дает название соответствующему квантилю, например, называется 40%-ым квантилем.

20. Математическое ожидание и дисперсия числа появления события в независимых опытах.

Определение. Математическим ожиданием непрерывной случайной величины Х, возможные значения которой принадлежат отрезку , называется определенный интеграл

Если возможные значения случайной величины рассматриваются на всей числовой оси, то математическое ожидание находится по формуле:

При этом, конечно, предполагается, что несобственный интеграл сходится.

Математическим ожиданием дискретной случайной величины называется сумма произведений ее возможных значений на соответствующие им вероятности:

М (Х ) =х 1 р 1 +х 2 р 2 + … +х п р п . (7.1)

Если число возможных значений случайной величины бесконечно, то
, если полученный ряд сходится абсолютно.

Замечание 1. Математическое ожидание называют иногдавзвешенным средним , так как оно приближенно равно среднему арифметическому наблюдаемых значений случайной величины при большом числе опытов.

Замечание 2. Из определения математического ожидания следует, что его значение не меньше наименьшего возможного значения случайной величины и не больше наибольшего.

Замечание 3. Математическое ожидание дискретной случайной величины естьнеслучай-ная (постоянная) величина. В дальнейшем увидим, что это же справедливо и для непре-рывных случайных величин.

Свойства математического ожидания.

    Математическое ожидание постоянной равно самой постоянной:

М (С ) =С. (7.2)

Доказательство. Если рассматривать С как дискретную случайную величину, принимающую только одно значениеС с вероятностьюр = 1, тоМ (С ) =С ·1 =С .

    Постоянный множитель можно выносит за знак математического ожидания:

М (СХ ) =С М (Х ). (7.3)

Доказательство. Если случайная величина Х задана рядом распределения

x i

x n

p i

p n

то ряд распределения для СХ имеет вид:

С x i

С x 1

С x 2

С x n

p i

p n

Тогда М (СХ ) =Сх 1 р 1 +Сх 2 р 2 + … +Сх п р п =С ( х 1 р 1 +х 2 р 2 + … +х п р п ) =СМ (Х ).

Математическим ожиданием непрерывной случайной величины называется

(7.13)

Замечание 1. Общее определение дисперсии сохраняется для непрерывной случайной величины таким же, как и для дискретной (опр. 7.5), а формула для ее вычисления имеет вид:

(7.14)

Среднее квадратическое отклонение вычисляется по формуле (7.12).

Замечание 2. Если все возможные значения непрерывной случайной величины не выходят за пределы интервала [a , b ], то интегралы в формулах (7.13) и (7.14) вычисляются в этих пределах.

Теорема. Дисперсия числа появлений события в независимых испытаниях равна произведению числа испытаний на вероятности появления и непоявления события в одном испытании: .

Доказательство. Пусть – число появлений события в независимых испытаниях. Оно равно сумме появлений события в каждом испытании: . Так как испытания независимы, то и случайные величины – независимы, поэтому .

Как было показано выше, , а .

Тогда , а .

В этом случае, как уже упоминалось ранее, среднее квадратичное отклонение .

Для получения приблизительного представления о форме распределения случайной величины строят график её ряда распределения (полигон и гистограмму), функции или плотности распределения. В практике статистических исследований приходится встречаться с самими различными распределениями. Однородные совокупности характеризуются, как правило, одновершинными распределениями. Многовершинность свидетельствует о неоднородности изучаемой совокупности. В этом случае необходима перегруппировка данных с целью выделения более однородных групп.

Выяснение общего характера распределения случайной величины предполагает оценку степени его однородности, а также исчисление показателей асимметрии и эксцесса. В симметричном распределении, в котором математическое ожидание равно медиане, т.е. , можно считать асимметрия отсутствует. Но чем заметнее асимметрия, тем больше отклонение между характеристиками центра распределения – математическим ожиданием и медианой.

Простейшим коэффициентом асимметрии распределения случайной величины можно считать , где - это математическое ожидание, - медиана, а - стандартное отклонение случайной величины.

В случае правосторонней асимметрии , левосторонней – . Если , считается, что асимметрия низкая, если – средняя, а при – высокая. Геометрическая иллюстрация правосторонней и левосторонней асимметрии приведена на рисунке ниже. На нём изображены графики плотности распределений соответствующих типов непрерывных случайных величин.

Рисунок. Иллюстрация правосторонней и левосторонней асимметрии на графиках плотностей распределений непрерывных случайных величин.

Существует и другой коэффициент асимметрии распределения случайной величины. Можно доказать, что отличие от нуля центрального момента нечётного порядка свидетельствует об асимметрии распределения случайной величины. В предыдущем показателе мы использовали выражение , аналогичное моменту первого порядка . Но обычно в этом другом коэффициенте асимметрии используют центральный момент третьего порядка , а для того, чтобы этот коэффициент стал безразмерным его делят на куб стандартного отклонения. Получается такой коэффициент асимметрии: . Для этого коэффициента асимметрии, как и для первого в случае правосторонней асимметрии , левосторонней – .

Эксцесс случайной величины

Эксцесс распределения случайной величины характеризует степень сосредоточенности её значений около центра распределения: чем более высокая такая сосредоточенность, тем выше и уже будет график плотности её распределения. Показатель эксцесса (островершинности) рассчитывается по формуле: , где - это центральный момент 4 порядка, а – это стандартное отклонение, возведённое в 4 степень. Поскольку степени числителя и знаменателя одинаковы эксцесс является безразмерной величиной. При этом принято за эталон отсутствия эксцесса, нулевого эксцесса, брать нормальное распределение. Но можно доказать, что для нормального распределения . Поэтому в формуле для вычисления эксцесса из этой дроби число 3 вычитается.

Таким образом, для нормального распределения эксцесс равен нулю: . Если эксцесс больше нуля, т.е. , то распределение более островершинное, чем нормальное. Если эксцесс меньше нуля, т.е. , то распределение менее островершинное, чем нормальное. Предельным значением отрицательного эксцесса является значение ; величина положительного эксцесса может быть бесконечно большой. Как выглядят графики островершинных и плосковершинных плотностей распределения случайных величин в сравнении с нормальным распределением, показано на рисунке.

Рисунок. Иллюстрация островершинных и плосковершинных плотностей распределения случайных величин в сравнении с нормальным распределением.

Асимметрия и эксцесс распределения случайной величины показывают, насколько она отклоняется от нормального закона. При больших асимметриях и эксцессах применять формулы вычислений для нормального распределения не следует. Каким является уровень допустимости асимметрии и эксцесса для использования формул нормального распределения в анализе данных конкретной случайной величины должен определять исследователь на основе своих знаний и опыта.

При анализе вариационных рядов смещение от центра и крутизну распределения характеризуют специальные показатели. Эмпирические распределения, как правило, смещены от центра распределения вправо или влево, асимметричны. Нормальное распределение строго симметрично относительно средней арифметической, что обусловлено четностью функции.

Асимметрия распределения возникает вследствие того, что какие-либо факторы действуют в одном направлении сильнее, чем в другом, или процесс развития явления таков, что доминирует какая-то причина. Кроме того, природа некоторых явлений такова, что имеет место асимметричное распределение.

Наиболее простой мерой асимметрии является разность между средней арифметической, модой и медианой:

Для определения направления и величины смещения (асимметрии) распределения рассчитывается коэффициент асимметрии , представляющий собой нормированный момент третьего порядка:

As= 3 / 3 , где  3 – центральный момент третьего порядка;  3 –среднее квадратическое отклонение в кубе. 3 = (m 3 – 3m 1 m 2 + 2m 1 3)k 3 .

При левосторонней асимметрии коэффициент асимметрии (As<0), при правосторонней (As>0) .

Если вершина распределения сдвинута влево и правая часть ветви оказывается длиннее левой, то такая асимметрия является правосторонней, в противоположном случае левосторонней .

Соотношение между модой, медианой и средней арифметической в симметричном и асимметричном рядах позволяет в качестве меры асимметрии использовать более простой показатель коэффициента асимметрии Пирсона :

К a = (–Мо)/. Если К a >0, то асимметрия правосторонняя, если К a <0, то асимметрия левосторонняя, при К a =0 ряд считается симметричным.

Более точно асимметрию можно определить, используя центральный момент третьего порядка:

, где 3 = (m 3 – 3m 1 m 2 + 2m 1 3)k 3 .

Если > 0, то асимметрию можно считать значительной, если< 0,25 асимметрию можно считать не значительной.

Для характеристики степени отклонения симметричного распределения от нормального по ординате используется показатель островершинности, крутизны распределения, называемый эксцессом :

Ex = ( 4 / 4) – 3, где:  4 – центральный момент четвертого порядка.

Для нормального распределения Ех = 0, т.е.  4 / 4 = 3.  4 = (m 4 – 4m 3 m 1 + 6m 2 m 2 1 – 3 m 4 1)* k 4 .

У высоковершинных кривых эксцесс положительный, у низковершинных отрицательный (рис. Г.2).

Показатели эксцесса и асимметрии необходимы в статистическом анализе для определения неоднородности совокупности, асимметричности распределения и близости эмпирического распределения к нормальному закону. При значительных отклонениях показателей асимметрии и эксцесса от нуля нельзя признать совокупность однородной, а распределение близким к нормальному. Сопоставление фактических кривых с теоретическими позволяет математически обосновать полученные статистические результаты, установить тип и характер распределения социально-экономических явлений, прогнозировать вероятность появления изучаемых событий.

4.7. Обоснование близости эмпирического (фактического) распределения к теоретическому нормальному распределению. Нормальное распределение (закон Гаусса-Лапласа) и его характеристики. «Правило трех сигм». Критерии согласия (на примере критерия Пирсона или Колгомогорова).

Можно заметить определенную связь в изменении частот и значений варьирующего признака. Частоты с ростом значения признака сначала увеличиваются, а затем после достижения какой-то максимальной величины уменьшаются. Такие закономерные изменения частот в вариационных рядах называются закономерностями распределения .

Для выявления закономерности распределения необходимо, чтобы вариационный ряд содержал достаточно большое количество единиц, а сами ряды представляли собой качественно однородные совокупности.

Построенный по фактическим данным полигон распределения - это эмпирическая (фактическая) кривая распределения , отражающая не только объективные (общие), но и субъективные (случайные) условия распределения, не характерные для изучаемого явления.

В практической работе закон распределения находят путем сравнения эмпирического распределения с одним из теоретических и оценки степени различия или соответствия между ними. Теоретическая кривая распределения отражает в чистом виде, без учета влияния случайных факторов, общую закономерность распределения частот (плотности распределения) в зависимости от значений варьирующих признаков.

В статистике распространены различные виды теоретических распределений: нормальное, биномиальное, Пуассона и др. Каждое из теоретических распределений имеет свою специфику и область применения.

Закон нормального распределения характерен для распределения равновероятных событий, происходящих при взаимодействии множества случайных факторов. Закон нормального распределения лежит в основе статистических методов оценки параметров распределения, репрезентативности выборочных наблюдений, измерения взаимосвязи массовых явлений. Для проверки, насколько фактическое распределение соответствует нормальному, необходимо сравнить частоты фактического распределения с теоретическими частотами, характерными для нормального закона распределения. Эти частоты являются функцией нормированных отклонений. Поэтому по данным эмпирического ряда распределения вычисляют нормированные отклонения t. Затем определяют соответствующие им теоретические частоты. Таким образом, выравнивается эмпирическое распределение.

Нормальное распределение или закон Гаусса-Лапласа описывается уравнением
, где y t – ордината кривой нормального распределения, или частость (вероятность) величины х нормального распределения; – математическое ожидание (среднее значение) индивидуальных значений х. Если значения (х – ) измерить (выразить) в величинах среднего квадратического отклонения , т.е. в стандартизованных (нормированных) отклонениях t = (x – )/, то формула примет вид:
. Нормальное распределение социально-экономических явлений в чистом виде встречается редко, однако, если соблюдена однородность совокупности, часто фактические распределения близки к нормальному. Закономерность распределения изучаемых величин выявляют посредством проверки соответствия эмпирического распределения теоретически нормальному закону распределения. Для этого фактическое распределение выравнивается по кривой нормального и рассчитываются критерии согласия .

Нормальное распределение характеризуется двумя существенными параметрами, определяющими центр группирования индивидуальных значений и форму кривой: средней арифметической и средним квадратическим отклонением . Кривые нормального распределения различаются положением на оси абсцисс центра распределения и разбросом вариант около этого центра  (рис. 4.1 и 4.2). Особенностью кривой нормального распределения является ее симметричность относительно центра распределения – по обе стороны от ее середины образуются две равномерно убывающие ветви, асимптотически приближающиеся к оси абсцисс. Поэтому при нормальном распределении средняя, мода и медиана совпадают: = Мо = Ме.

x

Кривая нормального распределения имеет две точки перегиба (переход от выпуклости к вогнутости) при t = 1, т.е. при отклонении вариантов от средней (х – ), равном среднему квадратическому отклонению . В пределах  при нормальном распределении заключается 68,3%, в пределах 2 – 95,4%, в пределах 3 – 99,7% количества наблюдений или частот ряда распределения. На практике почти не встречаются отклонения, превышающие 3поэтому приведенное соотношение называется «правилом трех сигм ».

Для расчета теоретических частот применяется формула:

.

Величина
есть функция от t или плотность нормального распределения, которая определяется по специальной таблице, выдержки из которой приведены в табл. 4.2.

Значения плотности нормального распределения Таблица 4.2

График на рис. 4.3 наглядно демонстрирует близость эмпирического (2) и нормального (1) распределений.

Рис. 4.3. Распределения филиалов почтовой связи по численности

работников: 1 – нормальное; 2 – эмпирическое

Для математического обоснования близости эмпирического распределения закону нормального распределения рассчитываются критерии согласия .

Критерий Колмогорова - критерий согласия, позволяющий оценить степень близости эмпирического распределения к нормальному. А. Н. Колмогоров предложил для определения соответствия между эмпирическим и теоретическим нормальным распределениями использовать максимальную разность накопленных частот или частостей этих рядов. Для проверки гипотезы о соответствии эмпирического распределения закону нормального распределения рассчитывают критерий согласия = D/
, где D – максимальная разность между кумулятивными (накопленными) эмпирическими и теоретическими частотами, n – численность единиц совокупности.По специальной таблице определяют Р() – вероятность достижения , которая означает, что если вариационный признак распределен по нормальному закону, то из-за случайных причин максимальное расхождение между эмпирическими и теоретическими накопленными частотами будет не меньшим, чем фактически наблюденное. На основании значения Р() делают определенные выводы: если вероятность Р() достаточно велика, то гипотезу о соответствии фактического распределения нормальному закону можно считать подтвержденной; если вероятность Р() мала, то нулевая гипотеза отвергается, расхождения между фактическим и теоретическим распределениями признаются существенными.

Значения вероятностей для критерия согласия  Таблица 4.3

Критерии Пирсона  2 ("хи-квадрат") - критерий согласия, позволяющий оценить степень близости эмпирического распределения к нормальному:
,где f i , f" i – частоты эмпирического и теоретического распределений в определенном интервале. Чем больше разность между наблюдаемыми и теоретическими частотами, тем больше критерий  2 . Чтобы отличить существенность различий частот эмпирического и теоретического распределений по критерию  2 от различий в результате случайностей выборки, рассчитанное значение критерия  2 расч сравнивают с табличным  2 табл при соответствующем числе степеней свободы и заданном уровне значимости. Уровень значимости выбирается так, что Р( 2 расч > 2 табл)=. Число степеней свободы равно h l , где h – число групп; l – число условий, которые должны выполняться при вычислении теоретических частот. Для расчета теоретических частот кривой нормального распределения по формуле
необходимо знать три параметра , , f, поэтому число степеней свободы равно h–3. Если  2 расч > 2 табл, т.е.  2 попадает в критическую область, то расхождение между эмпирическими и теоретическими частотами существенно и его нельзя объяснить случайными колебаниями выборочных данных. В этом случае нулевая гипотеза отвергается. Если  2 расч  2 табл, т.е. рассчитанный критерий не превышает максимально возможное расхождение частот, которое может возникнуть в силу случайности, то в данном случае гипотеза о соответствии распределений принимается. Критерий Пирсона эффективен при значительном числе наблюдений (n50), причем частоты всех интервалов должны насчитывать не менее пяти единиц (при меньшем количестве интервалы объединяют), а число интервалов (групп) должно быть большим (h>5), поскольку оценка  2 зависит от числа степеней свободы.

Критерий Романовского - критерий согласия, позволяющий оценить степень близости эмпирического распределения к нормальному.В.И. Романовский предложил близость эмпирического распределения к кривой нормального распределения оценивать по отношению:

, где h – число групп.

Если отношение больше 3, то расхождение частот эмпирического и нормального распределений нельзя признать случайным и гипотезу о нормальном законе распределения следует отвергнуть. Если отношение меньше или равно 3, то можно принять гипотезу о нормальном характере распределения данных.

2.6 Асимметрия и эксцесс

В математической статистике для выяснения геометрической формы плотности вероятности случайной величины используются две числовые характеристики, связанные с центральными моментами третьего и четвертого порядков.

Определение 2.22 Коэффициентом асимметрии выборки x 1 , x 2 , …, x n называется число , равное отношению центрального выборочного момента третьего порядка к кубу стандартного отклонения S :

Так как и , то коэффициент асимметрии выражается через центральные моменты следующей формулой:

Отсюда получается формула, выражающая коэффициент асимметрии через начальные моменты:

, которая облегчает практические вычисления.

Соответствующая теоретическая характеристика вводится с помощью теоретических моментов.

Определение 2.23 Коэффициентом асимметрии случайной величины X называется число равное отношению центрального момента третьего порядка к кубу стандартного отклонения :

Если случайная величина X имеет симметричное распределение относительно математического ожидания μ, то её теоретический коэффициент асимметрии равен 0, если же распределение вероятностей несимметрично, то коэффициент асимметрии отличен от нуля. Положительное значение коэффициента асимметрии говорит о том, что большая часть значений случайной величины расположена правее математического ожидания, то есть правая ветвь кривой плотности вероятности более удлинена, чем левая. Отрицательное значение коэффициента асимметрии говорит о том, что более длинная часть кривой расположена слева. Данное утверждение иллюстрирует следующий рисунок.

Рисунок 2.1 – Положительная и отрицательная асимметрия

распределений

Пример 2.29 Найдем выборочный коэффициент асимметрии по данным исследования стрессовых ситуаций из примера 2.28.

Пользуясь ранее вычисленными значениями центральных выборочных моментов, получим

.

Округлим = 0,07. Найденное отличное от нуля значение коэффициента асимметрии показывает скошенность распределения относительно среднего. Положительное значение говорит о том, что более длинная ветвь кривой плотности вероятности расположена справа.

Особенности распределения значений случайной величины вокруг её модального значения Х мод характеризует следующая постоянная.

Определение 2.24 Эксцессом выборки x 1 , x 2 , …, x n называется число , равное

,

где – выборочный центральный момент четвёртого порядка,

S 4 – четвёртая степень стандартного отклонения S .

Теоретическое понятие эксцесса является аналогом выборочного.

Определение 2.25 Эксцессом случайной величины X называется число е, равное

,

где теоретический центральный момент четвёртого порядка,

четвёртая степень стандартного отклонения .

Значение эксцесса е характеризует относительную крутость вершины кривой плотности распределения вокруг точки максимума. Если эксцесс является положительным числом, то соответствующая кривая распределения имеет более острую вершину. Распределение с отрицательным эксцессом имеет сглаженную и более плоскую вершину. Следующий рисунок иллюстрирует возможные случаи.

Рисунок 2.2 – Распределения с положительным, нулевым и отрицательным значениями эксцессов

58. Коэффициенты асимметрии и эксцесса.

Центральные моменты распределения

Для дальнейшего изучения характера вариации используются средние значения разных степеней отклонений отдельных величин признака от его средней арифметической величины. Эти показатели получили название центральных моментов распределения порядка, соответствующего степени, в которую возводятся отклонения, или просто моментов.

Показатели формы распределения

Асимметрия распределения


Показатель Пирсона зависит от степени асимметричности в средней части ряда распределения, а показатель асимметрии, основанный на моменте третьего порядка, - от крайних значений признака.

Оценка существенности асимметрии

Для оценки существенности асимметрии вычисляют показатель средней квадратической ошибки коэффициента асимметрии

Если отношение имеет значение больше 2, то это свидетельствует о существенном характере асимметрии

Эксцесс распределения

Показатель эксцесса
представляет собой отклонение вершины эмпирического распределения вверх или вниз («крутость») от вершины кривой нормального распределения, НО! График распределения может выглядеть сколь угодно крутым в зависимости от силы вариации признака: чем слабее вариация, тем круче кривая распределения при данном масштабе. Не говоря уже о том, что, изменяя масштабы по оси абсцисс и по оси ординат, любое распределение можно искусствен но сделать «крутым» и «пологим». Чтобы показать, в чем состоит эксцесс распределения, и правильно его интерпретировать, нужно сравнить ряды с одинаковой силой вариации (одной и той же величиной σ) и разными показателями эксцесса. Чтобы не смешать эксцесс с асимметрией, все сравниваемые ряды должны быть симметричными. Такое сравнение изображено на рис.

Поскольку эксцесс нормального распределения равен 3, показатель эксцесса вычисляется по формуле


Оценка существенности эксцесса

Для оценки существенности эксцесса вычисляют показатель его средней квадратической ошибки

Если отношение имеет значение больше 3, то это свидетельствует о существенном характере эксцесса

Поделиться