Эмпирическая функция распределения в excel как построить
Перейти к содержимому

Эмпирическая функция распределения в excel как построить

  • автор:

Эмпирическая функция распределения

Допустим, известно статистическое распределение частот количественного признака Х. Обозначим nх – количество наблюдений со значением меньше x1, n – всего наблюдений. Очевидно, что относительная частота события Хnх/n.

Определение

Эмпирическая функция распределения – это функция F*(x), которая определяет для каждого значения x относительную частоту события X

Данное понятие можно записать в виде формулы:

Осторожно! Если преподаватель обнаружит плагиат в работе, не избежать крупных проблем (вплоть до отчисления). Если нет возможности написать самому, закажите тут.

В этой записи nx – количество вариантов, меньших x; n – объем выборочной совокупности.

Существует также теоретическая функция распределения (функция распределения генеральной совокупности). Ее отличие от выборочной функции распределения состоит в определении объективной возможности или вероятности события X

Свойства функции

Функция распределения выборки обладает рядом свойств, которые следуют из определения понятия.

  1. Значения рассматриваемой функции F * (x) располагаются на отрезке [0; 1].
  2. Функция имеет неубывающий характер.
  3. При минимальной варианте x1 верно равенство F * (x)=0 при условии, что х1. При максимальной варианте хkверно равенство F * (x)=1 при условии х>xk.

Таким образом, функция распределения выборки помогает оценить теоретическую функцию распределения.

Как найти

Выборочная функция распределения для случайной величины рассчитывается по формуле:

Данное равенство читается так: функция распределения равна вероятности события, при котором случайная величина будем меньше x.

Поскольку при условии, что x меньше или равно 1, событие ξ20ξ20 не принимает значение менее 1, вероятность невозможного события равна 0), верно следующее выражение:

При принадлежности x отрезку (1; 2] событие ξ20ξ20=1, значит, вероятность этого события равно 0,1. В записи это выглядит так:

Когда x принадлежит отрезку (2; 4], событие ξ20ξ20 значению 1 или 2, то есть вероятность рассматриваемого события равна 0,1+0,2=0,3 или:

Если 4 < x ≤ 5, то событие ξ20ξ20 принимает значение либо 1, либо 2, либо 4. Следовательно, вероятность данного события вычисляется так: 0,1+0,2+0,35=0,65, то есть:

При 5 < x ≤ 6 событие ξ20ξ20 принимает значение 1, 2, 4 или 5. Значит его вероятность равно 0,1+0,2+0,35+0,1=0,75 или:

Итак, эмпирическая функция распределения имеет следующий вид:

Функция

Как построить график

Построение графика эмпирической функции распределения возможно после вычисления ее значений на всей числовой оси. Для рассмотренного примера схематическое изображение будет выглядеть так:

График

График ступенчатого вида, построенный на отрезках. Совпадение графика с горизонтальной осью означает, что левее минимального значения x=1 функция приобретает значение нуля. Увеличение в каждой следующей точке xi происходит на величину вероятности νi. Правее максимального значения х8=13 функция равна 1. Стрелки и точки на концах отрезков указывают на определение функции на полуинтервалах.

Примеры задач

Задача

В таблице даны значения эмпирического распределения:

Задача

Необходимо найти объем выборочной совокупности, составить выборочную функцию распределения, построить ее график.

Решение

  1. Вычислим объем выборки: n=5+10+15+20=50.
  2. Из свойства эмпирической функции распределения: Fn(x)=0 при x≤1, Fn(x)=1 при x>4.

Задача 2

По полученным значениям построим график:

2.1.2. Эмпирическая функция распределения

Это статистический аналог функции распределения из теорвера. Данная функция определяется, как отношение:
, где – количество вариант СТРОГО МЕНЬШИХ, чем ,
при этом «икс» «пробегает» все значения от «минус» до «плюс» бесконечности.

Построим эмпирическую функцию распределения для нашей задачи. Чтобы было нагляднее, отложу варианты и их количество на числовой оси:

На интервале – по той причине, что левее ЛЮБОЙ точки этого интервала вариант нет. Кроме того, функция равна нулю ещё и в точке . Почему? Потому, что значение определяет количество вариант (см. определение), которые СТРОГО меньше двух, а это количество равно нулю.

На промежутке – и опять обратите внимание, что значение не учитывает рабочих 3-го разряда, т.к. речь идёт о вариантах, которые СТРОГО меньше трёх (по определению).

На промежутке – и далее процесс продолжается по принципу накопления частот:
– если , то ;
– если , то ;
– и, наконец, если , то – и в самом деле, для ЛЮБОГО «икс» из интервала ВСЕ частоты расположены СТРОГО левее этого значения «икс» (см. чертёж выше).

Накопленные относительные частоты удобно заносить в отдельный столбец таблицы, при этом алгоритм вычислений очень прост: сначала сносим слева частоту (красная стрелка), и каждое следующее значение получаем как сумму предыдущего и относительной частоты из текущего левого столбца (зелёные обозначения):

Вот ещё, кстати, один довод за вертикальную ориентацию данных – справа по надобности можно приписывать дополнительные столбцы.

Построенную функцию принято записывать в кусочном виде:

а её график представляет собой ступенчатую фигуру:

Эмпирическая функция распределения не убывает и принимает значения лишь из промежутка , и если у вас вдруг получится что-то не так, то ищите ошибку.

Теперь смотрим видео, о том, как построить эту функцию в Экселе (Ютуб).

И, конечно, вспомним основной метод математической статистики. Эмпирическая функция распределения строится по выборке и приближает теоретическую функцию распределения . Легко догадаться, что последняя появляется в результате исследования всей генеральной совокупности, но если рабочих в цехе ещё пересчитать можно, то звёзды на небе – уже вряд ли. Вот поэтому и важнА функция эмпирическая, и ещё важнее, чтобы выборка была репрезентативна, дабы приближение было хорошим.

Миниатюрное задание для закрепления материала:

Пример 5

Дано статистическое распределение совокупности:

Составить эмпирическую функцию распределения, выполнить чертёж

Решаем самостоятельно – все числа уже в Экселе! Свериться с образцом можно в конце книги. По поводу красоты чертежа сильно не запаривайтесь, главное, чтобы было правильно – этого обычно достаточно для зачёта.

Задание 3. Эмпирическая функция распределения.

Построить график эмпирической функции распределения с подогнанной ожидаемой функцией распределения.

Теоретические основы.

См. стр. 31-32 пособия [4].

Вычисления.

Если попытаться построить ЭФР средствами Excel, упорядочив сначала данные и сопоставив затем каждому упорядоченному значению x(k) значение , то вместо горизонтальных получим наклонные ступеньки. Чтобы избежать этого недостатка, можно каждое значение вариационного ряда повторить дважды, при этом первому из этих значений сопоставить ЭФР, а второму .

Вычисление нормальной функции распределения описано ниже в главе “Встроенные функции Excel”. Здесь кратко только скажем, что для этого можно использовать функцииНОРМРАСПиНОРМСТРАСПиз категории “Статистические”.

Функция распределения экспоненциального закона вычисляется с помощью простой функции EXP.

Кроме того, предполагается, что уже вычислены среднее значение и дисперсия выборки (задание 1).

Пример.

Порядок вычислений.

  1. Скопировать исходные данные в буфер обмена;
  2. перейти на лист “ЭФР” и, установив курсор в ячейку A3, вставить данные из буфера обмена;
  3. повторить процесс восстановления данных, начиная с ячейки A104
  • установить курсор в ячейку A104;
  • вставить данные из буфера обмена
  1. – всего получится 202 значения с 3-й по 204-ю ячейки;
  1. упорядочить значения в столбце A
  • кликнуть мышкой по кнопке ;
  1. ввести в ячейку B3 формулу
  • =(СТРОКА(B3)-1)/202-1/101
  1. – функция «СТРОКА» возвращает номер строки указанного аргумента, то есть в данном случае в ячейке B3 получится значение (3-1)/202-1/101 = 0;
  1. ввести в ячейку B4 формулу
  • =(СТРОКА(B3)-1)/202
  1. – получится значение (3-1)/202 = 1/101;
  1. выделить обе ячейки B3 и B4 и скопировать их параллельно всем данным до ячейки B204
  1. – в последней ячейке должно получиться значение 1;
  1. добавить в ячейку A2 значение, на единицу меньшее значения ячейки A3 и сопоставить ему значение 0 в ячейке B2;
  2. добавить в ячейку A205 значение, на единицу большее значения ячейки A204 и сопоставить ему значение 1 в ячейке B205.

Ввести формулы вычисления нормального распределения:

  1. в ячейки F4, F5 (те, которые скрыты графиком) скопировать среднее и стандартное отклонение, соответственно
  • =МОМЕНТЫ!B4
  • =МОМЕНТЫ!B6
  1. в ячейку C2 ввести формулу нормального распределения
  • =НОРМРАСП(A2;$F$4;$F$5;1)
  1. в ячейку D2 ввести формулу вычисления расхождения между ЭФР и ожидаемой функцией распределения
  • =ABS(C2-B2)
  1. скопировать обе ячейки C2 и D2 вплоть до 205-й строки;
  2. вычислить максимальное расхождение, например, в ячейке F6
  • =МАКС(D2:D205)

Теперь уже можно рисовать графики:

  1. выделить все значения в ячейках A2:C205;
  2. вызвать “Мастера Диаграмм”;
  3. выбрать «Точечную» диаграмму – без маркеров со сглаживающей линией (третья по порядку среди точечных диаграмм);
  4. при выборе представления диаграммы, после двух нажатий кнопки , удалить “Легенду” и добавить “Заголовок по оси Х”:
  • МАКСИМАЛЬНОЕ РАСХОЖДЕНИЕ D=…
  1. (указав здесь полученное значение Δ из ячейки F6);
  1. ;
  2. установить параметры диаграммы, как в примере.

Замечание. Если бы параметры нормальной модели не оценивались по выборочным данным, а были бы в точности равны этим оценкам, то при полученном здесь расхождении Δ=0,097 гипотезу нормальности следовало бы принять с критическим уровнем значимости > 0,20 (см. таблицу 6.2 сборника таблиц [1]). Это надо воспринимать как хороший знак и не более того. Если неизвестные значения параметров оцениваются по выборке, то критический уровень значимости становится зависящим от неизвестных параметров и трудно ожидать, что даже в предположениях гипотезы критерий будет иметь приемлемый размер. Контрольные вопросы.

  1. Сформулируйте статистическую задачу.
  2. Что такое вариационный ряд?
    1. 31.
  3. Дайте определение эмпирической функции распределения?
    1. 31.
  4. Почему некоторые ступеньки ЭФР высокие, а некоторые низкие?
    1. 31.
  5. Почему одни ступеньки ЭФР длинные, а другие короткие?
    1. 31.
  6. Постройте ЭФР по следующим данным: 1; 2; 1; 3; 1; 5; 1; 3.
  7. Выпишите формулу для функции распределения нормального закона (равномерного, экспоненциального).
    1. 16-21.
  8. Можно ли утверждать, что ЭФР является состоятельной оценкой истинной функции распределения? Что сие означает?
    1. 31.
  9. Можно ли утверждать, что ЭФР является несмещенной оценкой истинной функции распределения? Что сие означает?
    1. 31.
  10. Докажите несмещенность ЭФР.
  11. Можно ли по значению максимального расхождения между ЭФР и ожидаемой функцией распределения принять или отвергнуть гипотезу о виде истинной функции распределения?
    1. 32.

Функция распределения и плотность вероятности в EXCEL

Даны определения Функции распределения случайной величины и Плотности вероятности непрерывной случайной величины. Эти понятия активно используются в статьях о статистике сайта www.excel2.ru . Рассмотрены примеры вычисления Функции распределения и Плотности вероятности с помощью функций MS EXCEL .

Введем базовые понятия статистики, без которых невозможно объяснить более сложные понятия.

Генеральная совокупность и случайная величина

Пусть у нас имеется генеральная совокупность (population) из N объектов, каждому из которых присуще определенное значение некоторой числовой характеристики Х.

Примером генеральной совокупности (ГС) может служить совокупность весов однотипных деталей, которые производятся станком.

Поскольку в математической статистике, любой вывод делается только на основании характеристики Х (абстрагируясь от самих объектов), то с этой точки зрения генеральная совокупность представляет собой N чисел, среди которых, в общем случае, могут быть и одинаковые.

В нашем примере, ГС — это просто числовой массив значений весов деталей. Х – вес одной из деталей.

Если из заданной ГС мы выбираем случайным образом один объект, имеющей характеристику Х, то величина Х является случайной величиной . По определению, любая случайная величина имеет функцию распределения , которая обычно обозначается F(x).

Функция распределения

Функцией распределения вероятностей случайной величины Х называют функцию F(x), значение которой в точке х равно вероятности события X файл примера ):

В справке MS EXCEL Функцию распределения называют Интегральной функцией распределения ( Cumulative Distribution Function , CDF ).

Приведем некоторые свойства Функции распределения:

  • Функция распределения F(x) изменяется в интервале [0;1], т.к. ее значения равны вероятностям соответствующих событий (по определению вероятность может быть в пределах от 0 до 1);
  • Функция распределения – неубывающая функция;
  • Вероятность того, что случайная величина приняла значение из некоторого диапазона [x1;x2): P(x 1 =0. Следовательно, плотность вероятности для непрерывной величины может быть, в отличие от Функции распределения, больше 1. Например, для непрерывной равномерной величины , распределенной на интервале [0; 0,5] плотность вероятности равна 1/(0,5-0)=2. А для экспоненциального распределения с параметром лямбда =5, значение плотности вероятности в точке х=0,05 равно 3,894. Но, при этом можно убедиться, что вероятность на любом интервале будет, как обычно, от 0 до 1.

Напомним, что плотность распределения является производной от функции распределения , т.е. «скоростью» ее изменения: p(x)=(F(x2)-F(x1))/Dx при Dx стремящемся к 0, где Dx=x2-x1. Т.е. тот факт, что плотность распределения >1 означает лишь, что функция распределения растет достаточно быстро (это очевидно на примере экспоненциального распределения ).

Примечание : Площадь, целиком заключенная под всей кривой, изображающей плотность распределения , равна 1.

Примечание : Напомним, что функцию распределения F(x) называют в функциях MS EXCEL интегральной функцией распределения . Этот термин присутствует в параметрах функций, например в НОРМ.РАСП (x; среднее; стандартное_откл; интегральная ). Если функция MS EXCEL должна вернуть Функцию распределения, то параметр интегральная , д.б. установлен ИСТИНА. Если требуется вычислить плотность вероятности , то параметр интегральная , д.б. ЛОЖЬ.

Примечание : Для дискретного распределения вероятность случайной величине принять некое значение также часто называется плотностью вероятности (англ. probability mass function (pmf)). В справке MS EXCEL плотность вероятности может называть даже «функция вероятностной меры» (см. функцию БИНОМ.РАСП() ).

Вычисление плотности вероятности с использованием функций MS EXCEL

Понятно, что чтобы вычислить плотность вероятности для определенного значения случайной величины, нужно знать ее распределение.

Найдем плотность вероятности для стандартного нормального распределения N(0;1) при x=2. Для этого необходимо записать формулу =НОРМ.СТ.РАСП(2;ЛОЖЬ) =0,054 или =НОРМ.РАСП(2;0;1;ЛОЖЬ) .

Напомним, что вероятность того, что непрерывная случайная величина примет конкретное значение x равна 0. Для непрерывной случайной величины Х можно вычислить только вероятность события, что Х примет значение, заключенное в интервале (а; b).

Вычисление вероятностей с использованием функций MS EXCEL

1) Найдем вероятность, что случайная величина, распределенная по стандартному нормальному распределению (см. картинку выше), приняла положительное значение. Согласно свойству Функции распределения вероятность равна F(+∞)-F(0)=1-0,5=0,5.

В MS EXCEL для нахождения этой вероятности используйте формулу =НОРМ.СТ.РАСП(9,999E+307;ИСТИНА) -НОРМ.СТ.РАСП(0;ИСТИНА) =1-0,5. Вместо +∞ в формулу введено значение 9,999E+307= 9,999*10^307, которое является максимальным числом, которое можно ввести в ячейку MS EXCEL (так сказать, наиболее близкое к +∞).

2) Найдем вероятность, что случайная величина, распределенная по стандартному нормальному распределению , приняла отрицательное значение. Согласно определения Функции распределения, вероятность равна F(0)=0,5.

В MS EXCEL для нахождения этой вероятности используйте формулу =НОРМ.СТ.РАСП(0;ИСТИНА) =0,5.

3) Найдем вероятность того, что случайная величина, распределенная по стандартному нормальному распределению , примет значение, заключенное в интервале (0; 1). Вероятность равна F(1)-F(0), т.е. из вероятности выбрать Х из интервала (-∞;1) нужно вычесть вероятность выбрать Х из интервала (-∞;0). В MS EXCEL используйте формулу =НОРМ.СТ.РАСП(1;ИСТИНА) — НОРМ.СТ.РАСП(0;ИСТИНА) .

Все расчеты, приведенные выше, относятся к случайной величине, распределенной по стандартному нормальному закону N(0;1). Понятно, что значения вероятностей зависят от конкретного распределения. В статье Распределения случайной величины в MS EXCEL приведены распределения, для которых в MS EXCEL имеются соответствующие функции, позволяющие вычислить вероятности.

Обратная функция распределения (Inverse Distribution Function)

Вспомним задачу из предыдущего раздела: Найдем вероятность, что случайная величина, распределенная по стандартному нормальному распределению, приняла отрицательное значение.

Вероятность этого события равна 0,5.

Теперь решим обратную задачу: определим х, для которого вероятность, того что случайная величина Х примет значение =НОРМ.СТ.ОБР(0,5) =0.

Однозначно вычислить значение случайной величины позволяет свойство монотонности функции распределения.

Обратите внимание, что для вычисления обратной функции мы использовали именно функцию распределения , а не плотность распределения . Поэтому, в аргументах функции НОРМ.СТ.ОБР() отсутствует параметр интегральная , который подразумевается. Подробнее про функцию НОРМ.СТ.ОБР() см. статью про нормальное распределение .

Обратная функция распределения вычисляет квантили распределения , которые используются, например, при построении доверительных интервалов . Т.е. в нашем случае число 0 является 0,5-квантилем нормального распределения . В файле примера можно вычислить и другой квантиль этого распределения. Например, 0,8-квантиль равен 0,84.

В англоязычной литературе обратная функция распределения часто называется как Percent Point Function (PPF).

Примечание : При вычислении квантилей в MS EXCEL используются функции: НОРМ.СТ.ОБР() , ЛОГНОРМ.ОБР() , ХИ2.ОБР(), ГАММА.ОБР() и т.д. Подробнее о распределениях, представленных в MS EXCEL, можно прочитать в статье Распределения случайной величины в MS EXCEL .

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *