Вход

Критерий согласия Пирсона

Реферат по математике
Дата добавления: 19 июня 2006
Язык реферата: Русский
Word, rtf, 587 кб
Реферат можно скачать бесплатно
Скачать



Федеральное агентство Российской Федерации по образованию


МОСКОВСКИЙ АВИАЦИОННЫЙ ИНСТИТУТ

(ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ)












Курсовая работа по ТВ и МС

Критерий согласия Пирсона














Выполнил:



Проверил:




Москва, 20 г

Оглавление


Теоретическая часть

стр

Исходные данные

1.Основные непрерывные распределения

3

4

2. Распределений хи-квадрат

6

3.Выборка

6

4.Понятие о точечном и интервальном оценивании. Свойства точечных оценок: несмещенность и состоятельность


8

5.Метод моментов. Метод максимального правдоподобия

9

6. Выборочные моменты

9

7.Проверка гипотезы о законе распределения выборки по критерию согласия К. Пирсона (?2 - хи-квадрат)

10

Практическая часть

12

Список использованной литературы

16



Вариант № 13

Проверка статистической гипотезы о законе распределения

Исходные данные:

набор наблюдений

-11,963

-19,197

-8,653

1,416

-16,534

0,409

-2,982

-12,845

-19,371

-16,969

-9,076

-2,590

0,527

-20,332

-5,936

-12,820

-7,841

-6,679

-20,562

-16,534

0,525

-21,010

-7,953

-10,732

-1,374

-12,326

-19,110

-16,415

-16,538

-1,626

-9,033

-6,583

0,031

-9,910

-4,721

-2,234

-2,665

-10,179

-9,175

-0,370

-3,627

0,568

-1,1395

-21,990

-5,854

1,330

-8,380

-16,095

-12,347

-4,892

-9,130

-3,684

-2,105

-15,098

-6,647

-5,758


Теоретическая часть

1.Основные непрерывные распределения

1). Равномерное распределение

СВ Х распределена равномерно на отрезке [a; b] (X~R(a; b)) , если плотность вероятности имеет вид:













mx= (a+b)/2

Dx = (b-a)2/12 =?x2

?x=(b-a)/2· ?3


2) Экспоненциальное распределение

?e-?e, x ? 0

fx(x)=

0, x < 0

1-e-?x , x ? 0

Fx (x)=

0, x < 0

M[X]= ?x fx(x) dx = ?x ?e-?xdx = 1/x?te-tdt = 1/x

mx =1/?


D[X]= M[X2] – (mx)2 = ?x2 ?e-?xdx- (1/x)2

Dx= 1/?2

? x= ?Dx= 1/x

Этим распределением описываются многие важные величины: время безотказной работы изделия, длина промежутка времени между звонками на телефонной станции, время обслуживания клиента в системе массового обслуживания. При этом параметр ? имеет следующий смысл: если х- время обслуживания клиента (x ? 0), то mx=M[X] среднее время обслуживания клиента

mx=1/?; ?=1/mx – ожидаемое количество обслуживания клиентов в единицу времени.

T~E(?)

P(T1 ? T ? T2) = FT(T2) – FT(T1) = (1-exp{-? ·T2}) – (1-exp{-? ·T1}) =

= exp{-? ·T1} – exp{-? ·T2}

0 ? T1 < T2


3).Нормальное (гауссовское) распределение.

CВ Х имеет нормальное распределение с параметрами а и D>0, если ее плотность вероятности имеет следующий вид

fx(x)=(1/?2?·D) exp{-(x-a)2/ D}

X~N(a; D)

M[X]= mx= a

D[X]= Dx= ?x2= D

X~N(mx; ?x2) ?1 ?2

?2> ?1

m2> m1

Функция распределения нормальной СВ имеет следующий вид:

Fx(x)= Ф((x- mx)/ ?x), где


Ф(z)= (1/?2?)?exp{-x2/2}dx – интеграл вероятности или функция Лапласа

Замечание: часто вместо функции Ф(z) используется функция

Ф0(z)= (1/?2?)?exp{-x2/2}dx


Связь между функциями следующая:

0,5+ Ф0(z), если z > 0

Ф(z)=

0,5– Ф0(z), если z < 0

Функция Лапласа обладает следующими свойствами:

  1. 0 ? Ф(z) ? 1

  2. Ф(z) возрастает

  3. Ф(z)=1, если z > 5

  4. Ф(z)=0, если z < -5


Вычисление вероятности попадания гауссовской величины в отрезок

X~N(mx; ?x2)

Fx(x) = Ф((x- mx)/ ?x) = Fx(x)= Ф((x- mx)/ ?Dx)

P(? ? X ? ?) = Fx(?) – Fx(?) = Ф((? - mx)/ ?x) – Ф((? - mx)/ ?x)

Замечание: пусть mx=0, ?x2=1, тогда Х имеет распределение

X~N(0; 1) – стандартное нормальное распределение

Fx(x) = Ф(x)

Следовательно функция Лапласа есть распределение стандартной нормальной СВ

P(? ? X ? ?) = Ф(?) – Ф(?) – для X~N(0; 1)


2. Распределений хи-квадрат.

Пусть Uk, k= 1,n, - набор из n независимых нормально распределенных СВ, Uk~N(0; 1). Тогда СВ


Хn=?Uk2 имеет распределение хи-квадрат с n степенями свободы, что обозначается как Хn~?2(n).


Число ?2(n) находится по таблице распределения ?2. Это число зависит от степеней свободы n и от уровней значимости ?.

Стандартный ?=0,05


3.Выборка

Х1, Х2, …, Хn независимые одинаково распределенные СВ.

Такая последовательность называется выборкой объема n.

Пусть в результате конкретного опыта СВ Х приняла какое-то значение

Х11, Х22, …, Хnn

Хk – реализация СВ Хk в k-м опыте k=1+n

{ x1, x2, …, xn} – реализация выборки объема n


По условию СВ Х1, Х2, …, Хn, которые называются элементами выборки одинаково распределены, т.е. функция распределения Fx (x) = Fx (x) для всех k, i = 1,…,n

Fx (x) = F1 (x) = F(x) – функция распределения любого элемента выборки

Выборка соответствует закону распределения F(x)

f(x)= dF(x)/dx – плотность вероятности, которой соответствует выборка.


M[Xk] = M[X1] =?x f(x)dx = a =const


D[Xk] = D[X1] =?x2 f(x)dx - a2 = ?2 = const


(a; ?2 ) – параметры выборки


Оценивание математического ожидания и дисперсии по выборке


{ x1, x2, …, xn} – реализация выборки.

Оценкой мат. ожидания а по этой выборке называется величина:


Xn = 1/n ?xk – выборочное среднее


Реализацией выборки называется неслучайный вектор zn = col(x1,…, xn), компоненты которого являются реализации соответствующих элементов выборки Xi, i=1,n.


Реализацию выборки можно так же рассматривать как последовательность

x1,…, xn из n реализаций одной и той же СВ Х, полученных в серии из n независимых одинаковых опытов, проводимых в одинаковых условиях.


Оценкой параметра называется его приближенное значение, построенное по выборке наблюдений.

Т.о. Хn= аn – оценка для а

Замечание: можно показать, что оценка Хn обладает следующим свойством:

  1. Хn?a при n ? ? (состоятельность оценки Хn)

  2. M[Xn]=a (несмещенность оценки)

Выборочной дисперсией называется величина


Sn2= (1/(n-1)) ?(xk – Xn)2


Выборочная дисперсия является оценкой для дисперсии

Sn2=?2

?n = ? Sn2 = Sn – оценка среднего квадратичного отклонения.


Выборочная (эмпирическая) функция распределения.

Упорядочить элементы выборки по возрастанию

Мn(A) – случайное число появлений события A в серии из n испытаний

Wn(A) = Мn(A)/n – частота события А в серии из n испытаний

Рассмотрим выборку Zn, порожденную СВ Х с функцией распределения Fx(x). Определим для каждого х Є R1 событие Aх= {X ? x}, для каждого P(Aх) = Fx(x). Тогда Мn(Aх) – случайное число элементов выборки Zn, не превосходящих х

Определение. Частота Мn(Aх) события Aх как функция х Є R1 , называется выборочной (эмпирической) функцией распределения СВ Х и обозначается

Fn(x) = Мn(Aх).


Для каждого фиксированного х Є R1 СВ Fn(x) является статистикой, реализациями которой являются числа 0, 1/n, 2/n,…,n/n, и при этом

P{Fn(x) = k/n}= P{Мn(Aх)=k}, k= 1,n.

Любая реализация Fn(x) выборочной функции Fn(x) является ступенчатой функцией. В точках х(1)<…< х(n), где х(k) – реализация порядковой статистики X(k), функция Fn(x) имеет скачки величиной 1/n и является непрерывной справа.

Свойства.

  1. M [Fn(x)]= F(x), для любого х Є R1 и любого n ? 1

  2. Sup| Fn(x)- F(x)| ? 0 при n ? ?

  3. dn(x) = M[(Fn(x)- F(x))2] = F(x)(1-F(x))/n ? 1/4n

  4. (Fn(x)- F(x))/?dn(x) ?U при n ? ?, где СВ U имеет распределение

N(0; 1)


Гистограмма

  1. Построить вариационный ряд выборки, т.е. элементы выборки упорядочить по возрастанию {x1,…, xn} ? {x1,…, xn}

х(1)<…< х(n)

Промежуток ?= [x1, xn] называется размахом выборки.

Все наблюдения принадлежат этому промежутку.

2)Группировки выборки.

Для этого размах выборки делится на k промежутков одинаковой длины.

|?i| - длина промежутка ?i

|?1|=|?2|=…=|?n|=|?|/k

nm – число наблюдений попавших в интервал

Группировкой выборки называется набор следующего вида.

(?m; nm) , m=1,…,k – статистический ряд

  1. Построение гистограммы

Для каждого промежутка ?m находится частота

Pm*= nm/n

Над каждым промежутком ?m строится прямоугольник, основанием которого является этот промежуток, а высота равна

hm= Pm*/ |?m|

Гистограммой называется кусочно-постоянная функция, образованная верхними основаниями построенных прямоугольников.

Гистограмма является оценкой плотности вероятности, построенной по выборке.

4.Понятие о точечном и интервальном оценивании. Свойства точечных оценок: несмещенность и состоятельность.


Оценкой параметра называется его приближенное значение, построенное по выборке наблюдений (?)

Точечной (выборкой) оценкой неизвестного параметра распределения

? Є ? называется произвольная статистика ?(Zn), построенная по выборке Zn и принимающая значение в множестве ?.

Свойства:

1) Оценка ?(Zn) параметра ? называется состоятельной, если она сходится по вероятности к ?, т.е. ?(Zn) ? ? при n ? ? для любого ? Є ?.

2) Оценка ?(Zn) параметра ? называется несмещенной, если ее МО равно ?, т.е. M[?(Zn)] = ? для любого ? Є ?.


5.Метод моментов. Метод максимального правдоподобия.

Оценкой максимального правдоподобия (МП-оценкой) параметра ? Є ? называется статистика ?(zn), максимизирующая для каждой реализации Zn

функцию правдоподобия, т.е.

?(zn) = arg max L(zn, ?)


Способ построения МП-оценки называется методом максимального правдоподобия.


Пусть vi, i=1,s, - выборочные начальные моменты. Рассмотрим систему уравнений

vi (?)= vi, i=1,s

и предположим, что ее можно решить относительно параметров ?1,…, ?s, т.е. найти функции ?i=?i(v1,…, vs), i=1,s

Решением полученной системы уравнений ?i=?i(v1,…, vs), i=1,s, называется оценкой параметра ?, найденной по методу моментов, или ММ-оценкой.

6. Выборочные моменты

Пусть имеется выборка Zn=col(x1,.., xn) которая порождена СВ Х с функцией распределения Fx(x).

Для выборки Zn объема n выборочными начальными и центральными моментами порядка r СВ Х называются следующие СВ:


vr(n) = 1/n?(xk)r, r =1,2,….;


? r(n) = 1/n?(xk- vr(n))r, r =2,3,….;


Выборочным средним и выборочной дисперсией СВ Х называются соответственно:


mX(n)= v1(n) = 1/n?xk


dX(n)= ? 2(n) = 1/n?(xk- mX(n))2


7.Проверка гипотезы о законе распределения выборки по критерию согласия К. Пирсона (?2 - хи-квадрат)


СВ Х имеет распределение ?2 с r степенями свободы. Если ее можно представить в следующем виде Х = ?Хi2 , где Хi~ N(0; 1)

Х= ?2(r)

Плотность вероятности этой СВ имеет следующий график:


Критическая и доверительная область

Х= ?2(r)

Критической областью значений СВ Х называется промежуток на вещественной оси, в которой СВ Х попадает с некоторой малой вероятностью ?.

Это число ? называется уровнем значимости критической области.

S – критическая область

P(XЄS) = ?<<1>

S=R’- S – доверительная область

P(XЄS) = 1-? – близка к 1

Для задания критической области S распределения Пирсона поступают следующим образом:

P(X ? ?кр2(r)) = ?

S = [?кр2(r); +?)

P(XЄS) = ? – по построению

S = [0, ?кр2(r)) – доверительная область


Замечание: число ?2(r) находится по таблице распределения ?2. Это число зависит от степеней свободы r и от уровней значимости ?.

Стандартный ?=0,05


Алгоритм критерия Пирсона

1) Формулировка гипотезы

Н0: имеющаяся выборка соответствует закону распределения F(x)

2) Производится группировка выборки и вычисление частот {Pm*}, m=1?k

3) Для каждого подынтервала ?m вычисляется вероятность попадания реализации выборки в этот промежуток на основе принятой гипотезы

?m=[zm; zm+1]

Pm= F(zm+1) – F(zm); m=1?k

  1. Вычисляется статистика критерия Пирсона


gn=(n?(Pm+ Pm*)2/ Pm)+n(P0+ Pm+1),


где P0+ Pm+1=1-? Pm, n-объем выборки


Теорема. Если проверяемая гипотеза Н0- верна, то СВ gn – называемая статистикой критерия Пирсона имеет распределение

gn ~ ?2(r)

r=k+n1- n2-1

k – число интервалов

n1 – число дополнительных интервалов

n2 – число неизвестных параметров распределения F(x), которые были заменены их оценкой.

  1. Принятие решения.

Строится критическая область S

S = [?кр2(r); +?)

Если gn Є S, то гипотеза отвергается

Если gn Є S, то гипотеза принимается, как не противоречащая данным


Практическая часть

Вариант № 13

Исходные данные:

набор наблюдений

-11,963

-19,197

-8,653

1,416

-16,534

0,409

-2,982

-12,845

-19,371

-16,969

-9,076

-2,590

0,527

-20,332

-5,936

-12,820

-7,841

-6,679

-20,562

-16,534

0,525

-21,010

-7,953

-10,732

-1,374

-12,326

-19,110

-16,415

-16,538

-1,626

-9,033

-6,583

0,031

-9,910

-4,721

-2,234

-2,665

-10,179

-9,175

-0,370

-3,627

0,568

-1,1395

-21,990

-5,854

1,330

-8,380

-16,095

-12,347

-4,892

-9,130

-3,684

-2,105

-15,098

-6,647

-5,758



1.Найдем оценку математического ожидания и выборочную дисперсию.

M[X]= X= 1/n · ?Xk = 1/56 · [-11,963+(-19,371) +…+ (-5,758)]= -8,661

D[X]= S2= 1/n · ?(Xk – X) 2= 1/56 · [(-11,963 – (-8,661)) 2 + (-19,371 – (-8,661))2 +…+

+ (-5,758 – (-8,661)) 2 = 46,075

M[X]= -8,661

D[X]= 46,075


2. Построение графика выборочной функции распределения и гистограммы.

1). Построим вариационный ряд выборки


-21,990

-16,969

-12,845

-9,910

-7,953

-5,758

-2,590

0,031

-21,010

-16,538

-12,820

-9,175

-7,841

-4,892

-2,234

0,409

-20,562

-16,534

-12,347

-9,130

-6,679

-4,721

-2,105

0,525

-20,332

-16,534

-12,326

-9,076

-6,647

-3,684

-1,626

0,527

-19,371

-16,415

-11,963

-9,033

-6,582

-3,627

-1,395

0,568

-19,197

-16,095

-10,732

-8,653

-5,936

-2,982

-1,374

1,330

-19,110

-15,098

-10,179

-8,380

-5,854

-2,665

-0,370

1,416


2). Вычислим выборочные функции распределения

F(x) = mx/n,

mx – количество наблюдений меньших или равных числа x

F(-21,99)=1/56=0,02

F(-21,01)=2/50=0,04

……………………….

F(1,33)=49/50=0,98

F(1,416)=50/50=1


3.Построение гистограммы.

1).m – номер интервала , m=1,…,k

k – число интервалов

nm – число наблюдений попавших в каждый интервал

Pm* = nm /n – частота

|?m| - длина каждого интервала

hm = Pm*/|?m| - высота столбца


2). Группировка выборки

K=8

|?1|=|?2|=…=|?k|=2,926

Статистический ряд (?m; nm), m=1,…,k

([-21,99; -19,065]; 7), m= 1

((-19,065; -16,139]; 5), m= 2

((-16,139; -13,213]; 2), m= 3

((-13,213; -10,287]; 6), m= 4

((-10,287; -7,361]; 10), m= 5

((-7,361; -4,436]; 8), m= 6

((-4,436; -1,51]; 8), m= 7

((-1,51; 1,416];10), m= 8


3).Найдем частоты для каждого интервала

P1*= 0,125

P2*= 0,09

P3*= 0,036

P4*= 0,107

P5*= 0,179

P6*= 0,143

P7*= 0,143

P8*= 0,179


4).Найдем высоты столбцов гистограммы

h1= 0,043

h2= 0,03

h3= 0,012

h4= 0,037

h5= 0,061

h6= 0,049

h7= 0,049

h8= 0,061


5). H0 : имеющаяся выборка соответствует закону распределения R[a; b].


4. 1). Находим

a= -21,99

b= 1,416

2). Найдем вероятности попадания СВ в интервалы

P(XЄ?1)= P(XЄ?2)= ...= P(XЄ?k)= 0,125

P(XЄ?0)= (X Є (-?; -21,99))= 0

P(XЄ?k+1)= (X Є (1,416; +?))= 0

3). Статистика критерия Пирсона


gn=(n?(Pm- Pm*)2/ Pm) + n(P0 + Pk+1)


g56= 7,143


5. Принятие решения

??2(r) – квантиль распределение хи-квадрат уровня ? с числом степеней свободы r.

r = k+ n1– n2– 1

k – количество интервалов

n1 – число дополнительных интервалов

n2 – число неизвестных параметров закона распределения, для которых были сделаны оценки

r = 5

?0,952(5)= 11,07 (по таблице)

Доверительная область [0; 11,07]

7,143 Є [0; 11,07] – гипотеза H0 принимается с вероятностью 0,95

?0,92(5)= 9,24 (по таблице)

Доверительная область [0; 9,24]

7,143 Є [0; 9,24] – гипотеза H0 принимается с вероятностью 0,9


6. Найдем интервал, в который СВ X попадает с вероятностью 0,99

P(?1? X ? ?2)= 0,99

?1 и ?2 Є [-21,99; 1,416]

(?1- (-21,99))/(1,416-(-21,99)) – (?2- (-21,99))/(1,416-(-21,99))=0,99

?1- ?2=23,172

если ?1= -21,99, тогда ?2= 1,182

СВ Х попадает в [-21,99; 1,182] с вероятностью 0,99









Список использованной литературы

  1. Конспект лекций по курсу ТВиМС

  2. Теория вероятностей и математическая статистика. А.И. Кибзун и др. М. Физматлит 2005











© Рефератбанк, 2002 - 2017