Рекомендуемая категория для самостоятельной подготовки:
Курсовая работа*
Код |
318821 |
Дата создания |
08 июля 2013 |
Страниц |
25
|
Мы сможем обработать ваш заказ (!) 23 декабря в 12:00 [мск] Файлы будут доступны для скачивания только после обработки заказа.
|
Содержание
ВВЕДЕНИЕ
1.СТАТИСТИЧЕСКИЙ АНАЛИЗ ЭМПИРИЧЕСКОГО РАСПРЕДЕЛЕНИЯ
1.1.Табличное и графическое представление вариационного ряда
1.2. Характеристика центральной тенденции распределения
1.3. Оценка вариации изучаемого признака
1.4. Характеристика структуры распределения
1.5. Характеристика формы распределения
1.6. Сглаживание эмпирического распределения. Проверка гипотезы о законе распределения.
1.7. Общие выводы по эмпирическому распределению
2.ПРОВЕДЕНИЕ ВЫБОРОЧНОГО НАБЛЮДЕНИЯ
2.1. Расчёт необходимого объёма выборочной совокупности
2.2 Формирование выборочных совокупностей и обработка выборочных данных
2.3. Распространение результатов выборочного наблюдения на генеральную совокупность
2.4 Поверка статистических гипотез о значении генеральной средней и о равенстве двух выборочных средних
Введение
методы анализа распределений, выборочное наблюдение.
Фрагмент работы для ознакомления
34
1757
54
3873
74
6162
15
4429
35
3160
55
3421
75
5073
16
4051
36
2312
56
7177
76
5427
17
3956
37
3344
57
3995
77
6473
18
3989
38
4086
58
3669
78
4800
19
5095
39
4379
59
7413
79
4183
20
6938
40
3886
60
3854
80
7047
Ниже представлены таблицы вариационного ряда, построенные с использованием разного числа интервалов (k=15,10,8).
а)k=15
б) k=10
Рис.1.1. Распределение регионов России по показателю «Среднедушевые доходы населения» в 2004 г. С числом интервалов а)k=15 б)k=10
Рис.1.2. Распределение регионов России по показателю «Среднедушевые доходы населения» в 2004 г. С числом интервалов k=7
В качестве наиболее адекватного числа интервалов было выбрано k=7, длина интервала 1739 , так как в остальных случаях присутствовали малонаполненные группы или дополнительные вершины.
Рис.1.3. Полигон распределения регионов России по показателю «Среднедушевые доходы населения» в 2004 г. с числом интервалов k=15.
Рис.1.4. Полигон распределения регионов России по показателю «Среднедушевые доходы населения» в 2004 г. с числом интервалов k=10
Рис.1.5. Полигон распределения регионов России по показателю «Среднедушевые доходы населения» в 2004 г. с числом интервалов k=7
Рис.1.6.Кумулята распределения регионов России по показателю «Среднедушевые доходы населения» в 2004 г. с числом интервалов k=15.
Рис.1.7. Кумулята распределения регионов России по показателю «Среднедушевые доходы населения» в 2004 г. с числом интервалов k=10.
Рис.1.8. Кумулята распределения регионов России по показателю «Среднедушевые доходы населения» в 2004 г. с числом интервалов k=7.
Рис.1.9 Гистограмма распределения регионов России по показателю «Среднедушевые доходы населения» в 2004 г. с числом интервалов k=15.
Рис.1.10. Гистограмма распределения регионов России по показателю «Среднедушевые доходы населения» в 2004 г. с числом интервалов k=10
Рис.1.10. Гистограмма распределения регионов России по показателю «Среднедушевые доходы населения» в 2004 г. с числом интервалов k=7.
1.2. Характеристика центральной тенденции распределения
В этом пункте мы произведём расчёт и проанализируем основные показатели центра распределения: среднего арифметического значения, моды, медианы.
Все эти значения приведены в следующей таблице:
Рис. 1.11. Основные показатели центра распределения регионов России по показателю «Среднедушевые доходы населения» в 2004 г.
Отсюда :
Среднее арифметическое (Mean) рассчитывается по формуле
= 5204,767 – это обобщённое значение исследуемого признака;
Мода (Mode)- это такое значение случайной величины Х , которое является наиболее вероятным: Multiple, что означает, что распределение имеет не одну моду – значит наиболее часто встречаемое значение признака не одно;
Медиана (median) – это такое значение случайной величины, для которой вероятность того что случайная величина Х будет меньше или больше медианы будет равна 0,5: 4603,5.
1.3. Оценка вариации изучаемого признака
В этом пункте будут посчитаны и проанализированы следующие показатели: размах вариации, дисперсия, среднее квадратическое отклонение, коэффициент вариации. Все эти значения приведены в следующей таблице:
Рис. 1.12. Основные показатели вариации регионов России по показателю «Среднедушевые доходы населения» в 2004 г
Отсюда:
Размах вариации (Range) R = Xmax - Xmin,= 10434;
Дисперсия (Variance) это число, которое вычисляется по формуле:
= 4473280;
Среднее квадратическое отклонение (Std.Dev.) вычисляется по формуле:
=:2115,013.
Коэффициент вариации рассчитываем по формуле :
==40,64% -
он выше 33%, что говорить о высокой вариации исследуемого признака.
1.4. Характеристика структуры распределения
В этом пункте будут рассчитаны и проанализированы следующие показатели: медиана, квартили.
Значения этих показателей представлены в следующей таблице:
Рис. 1.13. Основные показатели структуры распределения регионов России по показателю «Среднедушевые доходы населения» в 2004 г
Откуда:
Медиана (median): 4603,5-значение признака, приходящееся на середину ранжированной совокупности;
Нижний квартиль (Lower Quartile): 3854,0 – нижний квартиль отделяет ¼ часть совокупности с наименьшими значениями признака. Это означает, что 25% единиц совокупности будет меньше по величине , чем 3854,0.
Верхний квартиль (Upper Quartile): 6162,0- -верхний квартиль отделяет ¼ часть совокупности с наибольшими значениями признака. Это означает, что 25% единиц совокупности будет больше по величине , чем 6162,0.
1.5. Характеристика формы распределения
В этом пункте будут рассчитаны и проанализированы следующие показатели: коэффициент ассиметрии, коэффициент эксцесса (куртозис).
Значения этих показателей представлены в следующей таблице:
Рис. 1.14. Основные показатели формы вариации регионов России по показателю «Среднедушевые доходы населения» в 2004 г
Отсюда:
Коэффициент асимметрии (Skewness) рассчитывается по формуле =1,206480 –это значение не равно нулю, что говорит о том, что распределение имеет несимметричную форму; оно положительно, что говорит о положительной (правосторонней асимметрии).
Коэффициент эксцесса (Kurtosis) рассчитывается по формуле
= 1,152405 - эксцесс является показателем «крутости» вариационного ряда по сравнению с нормальным распределением. Эксцесс нормально распределённой величины равен нулю. В нашем случае его значение положительно, что говорит о том, что полигон рассматриваемого вариационного ряда имеет более крутую вершину, по сравнению с нормальной кривой.
1.6. Сглаживание эмпирического распределения. Проверка гипотезы о законе распределения.
Полученное эмпирическое распределение необходимо сравнить с известными теоретическими распределениями.
Теоретическая кривая распределения – кривая, выражающая общую закономерность данного типа распределения в чистом виде, исключающем влияние случайных факторов.
Нами выбраны два вида теоретического распределения:
Нормальное
Логарифмическое
После сравнения (сглаживания) эмпирического распределения указанными теоретическими будут подтверждены или опровергнуты следующие нулевые гипотезы:
Н0: Эмпирическое распределение переменной подчиняется нормальному закону распределения.
Н0: Эмпирическое распределение переменной подчиняется логарифмическому закону распределения.
Для оценки соответствия эмпирического распределения теоретическому будет использован критерий согласия Пирсона.
Рис. 1.15. Проверка гипотезы о нормальном распределении переменной NewVar.
Рис. 1.15. Проверка гипотезы о логарифмическом распределении переменной NewVar.
Графическое представление сглаживания эмпирического распределения кривыми теоретических распределений представлено ниже:
Рис. 1.16. Гистограмма и расчётная кривая нормального распределения для переменной NewVar.
Рис. 1.16. Гистограмма и расчётная кривая логарифмического распределения для переменной NewVar.
Выводы по проверке гипотез о законе распределения:
1. Так как расчётное значение критерия Пирсона и , то гипотеза о нормальном распределении переменной NewVar противоречит статистическим данным.
2. Так как расчётное значение критерия Пирсона и , то гипотеза о логарифмическом распределении переменной NewVar не противоречит статистическим данным.
1.7. Общие выводы по эмпирическому распределению
Обобщая все проведённые расчёты по исследуемой вариации признака «среднедушевые денежные доходы населения, тыс.руб.» по регионам РФ за 2004 год можно сделать следующие выводы:
5204,767 – это обобщённое значение исследуемого признака;
вариация исследуемого признака высокая;
распределение имеет несимметричную форму и полигон рассматриваемого вариационного ряда имеет более крутую вершину, по сравнению с нормальной кривой.
гипотеза о логарифмическом распределении признака не противоречит статистическим данным (при уровне значимости ).
2. ПРОВЕДЕНИЕ ВЫБОРОЧНОГО НАБЛЮДЕНИЯ
2.1. Расчёт необходимого объёма выборочной совокупности
Под ошибкой выборки будем понимать отклонение выборочной средней от средней генеральной. Ошибки бывают двух видов – ошибки регистрации и ошибки репрезентативности. Величина ошибок может быть связана с нарушением принципов формирования выборочной совокупности (например, если в выборку попадают достаточно большие или достаточно малые значения признака) или с действием случайных факторов.
Расчёт необходимого объёма выборки осуществляется по формуле:
где N = 95 – объём генеральной совокупности,
t- параметр нормального распределения, соответствующий заданному уровню доверительной вероятности(при Р = 0,90, t = 3),
2115,013,
-предельная ошибка выборки – примем её равной 10% от генеральной средней, то есть 0,1*5204,767 = 520,4767.
Тогда
=.
2.2 Формирование выборочных совокупностей и обработка выборочных данных
Методом случайного бесповторного отбора сформируем 5 малых выборок объёма 20 и одну большую выборку объёма 56 (результат расчёта из пункта 2.1.).
Для каждой из выборок рассчитаны основные статистические характеристики:
Mean-среднее значение признака,
(Std.Dv.) – среднее квадратическое отклонение,
Std.Err.- средняя ошибка выборки,
Confidence -90.00% - нижняя граница доверительного интервала при вероятности Р=0,90.,
Confidence +90.00% - верхняя граница доверительного интервала при вероятности Р=0,90.,
t-value- расчётное значение t-критерия для проверки гипотезы о значении генеральной средней 5204,767,
р – расчётный уровень значимости t-критерия.
Результаты этих расчётов представлены ниже:
Рис.2.1.Результаты обработки выборочных данных
Как видно из этой таблицы, наименьшее значение средней ошибки получено для выборки объёма 56 единиц - для неё рассчитанный доверительный интервал для генеральной средней равен:
,
то есть с вероятностью 90% можно утверждать, что в среднем по регионам России среднедушевые денежные доходы населения в 2004 г. находились в этих пределах.
2.3. Распространение результатов выборочного наблюдения на генеральную совокупность
В этом пункте представим графически полученные ранее выборки и проведём сравнительный анализ полученных результатов. Графическое представление будем осуществлять с помощью гистограмм:
Рис.2.2. Гистограмма по выборке объёма 56 ед.
Рис.2.3. Гистограмма по выборке (№1) объёма 20 ед.
Рис.2.4. Гистограмма по выборке (№2) объёма 20 ед.
Рис.2.5. Гистограмма по выборке (№3) объёма 20 ед.
Рис.2.6. Гистограмма по выборке (№4) объёма 20 ед.
Рис.2.7. Гистограмма по выборке (№5) объёма 20 ед.
Графическое представление данных позволяет сделать вывод о предпочтении выборок из 56 единиц и выборок №4 и №2 из 20 единиц, так как их гистограммы не содержат пустых интервалов и достаточно близки к нормальной кривой. Различия в представленных гистограммах для выборок одинакового объёма (20 ед.) объясняется достаточно большой вариацией исследуемого признака.
2.4 Поверка статистических гипотез о значении генеральной средней и о равенстве двух выборочных средних
Мы будем проверять гипотезу Н0: при уровне значимости Р=0,9. Для удобства проверки гипотез для всех 6 выборок полученные расчётные результаты объединим в таблицу:
Таблица 2.1.
Результаты выборочного наблюдения
выборка
Выборочная
средняя
Нижняя
граница
доверительного
интервала
Верхняя
граница
доверительного
интервала
Число
степеней свободы
Расчётный уровень значимости
Выборка
(56 ед.)
Пожалуйста, внимательно изучайте содержание и фрагменты работы. Деньги за приобретённые готовые работы по причине несоответствия данной работы вашим требованиям или её уникальности не возвращаются.
* Категория работы носит оценочный характер в соответствии с качественными и количественными параметрами предоставляемого материала. Данный материал ни целиком, ни любая из его частей не является готовым научным трудом, выпускной квалификационной работой, научным докладом или иной работой, предусмотренной государственной системой научной аттестации или необходимой для прохождения промежуточной или итоговой аттестации. Данный материал представляет собой субъективный результат обработки, структурирования и форматирования собранной его автором информации и предназначен, прежде всего, для использования в качестве источника для самостоятельной подготовки работы указанной тематики.
bmt: 0.00515