Рекомендуемая категория для самостоятельной подготовки:
Курсовая работа*
Код |
339511 |
Дата создания |
07 июля 2013 |
Страниц |
29
|
Мы сможем обработать ваш заказ (!) 9 октября в 19:00 [мск] Файлы будут доступны для скачивания только после обработки заказа.
|
Содержание
«ОПИСАТЕЛЬНАЯ СТАТИСТИКА»
СОДЕРЖАНИЕ
Введение
1.Задание на курсовую работу. Исходные данные
2.Анализ эмпирического распределения
2.1.Представление исходных данных в виде гистограммы, полигона, куммуляты
2.2.Вычисление выборочных статистики
2.3.Аппроксимация эмпирического распределения и проверка гипотезы о законе распределения
3.Выборочные наблюдения
3.1.Проведение выборочного наблюдения методом случайной бесповторной выборки
3.2.Определение точечных оценок и построение интервальных оценок
3.3.Сравнение результатов. Выводы
Список использованной литературы
Введение
Описательная статистика.
Фрагмент работы для ознакомления
3
221,0606
240,6909
28
41
4
240,6909
260,3212
46
87
5
260,3212
279,9514
54
141
6
279,9514
299,5817
29
170
7
299,5817
319,212
24
194
8
319,212
338,8423
2
196
9
338,8423
358,4726
2
198
Итого
198
В данной колонке таблицы представлены варианты дискретного вариационного ряда, во второй - помещены частоты вариационного ряда, а в третьей - показаны частости.
Удобнее всего ряды распределения анализировать при помощи их графического изображения, позволяющего судить и о форме распределения. Наглядное представление о характере изменения частот вариационного ряда дают полигон и гистограмма.
Полигон используется при изображении дискретных вариационных рядов (2). Для его построения в прямоугольной системе координат по оси абсцисс в одинаковом масштабе откладываютсяранжированные значения варьирующего признака, а по оси ординат наносится шкала для выражения величины частот. Полученные на пересечении абсцисс и ординат точки соединяются прямыми линиями, в результате этого получают ломаную линию, называемую полигоном частот. Иногда для замыкания полигона предлагается крайние точки (слева и справа на ломаной линии) соединить с точками на оси абсцисс. В этом случае получается многоугольник. В данном случае полигон частот, построенный по таблице 2 представлен на рис. 1
Рис. 1. Полигон распределения
На оси ординат могут наноситься не только значения частот, но и частостей вариационного ряда.
Гистограмма применяется для изображения интервального вариационного ряда (2,5,6). При построении гистограммы на оси абсцисс откладываются величины интервалов, а частоты изображаются прямоугольниками, построенными на соответствующих интервалах
Рис. 2. Гистограмма распределения
Высота столбиков в случае равных интервалов должна быть пропорциональна частотам. В результате мы получим гистограмму - график, на котором ряд распределения изображен в виде смежных друг с другом столбиков.
Гистограмма может быть преобразована в полигон распределения, если найти середины сторон прямоугольников и затем эти точки соединить прямыми линиями.
Для графического изображения вариационных рядов может также использоваться кумулятивная кривая. При помощи кумуляты (кривой сумм) изображается ряд накопленных частот. Накопленные частоты определяются путем последовательного суммирования частот по группам и показывают, сколько единиц совокупности имеют значения признака не больше, чем рассматриваемое значение (1).
При построении кумуляты интервального вариационного ряда по оси абсцисс откладываются варианты ряда, а по оси ординат накопленные частоты, которые наносят на поле графика в виде перпендикуляров к оси абсцисс в верхних границах интервалов. Затем эти перпендикуляры соединяют и получают ломаную линию, т. е. кумуляту.
Используя данные накопленного ряда (табл. 2), построим кумуляту распределения (рис. 3).
Рис. 3 Кумулята распределения
Изображение вариационного ряда в виде кумуляты особенно эффективно для вариационных рядов, частоты которых выражены в долях или процентах к сумме частот ряда, принятой соответственно за единицу или за 100%, т. е. частостями.
2.2. Вычисление выборочных статистики
Показатели вариации делятся на две группы: абсолютные и относительные. К абсолютным относятся размах вариации, среднее линейное отклонение, дисперсия и среднее квадратическое отклонение. Вторая группа показателей вычисляется как отношение абсолютных показателей вариации к средней арифметической (или медиане). Относительными показателями вариации являются коэффициенты осцилляции, вариации, относительное линейное отклонение и др.
Самым простым абсолютным показателем является размах вариации (R).
Размах вариации – как разность между минимальным и максимальным значениями варьирующего признака совокупности был определён в п.п. 2.1. при расчёте величины интервала (2).
Размах вариации - важный показатель колеблемости признака, но не исчерпывающий его характеристику.
Для анализа вариации необходим и показатель, который отражает все колебания варьирующего признака, дающий обобщенную ее характеристику. Для многих варьирующих признаков возможно допущение, что при прочих равных условиях все единицы совокупности в соответствии с основными законами своего развития имели бы одинаковую и притом вполне определенную величину признака в данных условиях места и времени. Вполне логично в качестве такой величины условно принять среднюю величину из всех значений признака, поскольку в ней более или менее погашаются случайные отклонения от закономерного хода развития явления, и средняя тем самым отражает типичный размер признака у данной однородной совокупности единиц. Но условия существования и развития отдельных единиц совокупности в определенной степени различны, что сказывается и на различии значений у них взятого нами признака. Средняя величина отражает эти средние условия.
Следовательно, средняя применяется в качестве своего рода центра тяжести, вокруг которого происходят колебание, рассеяние значений признака. При обобщении этих колебаний необходимо вновь прибегнуть к методу средних величин - найти среднюю величину этих отклонений.
Такая средняя называется средним линейным отклонением (d). Оно вычисляется как средняя арифметическая из абсолютных значений отклонений вариант xi и (взвешенная или простая в зависимости от исходных условий), по следующей формуле (1,4,5)
(3)
В нашем случае (функция =СРЗНАЧ(A2:J21)) .
Таким образом, среднее линейное отклонение дает обобщенную характеристику степени колеблемости признака в совокупности. Однако при его исчислении приходится допускать некорректные с точки зрения математики действия, нарушать законы алгебры, что побудило математиков и статистиков искать иной способ оценки вариации для того, чтобы иметь дело только с положительными величинами. Самый простой выход - возвести все отклонения во вторую степень. Это столь простое решение привело в последующем к большим научным результатам. Оказалось, что обобщающие показатели вариации, найденные с использованием вторых степеней отклонений, обладают замечательными свойствами. Поэтому они получили широкое распространение в различных областях знаний, на их основе были разработаны новые методы исследования, а также новые показатели количественной характеристики большого класса явлений.
Полученная мера вариации называется дисперсией (), а корень квадратный из дисперсии - средним квадратическим отклонением (). Эти показатели являются общепринятыми мерами вариации и часто используются в статистических исследованиях, а также в технике, биологии и других отраслях знаний. Данные показатели нашли также свое широкое применение в международной практике учета и статистического анализа, в частности в системе национального счетоводства.
Дисперсия представляет собой средний квадрат отклонений индивидуальных значений признака от их средней величины и вычисляется по формулам простой и взвешенной дисперсий (в зависимости от исходных данных):
(4)
Дисперсия есть средняя величина квадратов отклонений. В данном случае варианты признака выражены в первой степени, значит, и мера их вариации также должна быть взята в первой степени. Для этого достаточно извлечь из дисперсии корень второй степени, получится среднее квадратическое отклонение. Значит, среднее квадратическое отклонение равно корню квадратному из дисперсии:
(5)
Дисперсия: 884,3698 (функция =ДИСП(A2:J21)).
Среднее квадратическое отклонение: 29,73836
(функция =СТАНДОТКЛОН(A2:J21)).
Наряду с рассмотренными средними величинами в качестве статистических характеристик вариационных рядов распределения рассчитываются так называемые структурные средние - мода и медиана.
Мода (Мо) представляет собой значение изучаемого признака, повторяющееся с наибольшей частотой в массиве или интервале данных (1).
Используя программу Excel, входящий в пакет Microsoft Office определим моду нашей совокупности: Мо=255,5.
Это означает, что в данной совокупности больше всего чисел 255,5, это число и будет модальным.
Медианой (Me) называется значение признака, приходящееся на середину ранжированной (упорядоченной)совокупности.
Для определения медианы необходимо провести ранжирование. Центральное в этом ряду число и будет медианным. Если ранжированный ряд включает четное число единиц, то медиана определяется как средняя из двух центральных значений.
Если мода отражает типичный, наиболее распространенный вариант значения признака, то медиана практически выполняет функции средней для неоднородной, не подчиняющейся нормальному закону распределения совокупности.
Значение медианы: Me=263,5.
Основной характеристикой центра распределения является средняя арифметическая, для которой характерно то, что все отклонения от нее (положительные и отрицательные) в сумме равняются нулю; для медианы характерно, что сумма отклонений от нее по модулю является минимальной, а мода представляет собой значение признака, которое наиболее часто встречается. Поэтому в зависимости от цели исследования распределения должна выбираться одна из упомянутых характеристик, либо же для сравнения - все три.
Соотношение моды, медианы и средней арифметической указывает на характер распределения признака в совокупности, позволяет оценить его асимметрию. В симметричных распределениях все три характеристики совпадают. Чем больше расхождение между модой и средней арифметической, тем больше асимметричен ряд. Для умеренно асимметричных рядов разность между модой и средней примерно в три раза превышает разность между медианой и средней, т. е
(6)
Аналогично с нахождением медианы в вариационных рядах распределения можно отыскать значение признака у любой по порядку единицы ранжированного ряда. Так, например, можно найти значение признака у единиц, делящих ряд на чытыре равные части, на десять или сто частей. Эти величины называются "квартили", "децили" и "перцентили".
Квартили представляют собой значения признака, делящие ранжированную совокупность на четыре равновеликие части. Различают квартиль нижний (Q1), отделяющий 1/4 часть совокупности с наименьшими значениями признака, и квартиль верхний (Q3), отсекающий 1/4 часть с наибольшими значениями признака. Это означает, что 25% единиц совокупности будут меньше по величине Q1; 25% единиц будут заключены между Q1 и Q2; 25% - между Q2 и Q3 и остальные 25% превосходят Q3. Средним квартилем Q2 является медиана.
Для расчета квартилей по интервальному вариационному ряду используются формулы (1,8)
(7)
(8)
где - нижняя граница интервала, содержащего нижний квартиль (интервал определяется по накопленной частоте, первой превышающей 25%);
- нижняя граница интервала, содержащего верхний квартиль (интервал определяется по накопленной частоте, первой превышающей 75%);
i - величина интервала;
- накопленная частота интервала, предшествующего интервалу, содержащему нижний квартиль;
- то же для верхнего квартиля;
- частота интервала, содержащего нижний квартиль;
- то же для верхнего квартиля.
Рассмотрим расчет нижнего и верхнего квартилей в пакете Excel используя функции =КВАРТИЛЬ(A2:J21;1) и =КВАРТИЛЬ(A2:J21;3)
Квартили:
- нижний
243,65
- верхний
283,075
Использование в анализе вариационных рядов распределения рассмотренных выше характеристик позволяет более глубоко и детально охарактеризовать изучаемую совокупность.
Для симметричных распределений может быть рассчитан показатель эксцесса (). Наиболее точно он определяется по формуле с использованием центрального момента четвёртого порядка :
(9)
Если распределение островершинное - положительный и плосковершинное - отрицательный.
Используя Excel, а именно функцию =ЭКСЦЕСС(A2:J21) рассчитываем значение: =0,116794 – распределение островершинное.
2.3. Аппроксимация эмпирического распределения и проверка гипотезы о законе распределения
Многие явления, рассматриваемые каждое в отдельности, изолированно друг от друга, кажутся случайными. Однако если анализировать эти явления в совокупности с другими, аналогичными по своей сущности, то часто удается обнаружить закономерность, связанную с их возникновением. Например, мы не можем предсказать уровень дохода человека, если не располагаем о нем некоторой дополнительной информацией (о возрасте, профессиональной принадлежности, месте работы и т. д.). В то же время при рассмотрении группы людей закономерности формирования доходов проявляются более отчетливо. Так, во многих странах большинство населения имеет относительно низкий уровень дохода, некоторые - более высокий и только у незначительной части уровень дохода очень высокий. Именно существование подобных статистических закономерностей делает необходимым изучение индивидуальных, нередко на первый взгляд беспорядочно колеблющихся данных.
Если на практике часто встречается один и тот же тип распределения частот, целесообразно описать его с помощью математической формулы, которая может служить для сравнения и обобщения различных совокупностей аналогичных данных.
В статистике широко используются различные виды теоретических распределений - нормальное распределение, биноминальное распределение, распределение Пуассона и др. Каждое из теоретических распределений имеет специфику и свою область применения в различных отраслях знания (6,7).
Чаще всего в качестве теоретического распределения используется нормальное распределение:
(10)
где - - ордината кривой нормального распределения;
- стандартизованная (нормированная) величина
е и - математические постоянные;
х - варианты вариационного ряда;
- их средняя величина;
- среднее квадратическое отклонение.
Нормальное распределение полностью определяется двумя параметрами - средней арифметической и средним квадратическим отклонением . Подчиненность закону нормального распределения проявляется тем точнее, чем больше случайных величин действуют вместе. Если ни одна из случайно действующих причин по своему действию не окажется преобладающей над другими, то закон распределения очень близко подходит к нормальному.
Такая закономерность проявляется, например, в распределении отклонений в производственном процессе при нормальном уровне организации и технологии, в распределении населения определенного возраста по размеру обуви и т. д.
Рассмотрим расчет значений частот теоретического ряда распределения на основании исходных данных.
Поскольку нормальное распределение зависит от двух параметров: и , прежде всего определим соответствующие характеристики приведенного в табл. 4 распределения.
Таблица 4
Расчёт теоретических частот нормального распределения
Ном. интервала
Границы интервала
Количество чисел в интерв.
f
Середина интервала
x’
,
,
f(t) (по табл.)
Теоретические частоты
Полу-ченные
Округ-лённые
1
2
3
4
5
6
7
8
9
10
1
181,8
201,4303
5
191,6152
-14,0453
2,27699
0,0213
4,034789
4
1,333333
2
201,4303
221,0606
8
211,2455
-10,108
1,63869
0,0848
13,84878
13
0,818182
3
221,0606
240,6909
28
230,8758
-6,17073
1,00038
0,2117
32,22505
32
4
240,6909
260,3212
46
250,5061
-2,23343
0,36208
0,3621
49,78903
49
0,083333
5
260,3212
279,9514
54
270,1363
1,70388
0,276228
0,3894
51,13396
51
0,176471
6
279,9514
299,5817
29
289,7666
5,641185
0,914533
0,2732
34,95485
34
1,361111
7
299,5817
319,212
24
309,3969
9,578495
1,552839
0,1238
15,97936
15
4
8
319,212
338,8423
2
329,0272
13,5158
2,191144
0,0355
4,833757
4
1
9
338,8423
358,4726
2
348,6575
17,45311
2,829449
0,0069
0,972078
1
1
Итого
198
198
9,77243
Сравнивая полученные fm (гр. 8) с фактическими частотами f (гр. 3), убеждаемся, что их расхождения невелики. На графике, представленном на рис. 4, видна довольно большая близость фактических частот распределения к теоретическим.
Рис. 4 Эмпирические и теоретические данные
В то же время нельзя не отметить, что сопоставление графика эмпирических частот с теоретическими в целях определения соответствия эмпирического распределения нормальному позволяет оценивать эти расхождения только субъективно. Объективная характеристика соответствия может быть получена с помощью особых статистических показателей - критериев согласия. Известны критерии согласия К. Пирсона (хи-квадрат), В. И. Романовского, А Н. Колмогорова и Б. С. Ястремского. Воспользуемся критерием согласия К. Пирсона (хи-квадрат). Здесь оказывается возможным высказать предположение о том, что действительный вид закона распределения есть функция yt. Тогда требуется проверить гипотезу :
H0: y = yt. (11)
Критерий согласия Пирсона () вычисляется по формуле
(12)
где и - эмпирические и теоретические частоты соответственно.
С помощью величины по специальным таблицам определяется вероятность Р(). Входами в таблицу являются значения и число степеней свободы . На основе Р выносится суждение о существенности или несущественности расхождения между эмпирическим и теоретическим распределениями. При Р > 0,5 считается, что эмпирическое и теоретическое распределение близки, при Р[0,2; 0,5] совпадение между ними удовлетворительное, в остальных случаях - недостаточное.
Распределение случайной величины при n стремится к - распределению с числом степеней свободы n-1. Проверка гипотезы заключается в сравнении вычисленной меры расхождения с квантилью (величиной ) - распределения по уровню 1- с n-1 степенями свободы (1-(n-1)). Здесь - уровень значимости - определяет максимальное значение меры расхождения, которое ещё можно считать случайным или вероятность того, что гипотеза H0 будет отвергнута, хотя на самом деле она верна. При проверке гипотезы величина характеризующая статистическую надёжность, должна быть выбрана в диапазоне 0.1 - 0.05. Примем уровень значимости = 0.05 и с помощью таблиц - распределения определяем величину , соответствующая условию:
P {> } = . (13)
Гипотеза H0 принимается, так как = 9,772 (табл. 4) < = 15,507.
3. Выборочные наблюдения
Под выборочным наблюдением понимается такое несплошное наблюдение, при котором статистическому обследованию (наблюдению) подвергаются единицы изучаемой совокупности, отобранные случайным способом. Выборочное наблюдение ставит перед собой задачу - по обследуемой части дать характеристику всей совокупности единиц при условии соблюдения всех правил и принципов проведения статистического наблюдения и научно организованной работы по отбору единиц (1,5,6).
К выборочному наблюдению статистика прибегает по различным причинам. На современном этапе появилось множество субъектов хозяйственной деятельности, которые характерны для рыночной экономики. Речь идет об акционерных обществах, малых и совместных предприятиях, фермерских хозяйствах и т. д. Сплошное обследование этих статистических совокупностей, состоящих из десятков и сотен тысяч единиц, потребовало бы огромных материальных, финансовых и иных затрат. Использование же выброчного обследования позволяет значительно сэкономить силы и средства, что имеет немаловажное значение.
Наряду с экономией ресурсов одной из причин превращения выборочного наблюдения в важнейший источник статистической информации является возможность значительно ускорить получение необходимых данных. Ведь при обследовании, скажем, 10 % единиц совокупности будет затрачено гораздо меньше времени, а результаты могут быть представлены быстрее и будут более актуальными. Фактор времени важен для статистического исследования особенно в условиях изменяющейся социально-экономической ситуации.
Роль выборочного обследования в получении статистических данных возрастает в силу возможности - когда это необходимо - расширения программы наблюдения. Так как исследованию подвергается сравнительно небольшая часть всей совокупности, можно более широко и детально изучить отдельные единицы и их группы.
Проведение статистического наблюдения вообще требует соответствующего кадрового обеспечения. Сплошное обследование занимает иногда слишком большое число людей для его организации проведения. Обращение же к опыту выборочного наблюдения приводит к тому, что необходимый штат сотрудников значительно уменьшается. Это позволяет привлекать более квалифицированных людей, снизить опасность появления субъективных ошибок, особенно при непосредственной регистрации фактов, и достичь поставленных целей с помощью меньшего количества более компетентных специалистов-статистиков.
Список литературы
Список использованной литературы
1.Теория статистики: Учебник/ Под ред. Р.А. Шмойловой. – 2-е изд., доп. и перер. – М.: Финансы и статистика, 1998. – 576 с.
2.Елисеева И.И., Юзбашев М.М. Общая теория статистики. — М.: Финансы и статистика, 1998.
3.Ефимова М.Р., Петрова Е.В., Румянцев В.Н. Общая теория статистики: / Учебник. — М.: ИНФРА-М, 1996.
4.Долженкова В.Г., Харченко Л.П., «Статистика: учебное пособие», М.: ИНФРА-М, 2002
5.Общая теория статистики: Учебник / Под ред. А.А. Спирина, О.Э. Байтной. — М.: Финансы и статистика, 1994.
6.Ряузова Н.Н. Общая теория статистики: Учебник. — М.: Финансы и статистика, 1984.
7.Общая теория статистики Учебник М.Р. Ефимова, Е.В. Петрова, В.Н. Румянцев. Москва «Инфра-М» 1998г.
8.Теория статистики В.М. Гусаров. Москва «Аудит» « ЮНИТИ» 1998г.
Пожалуйста, внимательно изучайте содержание и фрагменты работы. Деньги за приобретённые готовые работы по причине несоответствия данной работы вашим требованиям или её уникальности не возвращаются.
* Категория работы носит оценочный характер в соответствии с качественными и количественными параметрами предоставляемого материала. Данный материал ни целиком, ни любая из его частей не является готовым научным трудом, выпускной квалификационной работой, научным докладом или иной работой, предусмотренной государственной системой научной аттестации или необходимой для прохождения промежуточной или итоговой аттестации. Данный материал представляет собой субъективный результат обработки, структурирования и форматирования собранной его автором информации и предназначен, прежде всего, для использования в качестве источника для самостоятельной подготовки работы указанной тематики.
bmt: 0.00533