Вход

Сравнение средних и регрессионный анализ

Рекомендуемая категория для самостоятельной подготовки:
Решение задач*
Код 292098
Дата создания 29 июня 2014
Страниц 28
Мы сможем обработать ваш заказ (!) 24 декабря в 12:00 [мск]
Файлы будут доступны для скачивания только после обработки заказа.
610руб.
КУПИТЬ

Описание

Задание №2
По дисциплине «Статистический анализ данных (SPSS)»
На тему «Сравнение средних и регрессионный анализ»
...

Содержание

Сравнение средних.
Регрессионный анализ.
Всего 4 задания:
1). Различается ли то, насколько счастлив человек (happy) среди населения, по разному оценивающих свой уровень дохода (hincfel);
2). Различается ли то, насколько счастлив человек (happy) среди мужчин и женщин (gndr);
3. Отказывают ли на то, насколько счастлив человек (happy), следующие характеристики:
удовлетворенность развитием экономики в стране(stfeco);
удовлетворенность работой правительства страны (stfgov);
удовлетворенность эффективностью демократии (stfdem);
Субъективная оценка уровня здоровья (health);
удовлетворенность работой (stfmjob);
Степень религиозности (rlgdgr);
Субъективная оценка своего дохода (hincfel);
уровень образования (eduyrs);
Возраст (agea);
пол (gndr)
4. Оказывают ли на уровень образования (eduyrs) мужчинследующие характеристики:
Возраст (agea);
уровень образования отца (edulvlfa);
Степень религиозности (rlgdgr);
пол (gndr)

Введение

Для выполнения заданий необходимо отобрать из предложенного массива данных людей, проживающих в Словении, для дальнейшего анализа. После чего перейдем к анализу средних значений для данной группы респондентов.
Также в работе представлены все синтакс-файлы работ с описанием.

Фрагмент работы для ознакомления

Для переменной «уровень дохода» выберем в качестве контрольной группы категорию респондентов со средним уровнем дохода. Так как в данной переменной используются для выбора 4 категории, создадим 3 фиктивные переменные.Как мы видим на диаграмме, данная категория обозначена зеленым цветом и является самой большой по объему, следовательно, ее можно использовать в качестве контрольной группы. В качестве контрольной группы для переменной «степень религиозности» выберем категорию «католики», поскольку она является самой большой из всех представленных.Создадим 7 фиктивных переменных для данной переменной.Для фиктивных переменных проверяем гипотезу Н0={равенство среднего значения для i-той переменной с контрольной группой}.После того, как мы создали фиктивные переменные, построим множественную линейную регрессию.Сводка для моделиbМодельRR-квадратСкорректированный R-квадратСтд. ошибка оценки1,219a,048,0388,63512a. Предикторы: (конст) Age of respondent, calculated, rlgdnm4, rlgdnm2, Indexstfpol, rlgdnm3, rlgdnm8, rlgdnm7, rlgdnm6, hincfel2, Gender, hincfel3, hincfel1b. Зависимая переменная: IndexgovsupportКак мы видим из таблицы, данные переменные объясняют разброс признака индекса «социальные запросы населения к государству» всего лишь на 4,8% (значение R2 = 0,048).КоэффициентыaМодельНестандартизованные коэффициентыСтандартизованные коэффициентыtЗнч.BСтд. ОшибкаБета1(Константа)51,12922,7162,251,025Indexstfpol-,151,045-,098-3,323,001hincfel11,372,556,0762,469,014hincfel2-2,2391,497-,044-1,495,135hincfel31,002,938,0321,068,286rlgdnm22,3812,511,027,948,343rlgdnm3-,4352,058-,006-,211,833rlgdnm4-3,7173,275-,032-1,135,257rlgdnm6-3,3232,775-,035-1,197,231rlgdnm713,3674,339,0883,081,002rlgdnm8-10,9868,662-,036-1,268,205Gender1,485,513,0842,895,004Age of respondent, calculated,022,014,0461,556,120a. Зависимая переменная: IndexgovsupportУровень значимости для всех нефиктивных переменных и константы < 5%, следовательно, мы отвергаем гипотезу Н0 о том, что связь между переменными отсутствует и принимаем альтернативную гипотезу (для фиктивных переменных проверка гипотезы приведена ниже). Рассмотрим более подробно полученные результаты. Значение константы В0 = 51,1 означает, что для женщин католиков из Словении, оценивающих свой доход на уровне среднего, в возрасте 46,5(среднее значение) лет с уровнем удовлетворенности проводимой политикой равной 13,6 (среднее значение) индекс «социальные запросы населения к государству» равен 51,1.Значения нестандартизованных коэффициентов используются для построения регрессионного уравнения и для интерпретации изменения зависимой переменной при изменении независимых на единицу. Например, при изменении мужского пола на женский, уровень индекса «indexgovsupport» возрастает на 1,5, а при изменении возраста респондента на 1 год уровень индекса возрастает на 0,02. Также при изменении уровня удовлетворенности политикой на единицу, уровень индекса «indexgovsupport» снижается на 0,15. Значения фиктивных переменных показывают отклонения данной группы от контрольной группы, то есть, например, для респондентов с доходом ниже среднего индекс «indexgovsupport» на 1,4 пункта больше, чем для людей, оценивающих свой доход, как средний. Значения стандартизованных коэффициентов показывает, во сколько раз одна группа влияет сильнее, чем другая. Так как при анализе используются совершенно разно- измеряемые переменные стандартизованные остатки позволяют нам сравнивать эти группы между собой. Например, пол влияет на анализируемый индекс в 1,8 раз сильнее, чем возраст (=0,084/0,046). Таким образом, мы можем сравнить все имеющиеся переменные друг с другом и оценить их влияние на зависимую переменную.При проверке статистической гипотезы для фиктивных переменных, мы увидели, что для переменных, уровень значимости, которых выделен голубым цветом >5%, следовательно, мы должны принять гипотезу H0 о равенстве средних значений для данных переменных и контрольной группы. Это свидетельствует о том, что коэффициент при данной переменной равен 0, связи с зависимой переменной нет, и мы не будем включать данные фиктивные переменные в нашу регрессионную модель.Гипотеза не подтвердилась только для респондентов, которые оценивают свой уровень дохода выше среднего и респондентов, исповедующих восточную религию.Запишем полученное регрессионное уравнение:Indexgovsupport = 51,1 – 0,15* Indexstfpol + 1,4* hincfel1 + 13,4* rlgdnm7 +1,5* Gender + 0,02* Age;Проверим нашу регрессионную модель на нормальность распределения остатков.Сначала посмотрим на вид гистограммы для полученных остатков. Как мы можем видеть ниже, гистограмма не похожа на нормальное распределение.Далее проверим тест Колмогорова-Смирнова. Сформулируем статистическую гипотезу Н0 = {распределение является нормальным}.Критерий нормальностиКолмогоров-СмирновaШапиро-УилкСтатистикаст. св.ЗначимостьСтатистикаст. св.ЗначимостьUnstandardized Residual,0381177,000,9781177,000Уровень значимости равен 0, это означает, что мы отвергаем гипотезу Н0 и можем утверждать, что наша перемененная имеет не нормальное распределение. Это означает, что полученные в ходе регрессионного анализа данные мы не можем перенести на генеральную совокупность. Выводы мы можем делать только в пределах изучаемой выборки.Вывод касательно содержательной гипотезы мы можем сделать уже на данном этапе, поскольку она касалось проверки влияния «удовлетворенности политикой» на социальные запросы к государству. Согласно проведенному анализу мы можем опровергнуть содержательную гипотезу о том, что связи нет и принять альтернативную.Регрессионный анализ для 2 набора переменных.Второй набор переменных содержит переменные (1)«количество лет образования» и (2)«оценку уровня здоровья». 1ая переменная – интервальная, 2ая – порядковая, следовательно, нам необходимо добавить фиктивные переменные для проведения регрессионного анализа.Используем в качестве контрольной группы респондентов, оценивающих свой уровень здоровья, как средний. На диаграмме показано, что к данной категории относится не слишком мало респондентов, следовательно, ее можно принять за контрольную группу. Создадим 4 фиктивные переменные и перейдем к построению регрессионной модели.Сводка для моделиbМодельRR-квадратСкорректированный R-квадратСтд. ошибка оценки1,131a,017,0138,69177a. Предикторы: (конст) Years of full-time education completed, health5, health4, health1, health2b. Зависимая переменная: IndexgovsupportКак мы можем видеть из таблицы, данные переменные всего на 1.7% объясняют разброс признака исследуемого индекса.КоэффициентыaМодельНестандартизованные коэффициентыСтандартизованные коэффициентыtЗнч.BСтд. ОшибкаБета1(Константа)51,0485,4549,360,000health1,506,795,020,637,524health2,368,582,021,633,527health4-,435,924-,014-,471,637health5-,8531,993-,012-,428,669Years of full-time education completed-,278,069-,117-4,005,000a. Зависимая переменная: IndexgovsupportКонстанта и нефиктивная переменные имеют уровень значимости < 5%, следовательно, мы отвергаем гипотезу Н0 о том, что связь между переменными отсутствует и принимаем альтернативную гипотезу о наличии связи. Для всех фиктивных переменных уровень значимости >5%, следовательно, мы должны принять гипотезу о равенстве средних значений и исключить данные переменные из регрессионной модели, так значения коэффициентов при данных переменных равно 0.Получим следующую регрессионную модель:Indexgovsupport = 51,1 – Years*0,28Значение константы равное 51,1 говорит о том, что для респондентов из Словении обучающихся примерно 11,5 лет (среднее значение), оценивающих свой уровень здоровья, как средний значение индекса «социальные запросы населения к государству» равен 51,1. При увеличении числа лет обучения на единицу, значение индекса снижается на 0,28 пунктов. Поскольку влияние оказывает только одна переменная, то стандартизованные коэффициенты можно не учитывать.Проверим полученную регрессионную модель на нормальность распределения остатков.Гистограмма не похожа на нормальное распределение.Критерий нормальностиКолмогоров-СмирновaШапиро-УилкСтатистикаст. св.ЗначимостьСтатистикаст. св.ЗначимостьUnstandardized Residual,0461245,000,9711245,000Согласно тесту Колмогорова-Смирнова, нам следует отвергнуть гипотезу Н0 о нормальности данного распределения и принять альтернативную гипотезу о том, что данное распределение не нормальное. Следовательно, мы не можем обобщить полученные в ходе регрессионного анализа результаты на генеральную совокупность.Задание 4.Нам необходимо выяснить оказывают ли на уровень образования мужчин из Словении, следующие характеристики:Возраст (agea);Уровень образования отца (edulvlfa);Степень религиозности (rlgdgr);Нам необходимо выбрать только мужчин из изучаемой совокупности.Сформулируем содержательную гипотезу: возраст не влияет на уровень образования мужчин.Для проверки гипотезы нам необходимо провести регрессионный анализ.Для начала нам необходимо проверить отсутствие мультиколлиниарности. Так как мы будем сравнивать сразу несколько переменных в нашей регрессионной модели, нам необходимо, чтобы эти переменные не коррелировали друг с другом. Проверим гипотезу H0 = {связь между переменными отсутствует}. Так как среди исследуемых переменных есть и порядковые, то нам для анализа необходимо использовать коэффициент корреляции Спирмена.Корреляция СпирменаAge of respondent, calculatedFather's highest level of educationHow religious are youAge of respondent, calculatedКоэффициент корреляции1,000-,352**,111**Знч. (2-сторон).,000,000N128611881235Father's highest level of educationКоэффициент корреляции-,352**1,000-,246**Знч. (2-сторон),000.,000N118811881138How religious are youКоэффициент корреляции,111**-,246**1,000Знч. (2-сторон),000,000.N123511381235Согласно полученным данным, для всех переменных уровень значимости < 5%, что свидетельствует о наличии связи между переменными, однако для некоторых переменных эта связь мала (< 0,3) и это означает, что мы можем использовать их в одной регрессионной модели. Соответственно, получим 2 регрессионных модели, одна будет включать в себе переменные «возраст» и «уровень образования отца», а другая – «степень религиозности».Регрессионный анализ для выявления влияния «степени религиозности» на «уровень образования мужчин».Поскольку переменная содержит 11 категорий, разобьем ее на более мелкие категории (низкий уровень религиозности [0;3], средний [4;6] и высокий [7;10]).Так как полученная переменная также относится к порядковой шкале, нам необходимо создать 2 фиктивных переменных.В качестве контрольной группы возьмем категорию «низкий уровень религиозности». Данную категорию выбрало довольно большое количество людей, следовательно, мы можем использовать ее в качестве контрольной.Сводка для моделиbМодельRR-квадратСкорректированный R-квадратСтд. ошибка оценки1,137a,019,0153,645a. Предикторы: (конст) rlgdgrC3, rlgdgrC2b. Зависимая переменная: Years of full-time education completedКак мы видим, данная переменная «уровень религиозности» объясняет разброс признака «количества лет образования» только на 1,9%.КоэффициентыaМодельНестандартизованные коэффициентыСтандартизованные коэффициентыtЗнч.BСтд. ОшибкаБета1(Константа)8,3461,0727,787,000rlgdgrC2,824,340,1072,424,016rlgdgrC31,212,399,1343,037,002a. Зависимая переменная: Years of full-time education completedПоскольку все уровни значимости < 5%, следовательно, мы отвергаем гипотезу Н0 о том, что связь между переменными отсутствует и принимаем альтернативную гипотезу о наличии связи. Значение константы 8,4 означает то, что для мужчин из Словакии, с низким уровнем религиозности значение «количества лет обучения» в среднем равно 8,4 лет. Стандартизованные коэффициенты показывают, что респонденты с высоким уровнем религиозности сильнее оказывают влияние на количество лет образования, чем со средним уровнем религиозности. Нестандартизованные коэффициенты показывают отклонения данной группы от контрольной группы, то есть для людей со средним уровнем религиозности количество лет обучения на 0,8 лет больше, чем для людей с низким уровнем религиозности. А для людей с высоким уровнем религиозности количество лет обучения на 1,2 года больше, чем для людей с низким уровнем.Составим регрессионное уравнение:Years of full-time education = 8,4 + 0,8* rlgdgrC2 + 1,2* rlgdgrC3Проверим полученную регрессионную модель на нормальность распределения остатков.Как мы можем увидеть, вид гистограммы, показывающий распределение остатков, не похож на нормальное распределение. Критерий нормальностиКолмогоров-СмирновaШапиро-УилкСтатистикаст. св.ЗначимостьСтатистикаст. св.ЗначимостьUnstandardized Residual,098590,000,980590,000Тест Колмогорова-Смирнова также подтверждает, что данная переменная распределена не нормально. Это означает, что мы не можем обобщать полученные данные на генеральную совокупность, а использовать только в пределах данной выборки.Содержательный вывод по данному анализу – уровень религиозности имеет небольшое влияние на количество лет обучения, причем, чем религиознее человек, тем дольше в среднем он учится. Вывод справедлив только для конкретной выборки мужчин из Словакии.Регрессионный анализ для выявления влияния «возраста» и «уровня образования отца» на «число лет обучения».Так как переменная «уровень образования отца» относится к порядковой шкале, нам необходимо создать фиктивные переменные.В качестве контрольной группы возьмем категорию «полное среднее образование».

Список литературы

программа SPSS и массив данных European Social Survey за 2008 год
Очень похожие работы
Найти ещё больше
Пожалуйста, внимательно изучайте содержание и фрагменты работы. Деньги за приобретённые готовые работы по причине несоответствия данной работы вашим требованиям или её уникальности не возвращаются.
* Категория работы носит оценочный характер в соответствии с качественными и количественными параметрами предоставляемого материала. Данный материал ни целиком, ни любая из его частей не является готовым научным трудом, выпускной квалификационной работой, научным докладом или иной работой, предусмотренной государственной системой научной аттестации или необходимой для прохождения промежуточной или итоговой аттестации. Данный материал представляет собой субъективный результат обработки, структурирования и форматирования собранной его автором информации и предназначен, прежде всего, для использования в качестве источника для самостоятельной подготовки работы указанной тематики.
bmt: 0.00421
© Рефератбанк, 2002 - 2024