* Данная работа не является научным трудом, не является выпускной квалификационной работой и представляет собой результат обработки, структурирования и форматирования собранной информации, предназначенной для использования в качестве источника материала при самостоятельной подготовки учебных работ.
Введение в статистик у
Элементарные понятия статистики
М ы выбрали темы, которые иллюстрируют основные предположения большинст ва статистических методов, предназначенных для понимания "численной пр ироды" действительности (Nisbett, et al., 1987). Мы сосредотачиваем основное внимание н а "функциональных" аспектах обсуждаемых понятий, прекрасно понимая, что предлагаемое описание является кратким и не может исчерпать всего пред мета обсуждения. Более подробную информацию можно найти во вводных разд елах и разделах примеров руководства пользователя системы STATISTICA, а также в учебниках по статистике. Мы рекомендуем следующие учебники: Kachigan (1986) и Runyon and Haber (1976); для углубленного обсуждения элементарной теории и основных пон ятий статистики см. классическую книгу Kendall and Stuart (1979) (перевод: М.Кендалл и А.Стью арт "Теория распределений" (том 1), "Статистические выводы и связи" (том 2), "Мно гомерный статистический анализ" (том 3)). На русском языке см., например, книг у: Боровиков В.П. "Популярное введение в программу STATISTICA", Компьютер Пресс 1998, в которой дается популярное описание основных статистических понятий.
Что такое переменные? Переменные - это то, что можно измерять, контролиров ать или что можно изменять в исследованиях. Переменные отличаются многи ми аспектами, особенно той ролью, которую они играют в исследованиях, шка лой измерения и т.д.
Исследование зависимостей в сравнении с экспериментальными исследова ниями. Большинство эмпирических исследований данных можно отнести к од ному из названных типов. В исследовании корреляций (зависимостей, связей ...) вы не влияете (или, по крайней мере, пытаетесь не влиять) на переменные, а т олько измеряете их и хотите найти зависимости (корреляции) между некотор ыми измеренными переменными, например, между кровяным давлением и уровн ем холестерина. В экспериментальных исследованиях, напротив, вы варьиру ете некоторые переменные и измеряете воздействия этих изменений на дру гие переменные. Например, исследователь может искусственно увеличиват ь кровяное давление, а затем на определенных уровнях давления измерить у ровень холестерина. Анализ данных в экспериментальном исследовании та кже приходит к вычислению "корреляций" (зависимостей) между переменными, а именно, между переменными, на которые воздействуют, и переменными, на ко торые влияет это воздействие. Тем не менее, экспериментальные данные пот енциально снабжают нас более качественной информацией. Только экспери ментально можно убедительно доказать причинную связь между переменным и. Например, если обнаружено, что всякий раз, когда изменяется переменная A, изменяется и переменная B, то можно сделать вывод - "переменная A оказывае т влияние на переменную B", т.е. между переменными А и В имеется причинная за висимость. Результаты корреляционного исследования могут быть проинте рпретированы в каузальных (причинных) терминах на основе некоторой теор ии, но сами по себе не могут отчетливо доказать причинность.
Зависимые и независимые переменные. Независимыми переменными называют ся переменные, которые варьируются исследователем, тогда как зависимые переменные - это переменные, которые измеряются или регистрируются. Може т показаться, что проведение этого различия создает путаницу в терминол огии, поскольку как говорят некоторые студенты "все переменные зависят о т чего-нибудь". Тем не менее, однажды отчетливо проведя это различие, вы по ймете его необходимость. Термины зависимая и независимая переменная пр именяются в основном в экспериментальном исследовании, где эксперимен татор манипулирует некоторыми переменными, и в этом смысле они "независи мы" от реакций, свойств, намерений и т.д. присущих объектам исследования. Н екоторые другие переменные, как предполагается, должны "зависеть" от дей ствий экспериментатора или от экспериментальных условий. Иными словам и, зависимость проявляется в ответной реакции исследуемого объекта на п осланное на него воздействие. Отчасти в противоречии с данным разгранич ением понятий находится использование их в исследованиях, где вы не варь ируете независимые переменные, а только приписываете объекты к "экспери ментальным группам", основываясь на некоторых их априорных свойствах. На пример, если в эксперименте мужчины сравниваются с женщинами относител ьно числа лейкоцитов (WCC), содержащихся в крови, то Пол можно назвать незави симой переменной, а WCC зависимой переменной.
Шкалы измерений. Переменные различаются также тем "насколько хорошо" они могут быть измерены или, другими словами, как много измеряемой информац ии обеспечивает шкала их измерений. Очевидно, в каждом измерении присутс твует некоторая ошибка, определяющая границы "количества информации", ко торое можно получить в данном измерении. Другим фактором, определяющим к оличество информации, содержащейся в переменной, является тип шкалы, в к оторой проведено измерение. Различают следующие типы шкал:(a) номинальна я, (b) порядковая (ординальная), (c) интервальная (d) относительная (шкала отноше ния). Соответственно, имеем четыре типа переменных: (a) номинальная, (b) поряд ковая (ординальная), (c) интервальная и (d) относительная.
Номинальные переменные используются только для качественной классифи кации. Это означает, что данные переменные могут быть измерены только в т ерминах принадлежности к некоторым, существенно различным классам; при этом вы не сможете определить количество или упорядочить эти классы. Нап ример, вы сможете сказать, что 2 индивидуума различимы в терминах перемен ной А (например, индивидуумы принадлежат к разным национальностям). Типи чные примеры номинальных переменных - пол, национальность, цвет, город и т. д. Часто номинальные переменные называют категориальными.
Порядковые переменные позволяют ранжировать (упорядочить) объекты, ука зав какие из них в большей или меньшей степени обладают качеством, выраж енным данной переменной. Однако они не позволяют сказать "на сколько бол ьше" или "на сколько меньше". Порядковые переменные иногда также называют ординальными. Типичный пример порядковой переменной - социоэкономичес кий статус семьи. Мы понимаем, что верхний средний уровень выше среднего уровня, однако сказать, что разница между ними равна, скажем, 18% мы не сможем . Само расположение шкал в следующем порядке: номинальная, порядковая, ин тервальная является хорошим примером порядковой шкалы.
Интервальные переменные позволяют не только упорядочивать объекты изм ерения, но и численно выразить и сравнить различия между ними. Например, т емпература, измеренная в градусах Фаренгейта или Цельсия, образует инте рвальную шкалу. Вы можете не только сказать, что температура 40 градусов вы ше, чем температура 30 градусов, но и что увеличение температуры с 20 до 40 град усов вдвое больше увеличения температуры от 30 до 40 градусов.
Относительные переменные очень похожи на интервальные переменные. В до полнение ко всем свойствам переменных, измеренных в интервальной шкале, их характерной чертой является наличие определенной точки абсолютного нуля, таким образом, для этих переменных являются обоснованными предлож ения типа: x в два раза больше, чем y. Типичными примерами шкал отношений явл яются измерения времени или пространства. Например, температура по Кель вину образует шкалу отношения, и вы можете не только утверждать, что темп ература 200 градусов выше, чем 100 градусов, но и что она вдвое выше. Интервальн ые шкалы (например, шкала Цельсия) не обладают данным свойством шкалы отн ошения. Заметим, что в большинстве статистических процедур не делается р азличия между свойствами интервальных шкал и шкал отношения.
Связи между переменными. Независимо от типа, две или более переменных св язаны (зависимы) между собой, если наблюдаемые значения этих переменных распределены согласованным образом. Другими словами, мы говорим, что пер еменные зависимы, если их значения систематическим образом согласован ы друг с другом в имеющихся у нас наблюдениях. Например, переменные Пол и WCC (число лейкоцитов) могли бы рассматриваться как зависимые, если бы боль шинство мужчин имело высокий уровень WCC, а большинство женщин - низкий WCC, ил и наоборот. Рост связан с Весом, потому что обычно высокие индивиды тяжел ее низких; IQ (коэффициент интеллекта) связан с Количеством ошибок в тесте, т.к. люди высоким значением IQ делают меньше ошибок и т.д.
Почему зависимости между переменными являются важными. Вообще говоря, к онечная цель всякого исследования или научного анализа состоит в нахож дение связей (зависимостей) между переменными. Философия науки учит, что не существует иного способа представления знания, кроме как в терминах з ависимостей между количествами или качествами, выраженными какими-либ о переменными. Таким образом, развитие науки всегда заключается в нахожд ении новых связей между переменными. Исследование корреляций по сущест ву состоит в измерении таких зависимостей непосредственным образом. Те м не менее, экспериментальное исследование не является в этом смысле чем -то отличным. Например, отмеченное выше экспериментальное сравнение WCC у м ужчин и женщин может быть описано как поиск связи между переменными: Пол и WCC. Назначение статистики состоит в том, чтобы помочь объективно оценить зависимости между переменными. Действительно, все сотни описанных в дан ном руководстве процедур могут быть проинтерпретированы в терминах оц енки различных типов взаимосвязей между переменными.
Две основные черты всякой зависимости между переменными. Можно отметит ь два самых простых свойства зависимости между переменными: (a) величина з ависимости и (b) надежность зависимости.
Величина. Величину зависимости легче понять и изм ерить, чем надежность. Например, если любой мужчина в вашей выборке имел з начение WCC выше чем любая женщина, то вы можете сказать, что зависимость ме жду двумя переменными (Пол и WCC) очень высокая. Другими словами, вы могли бы предсказать значения одной переменной по значениям другой.
Н адежность ("истинность"). Надежность взаимозависимости - менее наглядное понятие, чем величина зависимости, однако чрезвычайно важное. Надежност ь зависимости непосредственно связана с репрезентативностью определе нной выборки, на основе которой строятся выводы. Другими словами, надежн ость говорит нам о том, насколько вероятно, что зависимость, подобная най денной вами, будет вновь обнаружена (иными словами, подтвердится) на данн ых другой выборки, извлеченной из той же самой популяции. Следует помнит ь, что конечной целью почти никогда не является изучение данной конкретн ой выборки; выборка представляет интерес лишь постольку, поскольку она д ает информацию обо всей популяции. Если ваше исследование удовлетворяе т некоторым специальным критериям (об этом будет сказано позже), то надеж ность найденных зависимостей между переменными вашей выборки можно ко личественно оценить и представить с помощью стандартной статистическо й меры (называемой p-уровень или статистический уровень значимости, подр обнее см. в следующем разделе).
Что такое статистическая значимость (p-у ровень)? Статистическая значимость результата представляет собой оцен енную меру уверенности в его "истинности" (в смысле "репрезентативности в ыборки"). Выражаясь более технически, p-уровень (этот термин был впервые ис пользован в работе Brownlee, 1960) это показатель, находящийся в убывающей зависим ости от надежности результата. Более высокий p- уровень соответствует бо лее низкому уровню доверия к найденной в выборке зависимости между пере менными. Именно, p-уровень представляет собой вероятность ошибки, связан ной с распространением наблюдаемого результата на всю популяцию. Напри мер, p- уровень = .05 (т.е. 1/20) показывает, что имеется 5% вероятность, что найденная в выборке связь между переменными является лишь случайной особенность ю данной выборки. Иными словами, если данная зависимость в популяции отс утствует, а вы многократно проводили бы подобные эксперименты, то пример но в одном из двадцати повторений эксперимента можно было бы ожидать так ой же или более сильной зависимости между переменными. (Отметим, что это н е то же самое, что утверждать о заведомом наличии зависимости между пере менными, которая в среднем может быть воспроизведена в 5% или 95% случаев; ког да между переменными популяции существует зависимость, вероятность по вторения результатов исследования, показывающих наличие этой зависимо сти называется статистической мощностью плана. Подробнее об этом см. в р азделе Анализ мощности). Во многих исследованиях p-уровень .05 рассматривае тся как "приемлемая граница" уровня ошибки.
Как определить, является ли результат действительно значимым. Не сущест вует никакого способа избежать произвола при принятии решения о том, как ой уровень значимости следует действительно считать "значимым". Выбор оп ределенного уровня значимости, выше которого результаты отвергаются к ак ложные, является достаточно произвольным. На практике окончательное решение обычно зависит от того, был ли результат предсказан априори (т.е. д о проведения опыта) или обнаружен апостериорно в результате многих анал изов и сравнений, выполненных с множеством данных, а также на традиции, им еющейся в данной области исследований. Обычно во многих областях резуль тат p .05 является приемлемой г раницей статистической значимости, однако следует помнить, что этот уро вень все еще включает довольно большую вероятность ошибки (5%). Результаты , значимые на уровне p .01 обычно рассматривают ся как статистически значимые, а резуль таты с уровнем p .00 5 или p . 001 как высоко значимые. О днако следует по нимать, что данная клас сификация уровней значимости достаточно произвольна и является всего лишь неформальным соглашением, принятым на основе практического опыта в той или иной области исследования.
Статистическая значимость и количество выполненных анализов. Понятно, что чем больше число анализов вы проведе те с совокупностью собранных данных, тем большее число значимых (на выбр анном уровне) результатов будет обнаружено чисто случайно. Например, есл и вы вычисляете корреляции между 10 переменными (имеете 45 различных коэффи циентов корреляции), то можно ожидать, что примерно два коэффициента кор реляции (один на каждые 20) чисто случайно окажутся значимыми на уровне p .05, даже если переменные совершенно случайны и некоррелированы в популяции. Некоторые статисти ческие методы, включающие много сравнений, и, таки м образом, имеющие хороший шанс повторить такого р ода ошибки, производят специальную корректировку или поправку на общее число сравнений. Тем не менее, многие статистические методы (особенно пр остые методы разведочного анализа данных) не предлагают какого - либо способа р ешения данной проблемы. Поэтому исследователь должен с осторожностью о ценивать надежность неожиданных результатов.
Величина зависимости между переменными в сравнении с надежностью зависимости. Как было уже сказано, величина за висимости и надежность представляют две различные характеристики зави симостей между переменными. Тем не менее, нельзя сказать, что они соверше нно независимы. Говоря общим языком, чем больше величина зависимости (св язи) между переменными в выборке обычного объема, тем более она надежна (с м. следующий раздел).
Почему более сильные зависимости между переменными являются более зна чимыми. Если предполагать отсутствие зависимости между соответствующи ми переменными в популяции, то наиболее вероятно ожидать, что в исследуе мой выборке связь между этими переменными также будет отсутствовать. Та ким образом, чем более сильная зависимость обнаружена в выборке, тем мен ее вероятно, что этой зависимости нет в популяции, из которой она извлече на. Как вы видите, величина зависимости и значимость тесно связаны между собой, и можно было бы попытаться вывести значимость из величины зависим ости и наоборот. Однако указанная связь между зависимостью и значимость ю имеет место только при фиксированном объеме выборки, поскольку при раз личных объемах выборки одна и та же зависимость может оказаться как высо ко значимой, так и незначимой вовсе (см. следующий раздел)
Почему объем выборки влияет на значимость зависимости. Если наблюдений мало, то соответственно имеется мало возможных комбинаций значений эти х переменных и таким образом, вероятность случайного обнаружения комби нации значений, показывающих сильную зависимость, относительно велика. Рассмотрим следующий пример. Если вы исследуете зависимость двух перем енных (Пол: мужчина/женщина и WCC: высокий/низкий) и имеете только 4 субъекта в выборке (2 мужчины и 2 женщины), то вероятность того, что чисто случайно вы на йдете 100% зависимость между двумя переменными равна 1/8. Более точно, вероятн ость того, что оба мужчины имеют высокий WCC, а обе женщины - низкий WCC, или наоб орот, - равна 1/8. Теперь рассмотрим вероятность подобного совпадения для 100 субъектов; легко видеть, что эта вероятность равна практически нулю. Рас смотрим более общий пример. Представим популяцию, в которой среднее знач ение WCC мужчин и женщин одно и тоже. Если вы будете повторять эксперимент, с остоящий в извлечении пары случайных выборок (одна выборка - мужчины, дру гая выборка - женщины), а затем вычислите разности выборочных средних WCC дл я каждой пары выборок, то в большинстве экспериментов результат будет бл изок к 0. Однако время от времени, будут встречаться пары выборок, в которы х различие между средним количеством лейкоцитов у мужчин и женщин будет существенно отличаться от 0. Как часто это будет происходить? Очевидно, че м меньше объем выборки в каждом эксперименте, тем более вероятно появлен ие таких ложных результатов, которые показывают существование зависим ости между полом и WCC в данных, полученных из популяции, где такая зависимо сть на самом деле отсутствует.
Пример: "отношение числа новорожденных мальчиков к числу новорожденных девочек" Рассмотрим следующий пример, заимствованный из Nisbett, et al., 1987. Имеются 2 больницы. Предположим, что в первой из них ежедневно рождается 120 детей, во второй только 12. В среднем отношение числа мальчиков, рождающихся в каждо й больнице, к числу девочек 50/50. Однажды девочек родилось вдвое больше, чем мальчиков. Спрашивается, для какой больницы данное событие более вероят но? Ответ очевиден для статистика, однако, он не столь очевиден неискушен ному. Конечно, такое событие гораздо более вероятно для маленькой больни цы. Объяснение этого факта состоит в том, что вероятность случайного отк лонения (от среднего) возрастает с уменьшением объема выборки.
Почему слабые связи могут быть значимо доказаны т олько на больших выборках. Пример из предыдущего раздела показывает, что если связь между переменными "объективно" слабая (т.е. свойства выборки бл изки к свойствам популяции), то не существует иного способа проверить та кую зависимость кроме как исследовать выборку достаточно большого объ ема. Даже если выборка, находящаяся в вашем распоряжении, совершенно реп резентативна, эффект не будет статистически значимым, если выборка мала . Аналогично, если зависимость "объективно" (в популяции) очень сильная, то гда она может быть обнаружена с высокой степенью значимости даже на очен ь маленькой выборке. Рассмотрим пример. Представьте, что вы бросаете мон ету. Если монета слегка несимметрична, и при подбрасывании орел выпадает чаще решки (например, в 60% подбрасываний выпадает орел, а в 40% решка), то 10 подб расываний монеты было бы не достаточно, чтобы убедить кого бы то ни было, ч то монета асимметрична, даже если был бы получен, казалось, совершенно ре презентативный результат: 6 орлов и 4 решки. Не следует ли отсюда, что 10 подб расываний вообще не могут доказать что-либо? Нет, не следует, потому что ес ли эффект, в принципе, очень сильный, то 10 подбрасываний может оказаться в полне достаточно для его доказательства. Представьте, что монета настол ько несимметрична, что всякий раз, когда вы ее бросаете, выпадает орел. Есл и вы бросаете такую монету 10 раз, и всякий раз выпадает орел, большинство л юдей сочтут это убедительным доказательством того, что с монетой что-то не то. Другими словами, это послужило бы убедительным доказательством то го, что в популяции, состоящей из бесконечного числа подбрасываний этой монеты орел будет встречаться чаще, чем решка. В итоге этих рассуждений м ы приходим к выводу: если зависимость сильная, она может быть обнаружена с высоким уровнем значимости даже на малой выборке.
М ожно ли отсутствие связей рассматривать как значимый результат? Чем сла бее зависимость между переменными, тем большего объема требуется выбор ка, чтобы значимо ее обнаружить. Представьте, как много бросков монеты не обходимо сделать, чтобы доказать, что отклонение от равной вероятности в ыпадения орла и решки составляет только .000001%! Необходимый минимальный раз мер выборки возрастает, когда степень эффекта, который нужно доказать, у бывает. Когда эффект близок к 0, необходимый объем выборки для его отчетли вого доказательства приближается к бесконечности. Другими словами, есл и зависимость между переменными почти отсутствует, объем выборки, необх одимый для значимого обнаружения зависимости, почти равен объему всей п опуляции, который предполагается бесконечным. Статистическая значимос ть представляет вероятность того, что подобный результат был бы получен при проверке всей популяции в целом. Таким образом, все, что получено посл е тестирования всей популяции было бы, по определению, значимым на наивы сшем, возможном уровне и это относится ко всем результатам типа "нет зави симости".
Как измерить величину зависимости межд у переменными. Статистиками разработано много различных мер взаимосвя зи между переменными. Выбор определенной меры в конкретном исследовани и зависит от числа переменных, используемых шкал измерения, природы зави симостей и т.д. Большинство этих мер, тем не менее, подчиняются общему прин ципу: они пытаются оценить наблюдаемую зависимость, сравнивая ее с "макс имальной мыслимой зависимостью" между рассматриваемыми переменными. Г оворя технически, обычный способ выполнить такие оценки заключается в т ом, чтобы посмотреть как варьируются значения переменных и затем подсчи тать, какую часть всей имеющейся вариации можно объяснить наличием "обще й" ("совместной") вариации двух (или более) переменных. Говоря менее техниче ским языком, вы сравниваете то "что есть общего в этих переменных", с тем "чт о потенциально было бы у них общего, если бы переменные были абсолютно за висимы". Рассмотрим простой пример. Пусть в вашей выборке, средний показа тель (число лейкоцитов) WCC равен 100 для мужчин и 102 для женщин. Следовательно, в ы могли бы сказать, что отклонение каждого индивидуального значения от о бщего среднего (101) содержит компоненту связанную с полом субъекта и средн яя величина ее равна 1. Это значение, таким образом, представляет некотору ю меру связи между переменными Пол и WCC. Конечно, это очень бедная мера зави симости, так как она не дает никакой информации о том, насколько велика эт а связь, скажем относительно общего изменения значений WCC. Рассмотрим кра йние возможности:
Если все значения WCC у мужчин были бы точно равны 100, а у женщин 102, то все откло нения значений от общего среднего в выборке всецело объяснялись бы поло м индивидуума. Поэтому вы могли бы сказать, что пол абсолютно коррелиров ан (связан) с WCC, иными словами, 100% наблюдаемых различий между субъектами в зн ачениях WCC объясняются полом субъектов.
Если же значения WCC лежат в пределах 0-1000, то та же разность (2) между средними з начениями WCC мужчин и женщин, обнаруженная в эксперименте, составляла бы с толь малую долю общей вариации, что полученное различие (2) считалось бы пр енебрежимо малым. Рассмотрение еще одного субъекта могло бы изменить ра зность или даже изменить ее знак. Поэтому всякая хорошая мера зависимост и должна принимать во внимание полную изменчивость индивидуальных зна чений в выборке и оценивать зависимость по тому, насколько эта изменчиво сть объясняется изучаемой зависимостью.
Общая конструкция большинства статистических критериев. Так как конеч ная цель большинства статистических критериев (тестов) состоит в оценив ании зависимости между переменными, большинство статистических тестов следуют общему принципу, объясненному в предыдущем разделе. Говоря техн ическим языком, эти тесты представляют собой отношение изменчивости, об щей для рассматриваемых переменных, к полной изменчивости. Например, так ой тест может представлять собой отношение той части изменчивости WCC, кот орая определяется полом, к полной изменчивости WCC (вычисленной для объеди ненной выборки мужчин и женщин). Это отношение обычно называется отношен ием объясненной вариации к полной вариации. В статистике термин объясне нная вариация не обязательно означает, что вы даете ей "теоретическое об ъяснение". Он используется только для обозначения общей вариации рассма триваемых переменных, иными словами, для указания на то, что часть вариац ии одной переменной "объясняется" определенными значениями другой пере менной и наоборот.
Как вычисляется уровень статистической значимости. Предположим, вы уже вычислили меру зависимости между двумя переменными (как объяснялось вы ше). Следующий вопрос, стоящий перед вами: "насколько значима эта зависимо сть?" Например, является ли 40% объясненной дисперсии между двумя переменны ми достаточным, чтобы считать зависимость значимой? Ответ: "в зависимост и от обстоятельств". Именно, значимость зависит в основном от объема выбо рки. Как уже объяснялось, в очень больших выборках даже очень слабые зави симости между переменными будут значимыми, в то время как в малых выборк ах даже очень сильные зависимости не являются надежными. Таким образом, для того чтобы определить уровень статистической значимости, вам нужна функция, которая представляла бы зависимость между "величиной" и "значим остью" зависимости между переменными для каждого объема выборки. Данная функция указала бы вам точно "насколько вероятно получить зависимость д анной величины (или больше) в выборке данного объема, в предположении, что в популяции такой зависимости нет". Другими словами, эта функция давала б ы уровень значимости (p -уровень), и, следовательно, вероятность ошибочно о тклонить предположение об отсутствии данной зависимости в популяции. Э та "альтернативная" гипотеза (состоящая в том, что нет зависимости в попул яции) обычно называется нулевой гипотезой. Было бы идеально, если бы функ ция, вычисляющая вероятность ошибки, была линейной и имела только различ ные наклоны для разных объемов выборки. К сожалению, эта функция существ енно более сложная и не всегда точно одна и та же. Тем не менее, в большинст ве случаев ее форма известна, и ее можно использовать для определения ур овней значимости при исследовании выборок заданного размера. Большинс тво этих функций связано с очень важным классом распределений, называем ым нормальным.
Почему важно Нормальное распределение. Нормальное распределение важно по многим причинам. В большинстве случаев оно является хорошим приближе нием функций, определенных в предыдущем разделе (более подробное описан ие см. в разделе Все ли статистики критериев нормально распределены?). Рас пределение многих статистик является нормальным или может быть получе но из нормальных с помощью некоторых преобразований. Рассуждая философ ски, можно сказать, что нормальное распределение представляет собой одн у из эмпирически проверенных истин относительно общей природы действи тельности и его положение может рассматриваться как один из фундамента льных законов природы. Точная форма нормального распределения (характе рная "колоколообразная кривая") определяется только двумя параметрами: с редним и стандартным отклонением.
Характерное свойство нормального распределения состоит в том, что 68% все х его наблюдений лежат в диапазоне ±1 стандартное отклонение от среднего , а диапазон ±2 стандартных отклонения содержит 95% значений. Другими слова ми, при нормальном распределении, стандартизованные наблюдения, меньши е -2 или большие +2, имеют относительную частоту менее 5% (Стандартизованное н аблюдение означает, что из исходного значения вычтено среднее и результ ат поделен на стандартное отклонение (корень из дисперсии)). Если у вас име ется доступ к пакету STATISTICA, Вы можете вычислить точные значения вероятност ей, связанных с различными значениями нормального распределения, испол ьзуя Вероятностный калькулятор; например, если задать z-значение (т.е. знач ение случайной величины, имеющей стандартное нормальное распределение ) равным 4, соответствующий вероятностный уровень, вычисленный STATISTICA будет м еньше .0001, поскольку при нормальном распределении практически все наблюд ения (т.е. более 99.99%) попадут в диапазон ±4 стандартных отклонения.
Иллюстрация того, как н ормальное распределение используется в статистических рассуждениях (и ндукция). Напомним пример, обсуждавшийся выше, когда пары выборок мужчин и женщин выбирались из совокупности, в которой среднее значение WCC для муж чин и женщин было в точности одно и то же. Хотя наиболее вероятный результ ат таких экспериментов (одна пара выборок на эксперимент) состоит в том, ч то разность между средними WCC для мужчин и женщин для каждой пары близка к 0, время от время появляются пары выборок, в которых эта разность существе нно отличается от 0. Как часто это происходит? Если объем выборок достаточ но большой, то разности " нормально распределены" и зная форму нормальной кривой, вы можете точно рассчитать вероятность случайного получения ре зультатов, представляющих различные уровни отклонения среднего от 0 - зн ачения гипотетического для всей популяции. Если вычисленная вероятнос ть настолько мала, что удовлетворяет принятому заранее уровню значимос ти, то можно сделать лишь один вывод: ваш результат лучше описывает свойс тва популяции, чем "нулевая гипотеза". Следует помнить, что нулевая гипоте за рассматривается только по техническим соображениям как начальная т очка, с которой сопоставляются эмпирические результаты. Отметим, что все это рассуждение основано на предположении о нормальности распределен ия этих повторных выборок (т.е. нормальности выборочного распределения). Это предположение обсуждается в следующем разделе.
В се ли статистики критериев нормально распределены? Не все, но большинств о из них либо имеют нормальное распределение, либо имеют распределение, связанное с нормальным и вычисляемое на основе нормального, такое как t, F или хи-квадрат. Обычно эти критериальные статистики требуют, чтобы анали зируемые переменные сами были нормально распределены в совокупности. М ногие наблюдаемые переменные действительно нормально распределены, чт о является еще одним аргументом в пользу того, что нормальное распределе ние представляет "фундаментальный закон". Проблема может возникнуть, ког да пытаются применить тесты, основанные на предположении нормальности, к данным, не являющимся нормальными (смотри критерии нормальности в разд елах Непараметрическая статистика и распределения или Дисперсионный а нализ). В этих случаях вы можете выбрать одно из двух. Во-первых, вы можете и спользовать альтернативные "непараметрические" тесты (так называемые "с вободно распределенные критерии", см. раздел Непараметрическая статист ика и распределения). Однако это часто неудобно, потому что обычно эти кри терии имеют меньшую мощность и обладают меньшей гибкостью. Как альтерна тиву, во многих случаях вы можете все же использовать тесты, основанные н а предположении нормальности, если уверены, что объем выборки достаточн о велик. Последняя возможность основана на чрезвычайно важном принципе, позволяющем понять популярность тестов, основанных на нормальности. А и менно, при возрастании объема выборки, форма выборочного распределения ( т.е. распределение выборочной статистики критерия , этот термин был впер вые использован в работе Фишера, Fisher 1928a) приближается к нормальной, даже есл и распределение исследуемых переменных не является нормальным. Этот пр инцип иллюстрируется следующим анимационным роликом, показывающим пос ледовательность выборочных распределений (полученных для последовате льности выборок возрастающего размера: 2, 5, 10, 15 и 30), соответствующих перемен ным с явно выраженным отклонением от нормальности, т.е. имеющих заметную асимметричность распределения.
Однако по мере увеличения размера выбор ки, используемой для получения распределения выборочного среднего, это распределение приближается к нормальному. Отметим, что при размере выбо рки n=30, выборочное распределение "почти" нормально (см. на близость линии по дгонки). Этот принцип называется центральной предельной теоремой (вперв ые этот термин был использован в работе Polya, 1920; по-немецки "Zentraler Grenzwertsatz").
Как узнать последствия нарушений предположений нормальности? Хотя мно гие утверждения других разделов Элементарных понятий статистики можно доказать математически, некоторые из них не имеют теоретического обосн ования и могут быть продемонстрированы только эмпирически, с помощью та к называемых экспериментов Moнте-Кaрло. В этих экспериментах большое числ о выборок генерируется на компьютере, а результаты полученные из этих вы борок, анализируются с помощью различных тестов. Этим способом можно эмп ирически оценить тип и величину ошибок или смещений, которые вы получает е, когда нарушаются определенные теоретические предположения тестов, и спользуемых вами. Исследования с помощью методов Монте- Карло интенсивн о использовались для того, чтобы оценить, насколько тесты, основанные на предположении нормальности, чувствительны к различным нарушениям пред положений нормальности. Общий вывод этих исследований состоит в том, что последствия нарушения предположения нормальности менее фатальны, чем первоначально предполагалось. Хотя эти выводы не означают, что предполо жения нормальности можно игнорировать, они увеличили общую популярнос ть тестов, основанных на нормальном распределении.
Список литературы
Д ля подготовки данной работы были использованы материалы с сайта http://www.marketing.spb.ru/