Внутригрупповые описательные статистики и корреляции (группировка)
Цель. Процедура вычисляет описательные статистики и корреляции для зависимых переменных в каждой из нескольких групп, определенных одной или большим числом группирующих (независимых) переменных.
Расположение данных. В приводимом ниже примере значения зависимой переменной WCC (число лейкоцитов - White Cell Count) разбиваются на группы кодами двух независимых переменных: Пол (значения: мужчины и женщины) и Рост (значения: высокий и низкий).
|
ПОЛ |
РОСТ |
WCC |
наблюдение
1 |
мужчина |
низкий |
101 |
Результаты
группировки представляются следующим
образом (предполагается, что Пол
- первая независимая переменная, а Рост
- вторая).
Вся
выборка |
|||
Мужчины |
Женщины |
||
Высокие/мужчины |
Низкие/мужчины |
Высокие/женщины |
Низкие/женщины |
Описательные
статистики, расположенные в середине
таблицы, определяются выбранным порядком
независимых переменных. Например, в
таблице приведены средние значения для
"всех мужчин" и "всех женщин",
но не показаны средние для "всех людей
высокого роста" или для "всех людей
низкого роста", которые можно вычислить,
если определить Рост
как
первую группирующую переменную (а не
как вторую).
Статистические тесты для группированных данных. Группировка часто используется как средство разведочного анализа данных. Обычный вопрос, который задает исследователь: являются ли группы, созданные независимыми переменными, действительно различными? Если вы интересуетесь различиями средних, то подходящим тестом является однофакторный дисперсионный анализ (ANOVA) (F критерий). Если интерес представляет различие дисперсий, то можно воспользоваться критерием однородности дисперсий.
Другие близкие методы анализа данных. Хотя в разведочном анализе данных можно строить классификацию с более чем одной независимой переменной, статистические процедуры, используемые для их анализа, предполагают, что существует только один группирующий фактор (даже если фактически результаты получаются комбинированием определенного числа группирующих переменных). Таким образом, эти статистики не обнаруживают и даже не принимают во внимание наличие возможных взаимодействий между группирующими переменными, когда в действительности такие взаимодействия могут иметь место. Например, вполне естественно допустить, что имеются различия между влиянием одной независимой переменной на зависимую переменную на разных уровнях другой независимой переменной (например, высокие люди могут иметь более низкий показатель WCC, чем низкие, однако, возможно, это относится только к мужчинам; см. "дерево" данных выше). Вы можете объяснить подобные эффекты, проверяя группировку "визуально" (в таблицах и на графиках) и используя различный порядок независимых переменных. Однако величина или значимость таких эффектов не может быть оценена здесь статистически.
Апостериорные сравнения средних. Обычно после получения статистически значимого результата в дисперсионном анализе (ANOVA) желательно знать, какие средние вызвали наблюдаемый эффект (например, какие группы особенно сильно отличаются друг от друга). Конечно, можно выполнить серию простых t-критериев, чтобы сравнить все возможные пары средних. Однако в связи с большим числом парных сравнений, такая процедура чисто случайно увеличивает шансы получения значимого результата. Представьте, вы имеете 20 выборок, по 10 случайных чисел в каждой, и вычислили для них средние. Далее возьмите наибольшее среднее и сравните с наименьшим средним. t-критерий для независимых выборок будет проверять, значимо или нет отличаются эти средние, предполагая, что имеет дело с двумя выборками. Процедуры апостериорного сравнения специально рассчитаны так, чтобы учитывать более двух выборок.
Группировка в сравнении с дискриминантным анализом.
Группировку можно рассматривать как первый шаг к другому типу анализа, который исследует различия между группами: Дискриминантный анализ. Аналогично классификации, дискриминантный анализ исследует различия между группами, построенными с помощью значений (кодов) независимой (группирующей) переменной. Однако в дискриминантном анализе, как правило, одновременно рассматривается более одной независимой переменной и определяются "типы" (классы) значений этих переменных. Именно, в дискриминантном анализе находят такие линейные комбинации зависимых переменных, которые наилучшим образом определяют принадлежность наблюдения к определенному классу, причем число классов известно заранее. В частности, с помощью дискриминантного анализа можно проанализировать различия между тремя группами людей, выбравших определенную профессию (например, юрист, физик, инженер), основываясь на их успехах в школе по определенным дисциплинам. Можно утверждать, что этот анализ "объяснит" выбор профессии успехами по определенным предметам. Таким образом, дискриминантный анализ можно рассматривать как "естественное развитие" простой группировки.
Группировка в сравнении c таблицами частот. Другой вид анализа, который не может быть непосредственно проведен с помощью группировки - это сравнения частот (n) в различных группах. Часто значения n в различных ячейках не равны между собой, потому что отнесение субъекта к определенной группе является следствием некоторых субъективных установок экспериментатора, а не результатом случайного выбора. Однако если случайный выбор имеет место, то неравенство частот n в различных группах заставляет предположить, что независимые переменные на самом деле связаны между собой. Например, кросстабуляция уровней независимых переменных Возраст и Образование наиболее вероятно не создаст группы равной величины n, потому что степень образования различна для разных возрастов. Если вы хотите провести такие сравнения, то можете изучить определенные частоты в таблицах сопряженности и испытать различные способы упорядочивания независимых переменных. Однако, для того, чтобы подвергнуть разности частот статистическому исследованию, следует воспользоваться таблицами частот и таблицами сопряженности. Для продвинутого анализа сложных многовходовых таблиц (таблиц со многими входами) используйте Логлинейный анализ или Анализ соответствий.
Графическое представление группировки. Графики часто позволяют обнаружить эффекты (как предполагаемые, так и неожиданные) быстрее, а иногда "лучше", чем численные методы. Категоризованные графики дают возможность строить графики средних, распределений, корреляций и т.д. "на пересечении" групп в соответствующих таблицах (например, категоризованные гистограммы, категоризованные вероятностные графики, категоризованные диаграммы размаха). Следующий график представляет собой категоризованную гистограмму, позволяющую быстро оценить вид данных в каждой группе (группа1-мужчины, группа2-женщины, и т.д.).
Категоризованная диаграмма размаха (на следующем графике) показывает различия в корреляциях зависимых переменных по группам.
Дополнительно, если программное обеспечение обладает возможностями закрашивания, то вы можете выбрать (т.е. выделить) все точки в матричной диаграмме рассеяния, которые принадлежат к определенной группе, для того чтобы определить, как соответствующие точкам наблюдения влияют на связи между другими переменными в том же наборе данных.