Медицинская статистика является главным инструментом анализа данных клинического исследования, она же может применяться и для решения иных задач, в частности для построения классификаций и поиска ранее неизвестных взаимосвязей. Для прикладного использования статистических программ мало знать математический аппарат, необходимо понимать, когда и какой метод следует использовать, уметь оценить критерии необходимости и достаточности. Не математическому аппарату, но обоснованию важности оценки закона распределения данных, сущности параметрических и непараметрических статистических критериев, условиям их применимости и существующим ограничениям посвящена вторая часть нашей серии статей.
Цель исследования — рассмотреть и систематизировать основные критерии оценки нормальности распределения данных, обосновать необходимость их использования и обобщить условия применения параметрических и непараметрических методов статистики.
Статистический анализ данных. В эпоху доказательной медицины трудно переоценить роль методов математической статистики в анализе результатов клинических исследований. К сожалению, среди отечественных научных работ и по сей день можно встретить проспективные и ретроспективные исследования, в которых анализируемые результаты часто ограничиваются лишь описательной статистикой (среднее, медиана, минимальное, максимальное значения, стандартное отклонение, дисперсия или коэффициент вариации). В то же время требования к статистическому анализу данных и к их представлению в результатах исследований в журналах, индексируемых в Scopus и (или) Web of Science, ежегодно обновляются и расширяются [1]. В частности, следует обратить внимание на следующие новые положения:
1) необходимо планирование исследования (априорный анализ мощности) для выбора адекватного объема выборки с целью достижения определенного уровня статистической значимости, за исключением ситуаций, в которых предоставлено научное обоснование меньшего объема выборки;
2) минимальный размер выборки исследования, вне зависимости от результатов планирования эксперимента и априорного анализа мощности исследования, составляет 5, за исключением научно обоснованных случаев;
3) в случае необходимости анализа результатов малых выборок (n<20) помимо использования непараметрических методов статистики требуется обеспечить сопоставимость выборок по размеру для обеспечения адекватности статистического анализа.
В большинстве зарубежных журналов результаты стандартного корреляционного анализа по-прежнему принимаются, однако наблюдается смена парадигмы анализа взаимосвязей в сторону использования более мощных методов анализа, в частности бинарной, мультиномиальной и порядковой регрессии и регрессии Кокса, позволяющих учитывать влияние множества факторов на анализируемый параметр и создавать прогностические модели.
Нормальное распределение. Краеугольным камнем медицинской статистики по праву считается оценка нормальности распределения [2]. В статистике тесты на нормальность используются для того, чтобы определить, насколько хорошо моделируется набор данных в исследовании нормальным распределением, и рассчитать вероятность того, что случайная переменная, лежащая в основе набора клинических данных, будет нормально распределена [3]. Нормальное распределение характеризуется колоколообразной кривой, представленной на рис. 1.
Рис. 1. Кривая нормального распределения с указанием среднего значения, стандартного отклонения и процента значений.
Для понимания данной кривой также необходимо владеть термином «стандартное отклонение», σ (среднеквадратическое отклонение), — это показатель рассеяния (разброса данных), определяемый по следующей формуле:
(1)
где: σ — стандартное отклонение; n — объем выборки; xi — i-й элемент выборки (например, количество лейкоцитов у i пациента); x– — среднее значение параметра выборки (например, среднее количество лейкоцитов в выборке).
Эмпирическое правило для нормального распределения заключается в том, что 68% значений лежат в пределах среднего значения (µ)±1 стандартное отклонение (σ), 95% значений лежат в пределах среднего (µ)±2σ и 99,7% значений лежат в пределах среднего (µ)±3σ (этот случай и объясняет встречающееся в литературе правило «трех сигм»). Необходимо также помнить о том, что при увеличении числа независимых наблюдений возрастает вероятность того, что закон распределения для данных соответствует нормальному закону (в соответствии с центральной предельной теоремой, или теоремой Ляпунова) [4].
Для понимания важности этапа оценки распределения данных нужно знать об основных группах методов статистического анализа клинических исследований: параметрических и непараметрических методах.
Параметрические методы. Параметрические методы статистики — класс статистических методов, используемых для анализа данных, распределение которых соответствует нормальному закону. Параметрические критерии обладают большей мощностью и производят более точные оценки по сравнению с непараметрическими методами, а также позволяют снизить вероятность ошибки второго рода. К таким критериям относят t-критерий Стьюдента, критерий Пирсона хи-квадрат и другие. Мощность в данном случае является не неким абстрактным понятием, мощность — это вероятность, с которой искомый эффект будет обнаружен, при условии, что он действительно имеет место. Статистическая мощность исследования прямо пропорциональна размеру выборки, однако зависит и от других факторов, определяемых при планировании исследования, в частности от размера изучаемого эффекта (разницы между сравниваемыми средними или медианными значениями) и от величины уровня значимости, на основании которого принимается решение относительно альтернативной гипотезы.
Непараметрические методы. В указанную группу относят методы, позволяющие обрабатывать данные «низкого качества» из выборок малого объема с переменными, распределение которых неизвестно или не соответствует нормальному закону. Непараметрические методы не основываются на оценке параметров, таких как среднее или стандартное отклонение, при описании выборочного распределения интересующей величины, и, в отличие от параметрических аналогов, при их использовании не выдвигаются какие-либо априорные предположения о виде и характере распределения данных, а также отсутствуют допущения о соотношении параметров распределения для анализируемых величин и не предполагаются какие-либо допущения о соотношении параметров распределения анализируемых величин [5].
Важен также и тот факт, что при условии наличия порядковых данных (например, результатов оценки по шкале комы Глазго), номинальных данных или присутствия статистических выбросов в данных необходимо использовать исключительно непараметрические тесты.
При анализе данных исследования часто возникают ситуации, при которых медиана является более информативной, чем среднее значение. Прежде всего это относится к случаю, когда в выборке велика вариабельность данных и присутствуют статистические выбросы, а объем совокупности невелик — в таком случае среднее значение «сдвигается». И напротив, чем симметричнее распределены значения признака, тем лучше медиана характеризует его среднее значение (рис. 2). Таким образом, усредняя данные по выборкам из несопоставимых совокупностей, не принимая во внимание значительный разброс значений, исследователь может неверно интерпретировать данные и получить ложные выводы [6]. Непараметрическая статистика включает в анализ не средние, а медианные значения признака или параметра, а значит, лучше работает по сравнению с параметрическими критериями в тех случаях, когда медианное значение является более информативным для выборки.
Рис. 2. Гистограммы распределения и их Q—Q графики.
Из условий применимости параметрических методов статистического анализа и их преимущества в статистической мощности по сравнению с непараметрическими критериями вытекает необходимость оценки закона распределения данных. В свою очередь, исследователю необходимо стремиться, где это возможно, к таким условиям исследования, при которых объем выборки и ее однородность будут способствовать нормализации закона распределения и обеспечивать возможность применения более мощных параметрических критериев анализа. Этого можно достичь разными путями: увеличением размера выборки (при увеличении размера выборки свыше 100 единиц в соответствии с центральной предельной теоремой практически во всех ситуациях возможно использование параметрической статистики), удалением статистических выбросов (например, с использованием критерия Тьюки [7]), а также применением критериев нормализации, таких как преобразование Бокса—Кокса [8].
Оценка нормальности данных критически важна для дальнейшего использования однофакторного дисперсионного анализа (ANOVA) и многофакторного анализа, простой и множественной регрессии и t-тестов. Если после проверки нормальности данные не будут признаны нормально распределенными, любой вывод статистического теста, основанного на параметрической статистике, может быть признан статистически незначимым и недействительным, и, чтобы избежать подобной ситуации, крайне важно проводить оценку закона распределения данных [9].
Проверка нормальности распределения данных
На практике существует два способа проверки нормальности:
— графический метод (график Q—Q);
— численные методы (тест Андерсона—Дарлинга, критерий Шапиро—Уилка и др.).
Графический метод. Для оценки соответствия распределения данных нормальному закону при использовании графического метода выполняется построение специальной гистограммы, или Q—Q графика (см. рис. 2). Интерпретация ее проста — в случае, если точки гистограммы располагаются вдоль одной линии, можно принять гипотезу о нормальном распределении данных. Несмотря на свою простоту, практическая применимость графического метода весьма ограничена, так как этот метод обладает существенными недостатками. Графические методы не могут предоставить объективных и убедительных доказательств того, что предположение о нормальности закона распределения выполняется. Этот метод крайне субъективен, и для правильной его интерпретации необходимы большой опыт и знания математической статистики. Поэтому в большинстве случаев необходимы численные статистические тесты, чтобы подтвердить вывод, сделанный с помощью графических методов [10, 11].
Численные методы. Авторами выполнен поиск тестов нормальности, доступных в наиболее распространенных статистических программных пакетах, таких как MATLAB, R-Studio, IBM SPSS Statistics, STATA, STATGRAPHICS, Statistica и XLSTAT. По результатам анализа определены доступные тесты нормальности в представленных вариантах программного обеспечения: критерий Шапиро—Уилка, критерий Колмогорова—Смирнова, критерий Колмогорова—Смирнова с поправкой Лиллиефорса, критерий Крамера—фон Мизеса, тест Андерсона—Дарлинга, тест Жарка—Бера и критерий χ2 Пирсона.
Долгое время в научном сообществе велись дебаты по вопросу выбора оптимального критерия оценки нормальности распределения. Большой прогресс в решении этого вопроса достигнут в конце 2000-х — начале 2010-х годов благодаря работам западных исследователей, использовавших объективные критерии — процедуры Монте-Карло для оценки мощности статистики тестов при проверке случайной выборки из n независимых наблюдений из популяции с нормальным распределением [3, 10, 11]. По результатам исследований показано, что на небольших выборках и на выборках со смещением (с асимметричным распределением) по сравнению с другими тестами критерий Шапиро—Уилка имеет большую мощность, а критерий Андерсона—Дарлинга лишь незначительно уступает ему. Для теста Колмогорова—Смирнова (без поправки Лиллиефорса) и критерия хи-квадрат получены плохие результаты, в связи с чем на сегодняшний день их использование не рекомендовано.
Таким образом, для прикладного решения задачи оценки соответствия распределения данных нормальному закону в абсолютном большинстве случаев будет достаточно одного из трех критериев — Колмогорова—Смирнова с поправкой Лиллиефорса, Шапиро—Уилка или критерия Андерсона—Дарлинга. Для симметричного распределения с большим объемом выборки рекомендовано использовать тест Колмогорова—Смирнова с поправкой Лиллиефорса, а для небольших по объему выборок лучше подойдет критерий Шапиро—Уилка. По результатам анализа данных литературы построена сравнительная характеристика основных критериев оценки нормальности распределения, данные по обобщенной мощности критерия взяты из книги А.И. Кобзаря (2006) [12] (табл. 1).
Таблица 1. Критерии нормальности распределения
Поправка | Условия применимости | Обобщенная мощность критерия (ранг)* |
Критерий Шапиро—Уилка | Более подходит для небольших выборок (8<n<50), возможна асимметрия распределения | 9 (наибольшая мощность — при малых выборках) |
Критерий Андерсона—Дарлинга | Случайность и независимость выборок, возможна асимметрия распределения | 51 |
Критерий Колмогорова—Смирнова (с поправкой Лиллиефорса) | Более подходит для больших выборок с симметричным распределением. Условия — случайность и независимость выборок, объем выборки более 50 | 53 |
Примечание. * — ранг определен как сумма баллов для критерия по уровню мощности при различных условиях симметричности распределения и различных коэффициентах эксцесса: чем он меньше, тем мощнее критерий.
Возможные последствия пропуска этапа оценки нормальности распределения данных
Для неискушенного исследователя может быть привлекательной идея использования исключительно непараметрических методов статистики как обладающих более широким спектром практической применимости, более простых в практической реализации и являющихся более надежными, поскольку они зависят от меньшего числа предположений, чем их параметрические аналоги. Однако, как указано ранее, меньшая мощность непараметрической статистики может привести к искажению интерпретации результатов клинических исследований. Простой пример: в проспективном одноцентровом плацебо-контролируемом исследовании оценивается возможное влияние противовоспалительного препарата на уровень С-реактивного белка (СРБ), объем выборки — 150 пациентов в каждой группе (основная группа и плацебо). Оценка нормальности распределения при использовании критерия Колмогорова—Смирнова с поправкой Лиллиефорса позволяет принять нулевую гипотезу о нормальном законе распределения параметра СРБ (p=0,097). Тем не менее исследователи решили применить непараметрический U-критерий Манна—Уитни для сравнения значений СРБ в двух группах и получили по результатам анализа значение p-уровня значимости p=0,065, что соответствует отсутствию статистически значимых различий. В то же время, исходя из нормальности закона распределения изучаемого параметра, возможно применение параметрической статистики, например двухвыборочного t-критерия. В данном примере исследователи получили бы p-уровень значимости t-статистики p=0,023, а это свидетельствует о наличии значимых различий между группами. Полученный результат, отличный от предыдущего, объясняется большей мощностью t-критерия по сравнению с его непараметрическим аналогом, то есть меньшей вероятностью получить ложноотрицательный результат и совершить ошибку второго рода.
Другой частой ситуацией является необдуманное применение уже параметрической статистики. Это может быть чревато тем, что параметрическая статистика в случае отсутствия нормального распределения данных и малого объема выборки может отклонить, например, нулевую гипотезу об отсутствии взаимосвязи между признаками, в то время как непараметрическая статистика в этой ситуации могла бы наличие этой взаимосвязи опровергнуть. В качестве примера можно привести задачу оценки корреляционной взаимосвязи: исследователи хотят оценить корреляцию между уровнями лактата и карбонилов крови у 35 пациентов. Выборка является небольшой, что наводит на мысль о возможной асимметрии закона распределения данных и подтверждается оценкой критерия Шапиро—Уилка (p=0,017, нулевая гипотеза о нормальности закона распределения отвергается). Для оценки взаимосвязи авторы неправомерно используют коэффициент корреляции Пирсона и по результатам расчета отвергают гипотезу об отсутствии статистически значимой взаимосвязи между параметрами (p=0,031), что приводит к ложноположительному результату, ведь аналогичный корреляционный анализ с использованием непараметрического коэффициента ранговой корреляции Спирмена позволяет сделать вывод о том, что нулевая гипотеза верна и значимой корреляции не наблюдается (p=0,075). Этот эффект объясняется тем, что параметрический корреляционный анализ очень чувствителен к выбросам и сравнивает средние значения, в то время как критерий Спирмена является ранговым и сравнивает медианные значения, меньше «размазывая шум» в малом объеме данных.
Другие преимущества параметрической статистики
Вывод, сделанный на основе параметрических тестов, легче интерпретировать, и он более значим, чем вывод непараметрических тестов. Многие непараметрические тесты используют методы ранжирования данных, а не фактические данные, что помимо определенных преимуществ, например меньшей чувствительности к выбросам, обусловливает и наличие некоторых недостатков. Например, знание о том, что разница в средних значениях ранга для параметра «давление в легочной артерии» между двумя группами составляет 7, на самом деле не помогает нашему интуитивному пониманию данных. И напротив, понимание того, что среднее давление в легочной артерии у пациентов, получавших терапию легочной артериальной гипертензии, было на 7 мм рт.ст. ниже, чем у пациентов контрольной группы, интуитивно понятно и имеет бóльшую клиническую значимость.
Очень важно понимать, что параметрические тесты могут обеспечить значимые результаты даже тогда, когда выборки имеют разную степень изменчивости. Однако недостатком непараметрических тестов является необходимость соответствия дополнительному требованию, которое, может быть, очень трудно удовлетворить, — выборки в непараметрическом анализе должны иметь одинаковую изменчивость (дисперсию). В том случае, если внутригрупповая дисперсия будет различна для двух выборок, непараметрический анализ может не дать точных результатов. Напротив, параметрическая статистика, например t-критерий Стьюдента, позволяет анализировать группы с неравными дисперсиями.
Среди исследователей распространено мнение, что выбор между параметрическими и непараметрическими тестами зависит лишь от того, соответствуют ли ваши данные нормальному распределению. И, как правило, это так — если у вас небольшой набор данных, распределение может быть решающим фактором. Однако зачастую вопрос нормальности распределения не является единственным по следующей причине — непараметрический анализ, как показано ранее, имеет определенные ограничения, такие как необходимость равенства дисперсий.
Необдуманное использование непараметрических критериев, имеющих более широкий спектр применимости вкупе с большей робастностью (надежностью), может стоить исследователю слишком дорого, ведь если при тех же условиях возможно применение параметрического метода, то непараметрический аналог будет иметь заведомо меньшую статистическую мощность. Иначе говоря, для формирования заключения при том же уровне значимости может потребоваться выборка большего размера.
Программная реализация критериев оценки нормальности
В настоящее время существует около 1000 программ, используемых для статистической обработки данных. Все их разнообразие обусловлено наличием множества разноплановых задач обработки данных с применением различных статистических методов. Различные программные пакеты содержат реализации отдельных критериев нормальности, только пакет R-Studio содержит все варианты тестов для оценки нормальности закона распределения. Тесты оценки нормальности данных, доступные в пакетах статистического программного обеспечения, представлены в табл. 2.
Таблица 2. Реализованные тесты оценки нормальности данных в популярных программных пакетах
Программное обеспечение | Критерий | ||||||
ШУ | КС | КСЛ | КМ | АД | ЖБ | χ2 | |
MATLAB | — | + | + | + | + | + | + |
R-Studio | + | + | + | + | + | + | + |
IBM SPSS | + | — | + | — | — | — | — |
STATA | + | — | — | — | — | — | — |
STATGRAPHICS | + | + | + | + | + | — | + |
STATISTICA | + | + | + | — | — | — | + |
XLSTAT | + | — | + | — | + | + | — |
Примечание. ШУ — Шапиро—Уилка; КС — Колмогорова—Смирнова; КСЛ — Колмогорова—Смирнова с поправкой Лиллиефорса; КМ — Крамера—фон МИЗЕСА; АД — Андерсона—Дарлинга; ЖБ — Жарка—Бера; χ2 — критерий Пирсона хи-квадрат.
Преобразование Бокса—Кокса для нормализации распределения
В настоящее время появилась принципиальная возможность нормализации распределения для обеспечения возможности использования параметрических критериев [13]. Один из способов повышения нормальности данных — это преобразование Бокса—Кокса, представляющее собой целое семейство методов, обычно используемых в различных областях исследований. К сожалению, многие реальные массивы экспериментальных данных на самом деле не являются нормально распределенными, и именно в такой ситуации возможно применение метода Бокса—Кокса для поиска преобразования, которое приблизительно нормализует данные. На рис. 3 представлен результат нормализации для параметра «средний объем эритроцита» (MCV).
Рис. 3. Q—Q график: практическое применение преобразования Бокса—Кокса с использованием IBM SPSS Statistics v. 22.
MCV — средний объем эритроцита.
Ограничения. Нормализации распределения не всегда можно достичь, даже приблизительно. Например, в том случае, если распределение представляет собой серию «всплесков», т.е. характеризуется значительной вариабельностью, оно не может быть преобразовано.
Преобразование Бокса—Кокса, будучи гибким степенным преобразованием, хорошо устраняет асимметрию распределения. И поскольку многие биологические и медицинские параметры имеют положительно асимметричные распределения, для их нормализации оптимально использовать преобразование Бокса—Кокса. Поэтому в случаях, когда распределение изначально было не слишком асимметричным, процесс нормализации приводит к менее успешному результату.
Необходимо также помнить и о том, что параметрическая статистика, как правило, требует достаточно объемных выборок для адекватной работы, поэтому применение преобразования Бокса—Кокса к заведомо малой выборке не позволит использовать более мощные параметрические критерии.
Заключение
Выбор метода статистического анализа возможен только после оценки характеристик распределения данных и сравнения вариабельности в выборках. Одинаково опасно использовать непараметрические методы при нормальном распределении и параметрические при распределении, отличном от нормального. И в том, и в другом случае велика вероятность получения неправильного, неточного результата, что повлечет за собой ложное заключение или вывод. Практическое следствие: в лучшем случае вашу статью «завернут» в журнале, в худшем — вас опубликуют, а потом будут «показывать пальцем» как на автора, допустившего элементарную ошибку, позволившую «доказать недоказуемое».
Авторы заявляют об отсутствии конфликта интересов.