Сайт издательства «Медиа Сфера»
содержит материалы, предназначенные исключительно для работников здравоохранения. Закрывая это сообщение, Вы подтверждаете, что являетесь дипломированным медицинским работником или студентом медицинского образовательного учреждения.

Цветкова Е.С.

Первый Московский государственный медицинский Университет им. И.М.Сеченова МЗ РФ (Сеченовский Университет), Москва, Россия

Основные статистические ошибки при написании или оценке научной публикации

Авторы:

Цветкова Е.С.

Подробнее об авторах

Просмотров: 916

Загрузок: 28


Как цитировать:

Цветкова Е.С. Основные статистические ошибки при написании или оценке научной публикации. Кардиология и сердечно-сосудистая хирургия. 2020;13(2):90‑94.
Tsvetkova ES. Basic statistical errors in writing or evaluating a scientific manuscript. Russian Journal of Cardiology and Cardiovascular Surgery. 2020;13(2):90‑94. (In Russ.)
https://doi.org/10.17116/kardio20201302190

1. Отсутствие адекватного контроля

Для достоверной оценки результатов, снижения влияния на наблюдаемый исход интервенции как таковой или просто течения времени (испытуемый выздоровел сам, а вмешательство ни при чем) необходима контрольная группа. В идеале контрольная группа должна получать либо плацебо, либо эталонное лечение, которое по предыдущим исследованиям имело эффект, значимо отличный от плацебо. Также желательно, чтобы исследование было рандомизированным и слепым, т.к. это снижает вероятность получения недостоверных результатов.

Как обнаружить

Выводы делаются на основе данных одной группы без адекватных условий контроля.

Решение для исследователей

Если дизайн эксперимента не позволяет отделить влияние фактора времени от эффекта вмешательства, то выводы должны быть представлены как предварительные.

2. Интерпретация сравнения двух разных воздействий в двух разных группах без их сопоставления

Исследователи часто основывают свои выводы относительно эффекта вмешательства (разница до и после вмешательства или корреляция между двумя переменными), отмечая, что вмешательство дает значительный эффект в экспериментальной группе, тогда как соответствующий эффект в контрольной группе не имеет значения. Основываясь на этих двух отдельных результатах теста, исследователи иногда предполагают, что эффект в экспериментальном состоянии или группе больше, чем эффект в контрольном состоянии.

Как это выглядит. В каждой из двух групп (например, женщин и мужчин) применили по одному виду воздействия (например, женщинам вводили лекарство до операции, а мужчинам — после). Далее выясняют, что лекарство до операции у женщин было эффективно, а лекарство после операции у мужчин было неэффективно, и делают вывод, что лекарство до операции женщинам полезно, а мужчинам — нет. Но это неверно, потому что не было оценки эффективности лекарства до операции у мужчин, а после операции — у женщин. У каждой группы (основной и сравнения) должно быть два рукава (с каждым видом вмешательства). Тогда можно будет говорить о достоверном сопоставлении.

Как обнаружить

Эта проблема может возникнуть, когда исследователи делают вывод, не выполняя необходимый статистический анализ, не оценивая статистическую значимость эффекта внутри каждой группы и их разницу.

Решение для исследователей

Исследователи должны сравнивать группы напрямую, когда они хотят противопоставить их. Можно использовать метод Монте-Карло, дисперсионный анализ, непараметрические статистические методы.

3. Завышение единиц анализа

Экспериментальная единица (experimental unit, EU) — это наименьшее наблюдение, которое можно случайно и независимо зафиксировать, т.е. количество независимых друг от друга значений, которые свободно изменяются. В классической статистике эта единица будет отражать степени свободы (degrees of freedom, DF). При оценке результатов группы экспериментальная единица — это число испытуемых, а не количество наблюдений, проведенных внутри каждого субъекта.

Но, к сожалению, исследователи склонны смешивать эти измерения, что приводит к проблемам, в частности к завышенному количеству экспериментальных единиц (ведь количество наблюдений по всем субъектам обычно больше, чем число субъектов). За счет этого происходит искусственное уменьшение критического статистического порога, по которому оценивается статистическая значимость, облегчающее наблюдение значимого результата (увеличение статистической мощности) в исследовании.

Как обнаружить

Рецензент должен оценивать единицы анализа. Если исследование направлено на понимание групповых эффектов, тогда единица анализа должна отражать разницу между субъектами, а не внутри субъектов.

Решение для исследователей

Пожалуй, наилучшим доступным решением этой проблемы является использование смешанных линейных моделей, в которых исследователи могут определить изменчивость в субъектах как фиксированный эффект, а изменчивость между субъектами — как случайный эффект. Этот подход позволяет поместить все данные в модель, не нарушая предположения о независимости. Для простого регрессионного анализа у исследователей есть еще несколько более доступных решений этой проблемы, самый простой из которых — рассчитать корреляцию для каждого наблюдения отдельно («до» и «после») и интерпретировать значения R на основе существующего значения DF. Исследователи также могут усреднить значения или рассчитать корреляцию для «до» и «после» по отдельности, а затем усреднить значения R (после применения нормализации распределения R, например преобразования из r в Z) и интерпретировать их соответствующим образом.

4. Ложные корреляции

Корреляции являются инструментом для оценки силы связи между двумя переменными. Тем не менее неправильное использование параметрических корреляций, таких как коэффициент Пирсона (R), может привести к ложным корреляциям. Ложные корреляции чаще всего возникают, если для одной из двух переменных присутствуют один или несколько выбросов: значение, существенно отличающееся от остальной части распределения, может увеличивать коэффициент корреляции. Ложные корреляции также могут возникать из-за кластеров, например если данные двух групп объединяются, в то время как эти две группы различаются. Важно отметить, что в то же время выброс может быть характерен для проводимого наблюдения и подчиняться закону явления, которое исследователь пытается обнаружить, то есть выброс не обязательно является ложным. Поэтому к удалению «крайних» точек данных также следует подходить с большой осторожностью. Но если это истинное наблюдение рискует нарушить допущения статистического теста, оно де-факто становится ложным и требует другого статистического инструмента.

Как обнаружить

Рецензенты должны обратить особое внимание на сообщаемые корреляции, которые не сопровождаются диаграммой рассеяния, и рассмотреть, было ли представлено достаточное обоснование отбросу крайних точек данных. Кроме того, рецензенты должны убедиться, что различия между группами учитываются, если кластеры данных объединены.

Решения для исследователей

Для анализа предпочтительны надежные методы корреляции (статистический бутстрэп, винсоризация данных, пропущенные корреляции), поскольку они учитывают структуру данных и из-за этого менее чувствительны к выбросам. При использовании параметрической статистики данные должны проверяться на предмет нарушения ключевых допущений, таких как независимость точек данных, а также наличие выбросов.

5. Использование маленьких выборок

Когда размер выборки невелик, можно обнаружить только большие эффекты, тем самым оставляя не определенным истинный размер эффекта, что приводит к переоценке фактического размера эффекта. В статистике частых случаев, в которой используется порог значимости альфа = 0,05, 5% всех тестов дадут значимый результат в отсутствие фактического эффекта (ложные срабатывания; ошибка типа I). При малых размерах выборки величина эффекта этих ложных срабатываний велика, что приводит к ошибке значимости. В такой ситуации большая корреляция не является результатом сильной взаимосвязи между двумя переменными, а происходит переоценка фактического коэффициента корреляции. Например, при выборке N=15 ложноположительные корреляции двух переменных колеблются между 0,5—0,75, тогда как при выборке N=100 ложноположительные корреляции двух переменных встречаются в диапазоне 0,2—0,25.

Работы с небольшим размером выборки также более подвержены ошибке типа II — ложноотрицательным результатам. Вероятность обнаружения эффекта (например, различия между двумя группами) выше при большем размере выборки (эта вероятность называется статистической мощностью). Следовательно, в большой выборке уменьшается вероятность не обнаружить эффект, когда он на самом деле есть.

Еще одна проблема, связанная с небольшим размером выборки, заключается в том, что распределение выборки будет с большей вероятностью отклоняться от нормального, а ограниченный размер выборки может сделать невозможным тщательное тестирование предположения о нормальности. В регрессионном анализе отклонения распределения могут привести к экстремальным выбросам, что приведет к ложным значимым корреляциям.

Как обнаружить

Рецензенты должны критически изучить размер выборки в статье и оценить, достаточен ли он.

Решение для исследователей

Исследователи должны либо представить доказательства того, что исследование имеет достаточную мощность для обнаружения эффекта (например, путем проведения априорного статистического анализа мощности либо повторением своего исследования). Проблема с расчетами мощности заключается в том, что они должны основываться на априорном расчете величины эффекта по независимым данным, а это непросто оценить в обзоре. Байесовская статистика дает возможность определить силу эффекта post hoc. В ситуациях, когда размер выборки изначально ограничен (например, при орфанных заболеваниях), следует обеспечить повторение (как внутри, так и между случаями) и включение достаточного контроля (например, для установления доверительных интервалов). Для оценки тематических исследований предлагаются некоторые статистические решения (например, критерий Кроуфорда, t-критерий).

6. Круговой анализ

Круговой анализ — это любой анализ, который ретроспективно отбирает характеристики данных для оценки зависимых переменных, что приводит к искажению итогового статистического теста. Круговой анализ может принимать различные формы, но по своей сути он заключается в повторном использовании одних и тех же данных, чтобы сначала охарактеризовать исследуемые переменные, а затем делать на основании них статистические выводы, и поэтому его часто называют «двойным погружением». Чаще всего круговой анализ используется для разделения или уменьшения (определения области интереса, удаления «выбросов») полного набора данных с использованием критерия отбора, который является ретроспективным и по своей сути релевантным для достижения статистического результата.

Выборочный анализ вполне оправдан, когда результаты статистически не зависят от критерия выбора при нулевой гипотезе. А круговой анализ рекрутирует полученный в исследовании «шум» (свойственный любым эмпирическим данным), чтобы раздуть статистический результат, что приводит к искаженному и, следовательно, неверному статистическому выводу.

Как обнаружить

Круговой анализ проявляется в разных формах и, в принципе, происходит всякий раз, когда измерения отклоняются критериями выбора в пользу проверяемой гипотезы. В некоторых обстоятельствах это очень ясно, например если анализ основан на данных, которые были выбраны для демонстрации интересующего эффекта или связанного эффекта. В других обстоятельствах все не так прозрачно. Рецензенты должны быть предупреждены о невероятно высоких величинах эффекта, которые неправдоподобны теоретически и/или основаны на относительно ненадежных показателях. В этом случае рецензенты должны попросить авторов обосновать независимость между критериями отбора и интересующим эффектом.

Решение для исследователей

Определение критериев анализа заранее и независимо от получаемых данных защитит исследователей от кругового анализа. В качестве альтернативы, поскольку круговой анализ работает путем «набора шума» для раздувания желаемого эффекта, наиболее простым решением является использование другого набора данных (или другой части вашего набора данных) для задания параметров для анализа (например, выбор подгрупп) и для проверки ваших прогнозов (например, изучение различий между подгруппами). Это разделение может быть выполнено на уровне участников (выбор другой подгруппы для определения критериев сокращения данных) или на уровне испытаний (выбор между разными испытаниями, но для всех участников). Это может быть достигнуто без потери статистической мощности с использованием бутстрэпа. Если это целесообразно, рецензент может попросить авторов провести построение модели для демонстрации того, что результат не связан с «шумом» и критериями отбора.

7. Гибкий анализ: p-хакерство

Использование гибкости в анализе данных (таких как переключаемые параметры результата, добавление ковариантов, неопределенное или ошибочное препроцессинговое объединение алгоритмов в конвейеры, или post hoc выброс, или исключение субъектов анализа) увеличивает вероятность получения значимых p-значений. Это связано с тем, что нормативные статистические данные основаны на вероятностях, и чем больше тестов вы выполняете, тем выше вероятность того, что вы получите ложноположительный результат. Следовательно, получить значимый показатель p в исследовании не так уж и сложно и всегда можно найти правдоподобное объяснение любого значимого эффекта, особенно в отсутствие конкретной предварительной гипотезы.

Чем больше вариаций в анализируемом конвейере, тем выше вероятность того, что наблюдаемые эффекты неподлинны. Гибкость анализа данных особенно заметна, когда одна и та же группа ученых сообщает об одной и той же результирующей переменной, но по-разному вычисляет значение этой переменной на протяжении статьи либо если в клинических испытаниях меняются результаты.

Как обнаружить

Гибкий анализ трудно определить, поскольку исследователи редко раскрывают всю информацию. В случае предварительной регистрации в клиническом исследовании рецензент должен сравнить проведенные анализы с запланированными. При отсутствии предварительной регистрации практически невозможно обнаружить некоторые формы p-хакерства. Тем не менее рецензенты могут оценить, являются ли все варианты статистического анализа обоснованными, использовался ли тот же самый план анализа в предыдущих публикациях, не придумали ли исследователи сомнительную новую переменную или, может быть, они собрали большой набор измерений и сообщили только о некоторых из них, наиболее значительных.

Решение для исследователей

Исследователи должны прозрачно представлять результаты, в том числе сообщать о различии предварительно запланированного и проведенного анализа и предсказанных и полученных результатов.

Проблема может быть устранена путем использования стандартизированных аналитических подходов, предварительной регистрации дизайна и методов статистического анализа или путем проведения повторного, дублирующего, исследования. Возможно, лучший способ предотвратить p-хакерство — быть терпимыми к пограничным или незначительным результатам. Другими словами, если эксперимент хорошо спланирован, выполнен и проанализирован, рецензенты не должны «наказывать» исследователей за полученные данные.

8. Отсутствие корректировки множественных сравнений

Когда исследователи оценивают результаты, они часто исследуют влияние нескольких условий на множество переменных (поведенческие результаты, пункты опросников и т.д.), иногда не имея достаточной априорной гипотезы. Эта практика называется поисковым анализом — в отличие от подтверждающего анализа, который по определению является более ограничительным. Статистическая оценка путем множественных сравнений при поисковом анализе может иметь серьезные последствия для интерпретации значимых результатов. В любом эксперименте, включающем более двух условий (или сравнении более чем двух групп), анализ будет включать множественные сравнения и увеличит вероятность обнаружения эффекта, даже если такого эффекта не существует (ошибка типа I). В этом случае чем больше число факторов, тем больше число тестов, которые можно выполнить. В результате увеличивается вероятность наблюдения ложноположительного результата (групповая вероятность ошибки). Например, в дизайне эксперимента 2×3×3 вероятность нахождения хотя бы одного значимого основного эффекта или эффекта взаимодействия составляет 30%, даже если по факту он отсутствует.

Эта проблема особенно заметна при проведении нескольких независимых сравнений (таких как нейровизуализации или ЭЭГ). В таких случаях исследователи применяют статистический анализ по отношению к каждому объемному пикселю / ячейке / моменту времени, тем самым увеличивая вероятность обнаружения ложноположительного результата из-за большого количества оцениваемых точек.

Как обнаружить

Отсутствие корректировки множественных сравнений можно обнаружить, обратившись к числу независимых измеренных переменных и количеству выполненных анализов. Если только одна из этих переменных коррелирует с зависимой переменной, то, скорее всего, остальные включены для увеличения вероятности получения значимого результата. Следовательно, при проведении поискового анализа с большим набором переменных (таких как гены или объемные пиксели МРТ) для исследователей просто недопустимо интерпретировать результаты, не прошедшие коррекцию для множественных сравнений, без четкого обоснования. Даже если исследователи предлагают приблизительный прогноз (например, что эффект должен наблюдаться в определенной зоне мозга) и этот прогноз можно проверить на основе множественных независимых сравнений, он требует коррекции.

Решение для исследователей

Поисковый анализ может быть абсолютно обоснован, но о нем следует ставить в известность. Исследователи должны раскрывать все измеренные переменные и правильно применять метод множественных независимых сравнений, например с применением стандартных корректировок для множественных сравнений.

9. Чрезмерная интерпретация незначительных результатов

В частотной статистике (frequentist statistics) ученые используют статистический порог (обычно α=0,05) для оценки статистической значимости. Много было написано о произвольности этого порога, были предложены альтернативы. Помимо этого, неверное толкование результатов статистического анализа, когда показан незначимый результат, также является чрезвычайно распространенной проблемой. Это связано с тем, что незначимое р не различает отсутствие эффекта из-за объективного отсутствия эффекта или из-за недостаточной чувствительности работы (например, из-за недостатка статистической мощности, несоответствующего дизайна эксперимента и т.д.). Проще говоря, продемонстрированный незначимый эффект может на самом деле обозначать совершенно разные вещи: истинный нулевой результат, слабый подлинный эффект или неоднозначный эффект. Поэтому, если исследователи хотят интерпретировать полученный несущественный результат как опровержение гипотезы, они должны продемонстрировать его подлинность. Самого по себе значения p недостаточно для этой цели. Это также означает, что иногда исследователи могут полагать несущественным результат, который не соответствует пороговому значению p≤0,05, хотя на самом деле он предоставляет достаточные доказательства против гипотезы или по крайней мере предварительные доказательства, требующие дополнительного анализа.

Как обнаружить

Исследователи могут интерпретировать или описывать незначимое значение p как указание на то, что эффект отсутствует.

Решение для исследователей

Важным первым шагом является представление размеров эффекта вместе с p-значениями, что также важно для любого метаанализа в будущем. Например, если незначимый эффект в исследовании с большой выборкой очень мал по величине, он вряд ли будет иметь теоретическое значение, тогда как умеренный размер эффекта потенциально может потребовать дальнейших исследований. Когда это возможно, исследователи должны рассмотреть возможность использования статистических подходов, которые способны различать недостаточные (или неоднозначные) доказательства и доказательства, подтверждающие нулевую гипотезу (например, байесовская статистика или анализ классов эквивалентности). В качестве альтернативы исследователи могли бы априори определять, обладают ли они достаточной статистической мощностью для определения желаемого эффекта или того, содержат ли доверительные интервалы этого предварительного эффекта ноль (Dienes, 2014). В противном случае исследователи не должны чрезмерно интерпретировать незначимые результаты и описывать их как незначимые.

10. Корреляция vs причинность

Возможно, это самая древняя и самая распространенная ошибка, допускаемая при интерпретации статистических результатов. В науке корреляции часто используются для изучения взаимосвязи между двумя переменными. Когда две переменные оказываются значительно коррелированными, часто возникает соблазн предположить, что одна вызывает другую. Однако этот подход неверен. Тот факт, что изменчивость двух переменных, по-видимому, происходит линейно, не обязательно означает, что между ними существует причинно-следственная связь, даже если такая связь вероятна.

Например, корреляция, наблюдаемая между годовым потреблением шоколада и количеством нобелевских лауреатов в разных странах, привела к (неверному) предположению, что потребление шоколада обеспечивает основу для совершения научных открытий, за которые присуждается Нобелевская премия. Однако лишь корреляция не может быть использована в качестве доказательства причинно-следственной связи. Связанные события могут отражать прямую или обратную причинность, но также могут быть вызваны неизвестной общей причиной или быть результатом простого совпадения.

Как обнаружить

Всякий раз, когда исследователи сообщают о наличии взаимосвязи между двумя или более переменными, которая не обусловлена вмешательством, и используют причинно-следственные указания, они, скорее всего, путают корреляцию и причинность. Исследователи должны указывать наличие причинно-следственной связи только тогда, когда переменная точно поддается манипуляции, и даже в этом случае они должны быть осторожны в отношении роли третьих переменных или смешанных факторов.

Решение для исследователей

Если это возможно, исследователи должны попытаться изучить взаимосвязь с позиции третьей переменной для дополнительной поддержки интерпретации, например используя иерархическое моделирование или медиационный анализ (но только если они обладают достаточной мощностью), путем тестирования конкурирующих моделей или путем непосредственной манипуляции интересующей переменной в рандомизированном контролируемом исследовании. Если все это не представляется возможным, следует избегать утверждений о наличии причинно-следственных связей, даже если выявлена корреляция.

Предотвращение этих десяти ошибок является важным шагом на пути обеспечения правильного толкования результатов исследований. Однако ключевой идеей, лежащей в основе этого списка, является то, что оценка значимости (p-значение) имеет смысл для научных выводов. Большинство вопросов, которые мы подняли, и решений, которые мы предложили, неразрывно связаны с р-значением и пониманием того, что р-значение, связанное с данным статистическим тестом, представляет его фактическую частоту ошибок. В настоящее время ведутся дебаты о достоверности проверки значимости нулевой гипотезы и использовании порогов значимости. Мы согласны с тем, что одно значение р не может раскрыть правдоподобность, наличие или важность обнаруженной связи или эффекта. Но и запрет на оценку p-значений не обязательно защищает исследователей от неправильных выводов о полученных результатах. При правильном применении p-значения могут дать ценное описание результатов, которые в настоящее время могут помочь научному анализу, по крайней мере пока не будет достигнут новый консенсус об интерпретации статистических эффектов.

Подтверждение e-mail

На test@yandex.ru отправлено письмо со ссылкой для подтверждения e-mail. Перейдите по ссылке из письма, чтобы завершить регистрацию на сайте.

Подтверждение e-mail



Мы используем файлы cооkies для улучшения работы сайта. Оставаясь на нашем сайте, вы соглашаетесь с условиями использования файлов cооkies. Чтобы ознакомиться с нашими Положениями о конфиденциальности и об использовании файлов cookie, нажмите здесь.