Оценка качества исследований — 1

Оценка качества исследований — 2

by Евгений Волков -
Number of replies: 0

Оценка качества исследований 2 часть

https://vk.com/@g_equality-ocenka-kachestva-issledovanii-2-chast

Статистическая мощность

Статистическая мощность – это вероятность того, что вы не совершили ошибку второго рода, т.е. не приняли ложную гипотезу. Исследование принято считать статистически мощным при коэффициенте мощности 0.8, то бишь когда вероятность совершить ошибку второго рода равна 20%.

Во-первых, для исследований низкая статистическая мощность выливается в невозможность обнаружить существующий эффект и в принятии нулевой гипотезы; часто это предположение, что разницы нет. Это не даёт информации, действительно ли нет разницы или же просто не хватило мощности её обнаружить. Довольно грубое, но наглядное описание – это сеть, где размер ячейки обратно связан с размером статистической мощности, а размер рыбы напрямую зависит от размера реально существующего эффекта. Если рыба небольшая, а ячейки очень большие, то рыба может легко проскользнуть сквозь них, и вы ничего не сможете сказать о наличии рыбы в озере, поскольку велик шанс того, что вы её просто упустили из-за больших ячеек. Очевидно, что чем меньше ячейка (то есть чем больше статический эффект), тем увереннее можно ловить мелкую рыбу и тем увереннее можно утверждать, что даже мелкой рыбы в озере нет.

Во-вторых, чем ниже статистическая мощность, тем больше будет отличаться истинный размер эффекта от найденного в исследовании. При этом направление будет в сторону завышения размера эффекта в маломощном исследовании .

Примером может служить исследование (оно, в принципе, не слишком хорошее и подверглось довольно широкой критике (раз и два), но мы рассмотрим лишь один аспект, статистическую мощность). В нём изучалась связь между овуляцией и ношением красных и розовых рубашек.

Были проведены два эксперимента: один на выборке в 100 человек ((1, N = 100) = 5,32, р = 0,021), а второй на выборке в 24 человека ((1, N = 25) = 3,82, р = 0,051). Как видно, есть данные, какая была выборка и каков размер Хи-квадрата Пирсона с одной степенью свободы. С этими данными мы можем вычислить коэффициент корреляции r с помощью калькулятора . Для первого эксперимента r = 0.2307, для второго r = 0.3909, округлим до r = 0.231 и r = 0.401. С помощью калькулятора мощности по коэффициенту корреляции для первого эксперимента получаем мощность 0.6396, а для второго 0.5112. То бишь обе мощности ниже принятой, значит размер эффекта вероятно завышен.

Это подтверждается в более позднем исследовании, где авторы оригинального исследования попытались воспроизвести свои результаты, и результат вышел намного меньше.

Если вы действительно хотите оценить качество исследования, общей рекомендацией будет оценка его мощности. Если известен Хи-квадрат Пирсона и выборка, то вы можете рассчитать мощность тем же способом, каким рассчитывал я.

Если вы имеете дело с другими статистическими критериями, попытайтесь найти способ расчёта мощности для доступных данных.

Если нужные данные недоступны, можно обратиться к авторам статьи по почте с просьбой их предоставить. Однако, конечно, это работает только если работе не слишком много лет, потому что авторы вряд ли хранят данные десятками лет, а если и хранят, то вряд ли согласятся искать и извлекать древние данные ради чьего-то письма.

Чем ниже мощность, тем меньше должна быть уверенность в исследовании: для статистически незначимых результатов– ввиду высокой вероятности упущения реально существующего эффкта через свои "сети", а для статистически значимых – ввиду сильного завышения размера эффекта.

Общие для систематических обзоров и мета-анализов критерии

В данных видах исследований должна быть чётко описана стратегия поиска литературы, чтобы эту стратегию можно было легко повторить: должны быть описаны базы данных, в которых проводился поиск, и ключевые слова поиска. Плохое описание стратегии поиска, которое ведет к невозможности её повторить, ставит под серьезный вопрос результат систематического обзора или мета-анализа.

Также обязательно должны быть точно определены параметры включения и исключения исследований, чтобы их тоже можно было повторить и проверить. Чтобы уменьшить возможное смещение отбора, этим должны заниматься два независимых рецензента. Оценка качества включённых исследований должна быть проведена двумя или более независимыми рецензентами, а все разногласия должны быть решены полюбовно. Бывает, что мета-анализом или систематическим обзором занимается один человек, искренне стараясь сделать свою работу хорошо, но избежать смещения в таком случае весьма сложно. Поэтому тот факт, что извлечением, поиском и отбором занимался один человек, – повод для некоторого недоверия к результатам .
Критерии включения и исключения должны быть достаточно обоснованны, так как плохие критерии могут серьёзно исказить результат.

Например, в Кокрейновском обзоре эффективности гомеопатических средств в облегчении побочных эффектов химиотерапии при раке указывается, что гомеопатия смогла помочь при стоматите и раздражении кожи. Однако это основывается на двух небольших качественных исследованиях , и в определении гомеопатии использовалась классификация производителя: при сомнениях опрашивался производитель, является ли средство гомеопатией. Из-за этого в испытание были включены не гомеопатические препараты в традиционном смысле слова, а препараты с довольно большой концентрацией действующего вещества . При том, что традиционно в гомеопатических препаратах слишком мало действующего вещества, поэтому экстраполировать результат на традиционную гомеопатию нельзя, однако это делают. В итоге результат вводит в заблуждение.

Модифицированная или нестандартная мера качества исследований. Зачастую целью такой меры – растянуть рамки высокого или среднего качества исследований, чтобы, включив в подгруппу нужные исследования и обозвав их исследованиями высокого или среднего качества, сделать желаемый вывод при анализе этих подгрупп.

Языковое смещение

Теоретически при ограничении по языку публикаций может возникнуть языковое смещение, но нет доказательств тому, что это серьёзно влияет на англоязычные систематические обзоры и мета-анализы . Можно конечно выразить претензию в стиле "янки опять не видят достижений Советского Союза", но это несерьёзный аргумент. Другое дело, если, например, в России и Китае включены исследования только на русском или китайском языке – вот это повод для беспокойства, поскольку основные результаты всё-таки публикуются на английском.
Оценка возможного смещения публикации .
Оценка должна быть проведена подходящим методом . Итог этой оценки должен быть ясно отражён в тексте, иначе мета-анализ бесполезен и не может использоваться как аргумент.

Есть методы использование которых вызывает некоторую настороженность к примеру Fail-Safe N. Примером может служить вот этот мета-анализ связи стресса и сердечно сосудистых инцидентов при использовании funnel plot обнаружено вероятное смещение, но так же было использован Fail-Safe N результатом было то что нужно аж 40 исследований с нулевым результатом для того что бы результаты влияния исчезли и это было принято как доказательство надежности результатов. Однако это имеет мало смысла, так как метод Fail-Safe N очень зависит от предположения, что все неопубликованные исследования имеют результат не ниже 1 .

А некоторые исследования демонстрировали обратную связь воспринимаемого стресса и риска ишемической болезни сердца, а это значит, что оценка методом Fail-Safe N наверняка сильно завышена.

Так же ложно утверждение, что из-за большого N результат является надёжным; так как было показано , что даже весьма большие значения Fail-Safe N не защищали мета-анализ от опровержения его результата в будущем .

Если вы сталкиваемся с Fail-Safe N в мета анализе, следует помнить Fail-Safe N не является мерой смещения и вообще критерием его наличия, а применение его как меру смещения и доказательства надежности мало осмыслено .

Так же примером использования неподходящего метода является использование в выше упомянутом мета-анализе funnel plot, так как в мета анализ было включено всего 6 исследований, а метод funnel plot мало информативен при небольшом количестве включённых исследований (когда их меньше десяти)

Общая рекомендация – узнать, какой метод используется для выявления смещения, какие ограничения есть у данного метода и нет ли их в конкретном мета-анализе (некорректное использование метода в мета-анализе ставит результат под сомнение).

Оценка гетерогенности исследований.

Должна быть проведена оценка гетерогенности исследований .Вполне может быть, что статистически объединять исследования не имеет смысла. При обнаружении гетерогенности исследователи должны объяснить её и указать её влияние на результат. Если, например, гетерогенность связана с весьма большой разницей в качестве исследований, а включение менее качественных исследований завышает или занижает результат, то это должно быть указано. Если гетерогенность довольно большая и объяснить её затруднительно, то зачастую объединять исследования не имеет смысла. Если оценка гетерогенности не была проведена, это ставит сомнение результаты мета-анализа. Однако часто, если оценка была проведена и всё в порядке, это просто опускают в тексте – это всё равно должно насторожить.
Вывод должен соответствовать качеству данных.

Например, в Кокрейновском обзоре эффективности пробиотиков при простуде используется следующая формулировка: “В целом, мы обнаружили, что пробиотики лучше, чем плацебо, предотвращают острые инфекции верхних дыхательных путей. Но для подтверждения этого вывода нужно больше клинических испытаний". Использование таких формулировок в данном обзоре не имеет смысла, данные чрезвычайно низкого и просто низкого качества . При данных столь низкого качества должна использоваться совершенно другая формулировка. Например, в мета-анализе эффективности гомеопатического средства "Оциллококцинум" при гриппе и гриппоподобных заболеваниях качество исследований оценили как низкое и сделали соответствующий вывод “Недостаточно хороших доказательств, позволяющих сделать убедительные выводы относительно эффективности” .

Ещё один пример – мета-анализ исследований, изучающих клиническую эффективность лечения амнестических умеренных когнитивных нарушений в сравнении при лечении "Нимодипином". При том, что методологическое качество включённых исследований было плохим, был озвучен следующий вывод: “При лечении АУКН иглоукалывание оказывается эффективным как альтернатива или дополнительное лечение; однако учитывая низкое методологическое качество включённых исследований, следует соблюдать осторожность. Кроме того, необходимы более тщательно спланированные исследования”.

Как уже упоминалось выше, при низком качестве исследований нормальные мета-анализы используют совершенно другие формулировки. А данный мета-анализ – яркий представитель того вида мета-анализов, где качество данных не поддерживает выводы. Профессор Эрнест Эдзард очень метко назвал это “rubbish in, rubbish out” – "мусор из мусора"

Нужно чётко следить за соответствием качества данных выводу, поскольку даже для чрезвычайно качественных исследований такое жонглирование словами не редкость.

Общая рекомендация: посмотреть, как другие мета-анализы и систематические обзоры интерпретируют такое качество исследований, и примерно понять, какой вывод приемлемый. Но если интерпретация исследований с низким и чрезвычайно низким качеством в позитивном ключе (мол, средство эффективно) является общей практикой для области, то к такому выводу нет веры, а вся область под вопросом.

Итог

В большинстве случаев должно хватить первых двух шагов, то есть поиска готовых оценок и общего консенсуса. Список вещей, которые следует сделать и учитывать, наверняка не полон, поскольку автор пишет о том, с чем сам чаще всего сталкивается. Если вы хотите дополнить работу или сделать какие-либо замечания, я буду очень рад.

Первая часть

1557 words