Оценка качества исследований — 1

Оценка качества исследований — 1

by Евгений Волков -
Number of replies: 1

Оценка качества исследований

https://vk.com/@g_equality-ocenka-kachestva-issledovanii

Довольно часто нас просят оценить качество исследований, но у нас нет времени оценивать их все. Поэтому мы решили написать данную заметку, которая познакомит вас со способами оценки научной информации в психологических и биомедицинских исследованиях.

Зачастую оценка уже сделана до вас: имеются журналы и базы данных с предварительными оценками качества исследований, систематических обзоров и мета-анализов. Перед тем, как начать оценивать исследования вручную, нужно поискать уже готовую оценку по следующим ресурсам:

1) DARE – база данных Центра по обзорам и распространению информации при университете Йорка. Имеются комментарии и оценка качества не Кокрейновских систематических обзоров и мета-анализов, касающихся здоровья и социального обслуживания. Обновление закрыто в 2014 году, так что более новые сведения искать там не стоит.

2) Drug and Alcohol Findings – сайт cодержит комментарии к исследованиям, систематическим обзорам и мета-анализам, касающихся политики предотвращения и снижения преступности и употребления алкоголя и наркотиков (предотвращение употребления, уменьшение вреда, лечение зависимости).

3) NHS Choices – сайт Национальной службы здравоохранения Великобритании. Тоже содержит комментарии и пояснения к мета-анализам и некоторым исследованиям, касающихся здоровья и социального обслуживания. Действует по сей день, может содержать оценки качества, отсутствующие в двух предыдущих базах данных.

4) Annals of internal medicine – журнал с пересказами и комментариями к исследованиям из сферы здоровья и медицины в целом. Публикуются в основном качественные исследования, но по вопросам традиционной китайской медицины у них слишком оптимистические взгляды.

5) Блог Эрнеста Эдзарда, профессора медицины в отставке, пишущего о натуропатии, гомеопатии, хиропрактике и о традиционной китайской медицине в целом. Его оценке по данным вопросам можно доверять.

6) Pubpeer – сайт с полезными комментариями к статьям. Но, помимо специалистов, комментарии могут оставлять и не специалисты, и попадаются комментарии с незарегистрированным конфликтом интересов. Так что пользу можно извлечь, но следует быть осторожным.

7) Neuroskeptic – блог с хорошими и взвешенными комментариями и критикой исследований в области нейронаук.

8) Science-Based Medicine – блог с хорошими и взвешенными комментариями и критикой исследований почти во всех областях медицины.

Если вы не смогли найти полезный комментарий в вышеперечисленных источниках, нужно искать его другим способом, используя название исследования и слова, которые могли бы употребляться в таком комментарии или в критике. На английском это часто “problems”, “critical”, “quality” и подобное. А при наличии достаточного количества времени можете просто перебирать поисковую выдачу по названию исследования, заключенного в кавычки.

Также будет полезно посмотреть, в каком ключе цитируются эти исследования (это можно сделать при помощи Google Scholar) – нередко так встречается критика, полезное замечание или ссылка на противоположный результат.

Если вам всё же не удалось найти критическое замечание, поскольку исследование слишком новое, никому не нужное либо качественное, то необходимо проверить, каков научный консенсус по искомой теме. Для этого следует обратиться к ведущим организациям по данному вопросу: к национальным здравоохранительным организациям США, Канады, Британии, Австралии и ЕС, к международным и национальным профессиональным объединениям, например, Американской психологической ассоциации. Чтобы быть осторожным и обращаться к действительно авторитетным организациям, вам поможет этот список сомнительных организаций.

Также можете обратиться к самым качественным мета-анализам и систематическим обзорам

1) к Кокрейновскому сотрудничеству по вопросам доказательной медицины.

2) к Кэмпбелловскому сотрудничеству по вопросам воздействия на образование, поведение и другие социальные вопросы (например, воздействия благотворительности на бедность).

3) к Центру основанной на фактических данных политики в области преступности.

Если исследование противоречит сильному консенсусу, то, чтобы заявлять о необходимости изменения консенсуса, потребуются чрезвычайные доказательства (крупный качественный мета-анализ). Если позже вы придёте к выводу, что качество исследования среднее или даже высокое, но исследование не очень крупное в сравнении с другими на данную тему, то можно взять его на заметку, однако нельзя использовать как доказательство правдивости противоположной консенсусу точки зрения. Это можно сказать и человеку, который привёл его как доказательство.

Если же исследование соответствуют сильному консенсусу, то можно, конечно, найти, что данное конкретное исследование является плохим, но это никак не повлияет на консенсус, поскольку для его изменения нам нужны сильные негативные результаты. Критиковать конкретное исследование, скорее всего, не имеет смысла, надо искать сильные исследования для демонстрации несправедливости консенсуса.

Если же сильного консенсуса нет, можете приступить к конкретному исследованию. (Следует предупредить, что данная часть будет понятна и полезна людям, которые уже более или менее в теме, и знают что такое 'p' или размер эффекта)

Проверка декларации интересов

Общим действием для всех видов научных публикаций будет проверка декларации интересов.

Наличие конфликта интересов – это плюс в копилку вероятной предвзятости любого вида публикаций, к таким публикациям следует относиться осторожно. Находить незадекларированные конфликты интересов сложнее – придётся обращаться к биографии авторов, местам работы, имеющимся у них зарегистрированным патентам и т.д. При этом конфликт интересов не всегда возможно раскрыть.

Одним из примеров незадекларированных интересов является случай, где под сомнение был поставлен огромный пласт исследований с использованием МРТ. При этом первый автор исследования имеет непосредственное отношение к разработке программного обеспечения для непараметрического анализа фМРТ-данных "BROCCOLI". И по результатам выше упомянутой статьи это программное обеспечение участвует во всех сравнениях и "выигрывает" по точности.

Проверка декларации интересов – работа отнюдь не быстрая, но необходимая для хорошей оценки качества исследования. При этом задекларированный конфликт интересов не может служить аргументом, сводящим выводы исследования на “нет”, однако должен насторожить читающего. Незадекларированный конфликт – серьёзный проступок, который может служить аргументом против исследования в целом, однако этого будет недостаточно, если все остальные пункты будут в порядке.

Уклон финансирования

Далее нужно обратиться к возможному уклону финансирования.

Нередко сомнительные или идеологически смещённые организации финансируют исследования, которые имеют явный курс в сторону подтверждения желаемого для организации мнения. Например, в Фонде пионеров или в Британской организации гомеопатов спонсируемые исследования приходят к единогласному подтверждению эффективности гомеопатии или идей так называемого расового реализма.

В определённых странах государственные институты спонсируют идеологически правильные исследования. Например, исследования акупунктуры и других традиционных практик китайской медицины, проведённые в Китае, имеют сильное смещение, и оттуда попросту не поступают негативные результаты.

Ну и, в конце концов, финансирование большим бизнесом приводит к смещению результатов, к примеру, недавний обзор от Кокрана пришел к выводу, что исследования лекарств или медицинских приспособлений, которые спонсировала компания производитель, намного чаще приходят к благоприятным выводам для компании, чем исследования, получившие финансирование из любого другого источника.

Если найден уклон финансирования, то это серьёзно ставит под вопрос результаты исследования.

Ослепления

Там, где знание об эксперименте может сместить результат, должно быть проведено ослепление в отношении оценивающего и испытуемого.

Пример проблемы отсутствия метода ослепления оценивающего – отозванная работа о влиянии алюминия в вакцинах на поведение мышей. Учитывая большую зависимость используемых поведенческих тестов от наблюдателя (например, в тесте принудительного плавания нужно было решить, какое состояние является неподвижностью, а какое – плаваньем), отсутствие ослепления наверняка привело к смещению результатов. На самом деле авторы ничего не сообщают об ослеплении, но, зачастую, если оно проводилось, это сообщают.

Классический пример проблемы отсутствия ослепления испытуемого – "эффект Умного Ганса": лошадь могла "отвечать на вопросы" правильно (производить действия, интерпретируемые как правильный ответ), только когда хорошо видела того, кто задавал вопрос, а задающий знал правильный ответ. Как выяснилось из результатов экспериментов, задающий непреднамеренно подавал лошади знаки, которые и приводили её к правильному ответу, а настоящие расчёты ею не проводились .

Вы должны определить степень субъективности тестов, используемых в оцениваемом вами исследовании, и, если степень высока, осознавать, что отсутствие ослепления обесценивает работу. Вообще отсутствие ослепления оценивающих результат, в принципе, очень плохо.

Вмешивающиеся факторы

Также вмешивающиеся факторы – это общая большая проблема для всех не рандомизированных исследований (да и вообще, в принципе, для всех, но для рандомизированных намного меньше). Если вы изучаете исследование влияния одной переменной на другую, нужно обратиться к литературе и выяснить, какие влияющие переменные уже известны (это можно сделать на страницах профильных организаций), какие из установленных влияющих переменных могут быть связаны с изучаемым новой влияющей переменной и учитываются ли они.

Допустим, в исследовании связи потребления сахара с риском развития колоректального рака делается вывод о наличии этой прямой связи. Следует перейти на сайт Американского общества рака и узнать, какие основные факторы риска колоректального рака имеются. Вы увидите, что ожирение связано с риском колоректального рака, это “ж-ж-ж” — неспроста, поскольку потребление сахара связано с ожирением. Итого, если это не учитывалось в исследовании, то оно откровенно плохое.

Дальше уже менее очевидно. Предположим, указывается связь между риском колоректального рака и курением сигарет. Нужно задаться вопросом, имеется ли связь между курением и потреблением сахара. Навскидку это непонятно. Но есть данные, что те, кто пьёт много подслащённых напитков (это, как правило, распространено среди ведущих западный диетический образ жизни), потребляют больше калорий, меньше тренируются и больше курят (Dietary Sugars and Health", страница 304). И если в исследовании не учитывается данный вмешивающийся фактор, вы можете поставить его под сомнение.

Мастер-класс “как довести до белого каления” того, кто ссылается на исследование связи риска колоректального рака с потреблением сахара: на том же сайте видно, что есть связь между раком и потреблением обработанного красного мяса и что есть защитный эффект у некоторых других видов диет с высоким содержанием овощей, фруктов и цельнозерновых волокон. В литературе вряд ли есть указание на то, что потребление сахара как-то связано с потреблением мяса, овощей, фруктов и цельнозерновых волокон. Но вы можете предположить следующее: тот, кто потребляет мало мяса (или совсем его не ест) и много овощей и фруктов, следит за своим рационом и, вследствие этого, потребляет мало сахара, а тот, кто потребляет много обработанного мяса – не следит.

Но такое указание на вмешивающиеся факторы, не имеющие доказательств смещения результатов (а являющиеся в той или иной мере правдоподобными), само по себе является слабым аргументом против исследования, особенно когда правдоподобность предполагаемой вмешивающейся переменной невелика.

Ещё примером может служить исследование влияния расы на интеллект. Процедура примерно такая же: вы гуглите факторы, влияющие на интеллект и рассматриваемую переменную. Например, социоэкономический статус может быть связан как с расой, так и интеллектом, и если исследование не учитывало это, то оно плохое. Интересно и то, что культурные особенности определённой этнической группы могут взаимодействовать с интеллектом, например, конфуцианство и интеллект у азиатов.

Нужно понимать, что проблема вмешивающихся факторов есть и у мета-анализов: мета-анализ должен её обсуждать. И если во многих включённых исследованиях не учитывается важный фактор, а результаты отличаются от тех, у кого такой фактор включён, то нужно анализировать подгруппу тех исследований, в которых был контроль, или пытаться решить проблему другим проверенными способом.

Искажение результатов инструментами измерения

Также классической проблемой является смещение используемых инструментов измерения, вызванное переменной.

Например, в начале 20-го века в США итальянские мигранты имели в среднем 80 баллов IQ-теста (на 15 баллов меньше от среднего общего уровня). Из-за этого некоторыми учёными того времени утверждалось, что 80% итальянских иммигрантов слабоумные. Аналогичные заявления звучали и в адрес русских иммигрантов. Однако стоит учесть, что тесты проводились на английском языке, а не на родном языке мигрантов, и использовались культурно-специфические американские идиомы, которые, скорее всего, были незнакомы даже неплохо знающим английский язык мигрантам.

Для эпидемиологических исследований хорошим примером служит проблема измерения распространённости аутизма среди женщин и мужчин: исторически так сложилось, что диагностические критерии и большинство инструментов выявления аутизма были разработаны на основе только мужского опыта, и подразумевалось, что это в большинстве своём мужская болезнь. Этот аспект присутствует и в настоящее время, поэтому не учитываются особенности протекания болезни у женщин. Например, наличие повторяющегося поведения и особых интересов – ключевой диагностический критерий, и врачи то и дело обращают внимание на стереотипно “мужские” интересы, такие как расписание поездов и цифры во время диагностического процесса. Но девочки, страдающие аутизмом, не обязательно имеют те же виды интересов. Их интересы часто могут быть типичными социально-приемлемыми для маленьких девочек: увлечение куклами, лошадьми, поп-звёздами, знаменитостями, диснеевскими фильмами и т.д.

Более близкий к теме паблика пример – использование шкалы конфликтных тактик в исследованиях, сосредоточенных на гендерной разнице в партнёрском насилии. Данная шкала учитывает игровое насилие, но не учитывает сексуальное, что приводит к раздуванию оценки частоты и тяжести насилия со стороны женщин.

Вы должны постараться узнать, какая мера измерения используется и нет ли замечаний по её возможному смещению. Чем серьёзнее проблемы предвзятости используемого инструмента, тем меньше вы можете доверять результатам

Искажение отчётности

Помимо прочего, в исследованиях по той или иной причине может возникнуть искажение отчётности.

Например, при использовании официальной статистики изнасилований для исследования корреляции количества изнасилований с какой-либо другой переменной (например, с порнографией) искажение отчётности может сильно изменить результат, так как изнасилование является высоко латентным преступлением – таким, о котором редко заявляют в полицию из-за страха общественного порицания, из-за недоверия к полиции и по множеству других причин.

Ещё примером может служить также этот мета-анализ о связи рака груди и аборта. Я уже разбирал его раньше. Отчётность была искажена при оценке количества абортов, потому что в Китае сделанные до вступления в брак аборты общественно порицаются и о них редко сообщают. А количество абортов в группе рака груди скорее всего было более точным, потому что больные раком очень часто думают над тем, почему же это с ними случилось, и с большей вероятностью сообщают исследователям о таких личных и неловких вещах как аборт. Учитывая, что большинство проспективных исследований приходят к выводу об отсутствии связи, направленность искажения на завышение корреляции очевидна.

В случае с кейс-контролируемым ретроспективным исследованием общая рекомендация – это посмотреть результаты проспективных исследований, в которых риск смещения отчётности значительно ниже. Вы увидите, есть ли смещение отчётности и в какую сторону оно направлено. Если результат в большинстве проспективных исследованиях выше, то, скорее всего, смещение отчётности снижало эффект, а если ниже – то повышало. Вообще, в принципе, можно просто погуглить о recall bias в той области, о которой говорит исследование.

Проблема множественных сравнений

Если в одном исследовании много переменных тестируются для того, чтобы отклонить нулевую гипотезу, то есть высокий шанс получить значимый результат там, где его нет.

На 100 переменных результат p<=0.05 получается случайно примерно 5 раз. Например, при тестировании корреляции 25-ти диетических переменных с плотностью груди (фактор риска рака груди) получаются 5 результатов со значением p<=0.05, из которых ввиду 25-ти сравнений вы можете ожидать, что как минимум 1 сравнение получилось значимым случайно. Поэтому в исследованиях со множественными сравнениями должен быть скорректирован уровень альфа – значение p, при котором результат считается значимым. Есть множество способов корректировки, но я приведу в пример самый понятный для меня – коррекцию Бонферрони (альфа, делённое на количество сравнений). Если альфа изначально назначено 0.05 и проведены, скажем, 25 сравнений, из которых 5 получились значимыми на уровне p<=0.05, то после корректировки нужно считать значимыми результаты только р<0.002 .

Коррекция Бонферрони является весьма консервативной процедурой – довольно велик шанс, что после коррекции вы допустите ошибку второго типа, но благодаря простоте использования для примерной оценки этот инструмент вполне подходит.

В контексте множественных сравнений я не мог не вспомнить функциональную магнитно-резонансную томографию (фМРТ), при проведении которой информацию разбивают на серии объёмных изображений (воксели) и сравнивают между собой по своей активности. При этом получается огромное количество сравнений, требующих адекватной корректировки множественных сравнений. Примером служит довольно известное исследование на атлантическом лососе, у которого было обнаружено 16 активных вокселей при общем их количестве 8064 и уровне значимости p = 0.001 – само собой, это были ложные срабатывания из-за множественных сравнений.

Общая рекомендация: если имеется множественное сравнение, то должна быть правильная корректировка альфа (лучше всего погуглите, является ли используемая авторами корректировка приемлемой для их методов тестирования), а без такой корректировки к результату следует относиться с осторожностью. Особенно если сравнений было очень много – тогда исследование без поправки в принципе имеет мало смысла. Для фМРТ поправка на множественные сравнения обязательна.

Меры размера эффекта и их интерпретация

Первое, с чем вы можете столкнуться в исследовании, – это то, что исследователи почему-то решили не сообщать размер эффекта. Тогда всё, что можно узнать из исследования, не делая финтов ушами, – это лишь то, что некая разница статистически значима. При этом понять её важность нельзя (и так делать плохо и нехорошо).

Примером может служить вот это исследование, где изучалась связь между потреблением шоколада с депрессией. Результат заключался в следующем: чем выше баллы получал человек по скрининговому тесту на депрессию, тем больше порций шоколада он съедал в месяц, и это было статистически значимо.

Так как авторы в одной из таблиц всё-таки сообщают среднее отклонение для их результатов, вы можете посчитать размер эффекта с помощью вот этого калькулятора : получаем d = 0.24 или r = 0.12. Дальше мы должны рассчитать, насколько возрастёт относительный риск заболеть депрессией, если кушать шоколад. Для преобразования найденных размеров эффектов воспользуемся этим калькулятором и получим примерно 1,5%.

Для понимания, насколько это значимо, лучшим представлением будет перевод относительного риска в абсолютный. Для этого сначала найдём значение абсолютного риска для людей (в Британии примерно 2.6% или же 26 случаев из 1000), потом 2.6% сложить с 1.5% из 2.6, получим 2.639. Или увеличение абсолютного риска на 0.039%, или же 3 человека на 10000*..

То бишь вклад шоколада в риск заболеть депрессией низок, и нет особенного смысла ограничивать себя в его потреблении.

Зачастую интерпретация размера эффекта – нетривиальная задача. Может оказаться полезным, если вы положитесь на стандартную интерпретацию, например, как в этом документе. Но нужно учитывать, что это не всегда действенно и возможны ситуации, когда даже небольшой эффект является значимым. Например, если бы распространённость депрессии в вышеописанной ситуацией была намного выше, то даже такой небольшой эффект мог бы привести к драматическим последствиям. Лучше поискать способ, как лучше интерпретировать размер эффекта для того или иного исследования.

*В принципе, распространённость должна быть меньше, ведь эти 2.6% включают и тех, кто потребляет шоколад большими порциями. Но я решил пренебречь этим.

Вторая часть

2740 words

In reply to Евгений Волков

Оценка качества исследований — 2

by Евгений Волков -

Оценка качества исследований 2 часть

https://vk.com/@g_equality-ocenka-kachestva-issledovanii-2-chast

Статистическая мощность

Статистическая мощность – это вероятность того, что вы не совершили ошибку второго рода, т.е. не приняли ложную гипотезу. Исследование принято считать статистически мощным при коэффициенте мощности 0.8, то бишь когда вероятность совершить ошибку второго рода равна 20%.

Во-первых, для исследований низкая статистическая мощность выливается в невозможность обнаружить существующий эффект и в принятии нулевой гипотезы; часто это предположение, что разницы нет. Это не даёт информации, действительно ли нет разницы или же просто не хватило мощности её обнаружить. Довольно грубое, но наглядное описание – это сеть, где размер ячейки обратно связан с размером статистической мощности, а размер рыбы напрямую зависит от размера реально существующего эффекта. Если рыба небольшая, а ячейки очень большие, то рыба может легко проскользнуть сквозь них, и вы ничего не сможете сказать о наличии рыбы в озере, поскольку велик шанс того, что вы её просто упустили из-за больших ячеек. Очевидно, что чем меньше ячейка (то есть чем больше статический эффект), тем увереннее можно ловить мелкую рыбу и тем увереннее можно утверждать, что даже мелкой рыбы в озере нет.

Во-вторых, чем ниже статистическая мощность, тем больше будет отличаться истинный размер эффекта от найденного в исследовании. При этом направление будет в сторону завышения размера эффекта в маломощном исследовании .

Примером может служить исследование (оно, в принципе, не слишком хорошее и подверглось довольно широкой критике (раз и два), но мы рассмотрим лишь один аспект, статистическую мощность). В нём изучалась связь между овуляцией и ношением красных и розовых рубашек.

Были проведены два эксперимента: один на выборке в 100 человек ((1, N = 100) = 5,32, р = 0,021), а второй на выборке в 24 человека ((1, N = 25) = 3,82, р = 0,051). Как видно, есть данные, какая была выборка и каков размер Хи-квадрата Пирсона с одной степенью свободы. С этими данными мы можем вычислить коэффициент корреляции r с помощью калькулятора . Для первого эксперимента r = 0.2307, для второго r = 0.3909, округлим до r = 0.231 и r = 0.401. С помощью калькулятора мощности по коэффициенту корреляции для первого эксперимента получаем мощность 0.6396, а для второго 0.5112. То бишь обе мощности ниже принятой, значит размер эффекта вероятно завышен.

Это подтверждается в более позднем исследовании, где авторы оригинального исследования попытались воспроизвести свои результаты, и результат вышел намного меньше.

Если вы действительно хотите оценить качество исследования, общей рекомендацией будет оценка его мощности. Если известен Хи-квадрат Пирсона и выборка, то вы можете рассчитать мощность тем же способом, каким рассчитывал я.

Если вы имеете дело с другими статистическими критериями, попытайтесь найти способ расчёта мощности для доступных данных.

Если нужные данные недоступны, можно обратиться к авторам статьи по почте с просьбой их предоставить. Однако, конечно, это работает только если работе не слишком много лет, потому что авторы вряд ли хранят данные десятками лет, а если и хранят, то вряд ли согласятся искать и извлекать древние данные ради чьего-то письма.

Чем ниже мощность, тем меньше должна быть уверенность в исследовании: для статистически незначимых результатов– ввиду высокой вероятности упущения реально существующего эффкта через свои "сети", а для статистически значимых – ввиду сильного завышения размера эффекта.

Общие для систематических обзоров и мета-анализов критерии

В данных видах исследований должна быть чётко описана стратегия поиска литературы, чтобы эту стратегию можно было легко повторить: должны быть описаны базы данных, в которых проводился поиск, и ключевые слова поиска. Плохое описание стратегии поиска, которое ведет к невозможности её повторить, ставит под серьезный вопрос результат систематического обзора или мета-анализа.

Также обязательно должны быть точно определены параметры включения и исключения исследований, чтобы их тоже можно было повторить и проверить. Чтобы уменьшить возможное смещение отбора, этим должны заниматься два независимых рецензента. Оценка качества включённых исследований должна быть проведена двумя или более независимыми рецензентами, а все разногласия должны быть решены полюбовно. Бывает, что мета-анализом или систематическим обзором занимается один человек, искренне стараясь сделать свою работу хорошо, но избежать смещения в таком случае весьма сложно. Поэтому тот факт, что извлечением, поиском и отбором занимался один человек, – повод для некоторого недоверия к результатам .
Критерии включения и исключения должны быть достаточно обоснованны, так как плохие критерии могут серьёзно исказить результат.

Например, в Кокрейновском обзоре эффективности гомеопатических средств в облегчении побочных эффектов химиотерапии при раке указывается, что гомеопатия смогла помочь при стоматите и раздражении кожи. Однако это основывается на двух небольших качественных исследованиях , и в определении гомеопатии использовалась классификация производителя: при сомнениях опрашивался производитель, является ли средство гомеопатией. Из-за этого в испытание были включены не гомеопатические препараты в традиционном смысле слова, а препараты с довольно большой концентрацией действующего вещества . При том, что традиционно в гомеопатических препаратах слишком мало действующего вещества, поэтому экстраполировать результат на традиционную гомеопатию нельзя, однако это делают. В итоге результат вводит в заблуждение.

Модифицированная или нестандартная мера качества исследований. Зачастую целью такой меры – растянуть рамки высокого или среднего качества исследований, чтобы, включив в подгруппу нужные исследования и обозвав их исследованиями высокого или среднего качества, сделать желаемый вывод при анализе этих подгрупп.

Языковое смещение

Теоретически при ограничении по языку публикаций может возникнуть языковое смещение, но нет доказательств тому, что это серьёзно влияет на англоязычные систематические обзоры и мета-анализы . Можно конечно выразить претензию в стиле "янки опять не видят достижений Советского Союза", но это несерьёзный аргумент. Другое дело, если, например, в России и Китае включены исследования только на русском или китайском языке – вот это повод для беспокойства, поскольку основные результаты всё-таки публикуются на английском.
Оценка возможного смещения публикации .
Оценка должна быть проведена подходящим методом . Итог этой оценки должен быть ясно отражён в тексте, иначе мета-анализ бесполезен и не может использоваться как аргумент.

Есть методы использование которых вызывает некоторую настороженность к примеру Fail-Safe N. Примером может служить вот этот мета-анализ связи стресса и сердечно сосудистых инцидентов при использовании funnel plot обнаружено вероятное смещение, но так же было использован Fail-Safe N результатом было то что нужно аж 40 исследований с нулевым результатом для того что бы результаты влияния исчезли и это было принято как доказательство надежности результатов. Однако это имеет мало смысла, так как метод Fail-Safe N очень зависит от предположения, что все неопубликованные исследования имеют результат не ниже 1 .

А некоторые исследования демонстрировали обратную связь воспринимаемого стресса и риска ишемической болезни сердца, а это значит, что оценка методом Fail-Safe N наверняка сильно завышена.

Так же ложно утверждение, что из-за большого N результат является надёжным; так как было показано , что даже весьма большие значения Fail-Safe N не защищали мета-анализ от опровержения его результата в будущем .

Если вы сталкиваемся с Fail-Safe N в мета анализе, следует помнить Fail-Safe N не является мерой смещения и вообще критерием его наличия, а применение его как меру смещения и доказательства надежности мало осмыслено .

Так же примером использования неподходящего метода является использование в выше упомянутом мета-анализе funnel plot, так как в мета анализ было включено всего 6 исследований, а метод funnel plot мало информативен при небольшом количестве включённых исследований (когда их меньше десяти)

Общая рекомендация – узнать, какой метод используется для выявления смещения, какие ограничения есть у данного метода и нет ли их в конкретном мета-анализе (некорректное использование метода в мета-анализе ставит результат под сомнение).

Оценка гетерогенности исследований.

Должна быть проведена оценка гетерогенности исследований .Вполне может быть, что статистически объединять исследования не имеет смысла. При обнаружении гетерогенности исследователи должны объяснить её и указать её влияние на результат. Если, например, гетерогенность связана с весьма большой разницей в качестве исследований, а включение менее качественных исследований завышает или занижает результат, то это должно быть указано. Если гетерогенность довольно большая и объяснить её затруднительно, то зачастую объединять исследования не имеет смысла. Если оценка гетерогенности не была проведена, это ставит сомнение результаты мета-анализа. Однако часто, если оценка была проведена и всё в порядке, это просто опускают в тексте – это всё равно должно насторожить.
Вывод должен соответствовать качеству данных.

Например, в Кокрейновском обзоре эффективности пробиотиков при простуде используется следующая формулировка: “В целом, мы обнаружили, что пробиотики лучше, чем плацебо, предотвращают острые инфекции верхних дыхательных путей. Но для подтверждения этого вывода нужно больше клинических испытаний". Использование таких формулировок в данном обзоре не имеет смысла, данные чрезвычайно низкого и просто низкого качества . При данных столь низкого качества должна использоваться совершенно другая формулировка. Например, в мета-анализе эффективности гомеопатического средства "Оциллококцинум" при гриппе и гриппоподобных заболеваниях качество исследований оценили как низкое и сделали соответствующий вывод “Недостаточно хороших доказательств, позволяющих сделать убедительные выводы относительно эффективности” .

Ещё один пример – мета-анализ исследований, изучающих клиническую эффективность лечения амнестических умеренных когнитивных нарушений в сравнении при лечении "Нимодипином". При том, что методологическое качество включённых исследований было плохим, был озвучен следующий вывод: “При лечении АУКН иглоукалывание оказывается эффективным как альтернатива или дополнительное лечение; однако учитывая низкое методологическое качество включённых исследований, следует соблюдать осторожность. Кроме того, необходимы более тщательно спланированные исследования”.

Как уже упоминалось выше, при низком качестве исследований нормальные мета-анализы используют совершенно другие формулировки. А данный мета-анализ – яркий представитель того вида мета-анализов, где качество данных не поддерживает выводы. Профессор Эрнест Эдзард очень метко назвал это “rubbish in, rubbish out” – "мусор из мусора"

Нужно чётко следить за соответствием качества данных выводу, поскольку даже для чрезвычайно качественных исследований такое жонглирование словами не редкость.

Общая рекомендация: посмотреть, как другие мета-анализы и систематические обзоры интерпретируют такое качество исследований, и примерно понять, какой вывод приемлемый. Но если интерпретация исследований с низким и чрезвычайно низким качеством в позитивном ключе (мол, средство эффективно) является общей практикой для области, то к такому выводу нет веры, а вся область под вопросом.

Итог

В большинстве случаев должно хватить первых двух шагов, то есть поиска готовых оценок и общего консенсуса. Список вещей, которые следует сделать и учитывать, наверняка не полон, поскольку автор пишет о том, с чем сам чаще всего сталкивается. Если вы хотите дополнить работу или сделать какие-либо замечания, я буду очень рад.

Первая часть

1557 words