Оценка качества исследований
https://vk.com/@g_equality-ocenka-kachestva-issledovanii
Довольно часто нас просят оценить качество исследований, но у нас нет времени оценивать их все. Поэтому мы решили написать данную заметку, которая познакомит вас со способами оценки научной информации в психологических и биомедицинских исследованиях.
Зачастую оценка уже сделана до вас: имеются журналы и базы данных с предварительными оценками качества исследований, систематических обзоров и мета-анализов. Перед тем, как начать оценивать исследования вручную, нужно поискать уже готовую оценку по следующим ресурсам:
1) DARE – база данных Центра по обзорам и распространению информации при университете Йорка. Имеются комментарии и оценка качества не Кокрейновских систематических обзоров и мета-анализов, касающихся здоровья и социального обслуживания. Обновление закрыто в 2014 году, так что более новые сведения искать там не стоит.
2) Drug and Alcohol Findings – сайт cодержит комментарии к исследованиям, систематическим обзорам и мета-анализам, касающихся политики предотвращения и снижения преступности и употребления алкоголя и наркотиков (предотвращение употребления, уменьшение вреда, лечение зависимости).
3) NHS Choices – сайт Национальной службы здравоохранения Великобритании. Тоже содержит комментарии и пояснения к мета-анализам и некоторым исследованиям, касающихся здоровья и социального обслуживания. Действует по сей день, может содержать оценки качества, отсутствующие в двух предыдущих базах данных.
4) Annals of internal medicine – журнал с пересказами и комментариями к исследованиям из сферы здоровья и медицины в целом. Публикуются в основном качественные исследования, но по вопросам традиционной китайской медицины у них слишком оптимистические взгляды.
5) Блог Эрнеста Эдзарда, профессора медицины в отставке, пишущего о натуропатии, гомеопатии, хиропрактике и о традиционной китайской медицине в целом. Его оценке по данным вопросам можно доверять.
6) Pubpeer – сайт с полезными комментариями к статьям. Но, помимо специалистов, комментарии могут оставлять и не специалисты, и попадаются комментарии с незарегистрированным конфликтом интересов. Так что пользу можно извлечь, но следует быть осторожным.
7) Neuroskeptic – блог с хорошими и взвешенными комментариями и критикой исследований в области нейронаук.
8) Science-Based Medicine – блог с хорошими и взвешенными комментариями и критикой исследований почти во всех областях медицины.
Если вы не смогли найти полезный комментарий в вышеперечисленных источниках, нужно искать его другим способом, используя название исследования и слова, которые могли бы употребляться в таком комментарии или в критике. На английском это часто “problems”, “critical”, “quality” и подобное. А при наличии достаточного количества времени можете просто перебирать поисковую выдачу по названию исследования, заключенного в кавычки.
Также будет полезно посмотреть, в каком ключе цитируются эти исследования (это можно сделать при помощи Google Scholar) – нередко так встречается критика, полезное замечание или ссылка на противоположный результат.
Если вам всё же не удалось найти критическое замечание, поскольку исследование слишком новое, никому не нужное либо качественное, то необходимо проверить, каков научный консенсус по искомой теме. Для этого следует обратиться к ведущим организациям по данному вопросу: к национальным здравоохранительным организациям США, Канады, Британии, Австралии и ЕС, к международным и национальным профессиональным объединениям, например, Американской психологической ассоциации. Чтобы быть осторожным и обращаться к действительно авторитетным организациям, вам поможет этот список сомнительных организаций.
Также можете обратиться к самым качественным мета-анализам и систематическим обзорам
1) к Кокрейновскому сотрудничеству по вопросам доказательной медицины.
2) к Кэмпбелловскому сотрудничеству по вопросам воздействия на образование, поведение и другие социальные вопросы (например, воздействия благотворительности на бедность).
3) к Центру основанной на фактических данных политики в области преступности.
Если исследование противоречит сильному консенсусу, то, чтобы заявлять о необходимости изменения консенсуса, потребуются чрезвычайные доказательства (крупный качественный мета-анализ). Если позже вы придёте к выводу, что качество исследования среднее или даже высокое, но исследование не очень крупное в сравнении с другими на данную тему, то можно взять его на заметку, однако нельзя использовать как доказательство правдивости противоположной консенсусу точки зрения. Это можно сказать и человеку, который привёл его как доказательство.
Если же исследование соответствуют сильному консенсусу, то можно, конечно, найти, что данное конкретное исследование является плохим, но это никак не повлияет на консенсус, поскольку для его изменения нам нужны сильные негативные результаты. Критиковать конкретное исследование, скорее всего, не имеет смысла, надо искать сильные исследования для демонстрации несправедливости консенсуса.
Если же сильного консенсуса нет, можете приступить к конкретному исследованию. (Следует предупредить, что данная часть будет понятна и полезна людям, которые уже более или менее в теме, и знают что такое 'p' или размер эффекта)
Проверка декларации интересов
Общим действием для всех видов научных публикаций будет проверка декларации интересов.
Наличие конфликта интересов – это плюс в копилку вероятной предвзятости любого вида публикаций, к таким публикациям следует относиться осторожно. Находить незадекларированные конфликты интересов сложнее – придётся обращаться к биографии авторов, местам работы, имеющимся у них зарегистрированным патентам и т.д. При этом конфликт интересов не всегда возможно раскрыть.
Одним из примеров незадекларированных интересов является случай, где под сомнение был поставлен огромный пласт исследований с использованием МРТ. При этом первый автор исследования имеет непосредственное отношение к разработке программного обеспечения для непараметрического анализа фМРТ-данных "BROCCOLI". И по результатам выше упомянутой статьи это программное обеспечение участвует во всех сравнениях и "выигрывает" по точности.
Проверка декларации интересов – работа отнюдь не быстрая, но необходимая для хорошей оценки качества исследования. При этом задекларированный конфликт интересов не может служить аргументом, сводящим выводы исследования на “нет”, однако должен насторожить читающего. Незадекларированный конфликт – серьёзный проступок, который может служить аргументом против исследования в целом, однако этого будет недостаточно, если все остальные пункты будут в порядке.
Уклон финансирования
Далее нужно обратиться к возможному уклону финансирования.
Нередко сомнительные или идеологически смещённые организации финансируют исследования, которые имеют явный курс в сторону подтверждения желаемого для организации мнения. Например, в Фонде пионеров или в Британской организации гомеопатов спонсируемые исследования приходят к единогласному подтверждению эффективности гомеопатии или идей так называемого расового реализма.
В определённых странах государственные институты спонсируют идеологически правильные исследования. Например, исследования акупунктуры и других традиционных практик китайской медицины, проведённые в Китае, имеют сильное смещение, и оттуда попросту не поступают негативные результаты.
Ну и, в конце концов, финансирование большим бизнесом приводит к смещению результатов, к примеру, недавний обзор от Кокрана пришел к выводу, что исследования лекарств или медицинских приспособлений, которые спонсировала компания производитель, намного чаще приходят к благоприятным выводам для компании, чем исследования, получившие финансирование из любого другого источника.
Если найден уклон финансирования, то это серьёзно ставит под вопрос результаты исследования.
Ослепления
Там, где знание об эксперименте может сместить результат, должно быть проведено ослепление в отношении оценивающего и испытуемого.
Пример проблемы отсутствия метода ослепления оценивающего – отозванная работа о влиянии алюминия в вакцинах на поведение мышей. Учитывая большую зависимость используемых поведенческих тестов от наблюдателя (например, в тесте принудительного плавания нужно было решить, какое состояние является неподвижностью, а какое – плаваньем), отсутствие ослепления наверняка привело к смещению результатов. На самом деле авторы ничего не сообщают об ослеплении, но, зачастую, если оно проводилось, это сообщают.
Классический пример проблемы отсутствия ослепления испытуемого – "эффект Умного Ганса": лошадь могла "отвечать на вопросы" правильно (производить действия, интерпретируемые как правильный ответ), только когда хорошо видела того, кто задавал вопрос, а задающий знал правильный ответ. Как выяснилось из результатов экспериментов, задающий непреднамеренно подавал лошади знаки, которые и приводили её к правильному ответу, а настоящие расчёты ею не проводились .
Вы должны определить степень субъективности тестов, используемых в оцениваемом вами исследовании, и, если степень высока, осознавать, что отсутствие ослепления обесценивает работу. Вообще отсутствие ослепления оценивающих результат, в принципе, очень плохо.
Вмешивающиеся факторы
Также вмешивающиеся факторы – это общая большая проблема для всех не рандомизированных исследований (да и вообще, в принципе, для всех, но для рандомизированных намного меньше). Если вы изучаете исследование влияния одной переменной на другую, нужно обратиться к литературе и выяснить, какие влияющие переменные уже известны (это можно сделать на страницах профильных организаций), какие из установленных влияющих переменных могут быть связаны с изучаемым новой влияющей переменной и учитываются ли они.
Допустим, в исследовании связи потребления сахара с риском развития колоректального рака делается вывод о наличии этой прямой связи. Следует перейти на сайт Американского общества рака и узнать, какие основные факторы риска колоректального рака имеются. Вы увидите, что ожирение связано с риском колоректального рака, это “ж-ж-ж” — неспроста, поскольку потребление сахара связано с ожирением. Итого, если это не учитывалось в исследовании, то оно откровенно плохое.
Дальше уже менее очевидно. Предположим, указывается связь между риском колоректального рака и курением сигарет. Нужно задаться вопросом, имеется ли связь между курением и потреблением сахара. Навскидку это непонятно. Но есть данные, что те, кто пьёт много подслащённых напитков (это, как правило, распространено среди ведущих западный диетический образ жизни), потребляют больше калорий, меньше тренируются и больше курят (Dietary Sugars and Health", страница 304). И если в исследовании не учитывается данный вмешивающийся фактор, вы можете поставить его под сомнение.
Мастер-класс “как довести до белого каления” того, кто ссылается на исследование связи риска колоректального рака с потреблением сахара: на том же сайте видно, что есть связь между раком и потреблением обработанного красного мяса и что есть защитный эффект у некоторых других видов диет с высоким содержанием овощей, фруктов и цельнозерновых волокон. В литературе вряд ли есть указание на то, что потребление сахара как-то связано с потреблением мяса, овощей, фруктов и цельнозерновых волокон. Но вы можете предположить следующее: тот, кто потребляет мало мяса (или совсем его не ест) и много овощей и фруктов, следит за своим рационом и, вследствие этого, потребляет мало сахара, а тот, кто потребляет много обработанного мяса – не следит.
Но такое указание на вмешивающиеся факторы, не имеющие доказательств смещения результатов (а являющиеся в той или иной мере правдоподобными), само по себе является слабым аргументом против исследования, особенно когда правдоподобность предполагаемой вмешивающейся переменной невелика.
Ещё примером может служить исследование влияния расы на интеллект. Процедура примерно такая же: вы гуглите факторы, влияющие на интеллект и рассматриваемую переменную. Например, социоэкономический статус может быть связан как с расой, так и интеллектом, и если исследование не учитывало это, то оно плохое. Интересно и то, что культурные особенности определённой этнической группы могут взаимодействовать с интеллектом, например, конфуцианство и интеллект у азиатов.
Нужно понимать, что проблема вмешивающихся факторов есть и у мета-анализов: мета-анализ должен её обсуждать. И если во многих включённых исследованиях не учитывается важный фактор, а результаты отличаются от тех, у кого такой фактор включён, то нужно анализировать подгруппу тех исследований, в которых был контроль, или пытаться решить проблему другим проверенными способом.
Искажение результатов инструментами измерения
Также классической проблемой является смещение используемых инструментов измерения, вызванное переменной.
Например, в начале 20-го века в США итальянские мигранты имели в среднем 80 баллов IQ-теста (на 15 баллов меньше от среднего общего уровня). Из-за этого некоторыми учёными того времени утверждалось, что 80% итальянских иммигрантов слабоумные. Аналогичные заявления звучали и в адрес русских иммигрантов. Однако стоит учесть, что тесты проводились на английском языке, а не на родном языке мигрантов, и использовались культурно-специфические американские идиомы, которые, скорее всего, были незнакомы даже неплохо знающим английский язык мигрантам.
Для эпидемиологических исследований хорошим примером служит проблема измерения распространённости аутизма среди женщин и мужчин: исторически так сложилось, что диагностические критерии и большинство инструментов выявления аутизма были разработаны на основе только мужского опыта, и подразумевалось, что это в большинстве своём мужская болезнь. Этот аспект присутствует и в настоящее время, поэтому не учитываются особенности протекания болезни у женщин. Например, наличие повторяющегося поведения и особых интересов – ключевой диагностический критерий, и врачи то и дело обращают внимание на стереотипно “мужские” интересы, такие как расписание поездов и цифры во время диагностического процесса. Но девочки, страдающие аутизмом, не обязательно имеют те же виды интересов. Их интересы часто могут быть типичными социально-приемлемыми для маленьких девочек: увлечение куклами, лошадьми, поп-звёздами, знаменитостями, диснеевскими фильмами и т.д.
Более близкий к теме паблика пример – использование шкалы конфликтных тактик в исследованиях, сосредоточенных на гендерной разнице в партнёрском насилии. Данная шкала учитывает игровое насилие, но не учитывает сексуальное, что приводит к раздуванию оценки частоты и тяжести насилия со стороны женщин.
Вы должны постараться узнать, какая мера измерения используется и нет ли замечаний по её возможному смещению. Чем серьёзнее проблемы предвзятости используемого инструмента, тем меньше вы можете доверять результатам
Искажение отчётности
Помимо прочего, в исследованиях по той или иной причине может возникнуть искажение отчётности.
Например, при использовании официальной статистики изнасилований для исследования корреляции количества изнасилований с какой-либо другой переменной (например, с порнографией) искажение отчётности может сильно изменить результат, так как изнасилование является высоко латентным преступлением – таким, о котором редко заявляют в полицию из-за страха общественного порицания, из-за недоверия к полиции и по множеству других причин.
Ещё примером может служить также этот мета-анализ о связи рака груди и аборта. Я уже разбирал его раньше. Отчётность была искажена при оценке количества абортов, потому что в Китае сделанные до вступления в брак аборты общественно порицаются и о них редко сообщают. А количество абортов в группе рака груди скорее всего было более точным, потому что больные раком очень часто думают над тем, почему же это с ними случилось, и с большей вероятностью сообщают исследователям о таких личных и неловких вещах как аборт. Учитывая, что большинство проспективных исследований приходят к выводу об отсутствии связи, направленность искажения на завышение корреляции очевидна.
В случае с кейс-контролируемым ретроспективным исследованием общая рекомендация – это посмотреть результаты проспективных исследований, в которых риск смещения отчётности значительно ниже. Вы увидите, есть ли смещение отчётности и в какую сторону оно направлено. Если результат в большинстве проспективных исследованиях выше, то, скорее всего, смещение отчётности снижало эффект, а если ниже – то повышало. Вообще, в принципе, можно просто погуглить о recall bias в той области, о которой говорит исследование.
Проблема множественных сравнений
Если в одном исследовании много переменных тестируются для того, чтобы отклонить нулевую гипотезу, то есть высокий шанс получить значимый результат там, где его нет.
На 100 переменных результат p<=0.05 получается случайно примерно 5 раз. Например, при тестировании корреляции 25-ти диетических переменных с плотностью груди (фактор риска рака груди) получаются 5 результатов со значением p<=0.05, из которых ввиду 25-ти сравнений вы можете ожидать, что как минимум 1 сравнение получилось значимым случайно. Поэтому в исследованиях со множественными сравнениями должен быть скорректирован уровень альфа – значение p, при котором результат считается значимым. Есть множество способов корректировки, но я приведу в пример самый понятный для меня – коррекцию Бонферрони (альфа, делённое на количество сравнений). Если альфа изначально назначено 0.05 и проведены, скажем, 25 сравнений, из которых 5 получились значимыми на уровне p<=0.05, то после корректировки нужно считать значимыми результаты только р<0.002 .
Коррекция Бонферрони является весьма консервативной процедурой – довольно велик шанс, что после коррекции вы допустите ошибку второго типа, но благодаря простоте использования для примерной оценки этот инструмент вполне подходит.
В контексте множественных сравнений я не мог не вспомнить функциональную магнитно-резонансную томографию (фМРТ), при проведении которой информацию разбивают на серии объёмных изображений (воксели) и сравнивают между собой по своей активности. При этом получается огромное количество сравнений, требующих адекватной корректировки множественных сравнений. Примером служит довольно известное исследование на атлантическом лососе, у которого было обнаружено 16 активных вокселей при общем их количестве 8064 и уровне значимости p = 0.001 – само собой, это были ложные срабатывания из-за множественных сравнений.
Общая рекомендация: если имеется множественное сравнение, то должна быть правильная корректировка альфа (лучше всего погуглите, является ли используемая авторами корректировка приемлемой для их методов тестирования), а без такой корректировки к результату следует относиться с осторожностью. Особенно если сравнений было очень много – тогда исследование без поправки в принципе имеет мало смысла. Для фМРТ поправка на множественные сравнения обязательна.
Меры размера эффекта и их интерпретация
Первое, с чем вы можете столкнуться в исследовании, – это то, что исследователи почему-то решили не сообщать размер эффекта. Тогда всё, что можно узнать из исследования, не делая финтов ушами, – это лишь то, что некая разница статистически значима. При этом понять её важность нельзя (и так делать плохо и нехорошо).
Примером может служить вот это исследование, где изучалась связь между потреблением шоколада с депрессией. Результат заключался в следующем: чем выше баллы получал человек по скрининговому тесту на депрессию, тем больше порций шоколада он съедал в месяц, и это было статистически значимо.
Так как авторы в одной из таблиц всё-таки сообщают среднее отклонение для их результатов, вы можете посчитать размер эффекта с помощью вот этого калькулятора : получаем d = 0.24 или r = 0.12. Дальше мы должны рассчитать, насколько возрастёт относительный риск заболеть депрессией, если кушать шоколад. Для преобразования найденных размеров эффектов воспользуемся этим калькулятором и получим примерно 1,5%.
Для понимания, насколько это значимо, лучшим представлением будет перевод относительного риска в абсолютный. Для этого сначала найдём значение абсолютного риска для людей (в Британии примерно 2.6% или же 26 случаев из 1000), потом 2.6% сложить с 1.5% из 2.6, получим 2.639. Или увеличение абсолютного риска на 0.039%, или же 3 человека на 10000*..
То бишь вклад шоколада в риск заболеть депрессией низок, и нет особенного смысла ограничивать себя в его потреблении.
Зачастую интерпретация размера эффекта – нетривиальная задача. Может оказаться полезным, если вы положитесь на стандартную интерпретацию, например, как в этом документе. Но нужно учитывать, что это не всегда действенно и возможны ситуации, когда даже небольшой эффект является значимым. Например, если бы распространённость депрессии в вышеописанной ситуацией была намного выше, то даже такой небольшой эффект мог бы привести к драматическим последствиям. Лучше поискать способ, как лучше интерпретировать размер эффекта для того или иного исследования.
*В принципе, распространённость должна быть меньше, ведь эти 2.6% включают и тех, кто потребляет шоколад большими порциями. Но я решил пренебречь этим.