Рубрика ‘Основы доказательной медицины’

Сделаны ли предположения о природе и направлении причинности?

Запомните пример ложного вывода: из-за того, что в городе много безработных и очень высокая преступность, не обязательно следует, что безработные совершают преступления! Иными словами, наличие связи между А и Б еще ничего не говорит о наличии и направлении причинности. Чтобы продемонстрировать, что А вызвало Б (скорее, чем Б вызывает А, или и А, и Б вызываются В), вам нужно нечто больше, чем просто коэффициент корреляции. Врезка 5.2 дает некоторые критерии, разработанные сэром Остином Брэдфордом Хиллом, которые следует использовать ранее, нежели можно будет предположить существование причинно-следственной связи.

Подсчитаны и интерпретированы ли соответствующим образом значения р?

Одно из первых значений, которое студент, изучающий статистику, учится подсчитывать, — значение р; это вероятность того, что любой отдельный исход может возникать в силу случайности. Стандартная научная практика, которая в целом небесспорна, обычно принимает значение/? меньше чем 1 к 20 (выраженное какр<0,05 и эквивалент соотношению 20 к 1) как «статистически значимое», а значение/? меньше чем 1 к 100 (р<0,01) как «статистически высокозначимое».
Тогда по определению 1 случайная связь из 20 (это примерно около одной большой публикации исследования на выпуск журнала) окажется значимой, когда она не является таковой, и 1 к 100 окажется высокозначимым, когда этот вывод в действительности будет тем, что мои дети называют «обмишулиться». Следовательно, если вы должны анализировать многочисленные варианты исходов по вашему набору данных, вы должны так скорректировать р, чтобы попытаться учесть эту особенность (некоторые авторы рекомендуют метод Бонферонни)16,17.
Результат в статистически значимом диапазоне (р<0,05 или р<0,01 в зависимости от того, что вы выбрали в качестве критического уровня значимости) предполагает, что авторы должны отказаться от нулевой гипотезы (т.е. гипотезы отсутствия реального различия между двумя группами). Однако, как показано выше, значение р в незначимом диапазоне означает либо отсутствие различия между группами, либо слишком малое число пациентов с таким различием, если оно существует. Оно не подскажет вам, чему отдать предпочтение.
Значение р имеет дальнейшее ограничение. Г. Гайат(С Сиуай)икол-леги в 1-й статье своей серии «Основы статистики для клиницистов» по проверке гипотезы при помощи значений р делают вывод: «Зачем использовать одно критическое значение (для статистической значимости), когда выбор такой точки спорен? Зачем делать вопрос, эффективно ли лечение, дихотомичным (решение «да» или «нет»), когда правильнее наблюдать это как непрерывный континуум?».
Для этого нам нужны доверительные интервалы, которые рассматриваются ниже.

Врезка 5.2. Проверка выводов о причинности

• Есть ли доказательства связи, полученные в экспериментах на людях?
• Сильна ли связь (причины и следствия)?
• Согласуются ли между собой связи, обнаруженные в разных исследованиях?
• Наблюдается ли временная связь (т.е. предшествовала ли постулированная причина постулированному эффекту)?
• Имеется ли градиент доза—отклик (т.е. следует ли больший постулированный эффект за большей постулированной причиной)?
• Имеет ли причинно-следственная связь эпидемиологический смысл?
• Имеет ли связь биологический смысл?
• Специфична ли взаимосвязь?
• Аналогична ли связь ранее доказанной причинной связи?

Были ли подсчитаны доверительные интервалы, и отражают ли они выводы авторов?

Доверительный интервал, который хороший статистик может подсчитать на примере любого статистического критерия (/-тест, значение г, абсолютное уменьшение риска, объем наблюдений, необходимый для вывода, чувствительность, специфичность и другие ключевые черты диагностического теста), позволяет вам оценить как для «положительных» испытаний (тех, которые показывают статистически значимое различие между двумя исходами испытания), так и для «отрицательных» (тех, которые не показывают различия) сильна или слаба сила фактов и является ли исследование окончательным (т.е. делает очевидной потребность в дальнейших похожих исследованиях). Подсчет доверительных интервалов освещен с большой ясностью в книге Gardner и Altman «Статистика с доверием», их интерпретацию осуществили Guyatt и коллеги (2).
Если вы повторите одно и то же клиническое испытание сотни раз, вы не будете получать всегда точно такой же результат. Однако в среднем вы установите некий уровень различия (или отсутствия различия!) между двумя результатами испытания. В 90% испытаний различие между двумя исходами находилось бы в пределах определенных широких границ, а в 95% испытаний оно лежало бы между более широкими рамками.
Если, как обычно бывает, вы провели только одно испытание, то как вы узнаете, насколько близок ваш результат к «реальному» различию между двумя группами? Вы этого не знаете. Однако при подсчете 95% доверительного интервала вокруг вашего результата вы сможете сказать, что есть 95% уверенности, что «реальное» различие лежит между этими двумя границами. Сентенция, которую надо искать в работе, должна звучать приблизительно так: «В испытании лечения сердечной недостаточности 33% пациентов, рандомизированных на ингибиторы АСЕ, умерли, тогда как среди пациентов, рандомизированных на гидралазин и нитраты, умерли 38%. Точечная оценка различия между группами (наилучшая оценка пользы для жизни выживших от использования ингибитора АСЕ) равна 5%. 95% доверительный интервал этого различия имеет границы от -1,2 до +12 % ».
Результаты можно выразить в краткой форме: «Группа ингибитора АСЕ имела на 5% более высокую выживаемость (95% доверительный интервал от —1,2 до 12%)».
В этом отдельном примере 95% доверительный интервал покрывает нулевое различие, и если бы мы выражали результат дихотомически (т.е. «доказана» или «не доказана» гипотеза), мы бы классифицировали это как отрицательный исход («не доказана»). Пока же, как утвервдают Г. Гайат и коллеги, есть возможное реальное различие, и оно, вероятно, лежит ближе к 5%, чем к — 1,2% или к +12%. Более разумным выводом из этих результатов является то, что «все существующие исходы эквиваленты и если ингибитор АСЕ является допустимым выбором для пациентов с сердечной недостаточностью, то сила влияния этого препарата на исход невелика» (2).
Как обсуждается в разделе 8.3, чем более многочисленно испытание (или больше собранных результатов нескольких испытаний), тем уже доверительный интервал и с большей вероятностью его результат является окончательным.
В интерпретации «отрицательных испытаний» нужно знать, «какова вероятность, что большее испытание даст значимую пользу». Чтобы ответить на этот вопрос, посмотрите на верхнюю границу 95% доверительного интервала результата. Это только 1 шанс из 40 (т.е. 2,5% , тогда как другие крайние результаты, также 2,5%, будут лежать левее нижнего 95% доверительного интервала), что реальный результат будет меньше или больше значений, попавших в интервал. Теперь спросите себя, был бы этот уровень различия клинически значимым, и если это не так, вы можете классифицировать испытание не только как отрицательное, но и как окончательное. Если вместе с тем верхняя граница 95% доверительного интервала представляет собой клинически значимый уровень различия мелщу группами, испытание может быть отрицательным, но не является окончательным.
До недавнего времени использование доверительных интервалов было необычно в медицинских работах. В одном обзоре 100 статей из 3 ведущих журналов (The New England Journal of Medicine, Annals of Internal Medicine, and Canadian Medical Association Journal) только 43% авторов вообще приводили доверительные интервалы, а 66% давали только значение р. Эта доля теперь, вероятно, несколько выше, но, даже если это и так, многие авторы неправильно интерпретируют доверительные интервалы. Вы должны внимательно прочитать раздел статьи «Обсуждение», чтобы увидеть, сделали ли авторы вывод правильно, (а) подтвердило ли испытание гипотезу и до какой степени и (б) нужны ли какие-либо дальнейшие исследования.

Выражали ли авторы эффекты вмешательства в рамках вероятной пользы или вреда, который может ожидать конкретный пациент?

Легко сказать, что данное вмешательство приводит к «статистически значимому различию» в исходе, но если мне предложат принимать новое лекарство, я бы хотела знать, насколько лучше мои шансы (в рамках любого отдельного исхода), чем, если я бы его не принимала. Четыре правила арифметики (если вы умеете прибавлять, вычитать, умножать и делить, вы сможете следовать рекомендациям этого раздела) дадут вам возможность ответить на этот вопрос объективно и понятно и для нестатистика. Эти подсчеты — относительное уменьшение риска, абсолютное уменьшение риска, число пациентов для лечения и отношение шансов.
Позвольте мне рассказать про обзор, который провели Tom Fahey и его коллеги в 1995 г. Они написали 182 членам правления медицинских служб в Англии (все из них каким-либо образом были ответственны за принятие важных решений по здравоохранению) о 4 различных реабилитационных программах для жертв сердечного приступа. Они спросили, какую бы из программ их адресаты предпочли спонсировать:
• программа А уменьшала смертность на 20%;
• программа Б уменьшала абсолютное число смертей на 3%;
• программа В повышала выживание пациентов с 84 до 87%;
• программа Г подразумевала, что при лечении 31 человека у 1 из них смерть будет предотвращена.
Из 140 членов правления, которые откликнулись, только 3 заметили, что все 4 «программы» в действительности предполагали один и тот же набор результатов. Остальные 137 выбрали одну из программ, показав потребность в лучшем базовом образовании по эпидемиологии (а также и собственное незнание) для членов правления медицинских ведомств.
Продолжим с примером, который Fahey и коллеги воспроизвели из исследования Salim Yusuf и соавт20. Я выразил цифры как таблицу сопряженности 2x2, уточнив, какое лечение получали пациенты в рандомизированном испытании и были ли они живы или умерли через 10 лет.
Простая математика говорит вам, что пациенты при обычном медицинском лечении имеют шанс умереть в течение 10 лет, равный 404/1324 = 0,305, или 30,5%. Обозначим этот риск как*. Пациенты, случайно выбранные для шунтирования, имеют шанс умереть в течение 10 лет, равный 350/1325 = 0,264, или 26,4%. Обозначим этот риск как у.
Относительный риск (ОР) смерти, т.е. риск у пациентов с шунтированием по отношению к риску у пациентов контрольной группы, равен у/х, или 0,264/0,305=0,87 (87%).
Сокращение относительного риска (СОР), т.е. величина, на которую риск смерти сокращается при шунтировании, равна 100—87=(1— у/х)=\3%.
Сокращение абсолютного риска (САР), т.е. абсолютная величина, на которую шунтирование сокращает риск смерти в течение 10 лет, равна 30,5-26,4=4,1% (0,041).
Число больных, которых необходимо лечить определенным методом в течение определенного времени, чтобы достичь определенного эффекта или предотвратить неблагоприятный исход (ЧБНЛ), т.е. количеству пациентов, которым необходимо провести шунтирование, чтобы предотвратить в среднем 1 смерть за 10 лет, есть величина, обратная сокращению абсолютного риска (ЧБНЛ =1/САР), и равна 1/0,041 = 24.
Окончательный способ выражения эффекта лечения, который я хочу представить здесь, это отношение шансов (ОШ). Вернитесь к табл. 5.2 и вы увидите, что шансы умереть по сравнению с шансами выжить для пациентов в группе лечения равны 404/921 = 0,44, а для пациентов в группе шунтирования равны 350/974 = 0,36. Отношение этих шансов будет 0,36/0,44 = 0,82.
Для обсуждения того, какое из этих значений является самым полезным и в каких обстоятельствах, см. статью Jaenschke и коллег в серии «Основы статистики для клиницистов (3) или главу 7 (Выбор лучшей терапии) учебника клинической эпидемиологии Sackett и соавт21.

Резюме

Можно избежать серьезного заблуждения, не принимая на веру статистическую компетенцию (и/или интеллектуальную честность) авторов. Статистика может привести в замешательство, и понимание ее более тонких нюансов часто требует помощи эксперта. Однако я надеюсь, что эта глава показала вам, что статистика, используемая в большинстве медицинских работ, может оцениваться неэкспертом, использующим простой контрольный список вопросов. Кроме того, вы можете проверить работу, которую вы читаете (или пишете), на ошибки, используя врезка 5.1.

Что же такое регрессия?

Термин «регрессия» относится к математическому уравнению, которое позволяет одну переменную (зависимую переменную, ее также называют переменной отклика) предсказывать по значению другой (независимой переменной). Регрессия в этом случае подсказывает направление влияния, хотя, как рассмотрено в следующем разделе, она тоже не доказывает причинно-следственную связь. В случае множественной регрессии намного более сложное математическое уравнение (которое, спасибо ему, остается вычислительным секретом компьютера) позволяет переменную отклика предсказывать двумя независимыми переменными или более (их часто называют предикторами).
Самое простое уравнение регрессии, которое вы можете вспомнить из школьного курса, это у=а+Ьх, где у является зависимой переменной (измеряемой по вертикальной оси), х — независимой переменной (измеряемой по горизонтальной оси), а — пересечением (свободный член). Немногие биологические переменные можно предсказать таким простым уравнением. Масса тела группы людей, например, изменяется с ростом, но нелинейным образом. Я в 2 раза выше моего сына и в 3 раза тяжелее, но хотя я в 4 раза выше моего новорожденного племянника, я более чем в 7 раз тяжелее его. Масса тела в действительности более тесно изменяется с квадратом изменения, чем с самим ростом (так что квадратичная регрессия более вероятна, чем линейная).
Конечно, даже когда вы ввели достаточные данные роста и массы в компьютер, чтобы он подсчитал уравнение регрессии, которое лучше всего предсказывает массу тела человека из его роста, ваши предсказания были бы еще довольно плохи, так как масса тела и рост — это не то, что очень сильно коррелирует. Есть другие признаки, которые влияют на массу тела в дополнение к росту, и мы могли бы в соответствии с принципом множественной регрессии ввести данные о возрасте, поле, ежедневном потреблении веществ-энергоносителей и физической активности в компьютер и спросить его, какой вклад каждый из этих предикторов вносит в общее уравнение (или модель).
Элементарные принципы, описанные здесь, особенно пункты на предыдущей странице, должны помочь вам установить, правильно ли используются корреляция и регрессия в работе, которую вы читаете. Более подробное обсуждение предмета можно найти в учебнике Мартина Блэнда14 и в 4-й статье серии «Основы статистики для клиницистов».

Различает ли автор корреляцию и регрессию и был ли правильно подсчитан и интерпретирован коэффициент корреляции (значение r) ?

Для многих нестатистиков, термины «корреляция» и «регрессия» синонимичны и смутно связаны с образом графика рассеяния с точками, распределенными вдоль диагональной линии, проходящей через пересечение осей. Вы были бы правы, предположив, что если два признака не коррелируют, то нет смысла пытаться использовать регрессию. Однако регрессия и корреляция являются различными статистическими терминами, которые выполняют разные функции14.
Значение г (коэффициент линейной корреляции Пирсона) является одним из самых используемых статистических инструментов в этой книге. Строго говоря, значение г не является надежным, пока не соблюдены следующие требования:
• данные (или, точнее, значения в популяции, из которой взята выборка) должны быть нормально распределены;
• две переменные должны быть структурно независимыми (т.е. нельзя произвольно изменять значение как одной, так и другой переменной). Если они не являются независимыми, то следует использовать парный /-критерий или же другой парный тест;
• только одна пара измерений должна быть сделана у каждого субъекта, так как измерения, сделанные у последующих субъектов, должны быть статистически независимыми друг от друга, если мы хотим избежать сомнительных оценок интересующих нас параметров популяции14;
• каждое значение г должно сопровождаться значением достигнутого уровня значимости р, которое выражает, с какой вероятностью корреляция такой интенсивности возникала бы случайно, или доверительным интервалом для коэффициента корреляции, который выражает диапазон, в пределах которого с заданной доверительной вероятностью находится «истинное» значение коэффициента корреляции R в популяции. (Обратите внимание, что г представляет собой коэффициент корреляции выборки, a R — коэффициент корреляции во всей популяции.)
Запомните, что даже если значение г корректно вычислено по выборке данных, оно не говорит вам, является ли связь, даже сильная, причинно-следственной.

Анализировались ли «аномальные наблюдения» как обычно, так и с соответствующими статистическими коррективами?

Неожиданные результаты могут отражать повышенную чувствительность пациента (например, необычный метаболизм), ошибки в измерении (например, неисправное оборудование), ошибки в интерпретации (например, неправильное считывание показания измерительного прибора) или ошибки в подсчете (например, неправильно размещенная точка десятичной дроби). Только первый из этих случаев является «реальным» результатом и заслуживает включения в анализ. Возможно, хотя и с гораздо меньшей вероятностью, что результат, расположенный на много порядков вдали от других, является истинным. Несколько лет назад при подготовке проекта исследования я измеряла множество уровней различных гормонов примерно у 30 пациентов. Уровни гормона роста у одного пациента были в 100 раз выше, чем у других пациентов. Я предположила, что это была ошибка записи, поэтому сдвинула точку десятичной дроби на две цифры влево. Через несколько недель я встретила специалиста, который проводил анализ образцов, и он спросил меня: «Что случилось с тем парнем с акромегалией?».
Статистическая коррекция «аномальных выбросов» (например, модифицирование для учета их влияния в общем результате) является довольно утонченным статистическим маневром. Если вам это интересно, обратитесь к соответствующему разделу в книге Дугласа Альтмана.

Был ли использован двусторонний критерий, когда эффект вмешательства в принципе ожидался отрицательным?

Концепция двустороннего критерия (использующего два «хвоста» распределения) всегда заставляет меня думать о дьяволах или змеях, что, вероятно, отражает мое отношение к статистике. В действительности термин «хвост» относится к крайним значениям распределения — темные участки слева и справа. Предположим, что график представляет диастолическое артериальное давление группы людей, в которой случайно выбранные пациенты соблюдали диету с низким содержанием натрия. Если диета с низким содержанием натрия имеет значимое понижающее влияние на артериальное давление, то последующие измерения артериального давления у этих пациентов с большей вероятностью находились бы в пределах левого «хвоста» графика. Следовательно, мы должны анализировать данные с помощью таких статистических критериев, чтобы независимо обнаруживать необыкновенно низкий уровень в этих наблюдениях, которые могут возникнуть и случайно.
Однако, на каком основании мы можем предположить, что диета с низким содержанием натрия должна только снижать артериальное давление, но никогда не смогла бы его повысить? Если даже есть определенные физиологические причины, почему это произойдет в данном конкретном примере, нельзя предполагать, что вы действительно знаете направление эффекта, которое даст ваше вмешательство. Новое лекарство, призванное облегчить тошноту, в действительности способно обострить ее, а санитарно-просветительная листовка, предназначенная для Уменьшения тревоги, может ее повысить. Статистический анализ должен, вообще говоря, проверять гипотезы о том, что повышение либо снижение артериального давления в вашем наборе данных произошло случайно. На языке статистиков это означает, что вам нужен двусторонний критерий, пока вы не имеете весьма убедительных фактов, что различие идет только в одном направлении.