Доверительный интервал, который хороший статистик может подсчитать на примере любого статистического критерия (/-тест, значение г, абсолютное уменьшение риска, объем наблюдений, необходимый для вывода, чувствительность, специфичность и другие ключевые черты диагностического теста), позволяет вам оценить как для «положительных» испытаний (тех, которые показывают статистически значимое различие между двумя исходами испытания), так и для «отрицательных» (тех, которые не показывают различия) сильна или слаба сила фактов и является ли исследование окончательным (т.е. делает очевидной потребность в дальнейших похожих исследованиях). Подсчет доверительных интервалов освещен с большой ясностью в книге Gardner и Altman «Статистика с доверием», их интерпретацию осуществили Guyatt и коллеги (2).
Если вы повторите одно и то же клиническое испытание сотни раз, вы не будете получать всегда точно такой же результат. Однако в среднем вы установите некий уровень различия (или отсутствия различия!) между двумя результатами испытания. В 90% испытаний различие между двумя исходами находилось бы в пределах определенных широких границ, а в 95% испытаний оно лежало бы между более широкими рамками.
Если, как обычно бывает, вы провели только одно испытание, то как вы узнаете, насколько близок ваш результат к «реальному» различию между двумя группами? Вы этого не знаете. Однако при подсчете 95% доверительного интервала вокруг вашего результата вы сможете сказать, что есть 95% уверенности, что «реальное» различие лежит между этими двумя границами. Сентенция, которую надо искать в работе, должна звучать приблизительно так: «В испытании лечения сердечной недостаточности 33% пациентов, рандомизированных на ингибиторы АСЕ, умерли, тогда как среди пациентов, рандомизированных на гидралазин и нитраты, умерли 38%. Точечная оценка различия между группами (наилучшая оценка пользы для жизни выживших от использования ингибитора АСЕ) равна 5%. 95% доверительный интервал этого различия имеет границы от -1,2 до +12 % ».
Результаты можно выразить в краткой форме: «Группа ингибитора АСЕ имела на 5% более высокую выживаемость (95% доверительный интервал от —1,2 до 12%)».
В этом отдельном примере 95% доверительный интервал покрывает нулевое различие, и если бы мы выражали результат дихотомически (т.е. «доказана» или «не доказана» гипотеза), мы бы классифицировали это как отрицательный исход («не доказана»). Пока же, как утвервдают Г. Гайат и коллеги, есть возможное реальное различие, и оно, вероятно, лежит ближе к 5%, чем к — 1,2% или к +12%. Более разумным выводом из этих результатов является то, что «все существующие исходы эквиваленты и если ингибитор АСЕ является допустимым выбором для пациентов с сердечной недостаточностью, то сила влияния этого препарата на исход невелика» (2).
Как обсуждается в разделе 8.3, чем более многочисленно испытание (или больше собранных результатов нескольких испытаний), тем уже доверительный интервал и с большей вероятностью его результат является окончательным.
В интерпретации «отрицательных испытаний» нужно знать, «какова вероятность, что большее испытание даст значимую пользу». Чтобы ответить на этот вопрос, посмотрите на верхнюю границу 95% доверительного интервала результата. Это только 1 шанс из 40 (т.е. 2,5% , тогда как другие крайние результаты, также 2,5%, будут лежать левее нижнего 95% доверительного интервала), что реальный результат будет меньше или больше значений, попавших в интервал. Теперь спросите себя, был бы этот уровень различия клинически значимым, и если это не так, вы можете классифицировать испытание не только как отрицательное, но и как окончательное. Если вместе с тем верхняя граница 95% доверительного интервала представляет собой клинически значимый уровень различия мелщу группами, испытание может быть отрицательным, но не является окончательным.
До недавнего времени использование доверительных интервалов было необычно в медицинских работах. В одном обзоре 100 статей из 3 ведущих журналов (The New England Journal of Medicine, Annals of Internal Medicine, and Canadian Medical Association Journal) только 43% авторов вообще приводили доверительные интервалы, а 66% давали только значение р. Эта доля теперь, вероятно, несколько выше, но, даже если это и так, многие авторы неправильно интерпретируют доверительные интервалы. Вы должны внимательно прочитать раздел статьи «Обсуждение», чтобы увидеть, сделали ли авторы вывод правильно, (а) подтвердило ли испытание гипотезу и до какой степени и (б) нужны ли какие-либо дальнейшие исследования.