О проблемах медицинского тестирования и определения его эффективности.
Это пост отличается от всех предыдущих. Его содержание выходит за пределы собственно коронавирусной тематики, хотя и для неё это очень важно. Речь пойдёт о теоретической конструкции, понимание которой требует включения «режима строгого логического мышления». Для людей гуманитарного склада это может быть вне «зоны комфорта». Пробую в порядке эксперимента.
Термины специфичность и чувствительность звучат часто, особенно в медицинской речи. А сейчас они регулярно произносятся, даже на ток-шоу. Обычно, это заявления о том, что тест-система имеет чувствительность и специфичность близкие к 100%, а то и все 100%. Попутно нередко говорится, что тест-система имеет исключительно высокую чувствительность и способна обнаружить всего несколько вирусных частиц или же молекул геномной РНК. Вам не кажется это странным? Как один и то же параметр может измеряться в процентах и количеством частиц/молекул?
Дело в том, что есть две очень разные «среды обитания» для этих терминов и их смысл почти полностью меняется в зависимости от того, в какой из этих сред ими оперируют. Первая «среда обитания» для экспериментаторов, а вторая для клиницистов. Экспериментаторы и клиницисты как бы говорят на разных «языках». Так чувствительность на языке экспериментатора это минимальное количество искомого вещества, вплоть до единичных молекул, которое может обнаружить тот или иной аналитический метод. А под специфичностью экспериментатор понимает способность того или иного метода обнаруживать только единственное искомое вещество и не реагировать ни на что более.
У клинициста другой язык и другие приоритеты. Клиницисту важно, чтобы тест-система (или метод диагностики) надёжно распознавала что-то, что в конечном итоге полезно для диагностики болезни. Иными словами, если клиницист ищет болезнь, вирус, бактерию, поражение органа и т.д., то соответствующая тест-система должна давать положительный результат, когда искомое у человека есть, и отрицательный результат, когда этого нет. На языке клиницистов 100% чувствительность тест-системы на болезнь Х означает, что диагностический тест правильно идентифицирует всех, у кого есть болезнь Х. А 100% специфичность на языке клиницистов это способность этой же тест-системы правильно идентифицировать всех, у кого болезни X нет.
Чувствительность и специфичность в понимании экспериментаторов называются аналитическими, а эти же термины в понимании клиницистов должны дополняться уточнением - диагностические. К сожалению, в таком корректном виде термины чувствительность и специфичность используются редко. В этом одна из причин путаницы понятий. Но главная причина в головах. Просто очень часто не «врубаются», что аналитическая и диагностическая чувствительность/специфичность это «две большие разницы», как говорят в Одессе. Для начала, можно пользоваться простым правилом - если чувствительность и специфичность выражены в процентах, речь идет о диагностическом контексте этих понятий, а если упоминаются весовые единицы, концентрации, количество копий и т.д., то контекст аналитический.
Казалось бы всё это просто, точно «не квантовая механика», тем не менее, даже в профессиональной среде путаница этих понятий весьма распространена. Экспериментаторам трудно «влезть в кожу» клиницистов и наоборот. Это порождает непонимание и ошибочные трактовки. Одно из важнейших отличий между аналитической и диагностической чувствительностью/специфичностью состоит в том, что в аналитическом понимании это атрибуты метода, а в диагностическом нет. Иными словами при правильном исполнении теста аналитические чувствительность и специфичность воспроизводимы (в пределах экспериментальной ошибки) и являются характеристиками, присущими именно методу. А диагностическая чувствительность и специфичность, хотя и зависят от метода, но, помимо этого, они зависят и от стадии заболевания у исследуемого и от того какой образец у него взят. Допустим у вас есть ПЦР тест-система, способная обнаружить 1 молекулу вирусной РНК. Иными словами аналитическая чувствительность этой тест-системы 1 копия вирусного генома и это характеристика тест-системы. Задача состоит в том, чтобы с помощью этой тест-системы установить заражен ли человек вирусом или нет. Предположим, что вирус у исследуемого больного есть в легких, а в носоглотке его уже нет. При этом образец для исследования взят из носоглотки. Тогда ПЦР совершенно правильно (с аналитической точки зрения) даст отрицательный результат. Но с точки зрения клинициста этот результат неправильный. Он «ложно-отрицательный» - ведь больной в действительности инфицирован вирусом. Вы скажете откуда клиницист знает, что на самом деле результат должен быть положительным? В разных ситуациях ложно-отрицательный результат выявляется по разному. Не буду в это погружаться, чтобы не уходить от сути. Отмечу лишь, что очень высокая аналитическая чувствительность тест-системы, часто (но не всегда) клиницисту «до лампочки». В данном примере она никак не способствует получению истинного результата.
Теперь ещё один очень важный момент. Люди непосвященные, как правило, по умолчанию, полагают, что медицинский тест, особенно если он выполнен на «высокотехнологичном» оборудовании, даёт только два варианта ответа – либо положительный (болезнь, не норма), либо отрицательный (здоровье, норма). Но это не так. Все методы диагностики с большей или меньшей частотой дают «неправильные результаты». Таким образом, у любого диагностического теста есть 4 возможных результата:
1. Истинно-положительный
2. Истинно-отрицательный
3. Ложно-положительный
4. Ложно-отрицательный
Но как различить какой результат истинный, а какой ложный? Иногда, особенно в клинической практике, это очень сложно. Но давайте не лезть в дебри и рассмотрим простой пример, как определяется диагностическая чувствительность и специфичность при разработке нового метода диагностики. Для этого необходимы заведомо положительные и отрицательные контрольные образцы. Эти образцы тестируют с помощью нового метода. Предположим, что из 100 положительных образцов новый метод дал положительный результат в 99 случаях, а один положительный образец он не обнаружил (т.е. в этом случае результат был отрицательным). Это означает, что диагностическая чувствительность нового метода равна 99%, а неправильный результат «ложно-отрицательный». Сходным образом новый метод правильно идентифицировал 98 из 100 отрицательных образцов, а два определил как положительные. Это означает, что диагностическая специфичность нового метода равна 98%, а неправильные результаты «ложно-положительные».
Замечаете «провал» в этой стройной логической конструкции? Резонен вопрос – на основании чего контрольные образцы являются «заведомо» положительными или отрицательными. Для ответа на этот вопрос необходим «золотой стандарт» - эталон, по отношению к которому определяется истинность положительного или отрицательного статуса контрольных образцов. Без чёткого определения «золотого стандарта» понятия диагностической чувствительности и специфичности лишены смысла. Золотой стандарт не есть нечто абсолютное. Сегодня он один, завтра может появиться другой. Но всегда, когда говорят о диагностической чувствительности и специфичности какого либо метода, должно быть четко оговорено, по отношению к какому «золотому стандарту» они определены.
На сегодня, пожалуй, хватит. Не уверен, что многим погружение в теорию диагностики будет интересно. Но поверьте на слово, если вы разберетесь в этой довольно запутанной системе понятий (а там есть кое-что ещё очень важное), то на многое, касающееся диагностики вообще, вы станете смотреть другими глазами. Но об этом в другой раз, возможно...
https://prof-afv.livejournal.com/9306.html - цинк