Валидация и верификация метода или аналитической системы как часть процесса планирования качества системы комплексного управления качеством медицинских лабораторий
После выбора метода или аналитической системы (АС) следующим этапом в рамках процесса планирования аналитического качества (QP) и на пути его создания в цикле комплексного управления качеством (ТQM) является их валидация или верификация (рис. 1).
Для большинства специалистов стран СНГ понятия валидация и верификация метода являются новыми. В связи с этим дадим подробную характеристику этим терминам.
Валидация и верификация метода: определения терминов и цели
Согласно документу ISO 15189 Медицинские лаборатории - Требования к качеству и компетенции (ISO 15189 Medical laboratories - Requirements for quality and competence) [1], валидация - подтверждение путем представления объективных доказательств того, что требования для специфического использования или применения были выполнены. Другими словами, на практике валидация метода предусматривает выполнение в медицинской лаборатории комплекса мероприятий по оценке аналитической эффективности метода и сравнения ее с целями аналитического качества. С другой стороны, согласно этому же документу верификация - это подтверждение путем представления объективных доказательств того, что специфические требования были выполнены. На практике это означает выполнение в медицинской лаборатории мероприятий по подтверждению спецификаций производителя метода по аналитической эффективности метода.
Как видим, термины валидация и верификация подразумевают выполнение в лаборатории различных мероприятий. Основа различий состоит в том, что мероприятия по валидации метода предусматривают работу по оценке его аналитической эффективности в лаборатории и определении ее приемлемости путем сравнения с целями качества, в то время как мероприятия по верификации метода предусматривают работу по доказательству его аналитической эффективности, установленную и заявленную производителем. В том случае, если эта эффективность подтвердится (верифицируется), лаборатория может использовать данные производителя для планирования процедуры статистического контроля качества (СКК). На рис. 2 представлен обобщенный процесс верификации/валидации метода или AC в медицинской лаборатории.
Все мероприятия по валидации или верификации метода несут в себе тайный смысл, который заключается в определении/доказательстве величин его ошибок и сравнении их с целевыми ошибками требований к качеству. Действительно, аналитическая эффективность метода определяется величиной его ошибок, а приемлемость для клиники определяется на основании результата сравнения этих ошибок с теми целевыми, которые допустимы для клиники. Тогда, для того чтобы метод был приемлем для клиники, величины наблюдаемых в нем ошибок должны быть небольшими относительно целевых ошибок, содержащихся в требованиях к качеству, и наоборот, если ошибки метода будут велики относительно целевых ошибок, то тогда метод не будет приемлем для клиники. Фокусирование внимания на аналитических ошибках метода и сравнении их с целевыми ошибками требований к качеству является краеугольным камнем всех мероприятий процесса его верификации или валидации. Таким образом, цель верификации/валидации метода или АС заключается в определении (или доказательстве) величин ошибок метода/АС, сравнении этих ошибок с ошибками целей качества и на основании этого сравнения в определении их приемлемости для клиники. Приемлемость для клиники служит гарантией минимальной вероятности помех со стороны ошибок верифицируемого или валидируемого метода на клиническую интерпретацию результатов тестирования. Принимая во внимание важность оценки аналитических ошибок в процессе проведения верификации/валидации метода или АС, остановимся на основных их типах.
Аналитические ошибки и их типы
Выделяют два основных типа аналитических ошибок: случайная ошибка (Random Error - RE) и систематическая ошибка (Systematic Error - SE). Систематическая ошибка состоит из константной (Constant Systematic Error) и пропорциональной (Proportional Systematic Error) ошибок. Кроме того, на основании эффектов RE и SE определяют общую ошибку (Total Error - TE).
Случайную аналитическую ошибку (RE) (рис. 3) можно определить как результат измерения (xi) минус среднее значение, полученное в результате бесконечного количества измерений того же самого мезюранда (x). Мезюранд - это величина, которую предполагают измерить (VIM) [8] или, другими словами, любой аналит, который может быть измерен в медицинской лаборатории. Математически RE можно выразить как: ΔRE = xi - x. Направление изменения и величину ΔRE невозможно предсказать, а ее значение (по модулю) всегда больше нуля (ΔRE >0). Величины ΔRE отдельных измерений формируют величину непрецизионности повторных измерений. Сама же величина непрецизионности измерений определяется дисперсией результатов отдельных измерений вокруг среднего значения мезюранда (x). Чем выше величина ΔRE отдельных измерений, тем больше величина дисперсии их результатов и, следовательно, тем больше величина непрецизионности всех измерений. В принципе, величину непрецизионности измерений аналита можно рассматривать как «среднюю» величину ΔRE его отдельных измерений. Как правило, в медицинской лаборатории величину непрецизионности и, соответственно, «среднюю» ΔRE отдельных измерений определяют путем расчета величины стандартного отклонения (Standard Deviation - SD) результатов повторных измерений, которая равна корню квадратному из величины дисперсии. Часто величина SD возрастает по мере увеличения концентрации аналита. В связи с этим на практике вместе с величиной SD обычно рассчитывают величину коэффициента вариации (Coefficient of Variation - CV), тем самым «привязывая» величину SD к величине среднего значения.
Систематическую аналитическую ошибку (SE) или аналитическое смещение (Bias) определяют как разницу между средним значением мезюранда (x), полученным в результате его бесконечного количества измерений, выполненных в условиях повторяемости, и «истинным» значением мезюранда (μ). Математически SE можно выразить как: ΔSE = x - μ.
В отличие от случайной ошибки систематическая ошибка всегда имеет одно направление, которое можно предсказать (рис. 4), и ее величина может равняться нулю (ΔSE≥0). Следовательно, SE является причиной завышения либо занижения результатов тестирования. Как правило, в медицинской лаборатории величину SE определяют либо на основании результатов ВОК, либо на основании сравнительного анализа методов или АС, используя для этого статистику линейной регрессии либо статистику парного t-теста.
Константная систематическая ошибка (Constant Systematic Error) обусловлена влиянием на концентрацию исследуемого аналита интерферентов (см. далее), ее величина не меняется на всем протяжении рабочего диапазона метода.
Пропорциональная систематическая ошибка (Proportional Systematic Error) обусловлена влиянием на концентрацию исследуемого аналита матрикса пробы, ее величина возрастает по мере возрастания концентрации исследуемого аналита (рис. 5).
Общая ошибка определения аналита (Total Error - TE) определяется чистым или комбинированным эффектом SE и RE на результат измерения аналита. Математически TE можно выразить так: TE = ΔSE + ΔRE. Так как величина ΔRE всегда больше нуля, то, следовательно, и величина TE также будет всегда больше нуля (TE >0). В связи с этим величина ТЕ отдельного результата измерения аналита не должна превышать установленной ее величины. Эта установленная величина ТЕ называется «допустимая ошибка определения аналита» («allowable total analytical error» - aTE). Математически TEa можно выразить так: TEa = ΔSE + 1,65×ΔRE, где 1,65 - величина Z-значения, необходимого для формирования одностороннего 95% доверительного интервала (ДИ) для величины ΔRE (рис. 6).
После описания типов аналитических ошибок остановимся на механизмах или экспериментах, при помощи которых можно определить величины этих ошибок.
Верификационные эксперименты по подтверждению величин аналитических ошибок
Смысл верификационных экспериментов заключается в подтверждении спецификаций производителя по прецизионности (случайной ошибке) и правильности (систематической ошибке) метода или АС, т.е. их аналитической эффективности. Методология проведения этих экспериментов прекрасно изложена в документе Института клинических лабораторных стандартов (Clinical and Laboratory Standards Institute) EP 15-А3 [2]. Следует отметить, что документ предлагает проводить верификацию систематической ошибки метода на основании оценки величины его правильности (trueness), нового термина, рекомендуемого документом ISO 15189 (cм. далее).
Валидационные эксперименты по определению величин аналитических ошибок
Как продемонстрировано в табл. 1, для определения величин различных типов аналитических ошибок существуют различные валидационные эксперименты. В первом столбце таблицы представлены типы ошибок. Второй столбец таблицы назван «предварительные», так как указанные в нем валидационные эксперименты легче выполнять и их выполнение занимает меньше времени и усилий, чем «финальные» эксперименты. Финальные эксперименты требовательней, их выполняют только тогда, когда результаты предварительных экспериментов продемонстрируют приемлемую аналитическую эффективность метода. В то же время «плохие» результаты предварительных экспериментов являются объективным основанием для прекращения процесса валидации метода и его отклонения.
Репликационные эксперименты дают информацию о величине случайной ошибки метода. Их выполняют путем повторного определения концентрации аналита(ов) одного и того же образца в течение определенного периода времени, как правило, в течение аналитической серии, рабочего дня или рабочего месяца. Цель предварительного репликационного эксперимента заключается в определении величины внутрисерийной случайной ошибки путем расчета величины внутрисерийной непрецизионности. Как правило, его выполняют в течение одного рабочего дня. Цель же финального репликационного эксперимента состоит в определении величины общей случайной ошибки, путем расчета величины общей (промежуточной) непрецизионности, которая включает в себя ее внутрисерийный и межсерийный компоненты. Как правило, его выполняют в течение двадцати рабочих дней.
Эксперимент по определению интерференции дает информацию о величине константной систематической ошибки, возникающей вследствие недостаточной аналитической специфичности метода, а также о вызывающих ее причинах, т.е. интерферентах. В процессе постановки эксперимента один экспериментальный образец готовят при помощи добавления подозреваемого в интерференции вещества (билирубин, липиды, гемоглобин) в пробу, содержащую аналит. Вторую аликвоту, оригинальную пробу, разводят в том же соотношении диюлентом, после чего анализируют обе пробы при помощи тестируемого метода и определяют разницу в полученных результатах.
Эксперимент на открытие (Recovery experiment) дает информацию о величине пропорциональной систематической ошибки, возникающей вследствие конкурентной реакции элементов матрикса пробы с аналитом. Тестируемую пробу готовят при помощи добавления стандартного раствора тестируемого аналита к аликвоте пробы пациента. Базовую пробу готовят путем добавления эквивалентного количества диюлента, используемого для приготовления стандартного раствора аналита, во вторую аликвоту того же самого образца пациента. Затем обе пробы анализируют при помощи тестируемого метода и сравнивают концентрации открытого аналита в тестируемой пробе с его концентрацией в базовой пробе.
Эксперимент по сравнительному анализу методов дает информацию о средней величине систематической ошибки, наблюдаемой при исследовании проб пациентов. Кроме того, при помощи этого метода можно определить природу этой ошибки, т.е. среднюю величину константного или пропорционального ее компонентов. В ходе проведения эксперимента собирают серию проб пациентов и анализируют их при помощи тестируемого метода и метода сравнения, после чего сравнивают полученные результаты с целью определения различий между ними и, следовательно, между методами или АС. Величина этих различий определяет величину систематической ошибки между ними.
Подробную методологию выполнения валидационных экспериментов можно найти в соответствующих документах Института клинических лабораторных стандартов (Clinical and Laboratory Standards Institute) [3-5].
Текущие и будущие тенденции: неопределенность или общая ошибка?
Вследствие усилий по внедрению международной стандартизации в практику медицинских лабораторий изменяются традиционные термины и концепции. В своем документе 15189 - Медицинские лаборатории - Частные требования к качеству и компетентности (15189 - Medical Laboratories - Particular requirements for quality and competence) [1] Международная организация по стандартизации (International Standards Organization - ISO) дает рекомендации по организации работы медицинских лабораторий. В этом документе в разделе 5.5.1.3. Валидация аналитических процедур (Validation of examination procedures) дается перечень аналитических характеристик метода или АС, валидацию которых должна выполнить медицинская лаборатория.
В этом списке есть новые термины - «правильность» (trueness) и «неопределенность» (uncertainty). В разделе документа 5.3.1.4 Калибровка оборудования и метрологическая прослеживаемость (Equipment calibration and metrological traceability) есть новый термин «метрологическая прослеживаемость» (metrological traceability). Все эти термины ранее использовались только в калибровочных лабораториях и, следовательно, в соответствующем документе ISO приводилось их разъяснение (Общие требования к компетенции испытательных и калибровочных лабораторий - ISO 17025 General Requirements for the Competence of Testing and Calibration Laboratories).
С разработкой документа ISO 15189 концепции и терминология, которые применялись для калибровочных лабораторий, т.е. метрологических лабораторий, стали применяться и для медицинских лабораторий. Иными словами, документ ISO 15189 вводит медицинские лаборатории в мир метрологии, где заказчикам (врачам, пациентам) предлагается продукт (результат теста) с приписанными целевыми значениями вместе с неопределенностью («сомнением») в отношении этого целевого значения. Действительно, сегодня медицинские лаборатории все больше и больше начинают работать в координатах правильности (trueness) и неопределенности измерений (measurement uncertainty). Это подтверждают даже названия некоторых, относительно недавно разработанных документов CLSI [2, 6, 7], а также введенная в 2007 г. Федеральным медицинским советом (RilliBÄK) новая метрика оценки аналитического качества (RMSD) для немецких лабораторий (см. далее). В связи с этим попробуем описать концепцию неопределенности и сравнить ее с концепцией общей ошибки.
ISO, VIM и GUM: основные метрологические термины и их определение
Начнем с определений новых терминов. Итак, в соответствии с Международным словарем основных и общих терминов в метрологии (International Vocabulary of Basic and General Terms in Metrology - VIM) [8] и Руководством по выражению неопределенности измерения (Guide to the expression of Uncertainty in Measurement - GUM) [9]:
•Правильность (Trueness) измерений - степень близости между средним значением, полученным на основании большой серии измерений, и истинным значением.
•Точность (Accuracy) измерений - степень близости между результатом измерения мезюранда и его истинным значением.
•Неопределенность измерения (Uncertainty of measurement -UM) - параметр, ассоциированный с результатом измерения, характеризующий дисперсию величин, которую можно было бы обоснованно приписывать к мезюранду.
•Стандартная неопределенность (Standard uncertainty -SU) - неопределенность результатов измерения, выраженная в виде стандартного отклонения.
•Комбинированная стандартная неопределенность (Combined standard uncertainty - CSU) - стандартная неопределенность результата измерения, используется тогда, когда этот результат получен на основании значений ряда других величин и равна положительному квадратному корню суммы членов, которые представляют собой дисперсии или ковариации этих других величин, взвешенных в соответствии с тем, как результат измерения изменяется с изменением этих величин.
•Расширенная неопределенность (Expanded Combined Uncertainty - ECU) - величина, определяющая интервал вокруг ожидаемого результата измерения, охватывает большую часть (фракцию) распределения значений величины, которые могли бы быть обоснованно приписаны к мезюранду.
•Метрологическая прослеживаемость (Metrological traceability) - свойство результатов измерения соотноситься с результатом установленного метрологического эталона через непрерывную цепь калибровок измерительных систем или сравнений, в каждом случае с установленной неопределенностью измерения.
•Цепочка метрологической прослеживаемости (metrological traceability chain) - цепочка различных измерительных систем, связанных с процедурами измерения и стандартами, от измеренных результатов к установленному метрологическому эталону.
•Цепочка метрологической прослеживаемости определяется иерархией калибровок от измеренного результата к установленному метрологическому эталону.
ISO, VIM и GUM: объяснение терминов и концепций
Фундаментальный принцип заключается в том, что «правильность» можно определить только через «прослеживаемость», каркасом которой являются референтные методы и референтные/калибровочные материалы. При помощи цепочки метрологической прослеживаемости результат измерения, выполненный рутинным лабораторным методом, связывается с его истинным значением (рис. 7). Таким образом, цепочка метрологической прослеживаемости обеспечивает стандартизацию результатов исследования аналита, выполненных при помощи разных методов или АС. Каждая процедура приписывания значений в цепочке метрологической прослеживаемости ассоциирована с неопределенностью измерения, при этом величина комбинированной и расширенной неопределенности возрастает.
Как показано на рис. 8, используя такую систему референтных методов и материалов, можно определить прослеживаемую величину (traceable value).
В настоящее время термин «прослеживаемая величина» (traceable value) заменяет более ранний термин «истинная величина» (true value). Ее величина не может быть точно известна, и ее правильность должна описываться в терминах «неопределенности измерения».
Ранее концепция точности была связана только с систематической ошибкой. Сейчас, в новом мире ISO и GUM, точность отражает ошибку отдельного результата измерения мезюранда (аналита) и включает в себя как систематический, так и случайный ее компоненты, а с систематической ошибкой ассоциирован термин «правильность».
На рис. 9 и 11 продемонстрирована концепция и терминология, связанная с неопределенностью измерения (UM). Оценку величины неопределенности какого-либо одного компонента измерительного процесса выполняют при помощи определения его стандартного отклонения (стандартная неопределенность). Оценку нескольких компонентов процесса измерения определяют посредством суммирования их дисперсий и извлечения квадратного корня из этой объединенной (комбинированной) дисперсии (комбинированная стандартная неопределенность). Эти компоненты дисперсии можно оценить экспериментально (так называемая неопределенность типа А) или теоретически (так называемая неопределенность типа В). Наконец, неопределенность можно выразить в виде доверительного интервала с установленным фактором покрытия - расширенная неопределенность или расширенная комбинированная неопределенность с фактором покрытия 2 (95% ДИ) либо 3 (99% ДИ). Именно величина расширенной неопределенности измерения приписывается к мезюранду.
Концепция неопределенности измерения сфокусирована на определении дисперсии результата измерения концентрации аналита, которая могла бы быть получена в ситуации, когда проводили бы его многократные измерения. Для этого используют доступные данные по дисперсии различных источников неопределенности измерения, связанных с данной измерительной системой для определения интервала значений, в пределах которого с установленным уровнем достоверности будет находиться его прослеживаемое значение. Например, если результат измерения концентрации глюкозы в пробе сыворотки крови будет равен 5,5 ммоль/л, соответствующая информация по ECU может обеспечить 95% достоверность в том, что прослеживаемое значение концентрации глюкозы в этой пробе будет находиться в интервале от 5,3 до 5,7 ммоль/л.
Обобщая, UM не оценивает ошибку, а обеспечивает с установленным уровнем достоверности интервал, где будет находиться прослеживаемое значение концентрации исследуемого аналита. Таким образом, UM - это количественный показатель уровня доверия лаборатории относительно качества результата. Иными словами, UM представляет собой существенный параметр достоверности результатов изменения концентрации аналита. Основой количественной оценки UM является SD. И еще: UM является свойством результата измерения, но не процедуры измерения, при помощи которой он был получен.
Теоретически, в связи с тем, что при расчете UM работает метрологическая прослеживаемость, величина аналитического смещения должна быть элиминирована, например при помощи повторной калибровки. Тем не менее на практике это не всегда имеет место. Тогда возникает вопрос: как при расчете UM выполнить коррекцию аналитического смещения? Ответ в том, что подход UM допускает определение неопределенности величины аналитического смещения как комбинации неопределенности, приписанной самому референтному значению, и стандартной ошибки среднего значения референтного материала, полученной на основании повторных измерений этого референтного материала в лаборатории при помощи данной процедуры измерения. В связи с этим величина неопределенности смещения выражается в виде SD. На первый взгляд это непонятно, поэтому приведем практический пример. Допустим, производитель тест-системы ассигновал величину своего калибратора, используя для этого сертифицированный вторичный (матрикс-соответствующий) референтный материал (CRM), который является метрологически прослеживаемым до единиц SI (моль), и предоставил свою спецификацию, в которой указал, что калибратор коммутабелен с СRM. Медицинская лаборатория купила CRM и выполнила в нем десять репликативных измерений концентрации аналита и получила следующие данные (табл. 2).
Определение неопределенности смещения (U
1) сначала рассчитывают неопределенность среднего значения CRM, полученное в лаборатории, которая равна величине стандартной ошибки среднего: UMV = 0,08/√10 = 0,025 ммоль/л;
2) после этого рассчитывают величину неопределенности смещения: U
Определение комбинированной стандартной неопределенности измерения (CSU
- CSU
- CSU
Определение расширенной комбинированной неопределенности измерения (ECU
- ECU
для первого уровня КМ;
- ECU
для второго уровня КМ.
Например, если результат измерения концентрации аналита составит 5 ммоль/л, т.е. его концентрация будет близка к области концентраций первого уровня контрольного материала, можно с 95% вероятностью сделать заключение, что прослеживаемое значение концентрации аналита в этой пробе будет находиться в интервале от 4,8 до 5,2 ммоль/л.
Подход, описанный выше, называется «движение сверху вниз». В соответствии с ним известная величина смещения должна быть элиминирована или минимизирована, а ее остаточную величину, оцененную в терминах неопределенности величины смещения, используют для повторной калибровки или коррекции результатов. Часто величина неопределенности смещения минимальна по сравнению с величиной непрецизионности, поэтому игнорируется. В связи с этим общая (промежуточная) величина непрецизионности, полученная в результате проведения контроля качества (КК), отражает общую неопределенность результатов измерения. Этот подход можно использовать в медицинских лабораториях, но он в силу объективных причин сопряжен с определенными практическими трудностями (см. далее).
Подход «движение снизу вверх» основан на оценке неопределенностей, ассоциированных с отдельными компонентами измерительной системы, и комбинировании их в модель, отражающую их воздействие на всю систему измерения. Этот подход лучше всего подходит для нужд производителей изделий для IVD, а именно для валидации новой процедуры измерения или поиска технических этапов, в которых можно снизить величину UN. Подходу «движение снизу вверх» посвящен недавно вышедший документ CLSI [6].
RMSD - новая метрика оценки внутрилабораторного качества от RilliBÄK
В 2007 г. RilliBÄK [Руководство («Rili») Федерального медицинского совета Германии (BÄK)] представил новую метрику оценки внутрилабораторного качества для немецких лабораторий: корень среднеквадратичного отклонения (Root Mean Square Deviation), которая выражается в виде процента к целевому значению (%RMSD). По сути эта метрика выражения общей ошибки определения аналита способом, схожим с тем, который рекомендован ISO для расчета величины неопределенности:
где: SD
Как видно из формулы определения RMSD, в качестве «опорной» величины для расчета внутрилабораторного аналитического смещения RiliBÄK рекомендует использовать целевое значение контрольного материала, приписанное производителем (Target Value). Это говорит о том, что RiliBÄK предъявляет достаточно жесткие требования к производителям контрольных и калибровочных материалов в плане обеспечения метрологической прослеживаемости их продукции. Коррекцию аналитического смещения RiliBÄK рекомендует проводить, возводя его значение в квадрат, после чего суммируя его с величиной дисперсии. Методически это не совсем правильно, поскольку смещение не является стандартным отклонением, поэтому, возведя его в квадрат, мы не получим дисперсию. Более правильно использовать подход со стандартной ошибкой среднего и неопределенностью сертифицированного референтного материала (СRM), определяя неопределенность аналитического смещения (см. выше), но для медицинских лабораторий CRM не всегда может быть доступен.
Как указывалось, внутрилабораторная оценка качества медицинских лабораторий Германии основывается на величинах RMSD, которое либо указано в соответствующем списке аналитов, либо его нужно определить самостоятельно в лаборатории, используя фактор покрытия 3 (спецификация, наблюдаемая в лаборатории, - Lab Observed Specification). Этот расчет лаборатория должна проводить на основании данных одного внутрилабораторного контрольного цикла, который продолжается как минимум до выполнения 15 контрольных измерений, в целом около месяца, но не более 3 мес.
Как только немецкая лаборатория определяет цель в виде %RMSD, она начинает проводить внутрилабораторную оценку качества, создавая контрольные карты на основании величины предельной ошибки (Error Margin, ЦЗ ± Целевой %RMSD). Эта оценка проводится в течение двух временных периодов. Во-первых, в лаборатории должна выполняться ежедневная оценка контрольных результатов, значения которых не должны превышать величину соответствующей предельной ошибки. Во-вторых, лаборатории следует выполнить ретроспективную оценку результатов контрольного цикла. Для этого, для каждого уровня контрольного материала, на основании данных ежедневного контроля качества, полученных на протяжении всего контрольного цикла, рассчитывают среднее значение, стандартное отклонение (SD), аналитическое смещение (bias) и %RMSD. Рассчитанные %RMSD не должны превышать соответствующие целевые величины %RMSD. Если результаты ежедневного контроля качества и особенно ретроспективной оценки его результатов будут превышать целевые %RMSD, то тогда немецкая лаборатория должна выполнить коррект