Translated, with permission of the American College of Physicians — American Society of Internal Medicine, from: Joseph Lau, John P.A. Ioannidis, and Christopher H. Schmid. Quantitative synthesis in systematic reviews. Ann Intern Med 1997;127:820—6.

В большинстве систематических обзоров используют статистичес кие методы обобщения данных — мета-анализ. При решении вопроса о проведении мета-анализа следует учитывать не только возможности статистических методов, но и клинический опыт, да и просто здравый смысл. Объединять можно как непрерывные, так и дихотомические данные. В большинстве мета-анализов обобщаются результаты рандомизированных испытаний, хотя статистические методы объединения можно применять и для данных, получаемых в ходе исследований другого типа (например, при оценке информативности методов диагностики или обсервацион ных исследованиях). Цель мета-анализа — выявление, изучение и объяснение различий (неоднородности, или гетерогенности) в результатах исследований, а также более точная оценка изучаемого эффекта. При использовании модели постоянных эффектов предполагается, что изучаемое вмешательство во всех исследованиях оказывает один и тот же эффект, а выявляемые различия обусловлены только дисперсией внутри исследования. Модель случайных эффектов предполагает, что влияние изучаемого вмешательства в разных исследованиях может быть разным. Эта модель учитывает дисперсию не только внутри одного исследования, но и между разными исследованиями. Проведение мета-регрессионного анализа (в котором единицей наблюдения считается не больной, а исследование) может помочь оценить влияние отдельных факторов на конечный результат (величину эффекта) и объяснить причину различий в результатах анализируемых исследований. Кроме того, важно оценить устойчивость результатов с помощью анализа чувствительности, а также их зависимость от методологического качества исследований и возможных систематических ошибок, в том числе связанных с преимуществен ным опубликованием положительных результатов.

В количественном систематическом обзоре (мета-анализе) результаты нескольких исследований объединяют с помощью статистических методов. Мета-анализы проводят для оценки результатов испытаний методов лечения и диагностики, а также эпидемиологических исследований. Применяемые при мета-анализе статистические методы на первый взгляд могут показаться слишком сложными, но цель их проста: они должны дать ответ на четыре основных вопроса. Однородны ли результаты различных исследований? Насколько они однородны и какова наилучшая оценка изучаемого эффекта? Насколько точна и устойчива к различным влияниям эта оценка? И наконец, можно ли объяснить причины различий в результатах отдельных исследований? Данная статья помогает понять основные принципы статистических методов объединения данных. Мы не приводим математические формулы и уравнения; для получения дополнительной информации можно воспользоваться прилагаемым списком литературы. В статье главным образом рассматривается количественное объединение результатов рандомизирован ных испытаний методов лечения, поскольку большинство опубликованных мета-анализов посвящены именно этому вопросу.

Для удобства статистическое объединение данных представлено в виде последовательных этапов:

  1. решение вопроса о необходимости объединения данных и отбор оригинальных исследований;

  2. оценка статистической неоднородности результатов оригинальных исследований;

  3. обобщенная оценка величины эффекта;

  4. изучение и объяснение причин неоднородности;

  5. оценка вероятности наличия систематических ошибок;

  6. представление результатов мета-анализа.

Решение вопроса о необходимости объединения данных и отбор оригинальных исследований для мета-анализа

Прежде чем проводить количественное объединение данных, нужно сформулировать изучаемый вопрос и отобрать исследования для мета-анализа. Эти этапы обсуждаются в двух опубликованных ранее статьях данной серии [1, 2]. Однако следует упомянуть, что результаты любого мета-анализа следует рассматривать прежде всего с точки зрения здравого смысла, клинического опыта и биологических закономерностей, и только потом оценивать их статистическую значимость. Если методологическое качество объединяемых исследований низкое, если в них содержится много систематических ошибок и статистически незначимых результатов, выводы мета-анализа скорее всего будут недостоверными.

Обычно в мета-анализах объединяют либо дихотомические, либо непрерывные данные.

Дихотомические данные имеют две возможные категории (например, смерть или выживание). Непрерывные данные могут быть представлены как диапазон значений на непрерывной шкале (например, изменения диастолического давления после гипотензивной терапии, измеряемые в мм рт. ст.).

Адрес для корреспонденции:
Drs. Lau and Schmid: Division of Clinical Care Research,
New England Medical Center,
750 Washington Street, Box 63, Boston,
MA 02111, USA;
http\www.acponline.org

При сравнении разных групп больных дихотомические данные можно объединить, используя несколько показателей, характеризующих лечебный эффект: относительный риск (ОР), абсолютный риск и их изменения, отношение шансов и (если важна продолжительность исследования) частота развития определенных клинических исходов [3]. Другой важный клинический показатель — число больных, которых необходимо лечить определенным методом в течение определенного времени, чтобы достичь благоприятного эффекта или предотвратить неблагоприятный исход у одного больного (ЧБНЛ). ЧБНЛ — это величина, обратная изменению абсолютного риска [3]. Относительный риск и отношение шансов позволяют оценить относительную эффективность вмешательства, в то время как изменения абсолютного риска описывают абсолютную эффективность. Различные показатели дополняют друг друга, поэтому нужно определять их все [4].

Непрерывные данные можно объединять по нестандартизованной разности средних между группой вмешательства и контрольной группой (если эффект измеряли одинаковыми способами, например диастолическое давление в мм рт. ст.), по стандартизо ванной разности средних (если эффект измеряли разными способами, например использовали разные шкалы оценки болевого синдрома) или по коэффициенту корреляции (при сравнении двух непрерывных величин) [5]. Стандартизованная разность средних, называемая также величиной эффекта, — это частное от деления разности между средними в группе вмешательства и контрольной группе на величину стандартного отклонения в контрольной группе.

Оценка статистической неоднородности данных

Прежде чем объединять данные, нужно ответить на вопрос, однородны ли они. Для этого необходимо определить степень статистической дисперсии (гетерогенности) лечебного эффекта в разных исследованиях. Статистическая неоднородность может быть обусловлена следующими причинами. Во-первых, результаты исследований могут различаться из-за ошибки при рандомизации больных. Даже если в каждом исследовании истинный эффект лечения одинаков, результаты разных исследований случайным образом распределяются вокруг одного общего фиксированного эффекта. Такой вид статистической неоднородности называется дисперсией внутри исследования. Во-вторых, в исследованиях могут изучаться разные популяции, различающиеся по характеристикам больных, особенностям заболевания и вмешательства. Таким образом, даже при включении большого числа больных эффекты лечения могут оказаться разными. Эти различия, называемые случайными эффектами, относятся к отклонениям общей средней величины эффекта всех включенных в анализ исследований и называются дисперсией между исследованиями.

Чтобы оценить, насколько статистически значима неоднородность данных, полученных в разных исследованиях, обычно применяют тест на гетерогенность (критерий хи-квадрат) [6]. При этом определяют сумму среднеквадратичных отклонений между полученными и ожидаемыми результатами каждого исследования, исходя из предположения, что оцениваемый эффект во всех исследованиях одинаков. Большое суммарное отклонение свидетельствует о том, что лечебный эффект в разных исследованиях был различным. При объединении данных следует всегда учитывать дисперсию между исследованиями. На практике, однако, этот метод оказывается недостаточно чувствительным для выявления неоднородности, поэтому предложено использовать низкий уровень статистической значимости, например 0,1 [6].

Обобщенная оценка величины эффекта

На этом этапе нужно ответить на следующие вопросы: 1) насколько данные однородны и какова наилучшая оценка величины терапевтического эффекта; 2) какова должна быть точность этой оценки? Результаты различных исследований объединяют для получения обобщенной оценки величины изучаемого эффекта. По сравнению с данными отдельных исследований статистическая мощность объединенных данных выше, что позволяет точнее оценить эффект лечения.

При обобщении данных определяют удельный вес каждого исследования в зависимости от точности его результатов. Исследования, в которых результаты имеют более узкие доверительные интервалы (ДИ), должны иметь больший вес, чем не столь надежные исследования. Обычно точность — величина, обратная дисперсии. Дисперсия состоит из двух частей: дисперсии внутри отдельного исследования и дисперсии между исследованиями. Если дисперсия между исследованиями оказывается или предполагается равной нулю, вес каждого исследования определяется как величина, обратная его дисперсии, которая зависит от размера выборки и частоты развития изучаемых клинических исходов в этом исследова нии. Такой подход применяется в модели постоянных эффектов (например, использование методов Mantel—Haenszel [7, 8] и Peto [9] при анализе дихотомических данных). Ранее метод Peto применялся очень широко, он не требует сложных расчетов и пригоден в большинстве случаев, но иногда повышает вероятность систематической ошибки [10, 11]. В моделях случайных эффектов при вычислении средней величины эффекта к дисперсии внутри каждого исследования прибавляют дисперсию между исследованиями. Из этих моделей, используемых для анализа дихотомических данных, чаще всего применяют метод DerSimonian и Laird [12], позволяющий оценить дисперсию между исследованиями. Описаны также модели фиксированных эффектов и модели случайных эффектов, которые можно использовать при анализе непрерывных данных [13]. Обобщенные данные обычно представляют в виде точечных оценок с указанием ДИ (как правило, 95% ДИ).

Другие количественные методы обобщения данных (например, Confidence Profile Method) [14] основаны на байесовской оценке апостериорного распределения вероятностей изучаемого эффекта. Базовым принципом байесовского анализа считается предположение о том, что каждое наблюдение или ряд наблюдений нужно рассматривать с учетом априорной вероятности, которая описывает исходные (т.е. существующие до проведения исследований) знания об изучаемом явлении [15]. Новые наблюдения позволяют провести переоценку априорной вероятности и рассчитать апостериорную вероятность. При обычном мета-анализе предполагается, что до проведения рандомизированных испытаний о величине лечебного эффекта ничего не известно, т.е. распределение априорных вероятностей неинформативно. Байесовский анализ позволяет учесть при расчете априорных распределений косвенные данные [14] и может быть особенно полезен при малом количестве рандомизиро ванных испытаний [16]. Кроме того, этот подход позволяет объяснить неопределенность, обусловленную оценкой дисперсии между исследованиями, в моделях случайных эффектов, что обеспечивает более точную оценку эффективности лечения [17].

Изучение и объяснение причин статистической неоднородности

Следующий важный вопрос касается устойчиво сти обобщенной оценки величины эффекта, полученной на предыдущем этапе. Анализ чувствитель ности позволяет определить, зависит ли эта оценка от исходных допущений и от протокола обобщения данных.

Одним из методов анализа чувствительности служит сравнение результатов, получаемых с помощью моделей фиксированных и случайных эффектов [18]. В последнем случае, как правило, получают более широкие ДИ, чем при использовании моделей фиксированных эффектов, поэтому уровень статистической значимости зависит от выбранной модели. Но при этом обобщенная оценка величины эффекта обычно не изменяется, хотя возможны исключения [19].

Анализ чувствительности можно проводить с помощью критерия хи-квадрат [13], а также последовательно исключая из рассмотрения каждое исследование. Если исключение одного исследования существенно влияет на результат, следует проанализировать, почему это происходит.

Кумулятивный мета-анализ

Кумулятивный мета-анализ, как и последовательное исключение исследований, позволяет оценить вклад каждого оригинального исследования [20]. При этом исследования добавляются в анализ по одному в определенном порядке [21], например в соответствии с датой проведения или датой публикации. Кумулятивный мета-анализ позволяет понять, изменяется ли обобщенная оценка при добавлении новых исследований, и выявить момент, когда суммарные результаты становятся статистически значимыми. Если исследования включаются в соответствии с годом публикации, кумулятивный мета-анализ можно рассматривать как одну из форм байесовского анализа. В этом случае априорную вероятность рассчитывают по суммарным результатам уже включенных исследований, а апостериорную — после добавления результатов нового исследования [21].

Мета-регрессионный анализ

Дальнейший анализ чувствительности зависит от вида и особенностей изучаемого вопроса, а также от возможных причин неоднородности. С помощью мета-регрессионного анализа можно оценить влияние определенных переменных (ковариат) на величину лечебного эффекта, наблюдаемого в каждом оригинальном исследовании [22]. Результаты мета-регрессион ного анализа обычно представляют в виде коэффициента наклона с указанием ДИ. Изучаемые характеристики могут отражать особенности исследования или особенности больных. Это может быть признак, общий для всех больных (например, конкретный способ введения препарата в каждом из исследова ний), или среднее значение определенного показателя для всей когорты (например, средний возраст). Средние значения параметров следует интерпрети ровать с осторожностью, поскольку они не всегда отражают важные для анализа особенности небольших групп больных [23—25].

Некоторые параметры встречаются во всех оригинальных исследованиях, например размер выборки, дисперсия результатов исследования и частота развития изучаемого исхода в контрольной группе (доля больных из контрольной группы, у которых наблюдается изучаемый исход). Наличие других зависит от изучаемого вопроса. В разных исследованиях эти параметры нередко собраны и представлены по-разному, в таких случаях они не пригодны для анализа. Существует несколько методов мета-регресси онного анализа, в том числе регрессия взвешенных наименьших квадратов, логистическая регрессия и иерархические модели [22, 26—28].

На рис. 1 представлены варианты методологиче ских подходов при неоднородности данных различных исследований.

Анализ данных в подгруппах

Если во всех включенных в мета-анализ исследованиях имеются данные об определенных подгруппах больных, можно провести анализ данных в подгруппах [29]. При этом объединение данных проводят по принципам, описанным выше. Такой анализ нередко позволяет лучше понять причины неоднородности данных. В большинстве случаев анализ данных в подгруппах проводят ретроспективно, поэтому его результаты следует интерпретировать с осторожностью. Особенно опасно выделять много подгрупп в зависимости от сочетания нескольких показателей (например, возраста больных и дозы лекарственного препарата) и сравнивать эффект лечения внутри очень маленьких подгрупп. Если эти подгруппы вновь сформированы из объединенных данных, результаты анализа, скорее всего, будут далеки от истины.

Рис. 1. Варианты методологических подходов при мета-анализе неоднород ных данных.

Другая трудность — отсутствие единообразия в представлении результатов оригинальных исследова ний, необходимых для проведения анализа в подгруппах. Таким образом, этот метод следует использовать в основном для выработки гипотез [22], хотя иногда с его помощью можно сделать важные выводы [30].

Оценка вероятности систематических ошибок

Оценка вероятности систематических ошибок — обязательная часть мета-анализа. Эта тема уже обсуждалась в других статьях данной серии [1, 2]. Основные источники систематических ошибок при мета-анализе — недостаточно полный поиск данных и низкое качество исследований (а следовательно, и низкая воспроизводимость их результатов).

Систематическая ошибка, связанная с преимущественным опубликованием положительных результатов исследования

Исследователи, рецензенты и редакторы неохотно соглашаются на публикацию материалов исследований с отрицательными результатами [31—33], особенно если исследование было небольшим и нерандомизированным [34]. Поэтому даже при тщательном поиске не всегда удается извлечь данные всех исследований. Такую систематическую ошибку трудно устранить, но выявить ее с помощью некоторых статистических методов вполне возможно. Для визуальной оценки этой систематической ошибки используют воронкооб разный график [35] (рис. 2). Этот график отражает разброс величины лечебного эффекта в зависимости от размеров выборки. Симметричное распределение исследований, напоминающее перевернутую воронку, позволяет считать, что пропущенных исследований нет, а несимметричное распределение свидетельствует о систематической ошибке, связанной с преимущественным опубликованием положительных результатов исследова ния. Описаны также математические методы выявления, оценки и исправления такой системати ческой ошибки [36—39].

Методологическое качество исследований

Оценка методологического качества исследований была подробно рассмотрена в одной из статей данной серии [2]. Исследователи предлагают включать в мета-анализ показатели качества исследований, рассчитанные на основе специальных анкет [40—43]. До настоящего времени не было выявлено устойчивой корреляции между результатами оценки качества исследований по любой шкале и лечебным эффектом [44]. Помимо таких характеристик, как тип и особенности проведения исследований, общих для всех мета-анализов, при расчете показателей методологического качества могут применяться другие характеристики, необходимые для проведения конкретного мета-анализа [45]. Показано [46], что при низком качестве исследований оценка эффективности лечения часто оказывается завышенной из-за недостаточно тщательного применения слепого метода или потому, что исследователи имели возможность повлиять на рандомизацию.

Представление результатов

Обычно результаты мета-анализа представляют графически (рис. 3) в виде точечных оценок с указанием ДИ. Это позволяет показать вклад результатов отдельных исследований, степень неоднородности этих результатов и обобщенную оценку величины эффекта. Результаты мета-регрессионного анализа можно представить в виде графика, по оси абсцисс которого отложены значения анализируемого показателя, а по оси ординат — величина лечебного эффекта [48]. Кроме того, следует указать результаты анализа чувствительности по ключевым параметрам (в том числе сравнение результатов применения моделей постоянных и случайных эффектов, если эти результаты не совпадают). Такой показатель, как ЧБНЛ, облегчает понимание клинического значения результатов мета-анализа [3].

Рис. 2. Воронкообразный график, позволяющий выявить систематическую ошибку, связанную с преимущественным опубликованием положительных результатов исследования.

На графике представлены данные мета-анализа, посвященно го оценке эффективности внутривенного введения стрептоки назы при остром инфаркте миокарда [20]. Относительный риск (ОР) смерти в каждом исследовании сопоставлен с размером выборки (весом исследования). Точки на графике группируют ся вокруг средневзвешенного значения ОР (показано стрелкой) в виде симметричного треугольника (воронки), внутри которого размещаются данные большинства исследований. В опубликованных материалах небольших исследований эффект лечения оказывается завышенным по сравнению с более крупными исследованиями. Асимметричное распределение точек означает, что некоторые небольшие исследования с отрицательными результатами и значительной дисперсией не были опубликованы, т.е. возможна систематическая ошибка, связанная с преимущественным опубликованием положительных результатов. График показывает, что небольших (10—100 участников) исследований, в которых ОР смерти превышал 0,8, значительно меньше, чем аналогичных исследований, в которых этот показатель был ниже 0,8, а данные средних и крупных исследований расположены практически симметрично. Таким образом, некоторые небольшие исследования с отрицательными результатами, вероятно, не были опубликованы. Кроме того, график позволяет легко выявить исследования, результаты которых существенно отличаются от общей тенденции.

Обобщение других видов данных

Мета-анализ исследований, в которых оценивалась информативность диагностических методов

Еще одна важная область применения мета-анализа — обобщение данных о чувствительности и специфичности диагностических методов, оцениваемых в разных исследованиях [49]. Считается, что полученная с помощью взвешенной линейной регрессии характеристическая кривая, отражающая взаимосвязь между чувствительностью и специфичностью, позволяет избежать недооценки диагностического теста [50]. Эта кривая представляет собой график, где по одной оси отложена доля истинноположительных результатов (чувствительность), а по другой — доля ложноположительных результатов (1 - специфичность).

Мета-анализ других нерандомизированных неконтролируемых исследований

С помощью мета-анализа можно обобщать результаты неконтролируемых когортных исследований. Принципы этого объединения такие же, как и для рандомизированных испытаний, но анализировать и интерпретировать результаты нерандомизированных и неконтролируемых исследований нужно с большей осторожностью, поскольку в них высока вероятность систематических ошибок. Особый интерес представляет обобщение данных о дозозависимых эффектах при возрастающем воздействии возможных этиологических факторов на изучаемый исход (например, о связи между продолжительностью пассивного курения и развитием рака легкого) [17, 51—53].

Мета-анализ данных о конкретных больных

В большинстве случаев при проведении мета-анализа используют обобщенные данные о сравнивае мых группах больных в том виде, в каком они приводятся в статьях. Но иногда исследователи стремятся более детально оценить исходы и факторы риска у отдельных больных. Эти данные могут быть полезны при анализе выживаемости и многофакторном анализе. Мета-анализ данных о конкретных больных стоит дороже и требует больше времени, чем мета-анализ групповых данных; для его проведения необходимо сотрудничество многих исследователей и жесткое соблюдение протокола [54]. Однако и результаты такого мета-анализа более надежны [55].

А Б

Рис. 3. Результаты стандартного и кумулятивного мета-анализа данных, полученных в одних и тех же исследованиях.

А. Графическое представление результатов стандартного мета-анализа: относительный риск смерти или прогрессирования ВИЧ-инфекции до клинических проявлений СПИДа при раннем (группа лечения) или отсроченном (группа контроля) начале терапии зидовудином [47]. Относительный риск прогрессирования в каждом исследовании и его обобщенная оценка представлены в виде точек, а доверительные интервалы (ДИ; обычно 95% ДИ) изображены горизонтальными линиями. Исследования представлены в соответствии с датой публикации. Относительный риск <1 означает снижение числа исходов в группе лечения по сравнению с группой контроля.

Б. Результаты кумулятивного мета-анализа данных, полученных в тех же исследованиях. Точки и линии обозначают соответствен но значения относительного риска и 95% ДИ обобщенных данных после включения в анализ каждого дополнительного исследования. Если нет существенной неоднородности данных, при добавлении последующего исследования ДИ сужается.

N — число больных в исследовании; Nе — суммарное число больных.

Выводы

Количественное объединение данных различных клинических исследований с помощью мета-анализа позволяет получить результаты, которые невозможно извлечь из отдельных клинических исследований. Мета-анализ — сравнительно новый раздел клинической медицины. Как и следовало ожидать, имеются расхождения между результатами крупных испытаний и мета-анализами менее масштабных исследований [19], а также между разными мета-анализами, посвященными одной проблеме [56, 57]. Это заставляет разрабатывать новые количественные методы анализа [58—60]. Обобщение данных многих исследований требует тщательного применения строгих количественных методов анализа, а результаты этого обобщения нужно интерпретировать достаточно осторожно. Мета-анализ — не "палочка-выручалочка", решающая проблему научной доказательности, и не стоит заменять им клинические рассуждения [1]. Кроме того, достоверный мета-анализ нельзя провести без строгого, единообразного представления результатов оригинальных исследований [62, 63].

Основные положения статьи

  • В систематических обзорах для анализа и интерпретации данных часто применяют сложные статистиче ские методы, основные принципы которых нужно знать для того, чтобы правильно интерпретировать результаты этих обзоров.

  • Количественное обобщение данных, полученных в ходе различных исследований, не может заменить клинических рассуждений; при обобщении данных низкого методологического качества, с большим количеством систематических ошибок или противоречащих здравому смыслу результаты мета-анализа могут быть недостоверными.

  • Обобщение данных может повышать их статистическую мощность и точность оценки лечебного эффекта.

  • Для определения устойчивости результатов необходимо проводить анализ чувствительности.

  • Даже в исследованиях, посвященных одной и той же проблеме, характеристики больных, клиническая база и реакция на лечение могут быть разными. Понять причины неоднородности результатов этих исследований не менее, а иногда и более важно, чем их обобщить.

Словарь терминов

Байесовский анализ — статистический подход, помогающий изменять априорные оценки с учетом данных новых исследований.

Кумулятивный мета-анализ — метод расчета обобщенной точечной оценки изучаемого эффекта, при котором исследования добавляются по одному в определенном порядке.

Модель постоянных эффектов — статистическая модель, предполагающая, что во всех исследованиях изучается один и тот же эффект, а различия обусловлены только случайной ошибкой.

Неоднородность (гетерогенность) — различия между исследованиями. Она может быть обусловлена случайной ошибкой или различиями в структуре исследований, характеристи ках больных, вмешательств и т. д.

Мета-регрессионный анализ — регрессионный анализ, в котором в качестве единицы наблюдения рассматриваются отдельные исследования.

Модель случайных эффектов — статистическая модель, предполагающая, что изучаемый эффект в разных исследованиях различен, и поэтому должен быть представлен в виде распределения величин.

Характеристическая кривая (ROC-кривая) — кривая, отражающая взаимосвязь между чувствительностью и специфично стью метода. Эта кривая представляет собой график, где по оси абсцисс откладывается доля истинноположительных результатов (чувствительность), а по оси ординат — доля ложноположительных результатов (1 - специфичность).

Источники:

1. Counsell С. Formulating questions and locating primary studies for inclusion in systematic reviews. Ann Intern Med 1997;127:380—7. Международный журнал медицинской практики 1999;4:20—8.

2. Meade М.О., Richardson W.S. Selecting and appraising studies for a systematic review. Ann Intern Med 1997;127:531—7. Международный журнал медицинской практики 1999;5:7—13.

3. McQuay H.J., Moore R.A. Using numerical results from systematic reviews in clinical practice. Ann Intern Med 1997;126:712—20.

4. Sinclair J.C., Bracken M.B. Clinically useful measures of effect in binary analyses of randomized trials. J Clin Epidemiol 1994;47:881—90.

5. Cooper H., Hedges L.V. The Handbook of Research Synthesis. New York: Russell Sage Foundation; 1994.

6. Fleiss J.L. Statistical Methods for Rates and Proportions, 2d ed. New York: J Wiley 1981;161—5.

7. Mantel N., Haenszel W. Statistical aspects of the analysis of data from retrospective studies of disease. J Natl Cancer Inst 1959;22:719—48.

8. Laird N.M., Mosteller F. Some statistical methods for combining experimental results. Int J Technol Assess Health Care 1990;6:5—30.

9. Yusuf S., Peto R., Lewis J., Collins R., Sleight P. Beta blockade during and after myocardial infarction: an overview of the randomized trials. Prog Cardiovasc Dis 1985;27:335—71.

10. Greenland S., Salvan A. Bias in the one-step method for pooling study results. Stat Med 1990;9:247—52.

11. Fleiss J.L. The statistical basis of meta-analysis. Stat Methods Med Res 1993;2:121—45.

12. DerSimonian R., Laird N. Meta-analysis in clinical trials. Control Clin Trials 1986;7:177—88.

13. Hedges L.V., Olkin I. Statistical Methods for Meta-Analysis. Orlando: Academic Pr; 1985.

14. Eddy D.M., Hasselblad V., Schacter R.D. Meta-Analysis by the Confidence Profile Method: The Statistical Synthesis of Evidence. New York: Academic Pr; 1991.

15. Gelman A., Carlin J.B., Stern H.S., Rubin D.B. Bayesian Data Analysis. London: Chapman & Hall; 1995:148—54.

16. Lilford R.J., Thornton J.G, Braunholtz D. Clinical trials and rare diseases: a way out of a conundrum. BMJ 1995;311:1621—5.

17. Dumouchel W. Meta-analysis for dose-response models. Stat Med 1995;14: 679—85.

18. Berlin J.A., Laird N.M., Sacks H.S., Chalmers T.C. A comparison of statistical methods for combining event rates from clinical trials. Stat Med 1989;8:141—51.

19. Boizak S., Ridker P.M. Discordance between meta-analyses and large-scale randomized, controlled trials. Examples from the management of acute myocardial infarction. Ann Intern Med 1995;123:873—7.

20. Lau J., Antman E.M., Jimenez-Silva J., Kupelnick B., Mosteller F., Chalmers T.C. Cumulative meta-analysis of therapeutic trials for myocardial infarction. N Engl J Med 1992;327:248—54.

21. Lau J., Schmid C.H., Chalmers T.C. Cumulative meta-analysis of clinical trials builds evidence for exemplary medical care. J Clin Epidemiol 1995;48:45—57.

22. Berlin J.A., Antman E.M. Advantages and limitations of metaanalytic regressions of clinical trials data. Online J Curr Clin Trials. 4 June 1994: Doc. No. 134.

23. Morgenstern H. Uses of ecologic analysis in epidemiologic research. Am J Public Health 1982;72:1336—44.

24. Langbein L.I., Lichtman A.J. Ecological Inference. Beverly Hills, CA: Sage; 1978. (Sage University Paper Series on Quantitative Applications in the Social Sciences. Series No. 07-010.)

25. Greenland S., Robins J. Invited commentary: ecologic studies—biases, misconceptions, and counterexamples. Am J Epidemiol 1994;139:747—60.

26. Mclntosh M. The population risk as an explanatory variable in research synthesis of clinical trials. Stat Med 1996;15:1713—28.

27. Morris C.N., Normand S.L. Hierarchical models for combining information and for meta-analyses. In: Bernardo J.M., Berger J.O., Dawid A.P., Smith A.F. Bayesian Statistics 4. New York: Oxford Univ Pr; 1992.

28. Smith T.C., Spiegelhalter D.J., Thomas A. Bayesian approaches to random effects meta-analysis: a comparative study. Stat Med 1995;14:2685—99.

29. Oxman A.D., Guyatt G.H. A consumer's guide to subgroup analyses. Ann Intern Med 1992;116:78—84.

30. Michels K.B., Rosner B.A. Data trawling: to fish or not to fish. Lancet 1996;348:1152—3.

31. Dickersin К., Chan S., Chalmers T.C., Sacks H.S., Smith H. Jr. Publication bias and clinical trials. Control Clin Trials 1987;8:343—53.

32. Dickersin К. The existence of publication bias and risk factors for its occurrence. JAMA 1990;263:1385—9.

33. Begg С.В. Publication bias. In: Cooper H., Hedges L., eds. The Handbook of Research Synthesis. New York: Russell Sage Foundation; 1994.

34. Easterbrook P.J., Berlin J.A., Gopalan R., Matthews D.R. Publication bias in clinical research. Lancet 1991;337:867—72.

35. Light R.J. Pillemer D.B. Summing up: the science of reviewing research. Cambridge, MA: Harvard Univ Pr; 1984.

36. Begg C.B., Mazumdar M. Operating characteristics of a rank correlation test for publication bias. Biometrics 1994;50:1088—101.

37. Dear K.B., Begg C.B. An approach for assessing publication bias prior to performing a meta-analysis. Statistical Science 1992;7:237—45.

38. Hedges L.V. Modeling publication selection effects in random effects models in meta-analysis. Statistical Science 1992;7:246—55.

39. Vevea J.L., Hedges L.V. A general linear model for estimating effect size in the presence of publication bias. Psychometrika 1995;60:419—35.

40. Chalmers T.C., Smith H. Jr., Blackburn B., Silverman B., Schroeder B., Reitman D., et al. A method for assessing the quality of a randomized control trial. Control Clin Trials 1981;2:31—49.

41. Mulrow C.D., Linn W.D., Gaul M.K., Pugh J.A. Assessing quality of a diagnostic test evaluation. J Gen Intern Med 1989;4:288—95.

42. Detsky A.S., Naylor C.D., O'Rourke K., McGeer A.J., L'Abbe K.A. Incorporating variations in the quality of individual randomized trials into meta-analysis. J Clin Epidemiol 1992;45:255—65.

43. Moher D., Jadad A.R., Nichol G., Penman M., Tugwell P., Walsh S. Assessing the quality of randomized controlled trials: an annotated bibliography of scales and checklists. Control Clin Trials 1995;16:62—73.

44. Emerson J.D., Burdick E., Hoaglin D.C., Mosteller F., Chalmers T.C. An empirical study of the possible relation of treatment differences to quality scores in controlled randomized clinical trials. Control Clin Trials 1990;11:339—52.

45. Greenland S. Invited commentary: a critical look at some popular meta-analytic methods. Am J Epidemiol 1994;140:290—6.

46. Schurtz K.F., Chalmers I., Hayes R.J., Altman D.G. Empirical evidence of bias. Dimension of methodological quality associated with estimates of treatment effects in controlled trials. JAMA 1995;273:408—12.

47. Ioannidis J.P., Cappelleri J.C., Lau J., Skolnik P.R., Melville B., Chalmers T.C., et al. Early or deferred zidovudine therapy in HIV-infected patients without an AIDS-defining illness. Ann Intern Med 1995;122:856—66.

48. Holme I. Relation of coronary heart disease incidence and total mortality to plasma cholesterol reduction in randomised trials: use of meta-analysis. Br Heart J 1993;69(Suppl 1):S42—7.

49. Irwig L., Tosteson A.N., Gatsonis C., Lau J., Colditz G., Chalmers T.C., et al. Guidelines for meta-analyses evaluating diagnostic tests. Ann Intern Med 1994;120:667—76.

50. Moses L.E., Shapiro D., Littenberg B. Combining independent studies of a diagnostic test into a summary ROC curve: data-analytic approaches and some additional considerations. Stat Med 1993;12:1293—316.

51. Tweedie R.L., Mengersen K.L. Meta-analytic approaches to dose-response relationships, with application in studies of lung cancer and exposure to environmental tobacco smoke. Stat Med 1995;14:545—69.

52. Greenland S., Longnecker M.P. Methods for trend estimation from summarized dose-response data, with applications to meta-analysis. Am J Epidemiol 1992;135:1301—9.

53. Smith S.J., Caudill S.P., Steinberg K.K., Thacker S.B. On combining dose-response data from epidemiologica! studies by meta-analysis. Stat Med 1995; 14:531—44.

54. Stewart L.A., Clarke M.J. Practical methodology of meta-analyses (overviews) using updated individual patient data. Cochrane Working Group. Stat Med 1995;14:2057—79.

55. Olkin I. Statistical and theoretical considerations in meta-analysis. J Clin Epidemiol 1995;48:133—46.

56. Cook D.J., Witt L.G., Cook R.J., Guyatt G.H. Stress ulcer prophylaxis in the critically ill: a meta-analysis. Am J Med 1991;91:519—27.

57. Tryba M. Prophylaxis of stress ulcer bleeding. A meta-analysis. J Clin Gastroenterol 1991;13(Suppl 2):544—55.

58. Villar J., Carroli G., Belizan J.M. Predictive ability of meta-analyses of randomised controlled trials. Lancet 1995;345:772—6.

59. Cappelleri J.C., Ioannidis J.P., Schmid C.H, de Ferranti S.D., Aubert M., Chalmers T.C., et al. Large trials vs meta-analysis of smaller trials: how do their results compare? JAMA 1996;276:1332—8.

60. Cook D.J., Reeve B.K., Guyatt G.H., Heyland D.K., Griffith L.E., Buckingham L. et al. Stress ulcer prophylaxis in critically ill patients. Resolving discordant meta-analyses. JAMA 1996;275:308—14.

61. Ioannidis J.P., Lau J. On meta-analyses of meta-analyses [Letter]. Lancet 1996;348:756.

62. Altman D.G. Better reporting of randomised controlled trials: the CONSORT statement. BMJ 1996;313:570—1.

63. Begg С., Cho M., Eastwood S., Horton R., Moher D., Olkin I., et al. Improving the quality of reporting of randomized controlled trials. The CONSORT statement. JAMA 1996;276:637—9.