Appraise (Avaliar) — o terceiro A

Encontrar a evidência é metade do trabalho. A outra metade é decidir se ela merece a confiança que parece pedir. Nem todo estudo bem publicado é metodologicamente sólido. Nem todo achado estatisticamente significativo é clinicamente importante. Nem toda evidência de qualidade se aplica ao paciente que está na sua frente.

O terceiro A — Appraise, avaliar — é onde o profissional de saúde deixa de ser leitor da ciência e passa a ser julgador ativo dela. Exige conhecimento técnico, mas exige também o velho juízo clínico, agora a serviço da literatura.

Voltando ao consultório

Dra. Amélia, depois de uma busca rápida no UpToDate seguida de consulta ao PubMed, encontrou uma meta-análise de 2019 sobre aspirina em prevenção primária em idosos, publicada no JAMA. Relata redução estatisticamente significativa de eventos cardiovasculares maiores. Antes de conversar com o Sr. António, ela precisa responder três perguntas:

O estudo é metodologicamente sólido? — porque má metodologia produz resultados enganosos
O efeito encontrado tem importância clínica? — porque "estatisticamente significativo" não é sinônimo de "clinicamente útil"
Os achados se aplicam ao Sr. António? — porque um estudo feito em uma população pode não dizer o que acontece em outra

Esses são os três crivos da avaliação crítica. Ferramenta nenhuma substitui essas três perguntas. As ferramentas formais — CASP, GRADE, RoB, AMSTAR — apenas as estruturam.

Os três crivos da avaliação crítica

1. Validade interna — o estudo foi bem feito?

Refere-se à qualidade do desenho e da execução. Um estudo válido minimiza riscos de viés — erros sistemáticos que distorcem os resultados — e controla confundimentos que poderiam atribuir falsamente ao tratamento aquilo que se deve a outras causas.

Perguntas que estruturam o crivo:

A alocação dos participantes foi aleatória? Em ECR, foi oculta?
Os grupos eram comparáveis na linha de base?
Houve cegamento de pacientes, profissionais e avaliadores?
O seguimento foi completo? As perdas foram balanceadas?
A análise foi por intenção de tratar?
O desfecho foi medido de forma objetiva e padronizada?

Um estudo com baixa validade interna pode produzir números bonitos mas não confiáveis. Avaliar isso é o trabalho técnico mais difícil da MBE — e onde as ferramentas formais mais ajudam.

→ Aprofunde-se em vieses e fontes de erro

2. Importância clínica — o efeito faz diferença na vida real?

Aqui mora um dos maiores ruídos da literatura: confundir significância estatística com relevância clínica.

Um ensaio com 50 mil participantes pode encontrar uma redução estatisticamente significativa (p < 0,001) de 0,2% na mortalidade. Estatisticamente, é real. Clinicamente, é desprezível — significa tratar 500 pacientes para evitar 1 morte. Pode não compensar o custo, o efeito adverso, a complexidade.

Para julgar importância clínica, foque nas medidas de efeito que importam:

Risco absoluto vs. risco relativo
Redução absoluta do risco (RAR) vs. redução relativa do risco (RRR)
NNT (número necessário tratar) — quantos pacientes precisam receber a intervenção para evitar um evento
NNH (número necessário causar dano) — quantos pacientes precisam receber para causar um evento adverso
Intervalo de confiança 95% — magnitude de incerteza em torno do efeito estimado

E pergunte:

O desfecho avaliado é clinicamente relevante ou apenas substituto (LDL em vez de infarto, glicemia em vez de mortalidade)?
A magnitude do benefício é clinicamente significativa?
O perfil benefício-dano é favorável?

→ Aprofunde-se em medidas de efeito ou calcule diretamente

3. Aplicabilidade — vale para o meu paciente?

Mesmo um estudo de alta qualidade, com magnitude de efeito clinicamente importante, pode não ter relevância para o paciente que está na sua frente. Aplicabilidade é a validade externa.

Perguntas que estruturam o crivo:

A população do estudo é semelhante ao meu paciente em idade, comorbidades, contexto?
Os desfechos avaliados são importantes para esta pessoa?
Os recursos necessários (medicamento, exame, equipe, infraestrutura) estão disponíveis no meu serviço?
A duração do seguimento do estudo é compatível com a expectativa de vida ou horizonte de cuidado deste paciente?
O benefício supera os riscos para este paciente em particular?

Aplicabilidade é onde a MBE mais conversa com o raciocínio clínico. Não há fórmula, nem ferramenta — há julgamento. E é também onde a realidade do contexto local entra: um estudo conduzido em centros terciários da Europa pode ter resultados que dependem de condições inexistentes num posto provincial em Cabinda.

As ferramentas formais

Cada um dos três crivos tem ferramentas que estruturam a avaliação. Quatro são essenciais:

Ferramenta	Para que serve	Quando usar
CASP	Checklists para avaliar diferentes desenhos de estudo	Avaliação geral inicial, ensino
RoB 2.0	Avaliação de risco de viés em ECRs (da Cochrane)	Quando você está lendo ou produzindo revisão sistemática
AMSTAR-2	Qualidade de revisões sistemáticas	Antes de confiar numa revisão sistemática
GRADE	Qualidade da evidência e força da recomendação	Em diretrizes, para entender o quão forte é uma recomendação

→ Visão completa em Ferramentas de avaliação crítica

Importante: as ferramentas não substituem o julgamento clínico. Elas estruturam-no, garantindo que questões cruciais não sejam esquecidas. Um RoB com semáforo todo verde não significa que o estudo seja a verdade absoluta — apenas que os domínios formais foram bem cumpridos.

A meta-análise da Dra. Amélia, sob os três crivos

De volta ao caso. Aplicando os três crivos à meta-análise sobre aspirina em prevenção primária:

Validade interna — A revisão segue protocolo PRISMA, busca em múltiplas bases, tem avaliação RoB dos ensaios incluídos, análise de heterogeneidade adequada. Os ensaios maiores incluídos (ASPREE, ARRIVE, ASCEND) são metodologicamente robustos. ✅

Importância clínica — RR de 0,90 (IC 95% 0,84–0,97) para eventos cardiovasculares, RAR de 0,38% em 5 anos, NNT ≈ 265. Mas: RR de 1,43 (IC 95% 1,30–1,56) para sangramento maior, RAR de 0,47%, NNH ≈ 210. O dano absoluto é maior do que o benefício absoluto. ⚠️

Aplicabilidade — A população dos ensaios são adultos sem doença cardiovascular prévia, idade média ~65–75 anos. Coincide com o Sr. António. ✅

A conclusão emerge dos três crivos juntos: a evidência é boa, mas o balanço benefício-risco em prevenção primária no idoso é desfavorável ou neutro. A recomendação atual, baseada nessa meta-análise e nos ensaios maiores, é não iniciar aspirina em prevenção primária na maioria dos idosos sem alto risco cardiovascular específico.

Sem os três crivos, a leitura superficial do título da meta-análise ("aspirina reduz eventos cardiovasculares") teria sugerido o oposto. É exatamente esse tipo de armadilha que o Appraise existe para evitar.

Erros comuns no terceiro A

Confiar no abstract. O abstract simplifica conclusões e raramente menciona limitações ou a magnitude absoluta do efeito.
Confundir significância estatística com relevância clínica. P < 0,05 só diz que o efeito provavelmente não é zero — não diz que é importante.
Ignorar o intervalo de confiança. Um RR de 0,80 com IC95% de 0,40 a 1,60 quer dizer pouco — a verdade pode estar em qualquer lugar entre redução de 60% e aumento de 60%.
Aceitar desfechos substitutos como se fossem clínicos. Estudo que mostra redução de LDL não prova redução de infarto. Um pode existir sem o outro.
Aplicar evidência de uma população em outra muito diferente sem reflexão. Um ensaio em homens brancos europeus de 50 anos com hipertensão moderada não diz necessariamente o que acontece em mulheres negras de 80 anos com hipertensão grave.
Usar ferramentas formais como muleta para deixar de pensar. O risco de viés baixo no RoB 2.0 não dispensa o profissional de avaliar magnitude do efeito e aplicabilidade.

Próximo A: Apply (Aplicar)

Avaliar a evidência produz uma posição: aquele tratamento, naquele paciente, aparenta ter mais ou menos benefício do que se imaginava. Mas a decisão clínica não é a evidência sozinha — é a integração da evidência com a experiência clínica do profissional, com os valores do paciente, e com os recursos disponíveis no contexto. O quarto A é sobre como fazer essa integração.

Continue para Apply (Aplicar)

Conceitos relacionados

Medidas de efeito — RR, RAR, NNT, NNH, IC95% em profundidade
Vieses e fontes de erro — seleção, aferição, perda, publicação, confundimento
Ferramentas de avaliação crítica — visão geral comparativa
CASP, GRADE, RoB 2.0, AMSTAR-2 — páginas dedicadas a cada ferramenta
Calculadora de medidas de efeito — para calcular RAR, RRR, NNT e NNH a partir de uma tabela 2×2

Referências

Guyatt G, Rennie D, Meade MO, Cook DJ. Users' Guides to the Medical Literature: A Manual for Evidence-Based Clinical Practice. 3ª ed. New York: McGraw-Hill; 2014.
Greenhalgh T. How to Read a Paper: The Basics of Evidence-Based Medicine and Healthcare. 6ª ed. Hoboken: Wiley-Blackwell; 2019.
Straus SE, Glasziou P, Richardson WS, Haynes RB. Evidence-Based Medicine: How to Practice and Teach EBM. 5ª ed. Edinburgh: Elsevier; 2018. Capítulos 4 a 6: Critical appraisal.
U.S. Preventive Services Task Force. Aspirin Use to Prevent Cardiovascular Disease: Preventive Medication. 2022. Disponível em: uspreventiveservicestaskforce.org.

Aparência

Tamanho do texto

Estilo da fonte