Leer un ensayo sobre péptidos: qué importa y qué es decoración

La mayoría de las afirmaciones sobre péptidos remiten a uno o dos artículos de ensayos. La diferencia entre alguien que lee «BPC-157 ayuda a los tendones» y alguien que lee el estudio real de tendones en ratas y luego pregunta «¿se traslada esto?» es, sobre todo, la capacidad de leer artículos de ensayo, no la pericia en la materia. Este artículo es la versión práctica de «cómo leer un artículo» - qué mirar primero, qué saltarse, y las señales de alarma que indican que un artículo está haciendo replanteamiento post-hoc en lugar de reportar lo que el ensayo realmente mostró.

Para el marco más amplio de niveles de evidencia, ver Péptidos 101; para el marco de monitoreo de analítica por clase que los ensayos informan, ver Analítica para usuarios de péptidos.

Lee en este orden

Título y resumen. 30 segundos. Estás triando si vale la pena dedicarle más tiempo al artículo. Anota el desenlace primario registrado, la población y la dirección general del resultado.
Métodos. 5 minutos. La sección más importante. Población, intervención, brazo control, desenlace primario, tamaño muestral. Si los métodos no dicen qué se registró como desenlace primario frente a lo que se está reportando, el artículo tiene un problema de credibilidad antes de que leas los resultados.
Resultado del desenlace primario. Lee esto en la sección de resultados antes que la sección de discusión. La discusión enmarcará todo; el número crudo del desenlace primario es lo que el ensayo realmente midió.
Tamaño del efecto e intervalo de confianza. Más importante que el valor p. Un efecto estadísticamente significativo de 0,3% de pérdida de peso (con n=4000) es relevante para un regulador y no relevante para una persona.
Tasas de abandono / finalización. Los ensayos con alto abandono sobrerrepresentan a los respondedores que cumplen. Una «reducción del 60% en X» que vino de un 40% de finalización es sobre todo sesgo del superviviente.
Sección de conflictos de interés. No descalifiques automáticamente los ensayos patrocinados, pero lee sabiendo la presión de encuadre.
Discusión. Léela al final. Aquí es donde los autores contextualizan (o sobrevenden) lo que encontraron.

Lo que oculta el resumen

El cambio de desenlace primario a secundario. Los ensayos modernos registran su desenlace primario públicamente (ClinicalTrials.gov) antes de empezar. Si el resumen enfatiza un desenlace secundario que «mostró un efecto» mientras el primario falló, es una señal de alarma. Lee el protocolo registrado; coteja contra lo que se está reportando.
Análisis de subgrupo como titular. «Entre mujeres mayores de 40 con IMC basal >35, la pérdida de peso fue del 12%.» Los subgrupos son exploratorios; los resultados positivos en subgrupos cuando la población global no mostró el efecto no son evidencia de eficacia. Generan hipótesis.
Per-protocol vs intención de tratar. El ITT (todos los aleatorizados) es el análisis conservador. El PP (sólo los completadores) infla los tamaños de efecto. Los artículos modernos reportan ambos; la diferencia entre ellos te dice algo sobre la distorsión por abandonos.
«Estadísticamente significativo» sin la magnitud. p < 0,05 significa que el efecto probablemente no es cero. No dice nada sobre si el efecto es lo bastante grande como para importar.

Tamaños de efecto e intervalos de confianza (lo que hay que leer en serio)

La mayoría de los artículos de ensayos de péptidos reportan el tamaño de efecto como diferencia absoluta (p. ej. 14,9% de pérdida de peso vs 2,4% placebo para tirzepatida en SURMOUNT-1) o como diferencia relativa (40% de reducción de eventos cardiovasculares). Dos preguntas que hacer:

¿Es relevante el número absoluto? 12,4% de diferencia de peso a 72 semanas es relevante. 0,3% de reducción de HbA1c es medible; relevante es discutible.
¿Cuál es el intervalo de confianza? 14,9% (IC 95% 13,7–16,0) es una estimación estrecha. 14,9% (IC 95% 4–25) significa que el ensayo no pudo fijar con precisión el tamaño del efecto - podría ser 4%, podría ser 25%. Intervalos amplios en ensayos pequeños son normales; tratar el punto medio como la verdad es leer mal los datos.
La replicación estrecha el intervalo. El hallazgo del 14,9% de SURMOUNT-1 se apoya en SURMOUNT-2 (magnitud similar en una población distinta). Si un solo ensayo tiene IC amplios pero los estudios de replicación se agrupan alrededor del mismo número, el efecto es real aunque los IC originales parecieran permisivos.

Ejemplo trabajado 1: SURMOUNT-1 (tirzepatida para obesidad)

Lo que decía el resumen: tirzepatida produjo reducciones sustanciales de peso vs placebo en adultos con obesidad.
Lo que hay que leer en métodos: población - adultos con IMC ≥30 (o ≥27 con comorbilidad asociada al peso), 72 semanas. Desenlace primario - cambio de peso corporal desde el basal. Tres brazos de tirzepatida (5 mg, 10 mg, 15 mg) vs placebo.
El resultado primario: cambio medio de peso −15,0% (5 mg), −19,5% (10 mg), −20,9% (15 mg) vs −3,1% (placebo). Todos p < 0,001. Intervalos de confianza estrechos (3000+ pacientes).
Lo que te dice esto: el resultado es robusto, el tamaño de efecto es lo bastante grande como para importar clínicamente, y hay una relación dosis-respuesta. Es evidencia de alta calidad.
Lo que conviene marcar igual: duración de 72 semanas. La durabilidad a largo plazo más allá de 72 semanas no está en este artículo - el comportamiento al suspender viene de STEP-4 y de la extensión de SURMOUNT-1, que son publicaciones aparte.

Ejemplo trabajado 2: extensión de STEP-1 (suspensión de semaglutida)

El montaje: STEP-1 aleatorizó participantes a semaglutida vs placebo durante 68 semanas. La extensión siguió a un subconjunto después de que dejaran tanto el fármaco como la intervención de estilo de vida.
El hallazgo principal: a la semana 120 (un año fuera del fármaco), los participantes habían recuperado ~dos tercios del peso perdido con semaglutida. Las mejoras cardiometabólicas (lípidos, presión) revertieron en cronogramas similares.
Lo que hay que leer con cuidado: la extensión fue un subconjunto más pequeño del ensayo original - el sesgo de selección importa (las personas que aceptaron la extensión pueden diferir de las que no). La comparación es recuperación desde el final del fármaco, no vs control, así que es observacional una vez se suspende el fármaco.
Afirmación útil: «La pérdida de peso con GLP-1 es en gran medida reversible sin dosis de mantenimiento.» Eso es lo que los datos realmente muestran.
Mal uso: «Los GLP-1 no funcionan» - incorrecto; la pérdida de peso en ciclo es real y grande. El patrón de suspensión va sobre el mantenimiento, no la eficacia.

Ejemplo trabajado 3: Stier 2013 (resultado nulo de AOD-9604)

El ensayo: RCT de fase 2b de AOD-9604 vs placebo durante 12 semanas para obesidad. Múltiples brazos de dosis.
El resultado: sin diferencia estadísticamente significativa de pérdida de peso vs placebo en ninguna dosis. Seguridad limpia.
Lo que esto significa y no significa: el ensayo no mostró un efecto de tratamiento de la obesidad clínicamente relevante a las dosis y duración estudiadas. No significa que AOD-9604 tenga actividad biológica cero (los datos animales muestran señal lipolítica) - significa que la hipótesis de eficacia en obesidad humana no se replicó en un ensayo bien diseñado.
Cómo lo maneja el catálogo: AOD-9604 está en el catálogo con encuadre explícito de «no superó al placebo en fase 2». El péptido sigue siendo útil en el contexto de culturismo en ayunas donde las condiciones del ensayo no aplican, pero el estatus de «vía FDA abandonada, no aprobado» es el encuadre honesto.

Señales de alarma en las que vale la pena pararse

El desenlace primario cambió a mitad del ensayo. La entrada preregistrada en ClinicalTrials.gov dice que el desenlace primario es X; el artículo publicado reporta Y como primario. A veces legítimo (eventos raros hicieron X impractical), a menudo sospechoso. Coteja el registro.
Seguimiento corto + encuadre de condición crónica. «Ensayo de 12 semanas muestra reducción de eventos cardiovasculares» - eventos de ese tipo no se acumulan lo suficiente en 12 semanas como para dar poder a una comparación significativa. El ensayo está midiendo otra cosa y extrapolando.
Desenlaces compuestos con un solo motor. «Compuesto de IM, ictus, muerte cardiovascular» reducción del 20%. Lee qué componente lo motorizó; si el 90% del efecto está en un desenlace secundario blando y los duros no se movieron, no es lo que implica el encuadre compuesto.
Análisis sólo per-protocol. Si el artículo sólo reporta los completadores sin comparación ITT, los abandonos están haciendo trabajo. El ITT es conservador y más difícil de manipular.
«Tendencias hacia la significación» es lenguaje que suele ser excusa. Si el resultado fuera significativo, lo dirían como significativo. «Tendencia hacia» significa «fallamos pero queremos hablar igual».
Financiado por la industria con resultados todos positivos en múltiples desenlaces secundarios. La biología real es variable. Un artículo donde cada desenlace secundario se mueve en la dirección favorable sugiere reporte selectivo, salvo que el ensayo sea enorme.

Dónde encontrar artículos

PubMed (pubmed.ncbi.nlm.nih.gov) indexa la mayor parte de la literatura biomédica. Gratis para todos. El resumen siempre es gratis; el texto completo varía según el artículo.
PubMed Central (PMC) aloja versiones gratuitas a texto completo de artículos cuyos autores los depositaron. Filtra los resultados de PubMed por «Free full text» para limitarte a PMC.
ClinicalTrials.gov para las entradas de registro de ensayos (ensayos registrados en EE. UU.) - el protocolo preregistrado de cualquier ensayo moderno que merezca tomarse en serio. Los ensayos de la UE se registran en EudraCT / CTIS.
Sci-Hub (legalmente gris) para artículos tras paywall. Muchos lectores académicos lo usan de forma rutinaria; si es apropiado es una decisión personal.
La página institucional del autor o ResearchGate. Los investigadores suelen colgar PDF de sus propios artículos. Buscar el título más el nombre del autor más «PDF» suele producir una copia gratis.
Escríbele al autor correspondiente. Muchos envían un PDF a petición. Sorprendentemente infrautilizado.

Lo que frena a la gente

Leer sólo el resumen. El resumen es el copy de marketing del artículo. La sección de métodos es donde vive realmente el ensayo. Si vas a leer una sección a fondo, lee métodos.
Confundir significación estadística con significación clínica. p < 0,05 significa que el efecto probablemente no es cero. No dice nada sobre si el efecto es lo bastante grande como para preocuparse. Lo que importa es el tamaño del efecto; el valor p es el umbral para «el efecto probablemente existe».
Tratar hallazgos positivos en subgrupo como evidencia principal. El análisis de subgrupo es exploratorio por diseño. Promover «la tirzepatida funcionó mejor en pacientes con HbA1c >9,0 basal» como recomendación cuando la respuesta poblacional global fue distinta es mal uso.
Saltarse la discusión sobre abandonos. Una tasa de abandono del 40% en un brazo de tratamiento es el mayor hallazgo del ensayo y la mayoría de los artículos lo entierran en tablas suplementarias. Encuentra ese número; moldea todo lo demás.
Leer artículos de revisión en lugar de artículos primarios. Las revisiones son útiles para orientarse, pero son la interpretación de otra persona de la literatura primaria. Para las preguntas concretas que te importan, el artículo primario es la fuente de verdad. La revisión te dice qué artículos primarios existen; los artículos primarios te dicen lo que realmente mostraron.

Referencias cruzadas

Péptidos 101 - el marco de niveles de evidencia que este artículo operativiza.
Semaglutida vs tirzepatida vs retatrutida - mete los números de tamaño de efecto de los ensayos SURMOUNT y STEP en el marco comparativo.
Por qué desapareció la retatrutida - caso de estudio de otra variante de lectura de artículos: cuando un artículo de fase 2 produce una cifra de la que la empresa luego se aleja por motivos no relacionados con el ensayo.
Sourcing y verificación - literacia adyacente: leer las afirmaciones de vendedores / laboratorios con el mismo escepticismo que se aplica a los artículos de ensayos.

Fuentes

Jastreboff et al. SURMOUNT-1 (NEJM 2022) - https://www.nejm.org/doi/full/10.1056/NEJMoa2206038
Wilding et al. STEP-1 (NEJM 2021) - https://www.nejm.org/doi/full/10.1056/NEJMoa2032183
Stier et al. AOD-9604 fase 2b - https://pubmed.ncbi.nlm.nih.gov/23741561/
Oxford Centre for Evidence-Based Medicine, marco de niveles de evidencia - https://www.cebm.ox.ac.uk/resources/levels-of-evidence