¿Puede un solo modelo de inteligencia artificial servir para todo en medicina?

Dr. Marco V. Benavides Sánchez. Medmultilingua.com /

Imagina que en tu hospital necesitas predecir si un paciente va a deteriorarse en las próximas horas, cuántas camas libres habrá mañana, o si ciertos valores de laboratorio van a dispararse. Hoy, cada uno de esos problemas suele requerir un modelo de inteligencia artificial diferente, entrenado específicamente para esa tarea. Pero, ¿y si un solo modelo pudiera hacer todo eso —y además funcionar en otro hospital— sin necesidad de empezar desde cero?

Esa es la pregunta central de un estudio reciente de Pucher y colaboradores, publicado en Artificial Intelligence in Medicine. Y la respuesta es que si es posible.

El problema que nadie quiere ignorar

Los hospitales modernos generan una cantidad enorme de datos a lo largo del tiempo: signos vitales registrados cada hora, resultados de laboratorio, flujos de pacientes, ocupación de camas. Analizar esa información de manera oportuna puede salvar vidas o mejorar la gestión de recursos. Pero construir un modelo de IA para cada uno de esos usos es costoso, lento y difícil de mantener. O simplemente está fuera del alcance de ese sistema de salud en particular.

Aquí entran los llamados foundation models: sistemas de inteligencia artificial entrenados previamente con grandes volúmenes de datos variados, capaces de adaptarse a múltiples tareas sin necesitar un entrenamiento extenso desde cero. En lenguaje informático, dos de los más conocidos para series de tiempo son Chronos y TimesFM. La promesa es atractiva, pero hasta ahora había poca evidencia sólida de cómo se comportan en entornos clínicos reales.

Cómo se hizo el estudio

Los investigadores trabajaron con datos de tres hospitales universitarios alemanes, incluyendo el Hospital Universitario de Essen con MIMIC IV, una base de datos norteamericana ampliamente utilizada en investigación biomédica. Definieron seis escenarios clínicos concretos —predicción de signos vitales, valores de laboratorio, capacidad hospitalaria, entre otros— y compararon los foundation models frente a métodos más tradicionales como redes neuronales, modelos estadísticos clásicos y gradient boosting.

La evaluación se hizo en dos condiciones. Primero, en modo zero-shot: los modelos se usaron tal como vienen, sin ningún entrenamiento adicional con datos locales. Segundo, con fine-tuning: se ajustaron con una pequeña cantidad de datos del propio hospital. Además, los investigadores analizaron algo crucial para la práctica clínica: ¿qué pasa cuando una predicción numérica (por ejemplo, una probabilidad) se convierte en una decisión binaria, como «riesgo alto» o «riesgo bajo»?

Lo que encontraron

Los resultados sorprenden por su consistencia. En modo zero-shot, los foundation models alcanzaron un rendimiento cercano al de los modelos especializados, que habían sido optimizados específicamente para cada tarea. Esto significa que, sin haber «visto» antes los datos de ese hospital, el modelo ya era competitivo. No ganaba siempre, pero tampoco quedaba muy atrás.

Cuando se aplicó fine-tuning, la historia cambió aún más a su favor. Chronos y TimesFM se ubicaron entre los mejores modelos en 19 y 18 de los escenarios evaluados, respectivamente. Los ensambles automáticos
(o AutoML ensembles: modelos que combinan varios algoritmos de IA para producir una predicción más precisa y estable que la de un solo modelo), considerados el estándar de referencia, lo lograron en 21 ocasiones. Es decir, con un ajuste mínimo, los foundation models se vuelven prácticamente equivalentes a lo mejor que existe hoy.

Pero quizás el hallazgo más relevante para la práctica real es otro: los foundation models generalizan mejor entre instituciones. En términos sencillos, funcionan bien en un hospital distinto al que se usó para entrenarlos. Esto es un desafío histórico en IA médica: un modelo entrenado en un hospital de Alemania puede rendir mal en uno de México o Colombia, porque los pacientes, los protocolos y hasta los equipos de medición son diferentes. Los foundation models mostraron más estabilidad ante esas variaciones.

Lo que hay que tener en cuenta

El estudio también advierte algo importante: cuando las predicciones continuas se convierten en decisiones clínicas binarias —activar una alerta, escalar un caso, modificar un tratamiento—, los resultados dependen mucho de cómo se calibra ese umbral de decisión (punto a partir del cual un modelo convierte una predicción en una decisión categórica). Un modelo puede generar muchas falsas alarmas o, al contrario, pasar por alto casos críticos si no se ajusta cuidadosamente al contexto local.

Esto no es una limitación exclusiva de los foundation models, sino un recordatorio general: la IA en medicina no es un botón que se aprieta y listo. Requiere validación, supervisión clínica y adaptación continua.

¿Qué cambia con esto?

Este estudio ofrece evidencia sólida de que los foundation models son una alternativa real para el pronóstico clínico basado en series de tiempo (datos que cambian con el tiempo y que la IA aprende a pronosticar). No reemplazan el juicio clínico ni eliminan la necesidad de supervisión, pero sí abren la puerta a una IA hospitalaria más accesible, más flexible y más fácil de mejorar.

Para los sistemas de salud con recursos limitados, o para hospitales que no tienen equipos de datos capaces de construir modelos desde cero, esto es especialmente relevante: la posibilidad de usar un modelo universal, adaptarlo con pocos datos locales y desplegarlo en múltiples tareas podría acelerar enormemente la adopción de la IA clínica.

¿Un solo modelo que sirve para mucho en Medicina? No es ciencia ficción: ya tiene evidencia publicada.

Referencia

Pucher, G., Dada, A., Agbodoyetin, A., Nensa, F., Schuler, M., Reinhardt, H. C., Kleesiek, J., & Sauer, C. M. (2026). Can one model fit all? Evaluating foundation models for time series forecasting across clinical medicine. Artificial Intelligence in Medicine, 103473. https://doi.org/10.1016/j.artmed.2026.103473

Hashtags recomendados

#AIinMedicine #TimeSeriesForecasting #FoundationModels #ClinicalAI #HealthcareData #MedicalInnovation #MachineLearning #Chronos #TimesFM #ClinicalForecasting #DigitalHealth #Medmultilingua

Inteligencia Artificial en Medicina

¿Puede un solo modelo de inteligencia artificial servir para todo en medicina?

Deja una respuesta Cancelar la respuesta