La IA médica aún no puede interpretar casos complejos. La llegada de grandes modelos de lenguajes multimodales iniciará la verdadera revolución y la verdadera asistencia.
Andrea Koncz
El desarrollo de modelos multimodales de lenguaje grande (M-LLM) es crucial para el futuro de la medicina, ya que pueden procesar e interpretar múltiples tipos de datos simultáneamente, a diferencia de los sistemas de IA unimodales actuales. Esto permitirá un análisis integral en medicina, facilitará la comunicación entre los proveedores de atención médica y los pacientes que hablan diferentes idiomas y servirá como un centro central para diversas aplicaciones de IA unimodales en hospitales.
Si bien el debut público de modelos de lenguaje grande (LLM) como ChatGPT ha sido un éxito rotundo, los sistemas de inteligencia artificial actuales carecen de la capacidad de procesar múltiples tipos de datos, lo que los hace inadecuados para la naturaleza multimodal de la medicina. La transición a M-LLM será necesaria para reducir sustancialmente la carga de trabajo de los profesionales de la salud.
Sin duda, el futuro de la medicina está indisolublemente ligado al desarrollo de la inteligencia artificial (IA). Aunque esta revolución se ha estado gestando durante años, los últimos meses marcaron un cambio importante , ya que los algoritmos finalmente salieron de los laboratorios especializados y llegaron a nuestra vida diaria .
El debut público de Large Language Models (LLM), como ChatGPT, que se convirtió en la aplicación de consumo de más rápido crecimiento de todos los tiempos, ha sido un gran éxito. Los LLM son modelos de aprendizaje automático entrenados con una gran cantidad de datos de texto que les permiten comprender y generar texto similar a un humano en función de los patrones y estructuras que han aprendido. Se diferencian significativamente de los métodos de aprendizaje profundo anteriores en escala, capacidades e impacto potencial.
Los grandes modelos de lenguaje pronto encontrarán su camino en los entornos clínicos cotidianos , simplemente porque la escasez global de personal sanitario se está volviendo grave y la IA ayudará en tareas que no requieren profesionales médicos capacitados. Pero antes de que esto pueda suceder, antes de que tengamos un marco regulatorio suficientemente sólido , ya estamos viendo cómo esta nueva tecnología se está utilizando en la vida cotidiana .
Para comprender mejor lo que nos espera, exploremos otro concepto clave que desempeñará un papel importante en la transformación de la medicina: la multimodalidad .
Los médicos y enfermeras son supercomputadoras, la IA médica es una calculadora
Un sistema multimodal puede procesar e interpretar múltiples tipos de datos de entrada, como texto, imágenes, audio y video, simultáneamente. Las IA médicas actuales solo procesan un tipo de datos, por ejemplo, texto o imágenes de rayos X.
Sin embargo, la medicina, por naturaleza, es multimodal al igual que los humanos. Para diagnosticar y tratar a un paciente, un profesional de la salud escucha al paciente, lee su expediente médico, observa imágenes médicas e interpreta los resultados de laboratorio. Esto va mucho más allá de lo que cualquier IA es capaz de hacer hoy en día.
La diferencia entre los dos se puede comparar con la diferencia entre un corredor y un pentatleta. Un corredor sobresale en una disciplina, mientras que un pentatleta debe sobresalir en múltiples disciplinas para tener éxito.
Los modelos de lenguajes grandes (LLM) actuales son los corredores, son unimodales. Los humanos en medicina son campeones de equipos de pentatlón.
Actualmente, la mayoría de los modelos de lenguajes grandes (LLM, por sus siglas en inglés) como GPT-4 son unimodales, lo que significa que solo pueden analizar textos. Aunque se ha descrito que GPT-4 también puede analizar imágenes, por ahora solo puede hacerlo a través de su API.
Desde la perspectiva de The Medical Futurist, está claro que los LLM multimodales (M-LLM) llegarán pronto, de lo contrario, la IA no podrá contribuir significativamente a la naturaleza multimodal de la medicina y la atención. Cuando lo hagan, significará el comienzo de una era en la que estos sistemas reducirán significativamente la carga de trabajo de los profesionales de la salud humana, pero no los reemplazarán.
El futuro son los M-LLM
El desarrollo de M-LLM tendrá al menos tres consecuencias importantes:
1. La IA manejará múltiples tipos de contenido, desde imágenes hasta audio.
Un M-LLM podrá procesar e interpretar varios tipos de contenido, lo cual es crucial para un análisis integral en medicina. Podríamos enumerar cientos de ejemplos sobre los beneficios de un sistema de este tipo, pero mencionaremos sólo algunos de las cinco categorías siguientes:
- Análisis de texto : los M-LLM serán capaces de manejar una gran cantidad de tareas administrativas, clínicas, educativas y de marketing, desde actualizar registros médicos electrónicos hasta resolver estudios de casos.
- Análisis de imágenes : otra área amplia en términos de posibles casos de uso, que abarca desde la lectura de notas escritas a mano hasta el análisis de imágenes de radiología (oftalmología, neurología, patología, etc.).
- Análisis de sonido : los M-LLM eventualmente se volverán competentes en el monitoreo de enfermedades, como verificar los sonidos cardíacos y pulmonares en busca de anomalías para garantizar una detección temprana, pero los sonidos también pueden proporcionar información valiosa en aplicaciones de rehabilitación y salud mental.
- Análisis de vídeo : un algoritmo avanzado podrá guiar a un estudiante de medicina en su formación quirúrgica en realidad virtual sobre cómo apuntar con precisión, moverse y proceder, pero los vídeos también podrían utilizarse para detectar afecciones neurológicas o ayudar a los pacientes a comunicarse con el lenguaje de signos.
- Análisis de documentos complejos : esto incluirá asistencia en la revisión e investigación de la literatura, análisis de pautas médicas para la toma de decisiones clínicas y codificación clínica, entre muchas otras formas de uso.
2. Romperá las barreras del idioma
Estos M-LLM facilitarán fácilmente la comunicación entre los proveedores de atención médica y los pacientes que hablan diferentes idiomas, traduciendo entre varios idiomas en tiempo real.
Especialista : «¿Puedes señalar dónde te duele?»
M-LLM (Translating for Patient): “¿Puede señalar dónde le duele?”
El paciente señala la parte inferior del abdomen.
M-LLM (Traducción para especialistas): “El paciente señala la parte inferior del abdomen”.
Especialista : “En una escala del 1 al 10, ¿cómo calificarías tu dolor?”
M-LLM (Translating for Patient): “En una escala del 1 al 10, ¿cómo calificaría su dolor?”
Paciente : “Es un 8”.
M-LLM (Traductor para Especialista): “Es un 8.
3. Finalmente, la llegada de la interoperabilidad puede conectar y armonizar varios sistemas hospitalarios.
Un M-LLM podría servir como un centro que facilite el acceso a diversas IA unimodales utilizadas en el hospital, como software de radiología, software de gestión de seguros, registros médicos electrónicos (EMR), etc. La situación actual es la siguiente:
Una empresa fabrica software para el departamento de radiología que utiliza un determinado formato de IA en su trabajo diario. El algoritmo de otra empresa trabaja con los registros médicos electrónicos del hospital y otro proveedor externo crea inteligencia artificial para compilar informes de seguros. Sin embargo, los médicos normalmente solo tienen acceso al sistema estrictamente relacionado con su campo; por ejemplo, un radiólogo tiene acceso a la IA radiológica, pero un cardiólogo no. Y, por supuesto, estos algoritmos no se comunican entre sí. Si el departamento de cardiología utilizara un algoritmo que analizara los signos cardíacos y pulmonares, los gastroenterólogos o psiquiatras probablemente no tendrían acceso a él, aunque sus hallazgos también podrían ser útiles para su diagnóstico.
El paso significativo será cuando los M-LLM, eventualmente, sean capaces de comprender el lenguaje y el formato de todas estas aplicaciones de software y ayuden a las personas a comunicarse con ellas. Un médico promedio podrá entonces trabajar fácilmente con el software de IA radiológica, el software de IA que gestiona los EMR y la cuarta y octava (etc.) IA utilizada en el hospital.
Este potencial es muy importante porque tal avance no se producirá de otra manera. Ninguna empresa creará dicho software porque no tiene acceso a los datos de IA desarrollados por empresas individuales. Sin embargo, el M-LLM podrá comunicarse con estos sistemas individualmente y, como eje central, proporcionará una herramienta de inmensa importancia para los médicos.
La transición de la IA unimodal a la multimodal es un paso necesario para aprovechar plenamente el potencial de la IA en la medicina. Al desarrollar M-LLM que puedan procesar múltiples tipos de contenido, romper las barreras del idioma y facilitar el acceso a otras aplicaciones de inteligencia artificial, podemos revolucionar la forma en que practicamos la medicina. El camino desde ser una calculadora hasta llegar a ser las supercomputadoras que llamamos médicos es un desafío, pero es una revolución a punto de suceder.