La última versión de ChatuGPT puede interpretar los resultados de las pruebas de imágenes médicas tan bien que ha pasado la prueba del radiólogo; Sin embargo, todavía hay algunas fallas obvias que limitan la confiabilidad de tales diagnósticos, informa la revista «Radiology».
ChatGPT es un chatbot impulsado por inteligencia artificial (IA). Usando un modelo de aprendizaje profundo, reconoce patrones y relaciones de palabras en grandes conjuntos de datos para generar respuestas similares a las humanas. A veces, sin embargo, sus respuestas no se corresponden con la realidad.
«El uso de modelos de lenguaje grande como ChatGPT está aumentando y seguirá creciendo», dijo el autor principal, el Dr. Rajesh Bhayana, radiólogo de la Universidad de Imágenes Médicas en Toronto, Canadá. «Nuestra investigación proporciona información sobre las capacidades de ChatuGPT en el contexto de la radiología y destaca el increíble potencial de los modelos de lenguaje grande, junto con las limitaciones actuales que los hacen poco confiables».
Como señaló el Dr. Bhayana, ChatGPT fue reconocida recientemente como la aplicación de consumo de más rápido crecimiento en la historia, y chatbots similares se están integrando en motores de búsqueda populares como Google y Bing que los médicos y pacientes usan para buscar información médica.
Para evaluar la efectividad de la IA para aprobar un examen de radiólogo y explorar sus fortalezas y debilidades, el Dr. Bhayana y sus colegas primero probaron ChatGPT contra GPT-3.5, la versión actualmente más utilizada, utilizando el contenido y la dificultad de RCCA y CA. Junta examinadora de radiología.
Las preguntas no contenían imágenes y se agruparon para evaluar actividades mentales más simples (recordar conocimientos y comprensión básicos) y actividades mentales más complejas (aplicación, análisis, síntesis). En el caso de los casos más complejos, se evaluaron las descripciones de las características existentes del cuadro, el manejo clínico, la clasificación y la correlación de la enfermedad.
El desempeño de ChatuGPT ha sido evaluado en general y por tipo de pregunta y tema.
Los investigadores encontraron que ChatGPT basado en GPT-3.5 respondió correctamente el 69 por ciento de las veces. Preguntas (104 de 150), cerca de una calificación positiva del 70 por ciento. utilizado por el Royal College of Canada; Sin embargo, tuvo dificultades con las preguntas relacionadas con el pensamiento de orden superior (60 %, 53 de 89), aritmética y clasificación (25 %, 2 de 8) y el uso de conceptos (30 %, 3 de 10). Su pobre desempeño en preguntas de orden superior no sorprende dada su falta de formación inicial en radiología.
En otro estudio, GPT-4, disponible en marzo de 2023 como servicio pago, respondió correctamente el 81% de las preguntas. (121 de 150) de las mismas preguntas, pasando GPT-3.5 y pasando el 70% de aprobación. GPT-4 se desempeñó significativamente mejor que GPT-3.5 para actividades intelectualmente más complejas, especialmente cuando se trataba de describir resultados de imágenes (85 %) y usar conceptos (90 %).
Los resultados indican que las capacidades mejoradas de inferencia avanzada de GPT-4 se traducen en un mejor rendimiento en un contexto radiométrico.
«Nuestro estudio muestra mejoras impresionantes en el rendimiento de ChatuGPT en radiología a corto plazo, lo que destaca el creciente potencial de los modelos de lenguaje grande en este contexto», dijo el Dr. Bhayana.
GPT-4 no mostró mejoras en las preguntas de función mental de orden inferior (80 % frente a 84 %) y respondió incorrectamente en 12 preguntas que GPT-3.5 contestó correctamente, lo que generó dudas sobre su confiabilidad en la recopilación de información.
«Inicialmente nos sorprendieron las respuestas precisas y confiables de ChatuGPT a algunas de nuestras difíciles preguntas de radiología, pero también nos sorprendieron algunas de las afirmaciones sin sentido y altamente inexactas», dijo el Dr. Bhayana.
Si bien la peligrosa tendencia de ChatuGPT a generar respuestas imprecisas (llamadas «alucinaciones») es menos común en la versión GPT-4, aún limita su utilidad en la educación médica y la práctica clínica.
Ambos estudios mostraron que ChatGPT siempre hablaba de una manera que indicaba que estaba seguro de algo, incluso cuando estaba equivocado.
«Para mí, esta es su mayor limitación. Actualmente, ChatGPT es más adecuado para generar ideas, ayudar a iniciar el proceso de redacción médica y resumir datos. Si se usa para recuperar información rápidamente, siempre debe verificarse», señaló el Dr. Bhajana. . (PAPILLA).
Autor: Paul Wernicke
pmw/bar/
«Alborotador. Ávido fanático del tocino. Practicante independiente del alcohol. Ninja de Internet. Introvertido. Adicto a las redes sociales. Experto en la cultura pop».
More Stories
¿Qué hacer para vivir mejor? Un experto en la regla de los 300 minutos y qué tirar de la nevera
El misterio de la muerte clínica. Los científicos han hecho un descubrimiento maravilloso.
Todos los días tenemos un producto popular en nuestra nevera. «Puede suponer un riesgo para la salud»