Investigadores de la Universidad de Ciencia y Tecnología de Wrocław examinaron si ChatGPT entiende chistes, detecta errores de lenguaje, sarcasmo y agresión, y reconoce spam. Le pidieron al programa que realizara más de 38.000 tareas. En este momento, es peor que el software especializado moderno, y mucho menos las personas, según un estudio aún por revisar.
«Para un programa que no se entrenó específicamente en esta área, ChatGPT se desempeñó bien de todos modos», comentó uno de los autores del estudio, el Dr. Jean Cocuy.
Lenguaje natural en la comunicación informática
«La gente ya está acostumbrada a usar formularios, comandos o palabras clave en lugar del lenguaje natural cuando se comunica con las computadoras. El objetivo principal del desarrollo de ChatGPT es dar un paso hacia la interacción natural entre humanos y computadoras en forma de conversación. Revolucionario» – explica el Dr. Jan Koczew de la Universidad de Wroclaw para tecnología. Sin embargo, ChatGPT pronto comenzó a usarse para propósitos que sus creadores no vieron: resolver problemas muy diferentes que a menudo requerían una gran comprensión del idioma y el conocimiento de los contextos que acompañan el uso del idioma. Entonces, la pregunta es qué tan bien informado está ChatGPT en estas áreas.
Cómo hacer 38 mil preguntas
Científicos del equipo de CLARIN-PL -involucrados en investigaciones sobre inteligencia artificial y procesamiento del lenguaje natural- decidieron investigarlo sistemáticamente. Pusieron su nuevo software de chat a pruebas rigurosas. Pidieron más de 38 mil AI. consultas.
«Fue muy tedioso, ya que no había API para hacer muchas preguntas. También había solo una versión gratuita con un límite de 50 preguntas por hora por usuario. Le presté a 20 personas del equipo sus cuentas de ChatGPT, gracias a lo cual fue posible Hacer automáticamente alrededor de 2,000 preguntas por día ”- dice el Dr. Kocoń.
Este es uno de los estudios más grandes sobre el chat de GPT hasta la fecha. Actualmente, estos estudios aún no han sido revisados por pares, tal como lo pusieron a disposición los investigadores. preimpresión.
ChatGPT y la competencia
Los investigadores querían comparar cómo ChatGPT se compara con los mejores modelos disponibles en el mercado para el análisis automático del lenguaje. Por ejemplo, los sistemas de análisis de sentimientos. Estos son programas que, por ejemplo, permiten a las empresas de marketing analizar los sentimientos que evoca en línea una determinada información, servicio o marca. «Hemos recibido consultas de empresas sobre si vale la pena abandonar estos programas especializados y confiar únicamente en ChatGPT», dijo el Dr. Kocoń.
¿solicitar? Actualmente, ChatGPT tiene un precio peor que estos programas. Y cuanto más se adapten otros modelos a una tarea en particular, menos ChatGPT actuará contra ellos. Cometió errores que la mayoría de la gente notaría.
“Ningún especialista en todas las materias ha llegado a dominar ninguna de ellas”, evaluaron los académicos en sus publicaciones.
Base de datos de evaluaciones humanas
Los investigadores examinaron 25 áreas temáticas asociadas con grandes bases de datos de diferentes textos, donde cada texto ya había sido evaluado manualmente por sujetos. Por ejemplo, se utilizó una base de datos de casi 40.000 tuits de Twitter, cada uno de los cuales ya había sido calificado por varias personas como sarcástico o no. También se utilizó la base de datos del Proyecto de desintoxicación de Wikipedia, donde los wikipedistas votan si un comentario en particular es ofensivo o no. También se utilizó una base de datos de decenas de miles de entradas de Reddit marcadas por expertos por contener sentimientos específicos.
Los investigadores le hicieron a Chat GPT las mismas preguntas que la gente ya había respondido. Por ejemplo, preguntaron si el texto que citaron era spam o si contenía sarcasmo, era humorístico, ofensivo o si era gramaticalmente correcto. También hubo solicitudes para reconocer emociones en el texto, sacar conclusiones a partir de la información incluida en el texto o resolver tareas matemáticas sencillas «con contenido».
«En las 25 áreas examinadas, el chatbot de OpenAI fue significativamente inferior a sus competidores. Actualmente, los mejores (modernos) modelos de procesamiento de lenguaje natural SOTA fueron mucho mejores para capturar la corrección gramatical, las emociones del usuario y el significado de las palabras, y para responder preguntas con mayor precisión. “Sin embargo, los resultados logrados por ChatGPT son impresionantes, dado que para la mayoría de las tareas probadas, el modelo no fue entrenado previamente directamente para resolverlas”, comentaron los científicos en el comunicado de investigación enviado a PAP.
El Dr. Kocoń agrega que la pérdida de ChatGPT frente a otros modelos fue un promedio de 25 puntos porcentuales. ChatGPT fue el peor en la evaluación de sentimientos y tareas del mundo real que requieren conocimiento sobre el mundo. Mejor: con tareas semánticas, donde la respuesta a la pregunta se puede extraer del texto analizado.
Los investigadores señalan que los modelos de procesamiento de lenguaje natural especializados que ya están en el mercado están diseñados para un solo propósito, como capturar automáticamente comentarios agresivos. Son más pequeños, más rápidos y están capacitados en conjuntos de datos específicos que responden a las necesidades de los usuarios.
ChatGPT, aunque sus respuestas fueron menos precisas que otros modelos, tiene otras fortalezas en las que supera a la competencia. Su ventaja fue que pudo explicar por qué se le dio la respuesta. Y fue creativo con sus respuestas: cuando se le hizo la misma pregunta varias veces, las respuestas variaron (lo que desafortunadamente también significa que a veces el bot respondió correctamente, a veces, no).
“Por el momento, ChatGPT no reemplazará estos modelos especializados, pero nos abre nuevas oportunidades, muestra cómo se desarrollará el mundo”, concluye el Dr. Kocoń.
Según el investigador, hay muchas profesiones que ChatGPT puede reemplazar. El Dr. Kocoń advierte que las posibilidades que ofrece el bot probablemente reducirán la demanda de empleados del centro de llamadas. «Sin embargo, aparecerán otras profesiones que antes no existían, como un ingeniero instantáneo, una persona que se especializa en componer buenos comandos para un chatbot», cree el científico. En programación, educación, revisión o traducción de textos.
El proyecto CLARIN-PL es el mayor proyecto de desarrollo de IA financiado con fondos públicos en Polonia. En su implementación participan 6 institutos y más de 20 empresas. La mayor parte del equipo trabaja en la Universidad Tecnológica de Wrocław. El objetivo principal del proyecto es desarrollar herramientas para el procesamiento automático de datos de texto grandes principalmente en polaco (procesamiento del lenguaje natural – NLP).
Ciencia en Polonia, por Ludwik Tomala
l / agente /
«Alborotador. Ávido fanático del tocino. Practicante independiente del alcohol. Ninja de Internet. Introvertido. Adicto a las redes sociales. Experto en la cultura pop».
More Stories
¿Qué hacer para vivir mejor? Un experto en la regla de los 300 minutos y qué tirar de la nevera
El misterio de la muerte clínica. Los científicos han hecho un descubrimiento maravilloso.
Todos los días tenemos un producto popular en nuestra nevera. «Puede suponer un riesgo para la salud»