Diario Bernabéu

Encuentra toda la información nacional e internacional sobre españa. Selecciona los temas sobre los que quieres saber más

Los estudiosos polacos han desarrollado un modelo lingüístico para producir textos largos.

Los estudiosos polacos han desarrollado un modelo lingüístico para producir textos largos.

Investigadores polacos han desarrollado un modelo de lenguaje de gran tamaño, LongLLaMA, basado en el programa OpenLLaMA creado por Meta. Está disponible para todos en Internet.

Los grandes modelos de lenguaje de código abierto permiten a los investigadores realizar trabajos avanzados. Se pueden utilizar para todas las tareas en las que los chatbots ya ayudan a las personas. Esto incluye, por ejemplo, crear texto, editar texto, hablar con el usuario, crear resúmenes o traducir.

LongLLaMA, a diferencia de ChatGPT, no tiene una interfaz online, pero cualquiera puede descargar el modelo desde el sitio web. AbrazosCara Y ejecútelo en su computadora.

El modelo admite potencialmente 64 veces más texto que ChatGPT, dicen sus creadores en un comunicado de prensa enviado a PAP.

LongLLaMA fue desarrollado por: Szymon Tworkowski, Konrad Staniszewski, Mikołaj Pacek y Piotr Miło, investigadores asociados con Ideas NCBR, Universidad de Varsovia Y Academia Polaca de CienciasYuhuai Wu, cofundador de xAI, la startup de Elon Musk, y Henryk Michalewski, asociado con la Universidad de Varsovia y Google DeepMind.

«LongLLaMA es un modelo de idioma polaco a gran escala, disponible para cualquier persona en Internet. Puede manejar 8.000 tokens a la vez, o aproximadamente de 30 a 50 páginas de texto, y en el caso de algunas tareas mucho más, hasta 256.000 tokens. «Aunque esto es sólo un resultado técnico», afirma el jefe del equipo, el Dr. Happ. Piotr Milos.

Cuando Meta, el propietario de Facebook, lanzó OpenLLaMA, se reunieron científicos de todo el mundo, incluidos los que trabajaban con el profesor. Miłoś, lo llevaron al taller y lo modificaron.

«Nuestro LongLLaMA es capaz de manejar contextos mucho más grandes de lo que era posible anteriormente, lo que significa que puede ‘comer’ más texto de una sola vez», explica el profesor. Milos.

READ  ¿Hay diferencias en los síntomas entre RSV, influenza y COVID-19?

Como explica, LongLLaMA puede manejar datos de entrada muy largos. Gracias a esto genera respuestas más consistentes y precisas que otros modelos.

LongLLaMA puede manejar cualquier cantidad de contexto sin truncarlo ni empaquetarlo, como lo muestran las pruebas de clave de acceso.

Los investigadores investigaron si LongLLaMA, después de recibir un mensaje muy largo (un comando complejo), sería capaz de recordar la contraseña dada inicialmente. OpenLLaMA solo podía manejar 2000 tokens y, en contextos más largos, su efectividad se redujo a cero. Mientras tanto, LongLLaMA mantuvo el 94,5%. Precisión después de recibir una solicitud de 100 000 tokens y 73 por ciento de precisión después de recibir 256 000 tokens.

Actualmente, este modelo puede producir textos coherentes de 8.000 caracteres. Potencial: hasta 256.000 iconos, lo que superaría significativamente, entre otros, a ChatGPT, valorado por sus creadores. Consume relativamente poca energía (un procesador es suficiente para usar LongLLaMA) y funciona muy rápido.

«¿Cómo puedes imaginar la diferencia? Si asumimos, por simplicidad, que la ficha es una sola palabra, entonces afirmemos que 2.000 palabras constituyen un artículo de aproximadamente 7 páginas. 256.000 palabras es aproximadamente la extensión de la novela Harry Potter y la Orden» El Fénix (257.000 palabras) o Ulises (265.000 palabras)” – comparen los eruditos polacos.

«ChatGPT es un producto comercial. Está optimizado para un uso divertido. Modelos como LongLLaMA emiten información en bruto sobre la cual se puede construir algo, por ejemplo, análisis de texto o producción de código», explica el profesor. Milos.

El software de código abierto puede ser modificado por profesionales de TI de todo el mundo, lo que lo distingue de ChatGPT, que no está disponible públicamente, aunque también se sabe que está basado en la arquitectura Transformer.

READ  Marruecos/Las ruinas de la antigua ciudad de Chellah son más extensas de lo que se pensaba

Como explican los autores del modelo polaco, se trata de un tipo de arquitectura de red neuronal que analiza el texto para discernir conexiones complejas entre palabras en muchas capas, aprendiendo patrones basados ​​en enormes cantidades de datos.

Esta tecnología ha revolucionado el procesamiento del lenguaje natural, permitiendo a los chatbots generar texto, traducir, conversar con el usuario y muchas otras tareas a un nivel que antes no estaba disponible para la inteligencia artificial.

El profesor Miłoś explica que cuando le hacemos una pregunta a un chatbot usando Transformer, este transforma el texto en tokens. Son piezas de información, normalmente de entre una letra y una palabra de longitud. En la frase “En 2023, de repente, los chatbots cambiaron nuestras vidas”. Un chatbot podría ver, por ejemplo, siete palabras, el número 2023, dos comas y un punto. Al dividir el texto en símbolos, la IA puede procesar la información de forma eficaz.

Sin embargo, la cantidad de tokens que un chatbot puede aceptar es limitada: en el caso de ChatGPT 3.5, el máximo de tokens es 4096, para OpenLLaMA – 2000, para Google Bard – alrededor de 1000.

Entonces, cuando le hacemos una pregunta larga al chatbot o proporcionamos mucha información, es posible que necesitemos cortar o eliminar algunas partes para cumplir con el límite de tokens. La mayoría de los programas de chat existentes no pueden analizar un libro completo, una conversación larga o un artículo.

«El potencial total de los grandes modelos de lenguaje a menudo está limitado por la cantidad de contexto que un modelo determinado puede asumir – dice Piotr Milo. – Por eso introdujimos el Focused Transformer (FoT), una técnica que utiliza un proceso de entrenamiento inspirado en divergentes aprendizaje Esto permite el enfoque El innovador ajusta los LLM existentes para que puedan abordar un contexto más amplio.

READ  Polscy studenci zaprogramowali transport publiczny w Abu Dhabi - Ministerstwo Edukacji i Nauki

Según el investigador de IDEAS NCBR y PAN, LongLLaMA es un gran logro porque muestra que los modelos de lenguaje grandes pueden superar las limitaciones relacionadas con la extensión de los reclamos y producir textos largos que serán útiles para los humanos.

En la conferencia NeurIPS 2023 en Nueva Orleans se aceptó una publicación dedicada a LongLLaMA, “Centered Transformer: Variational Training for Contextual Measurement”. https://arxiv.org/abs/2307.03170

Ciencia en Polonia

Coronel / bar /