Chatgpt léxico
Imagen: Archivo

Desde que llegó al mercado hace un año, ChatGPT, una inteligencia artificial capaz de crear contenidos originales y tareas relacionadas con la lengua, se ha convertido en una herramienta de enorme popularidad. Ahora un estudio señala que desconoce 20% del léxico español y que comete errores en el 80% restante.

Según datos de OpenAI -la empresa creadora-, cada semana cien millones de personas usan este chatbot para hacer tareas relacionadas con el lenguaje.

La herramienta está entrenada para mantener conversaciones y generar textos. Y aunque puede producir respuestas que parecen plausibles, son completamente erróneas.

Para evaluar el rendimiento de ChatGPT y su capacidad real, un equipo de investigadores españoles ha desarrollado una aplicación, denominada ChatWord. Ésta permite evaluar el conocimiento léxico de ChatGPT en varios idiomas.

Para ello se usó como referencia las palabras recogidas en el diccionario de la Real Academia de la Lengua y las que aparecen en El Quijote de Miguel de Cervantes.

El estudio reveló que de las más de 90.000 palabras incluidas en el diccionario de la Real Academia de la Lengua, el modelo ChatGPT3.5turbo desconoce aproximadamente el 20%, es decir, unas 18.000 palabras.

Además, del 80% restante de las palabras del diccionario y del 90% de las palabras del Quijote, ChatGPT cometió errores en cerca de 5% de los términos.

El pobre conocimiento de ChatGPT

El estudio recuerda que un hispanohablante reconoce 30.000 palabras de media. Es decir, casi un tercio del léxico español, un dato que puede parecer pobre comparado con el de una máquina, advierten los autores.

Pero «como pasa muchas veces con los sistemas de inteligencia artificial, no es oro todo lo que reluce. Y al analizar los significados que da ChatGPT de las palabras, vemos que hay un porcentaje no despreciable en que el sentido que señala es incorrecto«, explica Javier Conde, coautor del trabajo.

«Quizás ChatGPT no sea hoy en día tan sabio como aparenta», añade.

El estudio recuerda que los modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés), basados en inteligencia artificial y diseñados para procesar y comprender lenguaje natural en una escala enorme -como ChatGPT- no usan palabras que no conocen.

Pedro Reviriego, también coautor de la investigación, considera que el dato es preocupante. Señala que si estos sistemas solo usan las palabras que conocen, resulta «muy factible un escenario en que el contenido recién generado tenga un número cada vez menor de palabras distintas», y de escasa riqueza léxica, avisa.

La aplicación ChatWords es un sistema de acceso público, diseñada para ser fácil de usar y ampliar.

Los investigadores quieren evaluar otros idiomas y LLM. Así comprenderán mejor el conocimiento léxico que tienen las herramientas de inteligencia artificial. También sabrán cómo evoluciona a medida que aparecen nuevas versiones y herramientas.


El periodismo independiente necesita del apoyo de sus lectores para continuar y garantizar que las noticias incómodas que no quieren que leas, sigan estando a tu alcance. ¡Hoy, con tu apoyo, seguiremos trabajando arduamente por un periodismo libre de censuras!