Investigación revela las limitaciones de los modelos de IA en la comprensión del lenguaje
Un equipo de investigadores internacionales, liderado por la Universitat Rovira i Virgili (URV), ha llevado a cabo un estudio comparativo entre el rendimiento de siete modelos de inteligencia artificial (IA) y el de 400 humanos en tareas de comprensión del lenguaje. Los hallazgos son claros: a pesar de su éxito en ciertas tareas específicas, los modelos no logran igualar el nivel de competencia que presentan los seres humanos en pruebas simples de comprensión textual. Según los expertos, «la capacidad de los modelos para llevar a cabo tareas complejas no garantiza que sean competentes en tareas sencillas».
Los modelos extensos de lenguaje (MEL), que son redes neuronales diseñadas para generar textos automáticamente según las solicitudes del usuario, se especializan en actividades como la generación de respuestas, traducción y síntesis de contenidos. A menudo se les atribuyen habilidades similares a las humanas en términos de comprensión y razonamiento. Sin embargo, la investigación dirigida por Vittoria Dentella, investigadora del Grupo de Investigación en Lengua y Lingüística de la URV, pone en evidencia sus limitaciones: «Los MEL no comprenden realmente el lenguaje; simplemente aprovechan los patrones estadísticos presentes en sus datos de entrenamiento».
Análisis comparativo entre humanos y modelos de IA
Para evaluar el rendimiento en la comprensión textual, los investigadores formularon 40 preguntas a siete modelos de IA —Bard, ChatGPT-3.5, ChatGPT-4, Falcon, Gemini, Llama2 y Mixtral— utilizando estructuras gramaticales simples. Un grupo compuesto por 400 hablantes nativos de inglés respondió las mismas preguntas para comparar la precisión. Cada pregunta fue repetida tres veces para medir la consistencia.
Los resultados fueron reveladores: la media de aciertos entre los humanos alcanzó el 89%, superando notablemente al mejor modelo de IA (ChatGPT-4), que logró un 83%. Excepto por ChatGPT-4, ninguno de los otros MEL alcanzó una precisión superior al 70%. Además, los humanos mostraron mayor consistencia ante preguntas repetidas, manteniendo respuestas correctas en un 87% de los casos, mientras que la estabilidad de los modelos osciló entre el 66% y el 83%.
Dificultades inherentes a los modelos extensos
A pesar de que los MEL pueden generar textos gramaticalmente correctos y coherentes a primera vista, Dentella explica que «los resultados sugieren que no entienden el significado del lenguaje como lo hace un humano». En realidad, estos modelos operan identificando patrones textuales basados en datos previos y algoritmos predictivos estadísticos. Esta dinámica da lugar a dificultades para mantener criterios estables en sus respuestas y puede resultar en contestaciones incorrectas o descontextualizadas.
Dentella advierte sobre la fiabilidad limitada de esta tecnología para aplicaciones críticas: «Nuestra investigación demuestra que las capacidades de los MEL para realizar tareas complejas no garantizan su competencia en tareas sencillas, que requieren una verdadera comprensión del lenguaje».
Referencia: Dentella, V., Günther, F., Murphy, E. et al. Testing AI on language comprehension tasks reveals insensitivity to underlying meaning. Sci Rep 14, 28083 (2024). https://doi.org/10.1038/s41598-024-79531-8
La noticia en cifras
Cifra |
Valor |
Número de modelos de IA analizados |
7 |
Número de humanos participantes |
400 |
Porcentaje medio de aciertos de los humanos |
89% |
Porcentaje medio de aciertos del mejor modelo (ChatGPT-4) |
83% |
Consistencia de respuestas de los humanos |
87% |
Consistencia de respuestas de los modelos (oscilación entre) |
66% - 83% |
Preguntas sobre la noticia
¿Cuál fue el objetivo de la investigación liderada por la URV?
El objetivo de la investigación fue analizar las capacidades de siete modelos de inteligencia artificial en la comprensión del lenguaje y compararlas con las de 400 humanos en tareas de comprensión.
¿Qué resultados se obtuvieron al comparar los modelos de IA con los humanos?
Los resultados mostraron que, aunque algunos modelos como ChatGPT-4 alcanzaron un 83% de respuestas correctas, la media de aciertos de los humanos fue del 89%, evidenciando una gran diferencia en el rendimiento.
¿Por qué se considera que los modelos de IA no comprenden realmente el lenguaje?
Se considera que los modelos no comprenden el lenguaje porque simplemente aprovechan patrones estadísticos presentes en sus datos de entrenamiento, sin integrar elementos semánticos, gramaticales, pragmáticos y contextuales como lo hace un humano.
¿Cuáles son las limitaciones observadas en los modelos de IA según la investigación?
Las limitaciones incluyen una falta de estabilidad y precisión en las respuestas, especialmente ante preguntas repetidas. Los modelos mostraron inconsistencias en sus respuestas, oscilando entre un 66% y un 83% de estabilidad.
¿Qué implicaciones tiene esta investigación para el uso de la IA en aplicaciones críticas?
La investigación sugiere que la tecnología actual no es lo suficientemente fiable para aplicaciones críticas que requieren una comprensión real del lenguaje, ya que los modelos pueden ofrecer respuestas incorrectas o fuera de contexto.