Meta AI ha presentado una propuesta innovadora para mejorar los modelos de lenguaje grandes (LLMs) mediante el uso de nuevas capas de memoria escalables. Estas capas buscan aumentar la capacidad de aprendizaje de los modelos sin requerir recursos computacionales adicionales, lo que podría ser una solución clave para mejorar la precisión factual y reducir las alucinaciones en los modelos de inteligencia artificial.
Introducción a las nuevas capas de memoria de Meta
Meta AI ha desarrollado una nueva arquitectura conocida como capas de memoria escalables, que promete mejorar significativamente la capacidad de aprendizaje de los modelos de lenguaje grandes (LLMs). Estas capas añaden más parámetros a los LLMs, aumentando su capacidad de aprendizaje sin necesidad de recursos computacionales adicionales. Esta innovación es especialmente útil en aplicaciones donde se requiere memoria adicional para el conocimiento factual, pero también se desea mantener la velocidad de inferencia de modelos más ágiles.
Diferencias entre capas densas y capas de memoria
Los modelos de lenguaje tradicionales utilizan capas «densas» para codificar grandes cantidades de información en sus parámetros. En estas capas densas, todos los parámetros se utilizan a plena capacidad y se activan mayoritariamente al mismo tiempo durante la inferencia. Aunque estas capas pueden aprender funciones complejas, aumentarlas requiere recursos computacionales y energéticos adicionales. En contraste, las capas de memoria utilizan activaciones dispersas y mecanismos de búsqueda de clave-valor para codificar y recuperar conocimiento. Aunque estas capas ocupan más memoria que las capas densas, solo utilizan una pequeña parte de los parámetros a la vez, lo que las hace mucho más eficientes computacionalmente.
Mejoras en la implementación de capas de memoria
Las capas de memoria han existido durante varios años, pero rara vez se utilizan en arquitecturas modernas de aprendizaje profundo. Meta AI ha propuesto varias modificaciones que resuelven estos desafíos y permiten su uso a gran escala. Por ejemplo, las capas de memoria pueden almacenar conocimiento en paralelo a través de varios GPUs sin ralentizar el modelo. Además, los investigadores han implementado un kernel especial de CUDA para manejar operaciones de alta memoria y desarrollado un mecanismo de compartición de parámetros que soporta un solo conjunto de parámetros de memoria a través de múltiples capas de memoria dentro de un modelo.
Aplicaciones y beneficios de las capas de memoria escalables
Las capas de memoria escalables de Meta AI tienen el potencial de revolucionar la forma en que los modelos de lenguaje manejan el conocimiento factual y reducen las alucinaciones. En pruebas, los modelos de lenguaje mejorados con estas capas superaron a los modelos densos con más del doble del presupuesto computacional, así como a los modelos de «mezcla de expertos» cuando se compararon por ambos recursos computacionales y parámetros. Estos avances son especialmente pronunciados en tareas relacionadas con el conocimiento factual, lo que demuestra la eficacia de las capas de memoria en mejorar la precisión de los modelos de lenguaje.
Reflexiones adicionales
La introducción de las capas de memoria escalables por parte de Meta AI representa un avance significativo en el campo de la inteligencia artificial. Esta innovación no solo mejora la precisión factual de los modelos de lenguaje, sino que también abre nuevas posibilidades para el diseño y la usabilidad de futuros modelos. Con la creciente demanda de tecnologías más adaptables y eficientes, Meta ha dado un paso adelante al ofrecer una solución que combina capacidad de aprendizaje, eficiencia computacional y precisión en un solo paquete.
163