En un principio, las redes neuronales eran como cajas negras, un enigma en el proceso de toma de decisiones. Imagina intentar entender a alguien que habla un idioma desconocido sin acceso al diccionario. Esa opacidad limitaba nuestra comprensión y confianza en estos modelos por lo que algunos decidimos abandonarlos hace más de treinta años cuando los intentamos aplicar en aplicaciones industriales.

Por eso, años después la llegada de proyectos como Pythia están cambiando el juego. Pythia se propone alcanzar la completa reproducibilidad de los modelos de lenguaje gigantes (LLMs). ¿Cómo? Compartiendo no solo los resultados finales sino también el código de entrenamiento, los conjuntos de datos y checkpoints intermedios. ¡Una ventana abierta a cómo estos modelos toman decisiones, desmitificando el proceso y llevando la transparencia a nuevas alturas!

La llegada de modelos de lenguaje gigantes (LLMs) como LLaMA, Falcon y Mistral ha revolucionado el panorama de la inteligencia artificial. Sin embargo, la falta de transparencia en los procesos de entrenamiento ha sido un obstáculo persistente para los profesionales y académicos. La mayoría de los LLMs de código abierto han compartido solo componentes selectos, dejando a la comunidad con preguntas sobre los detalles cruciales del proceso de entrenamiento.

LLM360: Un paso hacia la transparencia total

En respuesta a esta necesidad de transparencia, un equipo de investigadores de Petuum, MBZUAI, USC, CMU, UIUC y UCSD ha presentado LLM360. Este proyecto tiene como objetivo principal abrir por completo el código fuente de LLMs, proporcionando no solo los pesos finales del modelo o los scripts de inferencia, sino todo el proceso de entrenamiento, checkpoints del modelo y resultados intermedios.

Dos gigantes desvelados: AMBER y CRYSTALCODER

LLM360 ha lanzado dos LLMs masivos con 7 mil millones de parámetros cada uno: AMBER y CRYSTALCODER. Ambos modelos, junto con su código de entrenamiento, datos, checkpoints intermedios y análisis, están disponibles para la comunidad. La investigación detalla la estructura del dataset de pre-entrenamiento, los métodos de procesamiento de datos, las proporciones de mezcla de datos y los detalles arquitectónicos de los modelos LLM.

 

430
Suscribirse
Notificación
1 Comment
Inline Feedbacks
Ver todos los comentarios
1
0
¡Aquí puedes dejar tus comentarios!x