El desafío de las alucinaciones en la Inteligencia Artificial Generativa y cómo superarlas

La inteligencia artificial generativa (Gen AI) ha sido bien recibida aunque quizás demasiado alegremente por los tomadores de decisiones empresariales. Sin embargo, la preocupación por las «alucinaciones» de los modelos de lenguaje grandes (LLM) se ha vuelto una barrera significativa para su adopción generalizada. Aquí se explora el problema de las alucinaciones en los LLM, sus implicaciones para las empresas y las estrategias para mitigar estos riesgos mediante la generación aumentada por recuperación (RAG) y otras técnicas.

¿Qué son las alucinaciones en los Modelos de Lenguaje?

Las alucinaciones en los modelos de lenguaje grandes (LLM) como GPT-4, Llama 3 y Mixtral, son respuestas que pueden ser absurdas, incorrectas pero difíciles de detectar, o precisas pero no basadas en datos verificados. Estas alucinaciones pueden ocurrir entre un 3% y un 27% del tiempo, dependiendo del modelo y el contexto. En ámbitos críticos, como el legal, este porcentaje puede aumentar alarmantemente, con estudios indicando que los LLM proporcionan información falsa entre el 69% y el 88% de las veces.

Causas de las alucinaciones

Las causas subyacentes de las alucinaciones en los LLM incluyen:

Falta de contexto en el entrenamiento: Los modelos pueden no tener suficiente información de fondo, lo que lleva a respuestas incorrectas.
Sobreajuste: Un modelo demasiado adaptado a un conjunto de datos específico puede fallar en generalizar correctamente a nuevas entradas.
Errores en la ingestión de datos: Problemas como una codificación incorrecta de los datos pueden introducir errores en el proceso de entrenamiento.

Estas causas demuestran la complejidad de entrenar modelos que sean a la vez precisos y fiables.

Impacto en la adopción empresarial

Las alucinaciones presentan serios riesgos para las empresas. Un fallo en detectar una alucinación en un contexto sensible, como el de la salud, puede causar daño significativo a los pacientes y dañar la reputación de la organización, anulando cualquier retorno de inversión (ROI). Esta falta de confianza en los resultados generados por LLM puede frenar la adopción de herramientas de IA en el día a día de los negocios.

Estrategias para mitigar las alucinaciones

Gobernanza y verificación de la precisión

Los líderes tecnológicos están implementando medidas de gobernanza estrictas y verificaciones de precisión automatizadas y guiadas por humanos. Estas estrategias incluyen el uso de guardias de seguridad en los prompts, proporcionar ejemplos de resultados deseados al realizar consultas y afinar regularmente los conjuntos de datos que entrenan a los LLM.

Generación aumentada por recuperación (RAG)

Una estrategia prometedora para aumentar la confiabilidad de los LLM es la Generación Aumentada por Recuperación (RAG). RAG aprovecha el mecanismo de autoaprendizaje robusto de un LLM mientras lo enfoca en un conjunto limitado de fuentes de información preaprobadas y actualizadas. Por ejemplo, un modelo RAG-restringido puede obtener cifras de los informes financieros internos más recientes, garantizando la precisión.

Detección de alucinaciones

Aunque RAG puede mejorar la fiabilidad, no elimina por completo las alucinaciones. Los científicos de datos están desarrollando estrategias para detectar estas alucinaciones. Un estudio reciente, SelfCheckGPT, sugiere tres métodos principales para detectar alucinaciones:

BERT Score: Utiliza la similitud semántica.
Método de Prompt: Usa otro LLM para evaluar la consistencia.
Evaluación Basada en Evidencia (NLI): Aprovecha la inferencia de lenguaje natural.

Para probar la efectividad dentro de un sistema RAG, se construyó un modelo basado en Llama 2-13B-chat con un corpus de informes financieros. El método NLI demostró generar respuestas sin alucinaciones el 88.63% del tiempo, destacándose como la opción más eficiente en cuanto a recursos.

Reflexiones finales

A medida que la inteligencia artificial generativa se integra en contextos de alto riesgo, es crucial desarrollar y aplicar métodos robustos para detectar y mitigar las alucinaciones. La combinación de técnicas de gobernanza, RAG y avanzados métodos de detección de alucinaciones puede proporcionar una base sólida para la adopción segura y efectiva de la IA en las empresas.

374