A pesar de la potencialidad de las técnicas de Inteligencia Artificial el hecho de que «solo» hablen en inglés hace un poco más difícil su aplicabilidad directa. De ahí el interés del Proyecto MarIA desarrollado conjuntamente por BSC e IBM en el supercomputador Marenostrum.
Se han utilizado 59 teras de datos de la Bibilioteca Nacional para crear un «corpus» que después de limpiarse en 6,910,000 horas de computación en el supercomputador se han visto reducidos a 201,080,084 documentos que ocupan 570 GB de datos y que están disponibles para uso libre aquí.
En entrenamiento final para obtener la red neuronal profunda que «modelice» dicha información ha necesitado de 184,000 horas de procesador y más de 18,000 horas de GPU.
Los dos modelos obtenidos hasta la fecha, el básico y el completo, tienen 125 y 355 millones de parámetros respectivamente estando previsto desarroller modelos similares para catalán, gallego, euskera, portugués… y español de américa latina.
749