Hace unos años se decía que el software acabaría comiéndose el mundo ya que, por ejemplo, los servicios de Google ocupan unas 2000 millones de líneas de código o un «utilitario» actual necesita de 100 millones para lo «poco» que hace.
Dada la dificultad creciente de mantener «depurada» tal cantidad de código, IBM piensa que esta tarea tan solo será posible con ayuda de la Inteligencia Artificial y por eso han lanzado su proyecto CodeNet.
La idea de IBM es que su CodeNet sea para el desarrollo de técnicas en Inteligencia Artificial como actualmente es ImageNet lo es en la actualidad para Deep Learning y visión por computador avanzada.
Actualmente en CodeNet hay unos 14 millones de de muestras con código para resolver 4000 problemas en 50 lenguajes de programación aunque la mayoría están en C++, C, Python y Java… aunque también están los «viejos» Fortran, Pascal o Cobol (en los que algunos empezamos).
Otro aspecto muy importante y diferenciador respecto a otros intentos de hacer algo similar es que han incluido ejemplos de código mal programado, debidamente etiquetado para que la inteligencia artificial pueda ‘aprender’ la diferencia entre el código funcional y el fallido.
Para ello, recurrieron como fuente del código a dos conocidos concursos de programación organizados en Japón (Aizu y AtCoder), cuyos participantes tenían como misión generar código que obtuviera una salida de datos Y a partir de una entrada X.
447