Cada vez estamos menos limitados en el empleo de potentes algoritmos para el descubrimiento de patrones o la predicción del futuro. Curiosamente lo que nos limita a los científicos de datos es precisamente la falta de suficientes datos para entrenar a nuestros algoritmos. En aplicaciones «industriales» es peor todavía ya que o bien no los tienen (en el caso de temas de Mantenimiento de equipos donde quieren «adivinar» el tiempo de rotura… cuando ni siquiera tienen sensores) o peor aún no los quieren compartir por muy anonimizados que estén.
La solución en estos casos puede ser la creación de un Digital Twin (como nuestro ICARUS) para la generación de datos sintéticos … o tirar de Google hasta encontrar con alguna base de datos utilizable.
Aunque ya desde el pasado verano veníamos utilizando la versión beta de Dataset Search desde el pasado viernes ya es oficial el servicio por parte de Google … el motor de búsqueda enfocado a quien busque conjunto de datos más que noticias u otro tipo de información.
En Google también piensan que este buscador motivará a instituciones científicas más antiguas a renovarse y publicar datos que guardaban y a los que hasta ahora era complicado acceder.
En este momento permite encontrar casi 25 millones de conjuntos de datos y esperan que fomente la actualización de organismos que busquen facilitar el acceso a su información. De momento, Estados Unidos es el país que más datos aporta, pero se espera un crecimiento a nivel mundial.
Para facilitar las búsquedas, se pueden filtrar los datos según texto, tablas o imágenes.
964