La formulación química consiste en la representación de los elementos que forman parte de un compuesto. Además de la representación se encuentra la proporción de los elementos que intervienen así como en número de átomos que forman la molécula.
Gracias a las reglas de formulación es posible incluso llegar a entender como un producto químico fue sintetizado cientos de años atrás. Sin embargo el proceso cada vez se complica más a medida que los productos son más complejos y ante la necesidad, que tenemos los químicos, de utilizar muchos trucos en forma de notación abreviada para los grupos químicos conocidos.
Para empeorar las cosas, los químicos suelen utilizar plantillas con diferentes «marcadores de posición» (R1, R2, etc.) para referirse a muchos compuestos similares, pero esos símbolos marcadores de posición pueden definirse en cualquier parte: en la propia figura, en el texto del artículo o incluso en los anexos. Por no mencionar que los estilos de dibujo varían entre las revistas y evolucionan con el tiempo, los hábitos personales de los químicos difieren y las convenciones cambian.
Como resultado, incluso un químico experto se encuentra a veces perdido tratando de dar sentido a un «rompecabezas» que ha encontrado en algún artículo. Para un algoritmo informático, la tarea parece insuperable.
Por eso la startup moscovita Syntelly está trabajando para crear una inteligencia artificial capaz de «leer» y «comprender» los trabajos de investigación … incluyendo la formulación, claro está.
Para ello empezaron utilizando Transformer, un nuevo tipo de red neuronal de Google para aplicaciones de reconocimiento de lenguajes.
Para auténtica sorpresa de los investigadores, la red neuronal demostró ser capaz de aprender casi cualquier cosa siempre que el estilo de representación pertinente estuviera representado en los datos de entrenamiento. Sin embargo, Transformer necesita decenas de millones de ejemplos para entrenarse, y recopilar a mano tantas fórmulas químicas de los artículos de investigación es imposible. Así que, en lugar de eso, el equipo adoptó otro enfoque y creó un generador de datos que produce ejemplos de plantillas moleculares combinando fragmentos de moléculas y estilos de representación seleccionados al azar.
En Image2SMILES, el algoritmo desarrollado por Syntelly, se combinan moléculas, grupos funcionales, fuentes, estilos, incluso defectos de impresión, introduciendo trozos de moléculas adicionales, fragmentos abstractos, etc. I
715