La inteligencia artificial "lee" y "comprende" los trabajos de investigación

Investigadores de una startup entrenan una red neuronal para reconocer fórmulas químicas a partir de documentos de investigación

17.02.2022 - Rusia

Investigadores de Syntelly -una startup originada en Skoltech-, la Universidad Estatal Lomonosov de Moscú y la Universidad Sirius han desarrollado una solución basada en redes neuronales para el reconocimiento automático de fórmulas químicas en escaneos de documentos de investigación. El estudio se ha publicado en Chemistry-Methods, una revista científica de la Sociedad Europea de Química.

pixabay.com

Imagen simbólica

La humanidad está entrando en la era de la inteligencia artificial. La química también se verá transformada por los modernos métodos de aprendizaje profundo, que invariablemente requieren grandes cantidades de datos cualitativos para el entrenamiento de las redes neuronales.

La buena noticia es que los datos químicos "envejecen bien". Incluso si un determinado compuesto se sintetizó originalmente hace 100 años, la información sobre su estructura, propiedades y formas de síntesis sigue siendo relevante en la actualidad. Incluso en nuestra época de digitalización universal, puede ocurrir que un químico orgánico recurra a un artículo original de una revista o a una tesis de una colección de la biblioteca -publicada ya a principios del siglo XX, por ejemplo, en alemán- para obtener información sobre una molécula poco estudiada.

La mala noticia es que no existe una forma estándar aceptada de presentar las fórmulas químicas. Los químicos acostumbran a utilizar muchos trucos en forma de notación abreviada para los grupos químicos conocidos. Por ejemplo, los posibles nombres de un grupo tert-butílico son "tBu", "t-Bu" y "tert-Bu". Para empeorar las cosas, los químicos suelen utilizar una plantilla con diferentes "marcadores de posición" (R1, R2, etc.) para referirse a muchos compuestos similares, pero esos símbolos marcadores de posición pueden definirse en cualquier parte: en la propia figura, en el texto del artículo o en los suplementos. Por no mencionar que los estilos de dibujo varían entre las revistas y evolucionan con el tiempo, los hábitos personales de los químicos difieren y las convenciones cambian. Como resultado, incluso un químico experto se encuentra a veces perdido tratando de dar sentido a un "rompecabezas" que ha encontrado en algún artículo. Para un algoritmo informático, la tarea parece insuperable.

Sin embargo, cuando lo abordaron, los investigadores ya tenían experiencia en abordar problemas similares con Transformer, una red neuronal propuesta originalmente por Google para la traducción automática. En lugar de traducir texto entre idiomas, el equipo utilizó esta potente herramienta para convertir la imagen de una molécula o una plantilla molecular en su representación textual. Dicha representación se denomina Functional-Group-SMILES.

Para auténtica sorpresa de los investigadores, la red neuronal demostró ser capaz de aprender casi cualquier cosa siempre que el estilo de representación pertinente estuviera representado en los datos de entrenamiento. Sin embargo, Transformer necesita decenas de millones de ejemplos para entrenarse, y recopilar a mano tantas fórmulas químicas de los artículos de investigación es imposible. Así que, en lugar de eso, el equipo adoptó otro enfoque y creó un generador de datos que produce ejemplos de plantillas moleculares combinando fragmentos de moléculas y estilos de representación seleccionados al azar.

"Nuestro estudio es una buena demostración del actual cambio de paradigma en el reconocimiento óptico de estructuras químicas. Mientras que las investigaciones anteriores se centraban en el reconocimiento de estructuras moleculares per se, ahora que disponemos de las capacidades únicas de Transformer y redes similares, podemos dedicarnos a crear generadores de muestras artificiales que imiten la mayoría de los estilos existentes de representación de plantillas moleculares. Nuestro algoritmo combina moléculas, grupos funcionales, fuentes, estilos, incluso defectos de impresión, introduce trozos de moléculas adicionales, fragmentos abstractos, etc. Incluso a un químico le cuesta decir si la molécula ha salido directamente de un papel real o del generador", dijo el investigador principal del estudio, Sergey Sosnin, que es el director general de Syntelly, una startup fundada en Skoltech.

Los autores del estudio esperan que su método constituya un paso importante hacia un sistema de inteligencia artificial que sea capaz de "leer" y "comprender" documentos de investigación en la medida en que lo haría un químico altamente cualificado.

Nota: Este artículo ha sido traducido utilizando un sistema informático sin intervención humana. LUMITOS ofrece estas traducciones automáticas para presentar una gama más amplia de noticias de actualidad. Como este artículo ha sido traducido con traducción automática, es posible que contenga errores de vocabulario, sintaxis o gramática. El artículo original en Inglés se puede encontrar aquí.

Publicación original

Más noticias del departamento ciencias

Noticias más leídas

Más noticias de nuestros otros portales

Tan cerca que
incluso las moléculas
se vuelven rojas...

Algo está pasando en la industria química ...

Así es el verdadero espíritu pionero: Muchas start-ups innovadoras están aportando ideas frescas, savia nueva y espíritu emprendedor para cambiar el mundo del mañana a mejor. Sumérjase en el mundo de estas jóvenes empresas y aproveche la oportunidad de ponerse en contacto con los fundadores.