GPT-3 para la investigación química
Los investigadores desarrollan un modelo lingüístico rápido y fácil de usar para tareas químicas
Preguntas y respuestas seleccionadas en lugar de grandes conjuntos de datos
"Uno de los diversos ejemplos que utilizamos son los llamados interruptores fotosensibles", ilustra Kevin Jablonka, autor principal del estudio. "Se trata de moléculas que cambian su estructura cuando se exponen a la luz de una determinada longitud de onda. Este tipo de moléculas también existen en el cuerpo humano: En nuestras células retinianas se encuentra la molécula rodopsina, que reacciona a la luz y actúa así, en última instancia, como un interruptor químico que convierte las señales ópticas en impulsos nerviosos", añade. "Por tanto, la cuestión de si una molécula aún desconocida puede ser activada por la luz, y cómo, es muy importante, por ejemplo, para desarrollar sensores", resume. "También abordamos la cuestión de si una molécula puede disolverse en agua", menciona Jablonka como otro ejemplo, "ya que la solubilidad en agua es un factor importante para que los agentes farmacéuticos ejerzan el efecto deseado en el organismo".
Para entrenar a su modelo GPT a responder a estas y otras preguntas, el grupo tuvo que resolver un problema fundamental: "GPT-3 no está familiarizado con la mayor parte de la literatura química", explica Jablonka. "Así, las respuestas que obtenemos de este modelo suelen limitarse a lo que se puede encontrar en Wikipedia".
En su lugar, continúa Jablonka, el grupo mejoró específicamente GPT-3 con un conjunto de datos de relativamente pocas preguntas y respuestas. "Así, alimentamos el modelo con preguntas -por ejemplo, sobre moléculas fotosensibles conmutables, pero también sobre la solubilidad de ciertas moléculas en agua y otros aspectos químicos- en las que también proporcionamos la respectiva respuesta conocida para nuestros 'ejemplos didácticos'", detalla. De este modo, él y su equipo crearon un modelo lingüístico capaz de proporcionar conocimientos correctos sobre diversas cuestiones químicas.
Rápido, preciso y fácil de usar
Posteriormente, se puso a prueba el modelo. "La pregunta científica sobre una molécula conmutable por luz podría ser así", aclara Jablonka: "¿Cuál es la longitud de onda de transición pi-pi* de CN1C(/N=N/ C2=CC=CC=C2)=C(C)C=C1C?". Como el modelo está basado en texto, no se pueden especificar fórmulas estructurales, explica. "Pero nuestra GPT funciona bien con los llamados códigos SMILES para moléculas, como en el ejemplo anterior", dice. "También reconoce otras notaciones, incluidos los nombres químicos que siguen la llamada nomenclatura IUPAC, como se podría recordar de las clases de química", prosigue Jablonka.
En las pruebas, el modelo resolvió varios problemas químicos, a menudo superando a modelos similares desarrollados en la comunidad científica y entrenados con grandes conjuntos de datos. "Sin embargo, el punto crucial es que nuestra GPT es tan fácil de usar como una búsqueda bibliográfica, lo que funciona para muchos problemas químicos -como propiedades como la solubilidad, pero también propiedades termodinámicas y fotoquímicas como la entalpía de disolución o la interacción con la luz- y, por supuesto, la reactividad química", añade el Prof. Dr. Berend Smit, de la EPFL de Lausana.
Nota: Este artículo ha sido traducido utilizando un sistema informático sin intervención humana. LUMITOS ofrece estas traducciones automáticas para presentar una gama más amplia de noticias de actualidad. Como este artículo ha sido traducido con traducción automática, es posible que contenga errores de vocabulario, sintaxis o gramática. El artículo original en Inglés se puede encontrar aquí.