.
As fórmulas estruturais mostram como os compostos químicos são construídos, ou seja, de que átomos eles consistem, como estão dispostos espacialmente e como estão conectados. Os químicos podem deduzir a partir de uma fórmula estrutural, entre outras coisas, quais moléculas podem reagir entre si e quais não podem, como os compostos complexos podem ser sintetizados ou quais substâncias naturais podem ter um efeito terapêutico porque se ajustam às moléculas-alvo nas células.
Desenvolvida no século XIX, a representação de moléculas como fórmulas estruturais resistiu ao teste do tempo e ainda é usada em todos os livros didáticos de química. Mas o que torna o mundo químico intuitivamente compreensível para os humanos é apenas uma coleção de pixels em preto e branco para software. “Para tornar as informações das fórmulas estruturais utilizáveis em bancos de dados que podem ser pesquisados automaticamente, elas devem ser traduzidas em um código legível por máquina”, explica Christoph Steinbeck, professor de Química Analítica, Quimioinformática e Quimiometria na Universidade de Jena.
Uma imagem se torna um código
E é precisamente isso que pode ser feito usando a ferramenta de Inteligência Artificial “DECIMER”, desenvolvida pela equipe liderada pelo Prof. Steinbeck e seu colega Prof. DECIMER significa “Aprendizado profundo para reconhecimento de imagens químicas”. É uma plataforma de código aberto que está disponível gratuitamente para todos na Internet e pode ser usada em um navegador padrão. Artigos científicos contendo fórmulas estruturais químicas podem ser carregados simplesmente arrastando e soltando, e a ferramenta de IA começará a funcionar imediatamente.
“Primeiro, todo o documento é pesquisado em busca de imagens”, explica Steinbeck. O algoritmo então identifica as informações da imagem contidas e as classifica de acordo com se é uma fórmula química estrutural ou alguma outra imagem. Finalmente, as fórmulas estruturais reconhecidas são traduzidas no código de estrutura química ou exibidas em um editor de estrutura, para que possam ser processadas posteriormente. “Esta etapa é o núcleo do projeto e a verdadeira conquista”, acrescenta Steinbeck.
Desta forma, a fórmula química estrutural da molécula de cafeína torna-se o código de estrutura legível por máquina CN1C=NC2=C1C(=O)N(C(=O)N2C)C. Isto pode então ser carregado diretamente em um banco de dados e vinculado a informações adicionais sobre a molécula.
Para desenvolver o DECIMER, os investigadores utilizaram métodos modernos de IA que só recentemente se estabeleceram e também são utilizados, por exemplo, nos Grandes Modelos de Linguagem (como o ChatGPT) que são atualmente objeto de muita discussão. Para treinar a sua ferramenta de IA, a equipa gerou fórmulas estruturais a partir das bases de dados legíveis por máquina existentes e utilizou-as como dados de treino – cerca de 450 milhões de fórmulas estruturais até à data. Além dos investigadores, as empresas também já utilizam a ferramenta de IA, por exemplo, para transferir fórmulas estruturais de especificações de patentes para bases de dados.
Steinbeck e Zielesny tiveram a ideia de desenvolver uma ferramenta de IA para decodificar imagens químicas há alguns anos. Os dois químicos estavam interessados no desenvolvimento de métodos de IA em conexão com o milenar jogo de tabuleiro asiático Go. Em 2016, juntamente com milhões de pessoas em todo o mundo, assistiram ao espetacular torneio entre o melhor jogador de Go da época, o sul-coreano Lee Sedol, e o software de computador “AlphaGo”, que a máquina venceu por 4:1.
“Foi um raio inesperado que nos mostrou o quão poderosa a IA pode ser”, lembra Steinbeck. Até então, era considerado praticamente impensável que um algoritmo pudesse rivalizar com a criatividade e a intuição humanas neste jogo. “Quando, um pouco mais tarde, uma ferramenta de IA desenvolveu uma força de jogo quase sobre-humana, não sendo treinada laboriosamente através de inúmeras sessões de jogos humanos – como ainda era o caso do AlphaGo – mas simplesmente através do processo do sistema jogando contra si mesmo novamente e novamente, e otimizando seu estilo de jogo, percebemos que esses novos métodos também poderiam resolver outros problemas muito complexos com dados de treinamento suficientes. Queríamos usar isso em nossa área de pesquisa.”
Tornar a informação científica utilizável de forma sustentável
Com o DECIMER, Steinbeck e sua equipe esperam, em algum momento, ser capazes de ler automaticamente toda a literatura química de seu interesse, desde a década de 1950, e traduzi-la em bancos de dados abertos. Afinal, uma das principais preocupações de Steinbeck, também coordenador da Infraestrutura Nacional de Dados de Investigação para a Química na Alemanha, é proteger de forma sustentável o conhecimento existente e disponibilizá-lo à comunidade científica global.
A ferramenta DECIMER AI está disponível em: https://decimer.ai
.