科研人不担心有机物命名不规范了 有机化合物的命名

有机化合物的命名(科研人不担心有机物命名不规范了)
「有机化合物怎么命名啊?」、「有机化合物命名规则是什么?」、「这个药物的有效成分叫什么?」、「有没有查找有机化合物命名的软件或程序?」、「某某命名软件还花钱 。 」、「某软件命名不准确 。 」......

科研人不担心有机物命名不规范了 有机化合物的命名

文章插图

科研人不担心有机物命名不规范了 有机化合物的命名

文章插图

【科研人不担心有机物命名不规范了 有机化合物的命名】注:部分来自知乎问题 。
总之 , 有机化合物命名太难、规则太繁琐、还没有开源软件......
AI 发展「风生水起」 , 能否解决以上问题?
现在 , 来自莫斯科罗蒙诺索夫国立大学和 Syntelly 初创公司的研究人员开发了一种基于 Transformer 的人工神经方法 , 可根据 IUPAC 命名系统生成有机化合物的名称 。
而且还开源 , 可在线使用 。
我已迫不及待 , 进行了在线体验 , 在本文的「使用小攻略」部分 。
科研人不担心有机物命名不规范了 有机化合物的命名

文章插图

项目地址:https://app.syntelly.com/smiles2iupac
IUPAC命名法是系统命名有机化合物的方法 , 在有机化学中发挥着重要作用 。 化学家通常手动创建 IUPAC 名称 , 但这个过程容易出错 , 需要对命名规则有深入的了解 。 计算机可缓解该问题 。 化学家可使用软件工具来生成名称 。
然而 , 目前还没有用于有机结构到名称翻译的开源工具 。 与现有解决方案(如 ChemDraw JS 和 LexiChem TK)的许可协议需要特殊权限才能嵌入其他平台 。
近日 , 来自莫斯科罗蒙诺索夫国立大学和 Syntelly 初创公司的研究人员开发了一种基于 Transformer 的人工神经方法 , 根据 IUPAC 命名系统生成有机化合物的名称 。 新的解决方案已经在Syntelly 平台上实现 , 并可在线使用 。
该研究以《基于 Transformer 的人工神经网络 , 用于化学符号之间的转换》(Transformer?based artifcial neural networks for the conversion between chemical notations)为题 , 于 7 月 20 日 发表在《Scientific Reports》杂志上 。
科研人不担心有机物命名不规范了 有机化合物的命名

文章插图

「最初 , 我们想为我们的 AI 化学平台 Syntelly 创建一个 IUPAC 名称生成器 。 很快我们意识到通过数字化 IUPAC 规则来创建算法需要一年多的时间 , 因此 , 我们决定利用我们在神经网络解决方案方面的经验 , 」该研究的主要作者 , Syntelly 初创公司的联合创始人 Sergey Sosnin 说 。
循环神经网络(RNN)和 Transformer 已成功用于自然语言翻译 。 研究人员构建了一个基于 Transformer 的神经网络 , 可以将分子从 SMILES(简化分子线性输入规范) 表示转换为 IUPAC 名称 , 反之亦然 。 描述了他们的解决方案 , 讨论了其方法的优缺点 , 并表明 Transformer 可以提供类似于人类化学直觉的东西 。
研究结果表明:将 SMILES 字符串转换为 IUPAC 名称的 Struct2IUPAC 模型在 PubChem 的测试集上达到了98.9% 的准确率 。 反向模型(IUPAC2Struct)达到了 99.1% 的准确率 , 与开源 OPSIN 软件(名称到结构转换的开源工具)相当 。
方法数据库:深度学习技术需要大量数据 。 新网络使用世界上最大的开放化学数据库 PubChem 进行训练和测试 , 包含 94,726,085个结构 。 把数据库分成两部分 , 一半用于训练 , 另一半用于测试 。
IUPAC 和 SMILES 标记器:标记化是将序列划分为块并划分这些块(标记)的过程 。 它是语言模型的常见预处理阶段 。 使用基于字符的 SMILES 标记并实现了基于规则的 IUPAC 标记器 。 该研究的 IUPAC 标记器是手动设计和管理的 。 标记器能够正确处理来自 PubChem 的 99% 以上的分子 。
科研人不担心有机物命名不规范了 有机化合物的命名

文章插图

图示:SMILES 标记化(顶部)和 IUPAC 名称标记化(底部)的演示 。 (来源:论文)
Transformer 模型:使用由 Google 团队设计的现代神经架构 Transformer  , 这是谷歌最初设计的最强大的机器翻译神经网络之一 , 作为研究的基础 , 并训练它将分子的结构表示转换为 IUPAC 名称 , 反之亦然 。
训练了两个模型:将 SMILES 字符串转换为 IUPAC 名称的 Struct2IUPAC 和执行反向转换的IUPAC2Srtuct 。 基本上 , 不需要 IUPAC2Srtuct 模型 , 因为可以成功地使用开源 OPSIN 。

推荐阅读