计算化学公社

 找回密码 Forget password
 注册 Register
Views: 7895|回复 Reply: 19
打印 Print 上一主题 Last thread 下一主题 Next thread

人工智能解析未知NMR谱图进展如何?

[复制链接 Copy URL]

7

帖子

0

威望

284

eV
积分
291

Level 3 能力者

有机化学计算化学小白一枚

如题所示,学习了未知有机物核磁共振谱图解析后,就一直对利用人工智能相关的方法(比如各种深度学习和人工神经网络模型),根据核磁共振谱图指认未知有机小分子结构这一话题有兴趣。但最近简单搜索了一下相关论文,只有很少一点在生物大分子或晶体结构领域的应用。

所以不知道本站大佬对此有没有了解,比如推荐论文或软件之类。。。谢谢!

以下是我搜到的可能相关的文章,粗看基本没有成形算法或软件可用(希望不是我看漏了)


https://pubs.acs.org/doi/pdf/10.1021/ac60316a008

https://www.nature.com/articles/s41467-018-06972-x

https://doi.org/10.1093/bioinformatics/bty134

https://bmcbioinformatics.biomed ... 186/1471-2105-9-400


30

帖子

0

威望

988

eV
积分
1018

Level 4 (黑子)

20#
发表于 Post on 2022-3-9 14:42:03 | 只看该作者 Only view this author
get-it 发表于 2022-3-8 16:12
应该是全部元素

好的,谢谢大佬

236

帖子

0

威望

5069

eV
积分
5305

Level 6 (一方通行)

19#
发表于 Post on 2022-3-8 16:12:06 | 只看该作者 Only view this author
昼夏の忧郁 发表于 2022-3-8 15:21
感谢大佬的解答,我的最重要的疑惑就是假如我有500个晶体结构要做成训练集,但是总共有80种化学元素,在 ...

应该是全部元素

30

帖子

0

威望

988

eV
积分
1018

Level 4 (黑子)

18#
发表于 Post on 2022-3-8 15:21:45 | 只看该作者 Only view this author
get-it 发表于 2022-3-7 16:49
向量长度由元素类型,nmax,lmax决定。
如果你想要一个特定长度,直接截断也行

感谢大佬的解答,我的最重要的疑惑就是假如我有500个晶体结构要做成训练集,但是总共有80种化学元素,在做这个描述符的时候是不是得把所有元素考虑进去作为元素类型?还是每个晶体结构中的元素作为元素类型?就是红框这里设置的时候,是选取所有的元素吗?还是在每种晶体遍历的时候把这个描述符写在遍历的内部只取该晶体的元素类型?(貌似好像得取全部元素的样子,我不是很确定,因为全取的话长度太大了,感觉对这个描述符不是很理解)



202203081516448007..png (36.99 KB, 下载次数 Times of downloads: 31)

202203081516448007..png

236

帖子

0

威望

5069

eV
积分
5305

Level 6 (一方通行)

17#
发表于 Post on 2022-3-7 16:49:02 | 只看该作者 Only view this author
昼夏の忧郁 发表于 2022-3-7 14:27
就是在设置SOAP描述符长的时候怎么来设置,能不能人为的设置特征向量长度?

向量长度由元素类型,nmax,lmax决定。
如果你想要一个特定长度,直接截断也行

30

帖子

0

威望

988

eV
积分
1018

Level 4 (黑子)

16#
发表于 Post on 2022-3-7 14:27:19 | 只看该作者 Only view this author
get-it 发表于 2022-3-5 19:45
没看懂你的问题

就是在设置SOAP描述符长的时候怎么来设置,能不能人为的设置特征向量长度?

236

帖子

0

威望

5069

eV
积分
5305

Level 6 (一方通行)

15#
发表于 Post on 2022-3-5 19:45:21 | 只看该作者 Only view this author
昼夏の忧郁 发表于 2022-2-20 21:43
大佬,请问SOAP描述符的使用多个结构的机器学习的时候,在设置元素种类的时候是每个结构用一次,写个循环 ...

没看懂你的问题

30

帖子

0

威望

988

eV
积分
1018

Level 4 (黑子)

14#
发表于 Post on 2022-2-20 21:43:31 | 只看该作者 Only view this author
get-it 发表于 2019-1-9 12:55
正好看过第二篇文献,可以说说。
文中用的描述符是SOAP,算法是高斯过程回归(GPR),SOAP+GPR之前是用来拟 ...

大佬,请问SOAP描述符的使用多个结构的机器学习的时候,在设置元素种类的时候是每个结构用一次,写个循环?还是必须是所有结构的的元素总和?

39

帖子

0

威望

247

eV
积分
286

Level 3 能力者

13#
发表于 Post on 2019-2-19 12:36:24 | 只看该作者 Only view this author
理论计算方面我不太懂,但是一些辅助解析NMR的已经诞生,比如中国的微谱数据,http://www.nmrdata.com/,只要有13C NMR,马上可以搜索类似结构。还有商业软件,也可以辅助解析2D NMR。个人感觉AI在化学反应预测可能会比较有用

7

帖子

0

威望

284

eV
积分
291

Level 3 能力者

12#
 楼主 Author| 发表于 Post on 2019-1-10 18:59:28 | 只看该作者 Only view this author
get-it 发表于 2019-1-9 12:55
正好看过第二篇文献,可以说说。
文中用的描述符是SOAP,算法是高斯过程回归(GPR),SOAP+GPR之前是用来拟 ...

谢谢!看来我粗读感觉得还行,详细的这几天再看看

7

帖子

0

威望

284

eV
积分
291

Level 3 能力者

11#
 楼主 Author| 发表于 Post on 2019-1-10 18:57:50 | 只看该作者 Only view this author
flwboka 发表于 2019-1-9 10:02
对于分子或周期性结构的一些性质,已经有一些较为通用的模型了,似乎精度也还不错
下面的前两篇文章的模型 ...

以前看到有 deepchem 有 Molecule Net,这又看到了 NMR Net 和 Graph Net 和 Sch Net

7

帖子

0

威望

284

eV
积分
291

Level 3 能力者

10#
 楼主 Author| 发表于 Post on 2019-1-10 18:54:50 | 只看该作者 Only view this author
1932211370 发表于 2019-1-9 01:58
如果说的是cousera的Ng的机器学习,那个比较基础,建议先复习一下基本的线性代数,统计,概率论,再看其他 ...

感谢您的回复!现在不过是组里导师明里暗里在提,貌似也没有师兄师姐在具体学和做,所以估计不会有什么帮助;我自己主要是出于兴趣,想了解下大致情况,估计未来不太可能all in,最多是个副业。另外吴恩达的课、cs 229 和 cs 231 n已经收藏很久,希望今年下半年有时间能看看哈哈。

另外以前倒是确实看到过用深度学习代替DFT拟合能量的文章,收藏夹里放了一段时间因为看不懂就放弃了。关于跳出原有化学框架重新定义问题,我看到这话一下子就想起了18年年初 Doyle 在 Science 上的文章,我也是从这两年的几篇高通量筛选有机反应与机器学习相结合的文章想起来的这个之前的老想法233333。

236

帖子

0

威望

5069

eV
积分
5305

Level 6 (一方通行)

9#
发表于 Post on 2019-1-9 12:55:23 | 只看该作者 Only view this author
正好看过第二篇文献,可以说说。
文中用的描述符是SOAP,算法是高斯过程回归(GPR),SOAP+GPR之前是用来拟合力场的,能够达到较高的精度。后来他们(主要是Csanyi和Ceriotti组)又用这套方法拟合其他性质,比如偶极矩,极化率等等。这篇文章也是一样的套路。他们拟合了结构和NMR谱的关系,这样可以快速计算给定结构的NMR,不用通过DFT计算。
他们的程序已经开源了,还有一个网页工具,上传结构后会给出ML拟合的NMR。文中可以找到github和工具的链接。
这篇文章是结构->NMR,意义是可以快速计算大量结构的NMR,方便筛选实验结构(其他文章似乎也是这个卖点,不过模型和数据不同)。这和你想要的NMR->结构还有很大的差距。

评分 Rate

参与人数
Participants 2
eV +7 收起 理由
Reason
yszzz + 2 谢谢
archer + 5

查看全部评分 View all ratings

30

帖子

0

威望

676

eV
积分
706

Level 4 (黑子)

8#
发表于 Post on 2019-1-9 11:29:24 | 只看该作者 Only view this author
我不是特别懂懂,但是觉得你这个想法可行性应该不高。
机器学习手段的输出一般是有限的,长度确定的向量。比如SVM就是一个正或者负的判断,AlphaGo是19*19的获胜概率的向量,MNIST是0-9的数也就是一个10维的向量,现在很多机器学习的方法可以算分子总能量,也就是一个一维向量。当然不同向量之间可以组合,也能表示很丰富的信息。
但是你的这个目标(解析小分子结构),要求输出的是一个无向有环图的数据结构,这个技术难度相对就比较高了,应该属于机器学习不怎么成熟的领域。
如果退一步,给一张核磁图判断是否含有某个官能团之类的,应该容易些,但是意义相对就不那么大了。

一点个人观点,欢迎讨论

评分 Rate

参与人数
Participants 2
eV +3 收起 理由
Reason
yszzz + 1
k64_cc + 2 我很赞同

查看全部评分 View all ratings

13

帖子

0

威望

342

eV
积分
355

Level 3 能力者

7#
发表于 Post on 2019-1-9 10:02:30 | 只看该作者 Only view this author
对于分子或周期性结构的一些性质,已经有一些较为通用的模型了,似乎精度也还不错
下面的前两篇文章的模型都是基于google的graph nets,第三篇文章似乎只需要原子的种类和坐标,没有仔细看

http://arxiv.org/abs/1812.05055
https://journals.aps.org/prl/abs ... sRevLett.120.145301
https://aip.scitation.org/doi/abs/10.1063/1.5019779

第一篇综述部分介绍一些模型,可以看看

评分 Rate

参与人数
Participants 1
eV +1 收起 理由
Reason
yszzz + 1

查看全部评分 View all ratings

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2025-8-17 03:08 , Processed in 0.172633 second(s), 25 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list