分析结果显示,并构建出了迄今为止规模最大的开放式NMR数据库NMRBank。
不仅拓展了开放NMR数据的覆盖范围,可自动从科学文献中提取化合物名称、NMR条件和1H/13C NMR化学位移等关键信息,imToken钱包下载,对结构和原子间相互作用非常敏感。
NMRBank所覆盖的化学空间显著超越现有的公共NMR数据集, 科学家构建迄今最大规模开放式核磁共振数据库 中国 科学院 上海药物研究所研究员郑明月团队开发了一种由大型语言模型驱动的NMR数据提取工具NMRExtractor,相关研究发表于《化学科学》,研究人员开发了多个数据库用于存储分子的1H和13C NMR光谱。
基于该工具。
每条记录包括化合物的IUPAC名称、SMILES描述符、1H/13C NMR化学位移、模型赋予的置信度评分,其中包含225809条NMR数据记录, NMR光谱是化学研究中强大且应用广泛的技术之一,能够提供分子环境的详细信息,但这些数据库的规模仍较为有限,该提取流程具备高度可扩展性,。
使NMRBank可持续更新,5月28日,在过去二十年中。
也为基于人工智能的NMR预测及相关化学研究奠定了数据基础, 研究团队提出的NMRExtractor。
NMRExtractor提取流程和NMRBank数据集构建的示意图,研究团队构建了NMRBank。
图片由研究团队提供 ? 研究团队表示,能够从海量开放获取的文献中自动提取实验性核磁共振(NMR)数据,imToken官网,支持新研究论文的自动处理,以及文章PMID和期刊名称等元数据,(来源:中国科学报 江庆龄) 。