联系我们contact

电话:027-59760188-801

地址:武汉市东湖高新开发区光谷大道120号现代森林小镇A座609室

小试牛刀—AI应用于药物稳定性研究初探

发布时间:2025-06-09 浏览次数:623次

随着Deepseek爆火,国内制药企业掀起了一轮大模型AI的应用潮流,似乎研究AI、应用AI成了各部门的KPI之一。但AI如何落地,如何具体地与某个应用深度融合,一直是件颇为头疼的事。很多人可能都只是把如今甚嚣尘上的各个AI当成高级的搜索引擎去使用,或当成个玩具解乏。今天,我们以电子表格为载体,探索一下AI在药物稳定性研究中的应用,以期抛砖引玉。

为什么要以电子表格为载体?因为在实验室,以电子表格为载体进行数据记录是一件再平常不过的事。电子表格既方便进行各种自动化计算,也是一个不错的数据管理工具。为了更方便地使用AI,我们使用了“WindSheet合规电子记录与自动计算系统”进行表格数据记录与管理。文章所述的部分方法,直接在各个AI的Web界面同样适用。

首先,我们准备一个记录药物稳定性数据(有关物质随时间变化)的电子表格模板。如下图:

230825995.png

上面这个模板中(为方便理解,已经填写了第60天的数据),需要填写的数据包括试验条件:时间点,批号,峰名,保留时间,峰面积。相对保留时间和单杂含量是通过公式自动计算的。看得出这个模板不是一个标准的表格,有不少单元格合并。时间点放置在杂质表的上方。

基于这个模版,每个批次每个时间点的检测结果均新建一个对应的电子表格记录,形成了一个文件列表。

230739794.png

如果想要汇总这6个表的杂质数据怎么办呢?我们在此看一下AI的水平如何,是否能准确地理解这些文件所包含的数据。

我们选择这6个文件,向AI 提问。

在WindSheet中,只需要勾选需要提交给AI分析的文件即可。伴随着提问,这些文件将会自动发送给AI。

230908670.png

问题是这样的:

以上文件包含了某药品在不同时间点(天)的杂质含量数据,其中不同的峰名称代表了不同的杂质名称,请按批号,时间点,峰名称,保留时间,相对保留时间,峰面积,单杂(%)这些字段汇总数据。请将所有数据汇总成一个表输出


得到的结果如下:

225511726.png


对比了一下实际数据,还是很准确的。虽然模板中有各种合并的单元格, AI还是准确找到了各关键数据,并且汇总成表时自动补上了每行需要重复的数据,如样品编号和时间点。

针对AI从各表中汇总数据的能力,我们进行了多次测试,大模型并非每次都能得到正确的结果。得到正确结果所需要的时间也不尽相同。如果回答不了,AI干脆会告诉你“I don’t understand this question”。想要提供成功率,我们也可以尝试为大模型提供更多关于表格的背景信息,例如表格记录的数据类型及具体的地址范围等。

接下来,我们提问

请将相对保留时间在0.6-0.65之间的数据找出来

224940373.png


由于是基于此前的汇总表,这个问题相对是比较简单的。AI没花多少时间便找出“已知杂质1”满足要求。

继续提问:

请根据筛选后的结果,推断已知杂质1在两年后的含量


AI给出了两种不同模型的解答,包括线性回归和指数模型。

224957499.png


为了贴近实际的稳定性数据,下面我们加大了难度,在数据记录模板增加了试验条件,也就是常温/加速,由此增加了数据文件的个数。


225017857.png


对应分别准备了常温和加速两组数据。


225043115.png

由于数据量增加,模板包含的数据种类增多,像之前那样依靠AI自身理解表格内容非常困难,尝试了多次,等待良久,都无法得到此前那种汇总杂质数据的表格。为此,我们使用了WindSheet电子表格平台自身的数据抽取功能,这种方法可以高效地从多个文件中随意抽取需要的数据,得到如下汇总表。


225110608.png

该汇总表可进一步在列头对数据进行筛选,找出数据子集(例如RRT在0.6-0.65之间的数据),进行更加垂直的分析。

针对该汇总数据,我们的提问是

增速最快的杂质是什么?

225130555.png


AI最后做出结论:


计算变化率

使用公式: [ \text{变化率} = \frac{\text{最终含量} - \text{初始含量}}{\text{时间差}} ]

  • 丙烯酸: [ \text{变化率} = \frac{0.11504 - 0.10864}{10} = 0.00064 , (\text{每单位时间}) ]

  • 已知杂质2: [ \text{变化率} = \frac{0.23123 - 0.14146}{60} = 0.00015 , (\text{每单位时间}) ]

  • 已知杂质3: [ \text{变化率} = \frac{0.20248 - 0.12250}{60} = 0.00013 , (\text{每单位时间}) ]

结果比较

  • 丙烯酸的变化率为 0.00064。

  • 已知杂质2 的变化率为 0.00015。

  • 已知杂质3 的变化率为 0.00013。

因此,在这批实验中,丙烯酸是增速最快的杂质。



仅就这个问题来说,我们并没有给AI更多的信息,其自动按照同一批号和试验条件作答。AI在理解科学实验方面的能力还是可圈可点的。由于是在WindSheet自动汇总及去除无效数据的基础上提交AI分析,AI的回答非常迅速,不需要消耗过多的时间。且由 于提交数据的化繁为简,消耗的Token也急剧减少,使用AI的成本得到了极大的降低。

下面进一步提问:

哪些杂质是降解产物?哪些是非降解产物?

225154783.png


从回答来看,显然AI已经具备了药物稳定性相关的专业知识。

最后一个问题是:

加速试验的温度为40摄氏度,根据加速试验数据,预测常温存储条件下lw002两年后各杂质的含量,请给出预测模型和方程

225216414.png
225238718.png


AI采用了阿伦尼乌斯方程进行加速稳定性计算,最后直接给出了3种杂质的计算结果。

如果把AI的这些输出以及数据汇总表导出一个PDF文档,稍微整理一下,就是一篇不错的稳定性分析报告。

231005806.png


WindSheet中的这些杂质数据还可以直接通过BI工具进行仪表板动态展示,根据研发人员的数据录入,实时更新数据趋势。Leader们真能实现坐在办公室运筹帷幄,纵观全局。


225313912.png



从目前的测试结果看,要想做到把AI应用到数据分析,首先需要提供高质量,结构化易理解的数据。数据源采用AI自身来识别,提取,其健壮性,效率,正确率,重现性还有待提高,但通过特定的模板进行训练预估可以提高这方面的能力。一旦数据源能做到完整,有效,结构化,AI对其进行数据分析确实可以完全自动化。尤其是针对现在生成式AI,对数据进行分析,总结是其擅长的领域。当然,AI+BI是更加完美的组合。

WindSheet合规电子记录与自动计算系统是世界首个集在线电子表格,数据库,文件管理,合规控制,人工智能分析于一体的BS架构系统,不仅继承了Excel电子表格灵活易用的特点,还达到了医药行业合规化技术要求。系统采用安全的在线电子表格技术,集中管控所有的模板文件和表格文件,既完美解决了电子表格合规化使用的问题,又进一步拓宽了电子表格在GxP领域的使用范围。系统可一键导入已有的Excel电子表格文件,或在浏览器中在线设计或编辑电子表格模板,完全不依赖于本地的MS Excel运行,并且增加了条码生成,日期时间选择器,单元格多级菜单等各种功能控件,青出于蓝而胜于蓝。

WindSheet主要特点:

✔  基于网页的独立系统,不依赖于任何本地应用程序,不需要在客户端安装任何软件,但兼容任何Excel文件,一键导入

✔  合规的审计追踪和电子签名适用于GCP,GLP,GMP等各种合规业务场景

✔  所有表格均自动保存于服务器的数据库,不在本地保存

✔  高度类似微软Excel的操作体验

✔  模板发布环节完美控制模板的的合法使用

✔  采用内置账户或者集成AD域认证

✔  基于角色和组的管理

✔  简易而强大的工作流设计可以适用于任何业务场

✔  自动提取和汇总跨表数据,与AI集成,大幅提高工作效率

✔  支持二次开发,强力拓展现有功能