ChatGPT爆火，微软谷歌纷纷跟进……这些AI在生物产业有哪些应用？

来源: 腾讯新闻 ┆ 时间: 2023-02-09 09:15:21

▎药明康德内容团队编辑

近期ChatGPT可谓火遍全网。昨日，微软（Microsoft）公司表示，将把ChatGPT整合到搜索引擎Bing和网络浏览器中，谷歌（Google）公司也在今日展示了其名为Bard的人工智能对话系统。这些系统可以根据用户提供的复杂问题，提供全面而综合的回答，小到制定详细的旅行计划，大到分析公司的运营策略。在生物医药领域，ChatGPT的应用前景也受到广泛关注。今日，药明康德内容团队将结合公开资料，展望这一新兴AI模式在生物产业中的应用。

图片来源：123RF

(相关资料图)

科学探索的得力助手

如今，科学研究的发展日新月异，每天有成百上千篇科学论文发布，如何跟上科学研究的步伐是科研人员需要面对的挑战。基于ChatGPT的人工智能系统，微软公司已经开发了一款称为BioGPT的人工智能系统，它接受过科学文献网站PubMed上超过1500万篇摘要的训练，可以根据用户的提问迅速提供相关的答案。在PubMedQA检测中，这款人工智能模型达到81.0%的准确性。

图片来源：参考资料[8]

微软公司在介绍整合ChatGPT的浏览器时表示，这一系统能够在阅读冗长财报时，打开一个新窗口，让用户通过提问，提炼文章的要点，并且与其它财报进行比较。应用在科学文献整理上，这一系统有望改变我们未来查询和阅读论文的模式。人工智能系统不但能够帮我们找到文献，还能“一键划重点”，并且与其它文献进行比较，大幅度提高从科学文献中获得信息的速度。

发掘科学洞见

ChatGPT背后的大型语言模型利用对海量人类语言数据的分析，学习人类语言的语法和其它特征。这一学习方式也可以用于解读基因组DNA序列。科技公司Nvidia在今年的JP摩根医疗健康大会上指出，随着新一代基因组测序速度的不断加快和成本的不断降低，目前我们测序基因组DNA的能力已经超越了分析DNA序列并从中获取洞见的能力。而更快速有效地处理海量的基因组序列信息离不开人工智能。大型语言模型通过像分析人类语言一样分析DNA序列，可以加快基因组的拼接、基因突变的发现，并且用人类对话的方式将发现表述给研究人员。

比如，整合ChatGPT的基因测序分析系统可能在处理患者的基因组测序数据后给出“这名患者的X基因上的突变可能导致罕见遗传病Y”的总结，支持临床医生做出更快决策。

▲大型语言模型和生成式人工智能对基因组学至关重要（图片来源：Nvidia官网）

助力科学突破

基于大型语言模型的人工智能系统已经被用于学习蛋白质中氨基酸顺序与蛋白结构和功能之间的关系，助力人工设计全新的蛋白质。日前在Nature Biotechnology上发表的一篇

论文

中，研究人员使用基于大型语言模型设计的ProGen系统，设计出具有和自然溶菌酶活力相似的全新溶菌酶。他们表示，这一新技术可能比获得诺贝尔奖的定向进化（directed evolution）蛋白设计技术更有威力，给蛋白工程学领域注入新的活力。

▲ProGen等AI系统能够从头设计具有特定功能的全新蛋白（图片来源：参考资料[13]）

提高科学论文和医学报告写作效率

近日在Nature和The Lancet Digital Health上发表的文章指出，ChatGPT未来的一项重要应用，是将科学家和医生从一些重复性劳动中解脱出来，更好地聚焦于科学研究和治疗患者。比如，很多研究人员已经在使用ChatGPT来帮助写作科学论文的背景材料部分，或者用它来辅助对论文的编辑。在医院的环境里，ChatGPT有可能替代医生撰写出院总结等具有标准格式的报告。

哪些挑战需要克服？

虽然ChatGPT在生物医药领域具有广阔的应用前景，但是业界人士也指出这一系统目前存在的一些隐患。比如，目前大型语言系统的一个缺陷在于提供信息的真实度有待提高。由于ChatGPT基于对已有语言数据的学习提供回答，它的回答也受到数据库中不真实、有偏见、或者过时知识的影响。这意味着对于专业性强的话题，如果大型语言系统没有经过足够专业数据的训练，很可能提供错误的回答。具有足够专业知识的研究人员仍然能发现并且纠正这些问题，但是没有专业知识的用户就很容易被误导。

此外，训练ChatGPT的语言数据中也包含了人类的历史偏见，包括种族、性别、文化、年龄歧视等不良因素。由于这些历史偏见广泛存在于语言数据库中，很难人工剔除，如何防止ChatGPT根据这些数据输出有害言论是需要解决的另一个挑战。

有些研究人员指出，建立使用ChatGPT的规范和法规至关重要，以确保这一技术被正当、透明和公平的使用。比如，Nature等多家学术杂志已经发表声明，指出递交待发表的学术论文时，需要明确指出ChatGPT等大型语言模型的使用。

日前，斯克里普斯研究所的著名学者Eric Topol博士在展望人工智能应用的未来时表示，包括大型语言模型在内的AI系统未来不但有望帮助诊断癌症，而且通过将人体扫描图像中的特征与学术文献中的文字联系起来，可以增强对疾病的理解。他同时强调这些努力应该在专家的监督下进行。

ChatGPT等生成式AI的进展日新月异，研究人员选择如何使用它们将决定我们的未来。“2023年只是开始！”Topol博士说。