三支利箭,破局「AI数据稀缺」黑洞

2023-10-30 12:44 来源:投资界   阅读量:8011   

麦肯锡曾报道,阻碍生命科学数字化和数据分析的三大障碍为:缺乏高质量的数据源和数据集成、缺乏跨学科人才,以及缺乏大规模的技术采用。

前不久,行业媒体BiopharmaTrend联合创始人Andrii Buvailo,在其LinkedIn上发表了一项小型问卷调查,对“您认为生物技术行业采用人工智能面临的*挑战是什么?”进行投票,共有四个选项:

A、缺乏特定领域的数据

B、数字基础设施成本

C、缺乏人工智能人才

D、投资回报率利益不明

在此次调查中,共有88人参与投票,受访者多数为制药公司的高管、人工智能专家。其中52%的受访者选择了A选项,认为“缺乏特定领域的数据”是生物技术行业采用人工智能面临的*挑战。

现实世界中的药物发现场景,有关化学和生物的数据可能是异质和稀缺的,专有数据或特定生物分析的研究的数据并不丰富,这限制了AI在新领域的应用。

针对AI在生物技术领域的数据稀缺问题,AndriiBuvailo给出了相应的解决方案,主要分三种:几何深度学习、零样本机器学习以及合成数据。

1、几何深度学习

总部位于旧金山的“科技生物”公司 Atomic AI 开发了一种工具来解决 RNA 结构数据缺乏的问题。

Atomic AI 专有的人工智能驱动的 3D RNA 结构引擎可生成 RNA 结构数据集,将机器学习基础模型与大规模内部实验湿实验室生物学相集成,以揭示 RNA 靶标的功能结合物。

该公司的技术能够以前所未有的速度和准确性预测结构化、可配体的 RNA 基序,这是当前 RNA 药物发现方法的一个关键障碍。

Atomic AI 计划利用其发现和设计的 3D RNA 结构数据库来开发一系列合理设计的小分子候选药物。

有趣的是,Atomic AI 使用几何深度学习,可以从非常小的 RNA 数据中学习。

什么是几何深度学习?

几何深度学习是机器学习的一个子领域,它将传统的神经网络方法推广到非欧几里得领域的数据,例如图、流形和复杂网络。它试图通过其固有的几何结构和关系来理解数据。

该方法被称为原子旋转等变评分器 ,称其能有效解决RNA结构预测难题。即使只对 18 种已知 RNA 结构进行训练,其性能也超越了现有技术。ARES 从最少数据中学习的能力解决了典型深度神经网络面临的重大挑战。

由于该方法仅依赖于原子坐标且不依赖于 RNA 特异性细节,因此在结构生物学、化学和材料科学等各个领域具有潜在的应用。

根据这篇《科学》论文,ARES 的运行没有关于结构模型准确性的基本特征的任何预定想法。它没有对双螺旋、碱基对、核苷酸或氢键的任何固有理解。ARES 的方法并不只适用于 RNA,它可以应用于任何分子系统。

ARES网络的初始阶段不是预先定义的规范,而是专门用于检测结构模式,在训练期间学习其身份。每一层都会考虑相邻原子的空间排列和前一层的结果来计算每个原子的各种特征。初始层的*输入是每个原子的 3D 坐标和化学元素分类。

2、零样本学习

加拿大公司 Absci 展示了解决生物学数据问题的另一种方法,该公司专注于使用人工智能设计抗体。

Absci 声称是*个使用零样本机器学习来制作和验证治疗性抗体的公司,开创了药物开发生成人工智能的里程碑。

什么是零样本?

这是一种机器学习方法,模型在某些数据类别上进行训练,然后能够对全新的、未见过的类别进行预测或分类,通常利用已知和未知类别之间的关系。

例如,如果在马的图像上进行训练,该模型可能能够识别斑马,即使它尚未在斑马图像上进行明确的训练。

在 Absci 的案例中,抗体被设计为锁定某些目标,而无需针对这些目标的已知抗体提供任何事先训练数据。

Absci 的零样本模型产生与现有抗体数据库不同的抗体配置,涵盖所有三个重链 CDR 的从头版本,这是对靶标结合最关键的抗体区域。

这种方法的效率如何?

在针对超过100,000种抗体的测试中,Absci 的成功率比既定的生物学基准高出5至30倍。

3、合成数据

应用合成数据来缩小真实数据稀缺领域的数据差距,是一个相当创新的概念。

什么是合成数据?

合成数据是人为制造的信息,而不是由现实世界事件生成的信息,但它具有与真实数据类似的概率分布。因此,它可以像真实数据一样用于训练机器学习模型。

例如,有证据表明,*进的合成数据模型甚至可以生成高维和复杂的基因组和表型数据的人工版本。

初创公司Gretel.ai的研究人员与全球*的基因测序公司Illumina 合作,正在研究生成真实世界基因组数据集的合成版本的可能性。

Gretel 制作的合成数据保留了原始数据集的结构,同时确保增强的隐私性,允许研究人员开放访问而不会危及患者的机密性。因为数据是人工生成的,并不对应于现实世界中的任何特性个体。

据 1,220 只小鼠样本的初步研究结果,表明合成数据有可能彻底改变基因组学中的数据共享。

Gretel 及其合作者的目标是在未来进一步完善合成基因组学数据的可扩展性、准确性和隐私性。

最后,除了基因组数据外,凡是需要“大量数据出奇迹”的领域,合成数据都代表着强大的解决方案。

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

热门

一键全自动换电——泰州市首家蔚来第三代换电站在兴化戴南上线
一键全自动换电——泰州市首家蔚来第三代换电站

一辆新能源汽车稳稳地停到蔚来充换电一体站的停车平台上,汽车下部的换电装置自动开启,卸下用完电的电池,换上充足电的...更多>

azg集团多维度赋能品牌,助力打造可持续产业生态
azg集团多维度赋能品牌,助力打造可持续产业

日前,由azg集团与Bubs贝儿联合举办的“Bubs贝儿纯净营养,守护新队友”五一特别场线下亲子活动圆满结束,门...更多>

喜报!中诚信托荣获深交所优秀债券投资交易机构奖项
喜报!中诚信托荣获深交所优秀债券投资交易机构

2月27日,深圳证券交易所组织召开2022年度债券监管发展业务座谈会,并表彰在服务国家重点战略、推进债券市场高质...更多>

银保监会就保险保障基金管理办法公开征求意见
银保监会就保险保障基金管理办法公开征求意见

为促进保险业稳健经营和高质量发展,更好发挥保险保障基金的积极作用,维护保单持有人合法权益,银保监会商有关部门对2...更多>

人民银行:指导银行将个人信贷延期还款政策落到实处
人民银行:指导银行将个人信贷延期还款政策落到

2022年第一季度金融统计数据新闻发布会现场。人民网黄盛摄人民网北京4月14日电(黄盛)今日,中国人民银行(以下...更多>

聚焦

发放消费券、举办消费节、推动线上线下消费融合,近期一批促消费措施密集推出—— 为消费升温积聚合力
百城万人共创乡村振兴新篇章,沃尔沃汽车助力杨
本台讯:百城万人《青年与乡村》共创计划启动暨杨闯世乡村振兴新...更多>
买的低功率的车,可以刷ECU变高功率吗?
咱们开过几年车的朋友们,一般对车子的动力会更加在意了,想买一...更多>
家用suv大比拼,哪款能胜出?
中秋、国庆八天乐,大家计划怎么过?想和家人来一场说走就走的旅...更多>
15.59-17.69万,启源A07上市,定
9月26日,长安启源A07正式上市并推出5款车型,市场指导价...更多>
预售16万起哈弗猛龙首发亮相,开启新能源越野
9月29日,哈弗品牌携新能源全产品矩阵亮相2023深圳国际车...更多>
2023年“智跑江苏”定向运动俱乐部联赛南京
10月29日,由江苏省体育局、江苏省体育总会主办,江宁区文化...更多>
15万级行业唯一“真智能”轿车!2024款小
最近的小鹏汽车可以说是动作频频,全新G9刚刚发布不久,9月2...更多>
捷途旅行者上市主打轻越野售13.99万起
日前,捷途旅行者正式上市,新车提供1.5T和2.0T两款发动...更多>
梦饷科技携手中国乡村发展基金会、橄榄时光,探
9月21日,梦饷科技与中国乡村发展基金会、橄榄时光在上海举行...更多>
携星纪元ES首次跨界音乐圈,星途要告诉人们什
10月8日,受邀来到了成都云端天府音乐厅,在这里参加了一场由...更多>