2021年,盖茨基金会向加州大学戴维斯分校的一个项目组捐赠了650万美元,用于开发农作物的AI育种工具。
CRISPR+AI究竟有什么样的魅力,让科学界和投资者纷纷投入其中,AI是如何在CRISPR基因编辑领域发挥作用的。要寻求这些问题的答案,我们要先了解一下什么是基因编辑育种。
基因编辑技术(CRISPR)不仅可以用来治病救人,还可以改良作物,它能对指对目标基因进行精确操作,使基因实现定点突变、插入或删除,从而直接启动、关闭某些基因。
近年来,国内外植物基因编辑技术相关的论文越来越多,我国亦走在这一领域的前沿,此前“深究科学”报道过,中科院院士、知名植物学家朱健康正在利用CRISPR掀起一场农业革命,这种强大的新型基因编辑工具,可以精确定位和切割任何种类的遗传物质,是目前修改地球上生命密码最快、最简单以及最便宜的方法之一。
“CRISPR育种”顾名思义,就是将CRISPR技术用来培育农作物种子。
那么,这个过程为什么会用到人工智能(AI)?换句话说,AI是怎么在CRISPR育种领域发挥作用的?
我们知道,植物的表现型是由基因和环境共同决定的。
别看这只是生物学的基础知识,在现代分子育种过程中,基因和环境的作用是研究人员必须考虑的问题。
基因水平的变异和植物生化水平、宏观表现等息息相关
但要对不同水平测量的表现型进行分析,或者将表现型与基因型联系起来,就需要对大量的、有噪声的数据集进行处理。
有什么工具能帮助研究人员分析和处理这些庞大的数据集?
答案就是AI。
目前,AI推动农作物育种还是一个相对新颖的话题。
首先,第一个能用到AI的环节,就是研究基因组。
在传统的研究中,AI中常用的机器学习(Machine Learning)算法可以用于在新测序基因组中注释基因的结构和功能。
而现在,它还能进一步研究基因组的功能,这相当于是对传统基于组学方法的补充。
机器学习算法是个啥?简单来讲,就是让机器人自己教自己,根据大量的数据学会自己分析。
机器学习算法分为两种,一种是监督学习,一种是无监督学习。
监督,从字面上理解,就是有人看着。
具体来说,监督学习就是需要分析的数据已经被人为地进行了标记和分类,并告知机器不同类型的特点,然后让机器自己学习,区分出哪种属于A类,哪种属于B类。
无监督学习就更有意思了。在进行机器训练时,不告诉机器什么是A类,什么是B类(不同类型的特点),而是让它自己对数据进行分析和处理,然后用它自己“学”到的“知识”,依据数据的不同特点,对数据进行分类。
监督学习和无监督学习,右上为无监督学习,右下为监督学习
了解了机器学习的两种训练方式,接下来的问题是,怎么用?
细胞分子的数据往往可以用“组学”的数据来描述,比如基因组学、表观基因组学、蛋白质组学、转录组学、代谢组学等。
这些数据的规模非常大,并且十分复杂。因此,机器学习经常被研究人员用于这些数据的分析和解释,它在提高我们对植物生物学的理解方面的作用日益突出。
细胞生化的相关数据可以通过各类“组学”(基因组学、转录组学、蛋白质组学、代谢组学)方式来表述,AI可以用于分析这些不同层次和不同目标的数据
从宏观表现上来看,机器学习又能做什么?
以前,在宏观尺度上收集表型数据主要是借助人力,需要研究人员来测量不同的表型,但是人工测量的速度和精确度有限,这严重影响了实验数据的数量和质量。
目前,传感器可以测量一些环境参数和植物形状参数,比如重量、温度、水分、光照、湿度和气体浓度等。
但传感器只能测量空间上的一个点的数据,并不能描述植物表型中的形态特征,而这些特征对研究植物表型非常重要。
此外,虽然人工设计的图像处理方法已经被开发出来,并取得了一些成功。但想要测量更复杂的形态性状,就突破了人工方法能达到的极限,尤其是遇到植物比较复杂或存在噪声的情况,人工的方法十分困难。
这时候就需要AI出马了。
不同的宏观水平数据可以适用不同的传感器进行成像,研究人员借助AI可以对这些成像数据进行系统、全面的分析。
利用不同类型的传感器可以描述植物表型,观察到宏观上不同层面的植物形状。机器学习可以用于处理处理传感器成像数据,分析各种层面的植物表型特征
除了上述的生化层面和宏观层面的应用外,AI还可以被用于基因组预测、增加实验样本量、解释基因和环境对植物的共同作用、分析利用植物的次生性状等。
那么,CRISPR和AI技术的结合会给我们带来什么,粮食危机问题能迎刃而解吗?这个问题依然没有答案,目前已有不少研究人员在做这方面的研究,有不少资金已经投入其中。
早在2019年11月,美国能源部(DOE)橡树岭国家实验室(ORNL)生物科学部门的研发人员丹·雅各布森(Dan Jacobson)就看到了CRISPR和AI技术结合的发展前景,他和他的研究团队利用机器学习开发出一种新的基因组选择算法,为AI在作物育种领域的应用打开了思路。
不到一年,2021年10月,北卡罗来纳州举办了第一届农业技术黑客马拉松基尼国赛,旨在使用计算机视觉、机器学习和机器人技术来加速农业研究。
紧接着,也是前文提及的,盖茨基金会向加州大学戴维斯分校的一个项目组捐赠了650万美元,旨在支持他们用AI、作物遗传学和3D建模来开发一种工具,以改善和加速豆科植物和高粱的育种速度。
2022年10月,利用CRISPR进行作物育种的Inari公司获得了1.24亿美元的E轮融资,据有关消息显示,Inari可以为种植者提供“定制”种子的服务,采用生物学、AI和软件工程等,将作物育种成本降低90%。
总的来说,利用AI和CRISPR进行农作物育种的优势已经逐渐显露,接下来,它们的精彩融合又会给我们带来什么?我们拭目以待。