无极3登录首页

科研 SBB:一种利用微生物群落和机器学习预测土壤健康的方法

来源:无极3登录首页    发布时间:2024-08-21 00:54:16
产品详情

  在目前的土壤健康框架和数字农业发展中,通过采用微生物组和ML方法,或作为单一措施,或与更成熟的措施相结合,可以更彻底地解决这些问题。

  土壤健康是包括一系列维持农业ECO商业和生态价值的生物、化学和物理土壤特性。 监测土壤健康需要一套全面的诊断方法,而常规分析的成本可能较高。土壤微生物群落提供了有关土壤特性的信息源自,能够最终靠高通量、低成本的方式来进行分析。本研究评估了随机森林(RF)和支持向量(SVM)回归和分类模型在预测土壤健康、耕作状态和土壤纹理的12项指标方面的准确性,这些指标来自16S rRNA基因扩增数据和相关的样本集。

  本研究在独立数据集上验证了最优表现模型的有效性,并且测试了用于机器学习的微生物组数据处理的最优方法。土壤健康指标可以从微生物组数据中预测,用于分类评估的最优模型Kappa值为0.65,数值分数R2值为0.8。生物健康评级比化学或物理评级能更好地预测。对独立数据集的验证表明,模型包括产量在内的土壤特性具有一般的预测价值。在最高分类分辨率下训练的模型被证明是最准确的,但由于在更高分类级别上的稀疏、稀疏过滤和聚合会导致精度损失。本研究为利用微生物诊断开发评估土壤健康的技术提供了基础。

  在(A)中,用于土壤健康和微生物组分析的农田土壤的地理位置。(B)是基于土壤细菌群落组成的机器学习模型预测的12个土壤健康指标。在(C)中,概述了使用不相同微生物群落特征集为土壤健康指标创建分类和回归模型的机器学习工作流的示意图。在(D)中,本研究的三个部分试验:(1)确定微生物组数据的最佳处理,(2)确定可以从微生物组预测哪些土

  对陆地尺度上的北美农田土壤做出详细的调查,收集土壤健康和微生物组数据,用来评估基于细菌群落组成的ML分类和回归模型预测精度(16S rRNA基因调查)。由于每个健康指标的评级分布不同(图S1;表S3),样本不是均匀分布在各个健康类别里的(表S2),所以Kappa统计量用来比较分类的准确性。本研究首先评估了微生物组数据的常见预处理步骤对SVM和RF分类和回归模型性能的影响(图1D)。我们评估了读取深度归一化(细化、累积和缩放或比例)、稀疏过滤(过滤和不过滤)和分类解析(不同分类级别序列计数数据的聚合)对模型性能的影响。在之后的分析中使用了性能最好的设置。

  按分类等级的读取深度标准化和聚合对模型预测的准确性有显著影响(图2)。利用纯化到均匀深度的归一化过程明显降低了分类和回归模型的准确性(表S4)。在较低的分类分辨率下的模型也明显不准确(图2;表S4)。但是,通过排序深度对比例计数进行归一化(比例缩放或累积求和缩放)对ML算法或特征集两者的模型精度均没有显著影响(表S5)。一般来说,在较小的特征集上的模型精度较低(图3AB),这与稀疏化和稀疏过滤导致的分类信息和特征总数的损失相对应(表S4)。模型精度在使用较大特征集(未过滤、属的比例或ASV)的模型之间没有显著差异。

  基于ASV的模型表现最好,尽管在相当数量的实例(17%)中,基于属的比例模型比相应的基于ASV的模型表现得更好。在交叉验证期间,这些模型的回归精度明显低于测试阶段(表S6),这在分类模型中没有观察到。 ML算法的有效性与性能因任务不同而异,其中SVM在健康类别分类方面好于RF,而RF在基于回归的评级预测方面好于SVM(图2)。在比较低的分类学分辨率下,SVM(ANOVA;Fcategory=342;Frating=122)精度损失比RF(ANOVA;Fcategory=40;Frating=41;表S4)更明显。

  RF和SVM模型在交叉验证和测试阶段(即过频)之间的准确性没有显著差异。

  由于训练中使用的特征集的读取深度归一化、过滤和分类分辨率的类型而导致不同支持向量(SVM)和随机森林(RF)模型在预测整体健康类别(A)或健康等级(B)时的准确性。SVM模型在健康分类中优于RF,而RF模型在回归中表现更好。每个点都对应于一种独特的微生物分离训练的模型。分类等级间的显著差异用带星号的条表示:*(p0.05)、**(p0.01)、***(p0.001)。每个等级内的数据集之间的两两显著差异用字母表示(p0.05)。

  在(A)中,当不使用过滤和使用基于比例的归一化方法(而不是稀疏化)时,特征集大小在最高分类分辨率时最大。在(B)中,在更大的特征集上训练的模型产生了更高的精度(R 2 ),这在SVM回归模型中健康等级趋势的预测中很明显。在(A)和(B)中,单元格通过递增的值被涂成绿色,说明了特征集大小和精度之间的对应关系。在(C)中,基于分类的支持向量和基于回归的RF模型对训练数据和测试数据的分割差异,预测精度的变化幅度在10%以上,表现出最大的变动性。在(D)中,RF和SVM算法的训练时间有很大的不同,前者需要两周以上的时间来完成最大的特征集。

  对基于微生物组ML模型的性能进行了评估,评估了12个健康指标,包括耕作强度、土壤质地和土壤DNA(图1B)。基于上述结果,本研究使用了ASV或属级别的微生物组数据,并按比例归一化,不进行稀疏过滤。与基于RF的分类方法相比,支持向量的性能更好,计算量更低,因此被专门用于分类(图3D和2),但是两种算法都被用于回归模型的建模。 所有模型在预测健康类别和评级方面表现良好,特别是在生物指标方面,最佳模型的Kappa值为0.65,R2值为0.8(图4;全部数据见图S2)。所有模型都达到了目标指标或土壤特性最高的Kappa值和R2值(表S7)。

  模型在非靶向指标上有某些特定的程度的准确性,特别是在生物指标中,有5个模型达到R2的准确性,其他非靶向生物指标R2≥0.4(表S7)。ACE蛋白模型对活性碳的脱靶精度特别高(R2=0.66)和总健康评分(R2=0.57)。

  在健康类别方面,基于分类的模型的预测精度比基于回归的ML预测精度高(x‾kappa=+0.14)(图S3A)。对于在土壤健康范围中间的类别来说因果预测是最可靠的(图S3B)。回归模型预测的等级范围比监测到的更窄,SVM捕捉的范围(82%)比RF的宽(74%)(表S8)。准确度与监测范围之间没有相关性(r=0.1;p=0.59),和预测范围之间也没有相关性(r=0.08;p=0.67)。

  图4. 对基于ASV的模型预测健康类别(A)和健康评级(B)以及土壤质地、耕作和DNA产量的准确性进行排名。

  (A)显示SVM模型的分类结果,(B)显示RF的回归结果。基于SVM的回归结果见图S2。钾和微量元素的模型精度低(未显示),后者由于实用性和预测范围有限而被排除在下游分析之外(表S8)。

  从预测精度的变化来看对模型性能贡献最大的ASV特征,单个ASV的情况除外。排除个别的ASV会造成分类精度(平均0.04%)比回归精度(0.003%)的下降幅度大。在基于RF的回归模型中,排除个别的ASVs会导致以这样的形式检查的大部分ASVs的准确性略有下降(0.01%)。排除个别ASVs后,准确度下降幅度更大(≥0.2%),这些类群(n=1320;占ASVs总数的19%)被认为是“重要的特征”(表S9)。有重要特征的ASVs在本研究收集的样本中出现的比例(x‾=13%;最大=97%;最小=1.7%)比所有其他ASVs(x‾=4.5%;最大=72%;最小=1.7%)的比例大。

  生物健康指标在重要功能上重叠较多(21%),而物理指标中则重叠较少(12%),化学指标中没有重叠。预测总体健康等级的重要特征在ACE蛋白和活性碳模型中也被认为是重要的(图5A)。土壤质地和有机质有很多共同的重要特征,微生物生物量(DNA和呼吸)和团聚稳定性指标也有共同特征。预测健康等级的ASV最重要的特征(图5B)和整体健康等级的相对丰度的明显趋势是相对应的(图5C)。

  图5. 当排除测试数据时,那些导致准确度下降大于0.2%的ASV被确定为重要的ASV。

  重要的ASV在健康指标模型之间共享。在(A)中,这些相似性用树枝状图表示,树枝长度对应于根据重要特征的存在/缺失计算出的Bray-Curtis不同距离。叶子的颜色是由健康度量等级决定的。在(B)中,在基于RF模型总的健康等级预测中,最重要的ASV的排名。每一个ASV的最低支持的分类学分类(g_:属,f_:科,o_:目,c_:纲)沿y轴排列,条柱是以门水平着色。在(C)中,在(B)中显示了整个类别中三个最重要的ASV的相对丰度趋势。统计学差异基于两两Kruskal-Wallis检验(p0.05)。

  利用两个独立研究的微生物组和土壤健康数据对模型的性能进行了交叉验证。在第一个数据集中,采集马斯格雷夫农场(纽约奥罗拉)的大田土壤和微生物组数据(n=21),这一部分数据是研究耕作和覆盖作物对土壤健康的影响。马斯格雷夫土壤细菌群落中大概20%的ASV也出现在本研究的北美范围数据集中(n=1200/6800 ASV)。SVM和RF模型可预测多种健康指标(R2=0.25-0.35),健康等级准确性最好(图6A)。

  相比之下,输入随机排列的数据的模型准确性不好。最初测试数据中确定的小部分重要特征对马斯格雷夫农场健康等级的预测准确性也很重要(SVM=18,RF =70 ASVs;图6B)。相反,用随机排列的数据输入的模型没有准确性(比如R2不显著,数据未显示)。最初测试数据中确定的一部分重要特征对马斯格雷夫农场健康评级(SVM=18,RF=70 ASVs;图6B)和其他指标(表S10)的预测准确性也很重要。

  然后,本研究利用山地牧场管理实践与土壤健康关系的微生物组数据(n=198)对模型进行交叉验证(表S1)。这部分数据集包含土壤pH值、呼吸、有机质、钾、渗透性、紧实度和产量(吨⋅ha-1⋅年-1)等信息。

  本研究期望利用基于微生物群落的ML模型的相关CASH指标来预测牧场土壤特性的差异。在牧场研究和数据收集中,常见的ASV的比例很大(2800/6800 ASV;41%)。在预测土壤pH值和产量时模型有较好的准确性(R20.3),预测呼吸、有机质和钾含量时模型准确性较低(R20.2),在预测穿透性、压实性或诱导呼吸时该模型不能准确预测(表S11)。基于随机排列数据,SVM和RF模型的假阳性率分别为0和5%(即R20和p0.05)。与马斯格雷夫农场的预测(图6A)相比,模型的精度在相对狭窄的范围内下降(图6C)。所以,本研究怀疑是一组比较小的共享特征驱动了模型性能的变化。

  本研究在所有牧场产量预测模型中确定了21个重要的ASVs(表S12),基于这个“最小集”的预测比使用完整的微生物组数据预测时的准确性更高(图6C)。在预测产量方面,最小集对基于生物指标的模型较为重要,基于健康等级模型的预测产量和监测产量有明显相关性(图6D)。最小集中各类群的总相对丰度与产量数据相关(r=0.45;p0.001),为模型精度的基础提供了依据(r=0.16;perm=9999)。

  使用来自两个独立研究的微生物组数据来进行交叉验证的基于ASV的模型的性能:马斯格雷夫农场研究(A和B),使用相同的土壤健康指标,以及牧场研究(C和D),使用类似的土壤特性。在(A)中,SVM和RF回归模型能够预测马斯格雷夫农场土壤的健康等级,虽然精确度很低,但很显著。y轴标签表示在训练回归模型时使用的健康指标。在(B)中,健康等级是最准确的预测指标,但SVM或RF模型的测试集和马斯格雷夫农场集之间共享的重要特征很少。线形图案突出了SVM模型之间的重叠(宽点)和RF模型之间的重叠(窄点)。在(C)中,使用21个重要特征的子集时SVM和RF回归模型能够预测草地产量(吨⋅ha-1⋅年-1),且精度更高。在(D)中,散点图说明了在土壤健康评级训练的SVM模型中输入最小集时,预测和观测的牧草产量之间的关系。

  本研究描述了细菌群落的多样性、均匀性和组成,为解释模型的性能提供了背景基础。本研究分析时使用的土壤是从美国大陆和加拿大的农田中收集的,代表在土壤健康检测设施中常规处理的随机样本。土壤群落组成主要因地理区域而不同(R2=0.59;p0.001)、耕作强度(R2=0.026)、土壤质地(R2=0.011)和健康种类(R2=0.006;图7;表S13)。健康级别高的土壤微生物群落的系统发育相似性比健康级别低的土壤微生物群落更多(图7C)。

  两组之间的Shannon的多样性和Pielou均匀性没有显著差异(图7D)。在土壤健康类别中,微生物群落组成的大部分变化是化学性质解释的(r=0.28;p0.001),其次是生物学特性(r=0.16;p0.001)、物理性质(r=0.09;p=0.002)。就个体而言,ACE蛋白、活性碳和有效磷的等级解释了群落组成的最大变化(R2分别为0.04、0.02和0.02;表S13)。

  图7. 在alpha和beta多样性的测量中揭示了用于训练ML模型的土壤微生物组数据的异质性程度。

  细菌(n=598)表现出相比来说较低的聚类程度,在t-SNE转换排序时,细菌群落主要因地理位置(A)而不同,在较小程度上,健康等级(B)也不同。在(C)中,基于Unifrac距离,健康类别内的微生物群落的系统发育相似性程度不同。在“非常高”类别内的微生物群落比别的类别的系统发育相似性更大,而在“低”类别内的微生物群落,平均而言,比别的类别的微生物群落的系统发育相似性更小。(D)中,根据Shannon多样性指数,不同健康类别间微生物群落α多样性差异不显著。

  本研究表明,基于相关的样本集,16S rRNA基因测序的信息(“微生物组数据”)可以预测土壤健康。ML模型在预测生物健康指标方面取得了相当高的准确性,ML模型的训练集规模适中,包括代表地理、耕作方式和土壤类型广泛差异的各种土壤。由于大陆尺度的微生物组数据可变性较高,所以地理土壤来源的变异(R2PERMANOVA)比土壤健康等级的变异多100倍,因此这更加引人注目。

  交叉验证表明,在大陆尺度数据集上训练的模型可以在景观尺度上预测单个农场的趋势,但是预测精度较低。

  本研究希望,区域尺度预测模型或具体作物系统模型的发展对提高预测精度有帮助。本研究根据结果得出,利用微生物菌群-ML技术,只需测量一次就能获得有关土壤健康情况的信息。

  模型预测的准确性在很大程度上取决于健康指标。模型可对所有土壤健康等级进行预测,每种物理(有效水分容量)、化学(P)和生物(ACE蛋白)级别中至少有一个最佳预测指标。但是,预测生物指标的模型通常会更好,预测化学和物理指标的模型表现得更差,这说明微生物群落的预测能力存在一定的差异(图4;图6AC)。

  微生物组数据可以准确预测某些物理特性,比如土壤质地和耕作强度,但这些本质上不是健康指标,能够最终靠其他方式确定。

  但是,团聚体稳定性或硬度等物理指标更难用微生物组数据评估。应注意的是,预测微生物生物量和活性(即DNA产量和呼吸)的模型在团聚体稳定性方面有一定的准确性,而且有许多重要特征(图5A;表S7)。团聚体的稳定性受到微生物生物量和活性的影响非常严重,这表明有一定的概率会进一步改善表现不佳模型。 基于微生物组ML预测的大多数生物指标的准确性表明,土壤微生物组可当作多种健康指标的共同分母。

  ACE蛋白等级是预测土壤健康最准确的指标(平均R2=0.77)。ACE蛋白模型也可以预测活性碳和健康等级(R2分别为0.66和0.57),这三个指标都有很多重要的特征(即ASVs对模型的准确性贡献最大;图5A)。

  ACE蛋白是测定土壤不溶性、难溶性蛋白质含量的指标,可以预测对氮矿化率。活性碳与土壤碳的颗粒形式相似。这些模型的准确性反映了细菌分解者在获取不溶形式有机物时相似的适应性,并指出在与土壤有机质质量相关的微生物组中,土壤整体健康情况尤其明显。这一观察结果与健康指标综合调查的结果一致,该调查发现,活性碳是大多数土壤健康指标的最佳单一预测指标。生物模型的普遍准确性强调了某些健康指标可能是多余的。

  本研究期望的微生物组是基于多样性和区别性特征(包括不同的代谢和生存对策),利用这样的微生物组来预测传统的土壤健康措施。大多数对模型准确性重要的ASVs属于特征不明显的未分类或候选群体,这限制了推断模型在生态基础上的能力。但是,对预测总体健康等级最重要的是ASVs,这些被划分在与土壤属性相关的土壤健康类别中。例如,一些最重要的特征被归类为氨氧化亚硝基,这表明其健康等级较低(图5C),说明土壤的肥力严重依赖矿质肥料。

  此外,表明健康评级较低的其他ASVs(图5C;表S9),比如被鉴定为Pyrinomonadaceae的细菌,这是在有机质含量低的半干旱土壤中发现的一组嗜热酸杆菌(thermophilic Acidobacteria),还有与退化农业土壤相关的马赛菌属(Massilia)群体。虽然对这些关系超出了我们研究范围,但是这些例子展示出模型性能背后的各种生态信息,并表明ML办法能够帮助揭示特定类群与土壤健康之间的关系。 在ASV级别解析的微生物组数据上进行模拟时,模型表现最好(图2)。但是,大多数ASVs(90%)对模型性能的贡献很小。

  对模型性能有重大影响的因素(即重要特征)大部分存在于三倍以上的样本中,而且还可以预测多种健康指标,大概41%影响一个以上指标的准确性。重要ASVs的非特异性可能反映了健康指标的相互关系和土壤微生物的复杂生态,这可能是多种相互关联的土壤特性的指标。有必要注意一下的是,经过CASH健康指标训练的模型能够预测牧场管理的产量信息(图6D)。

  CASH健康指标和长期作物产量之间的关系已经被证明,ACE蛋白和活性碳等级是两个最强的相关因素。和这个结果一致的是,预测ACE蛋白和活性碳的微生物群落在预测牧场产量方面也是最准确的(图6C)。此外,最近在研究小麦的土壤微生物群落和作物产量之间的相关性中发现,在研究ML模型和原始牧场的重要特征时,有几个主要的指标。在农田和牧场系统中存在常见的土壤健康和产量微生物预测因子应有必要注意一下,因为天然草地被认为是高土壤健康的基准。

  本研究不期望微生物组、土壤健康和作物产量之间的关系如此简单或直接,但这些结果证实,健康指标和土壤微生物组可以反映植物生产力。

  模型的准确性不一定依赖从整个土壤微生物群落中获得的信息。在牧场微生物组数据验证过程中,当只提供21个重要的ASVs数据时,模型就有更高的准确性。输入更少、信息更丰富的特征可能有助于减少模型过度拟合特征的影响,这些特征与土壤健康的关系可能不同,可能是由于牧场和农田之间的差异。但是,在更大的特征集上得到的模型对测试数据的准确率最高,其中样本跨越了更大的空间尺度(图3AB)。

  在这种情况下,使用更大的特征集进行训练,也许会增加捕获特定土壤类型或地区重要特征的机会。更大的特征集能够给大家提供冗余,用来处理类群发生/分布的变化。在马斯格雷夫农场和本研究数据集之间,预测健康评级重要的ASVs的有限重叠中,这种冗余是明显的(图6B)。本研究中,特征集的大小随分类的分辨率、稀疏过滤和归一化方法的变化而变化。对特征集大小和精度之间的关系需要一个更全面的解释。

  本研究在利用基于微生物群落的ML来预测土壤健康指标时发现许多挑战,这些挑战能够最终靠更大的测序深度、更广的分类分辨率和更多的样本集来弥补。精确度的变化很大程度上取决于训练集和测试集的初始分割,这反映出我们的集合比较小(n=598)。在较少数据上训练的模型准确性下降是由于总体特征的损失,这能够最终靠更大的排序避免。回归模型预测的数值范围比监测的要窄,这导致土壤健康谱两端的精度较差。如果有更好的反映极端健康土壤微生物组数据,那么预测结果会得到一定的改善。比如,考虑到pH值是细菌群落结构一个重要的决定因素,但是预测pH值的模型的准确性较低(图4)。

  精度低可能是由于我们数据集中的土壤pH值范围很窄,这是所有指标中最窄的(图S1),因为农田土壤很少有极端的pH值。此外,许多健康等级较低的土壤在测序过程中完全失败,这个事实使从低健康(n=25)和极低健康(n=0)土壤获得微生物群落的难度增加,这些土壤也是系统发育最多样化的(图7C)。若能找到代表土壤健康情况的指标,那么就可通过基于ML的微生物群落的数据建立预测健康等级的回归模型,把健康等级进行划分,以便农场管理人员进行解释。目前,回归模型的后分类预测的准确性低于分类模型。

  本研究表明,基于16S rRNA基因的土壤微生物组的信息可拿来预测农场管理者使用的土壤健康指标。

  本研究根据结果得出,鉴于生物模型之间的重要特征重叠,微生物群落-ML方法具有很大的潜力来补充或取代生物健康指标,或作为一个综合的生物健康指标。化学和物理指标的预测通常较弱,虽然有的重要物理指标可以有明确的目的性的细化,如团聚体稳定性。与此同时,化学土壤检测低成本这一特点使基于微生物群落的指标变得不那么重要。本研究的结论是,依照我们对土壤微生物群落的生态和功能特征的了解,标准化学测试和微生物群落-ML办法能够作为土壤健康的低成本措施,同时提供相关的土壤功能额外信息。

  本研究预计,随着监测数量的增加,以及模型在区域或管理特定数据上的训练,准确性将会提高。

  考虑到本研究样本收集的规模和地理差异,我们的模型的准确性是显著的,主要是为了捕捉土壤健康测试设施中处理的样本的典型宽度。本研究还强调,需要开发高通量的方法来收集微生物组数据,用来处理健康程度较低的土壤,这些土壤的DNA产量比较低。本研究的结果并没有明确表明哪种ML算法最适合从微生物组数据中预测土壤健康。L2线性SVM模型在几个重要方面比RF表现更好,包括基于分类的预测,交叉验证和训练时间,而RF模型优比回归的预测好。

  在目前的土壤健康框架和数字农业发展中,通过采用微生物组和ML方法,或作为单一措施,或与更成熟的措施相结合,可以更彻底地解决这样一些问题。

询盘