4.4.1 发酵醪基因的功能注释

江南大学通过宏基因组测序,获得105794条unigenes序列,通过物种注释发现黄酒发酵过程中主要代谢过程分类为碳水化合物代谢、氨基酸代谢和能量代谢,印证了碳水化合物和氨基酸代谢是黄酒发酵中的重要部分。将gene catalogue与3种常用功能数据库进行比对,注释结果统计见表4-2。KEGG(Kyoto Encyclopedia of Genes and Genomes)数据库侧重代谢路径的注释,eggNOG(Evolutionary Genealogy of Genes:Non-supervised Orthologous Groups)数据库侧重直系同源物的注释,CAZy(Carbohydrate-Active Enzyme)数据库是研究碳水化合物酶的专业数据库。gene catalogue中105794条unigenes比对eggNOG数据库的基因数目为84495;比对到KEGG有85231条(80.56%),在KEGG数据库中有具体注释信息(注释到KO ID)的基因有39899(37.71%)条,注释到pathway的有25189(23.81%)条基因,注释到酶EC编码的有23037(21.78%)条基因;注释到CAZy的基因数目较少。

表4-2 gene catalogue功能注释概况 

4.4.1.1 eggNOG数据库功能注释

基于eggNOG数据库对4个发酵样品的功能注释统计结果见图4-11。信息储存与加工、细胞信号、代谢过程和未知功能是eggNOG数据库中的4大分类,在gene catalogue中注释到的unigenes数目分别为14083、12077、28106和28407条;但从相对丰度上,注释结果中代谢过程分类的相对丰度最大,未知功能分类的相对丰度次之。4个发酵醪样品中,各分类中注释到的unigenes数目和相对丰度没有明显差异。

图4-11 基于eggNOG数据库对4个发酵样品的功能注释统计

图中字母代表eggNOG数据库中的功能分类:A—RNA处理和修饰;B—染色质结构和动力学;J—翻译、核糖体结构和生物发生;K—转录;L—复制、重组和修复;D—细胞周期控制、细胞分裂和染色体分离;M—细胞壁、细胞膜和被膜的生成;N—细胞运动;O—翻译后修饰、蛋白质转换和伴随蛋白;T—信号转导机制;U—细胞内运输、分泌和囊泡运输;V—保护机制;Y—核结构;Z—细胞骨架;C—能量产生和转换;E—氨基酸的转移和代谢; F—核苷酸的运输和代谢;G—碳水化合物的运输和代谢;H—辅酶的运输和代谢;I—脂质的转运与代谢;P—无机盐的运输与代谢;Q—次生代谢产物生物合成、运输和代谢;S—未知功能

发酵醪样品共注释到23个eggNOG功能分类。信息储存与加工分类中,与转录相关的K分类相对丰度最高,而A分类的基因数目最低。细胞信号分类包括10个分类,未注释到W分类,注释分类中O分类的基因数目最高,Y分类的基因数目最低,注释到样品的unigenes基因数目为3条。代谢过程分类的基因是与黄酒风味物质关系最直接的功能分类,包含的8个分类的相对丰度在1.50%以上,除F和G外的6个分类相对丰度有上升趋势;基因数目前三的为与氨基酸代谢相关的E、与碳水化合物相关的G和与能量利用相关的分类C,4个样品中各分类相对丰度平均值分别为6.23%、5.58%、5.21%,印证了碳水化合物和氨基酸代谢是黄酒发酵中的重要部分。

4.4.1.2 KEGG数据库功能注释

基于KEGG数据库对4个发酵样品的代谢通路(Level 1)的注释信息如表4-3,属于代谢过程的基因数目最多,属于遗传信息处理的基因数目次之,属于生物体系统的基因数目最少。在发酵中,属于代谢过程分类的基因相对丰度明显上升,而属于人类疾病分类的基因相对丰度在后酵下降,可能是由于发酵中与黄酒发酵相关的微生物占据优势,而原料或环境带入的有害微生物生长被抑制。

表4-3 黄酒发酵样品Level 1代谢通路功能注释相对丰度  单位:%

KEGG数据库的Level 2代谢通路(46类pathway)的注释信息如图4-12,未有基因注释到化学结构转化通路。属于全局和概览通路的基因相对丰度最大,碳水化合物代谢、氨基酸代谢和能量代谢次之,这与eggNOG的注释结果一致。遗传信息处理分类中,4个样品注释到转录类相对丰度平均为5.93%,占据遗传信息处理分类下注释基因数目的50.52%,在此分类下占有最大比例。

图4-12 黄酒发酵样品中KEGG代谢通路(Level 2)分布

在KEGG的Level 3代谢通路上,共注释到344类,4个样品共有340类,4个非共有代谢途径为hsa05412、hsa05130、hsa05321和map00624。hsa05412、hsa05130和hsa05321是3个属于人类疾病的代谢途径,仅在前酵样品中注释到,说明随发酵的进行,与人类疾病有关的物种减少,其他与人类疾病相关的基因注释数目在发酵中也有减少的趋势,可能是因为发酵的环境不适合与人类疾病有关的物种生长;map00624是多环芳烃降解途径,与原儿茶酸降解相关,仅在F72h中注释到,可能与原儿茶酸在前酵期间含量迅速下降有关。

4.4.1.3 CAZy数据库功能注释

基于CAZy数据库对4个发酵样品的功能分类统计结果如图4-13。自然界中,种类丰富的碳水化合物(单糖、多糖及糖复合物等)在生物中扮演各种重要角色,如能量储存(淀粉、糖原)和结构维持(纤维素、几丁质、藻酸盐)、细胞通信;碳水化合物活性酶,包括参与碳水化合物组装(糖苷转移酶)和分解(糖苷水解酶、多糖裂解酶、碳水化合物酯酶)的酶,造就了碳水化合物的多样性。CAZy数据库是研究碳水化合物酶的专业数据库,基于氨基酸序列的相似性反映蛋白质保守的结构折叠类型,而不能够准确预测同一家族内不同成员的底物专一性。

图4-13 黄酒发酵样品基因的CAZy功能分类

GH—糖苷水解酶;GT—糖苷转移酶;CBM—碳水化合物结合模块; AA—辅助功能;CE—碳水化合物酯酶;PL—多糖裂解酶

从eggNOG数据库和KEGG数据库的注释结果发现碳水化合物代谢是黄酒发酵中的重要部分。样品的注释基因的丰度可能与CAZy数据库六大类家族中的模块数目有一定关系,据CAZy数据库分类统计数据,糖苷水解酶类和糖苷转移酶类所属模块最多。样品注释到糖苷水解酶(GH)的基因数目最多,糖苷水解酶(GH)与糖苷键的水解和/或重排有关,糖苷酶(glycosidases,EC 3.2.1.-)是其主要组成,与淀粉液化糖化、纤维素降解相关的酶都包含在此类别。黄酒发酵是糖化产酒同时进行的双边发酵,因此注释到糖苷水解酶(GH)的基因数目会有较大比例;同时发酵前期GH基因相对丰度较高,可能说明前酵期间淀粉水解的代谢活跃。糖苷转移酶(GT)与二糖、寡糖和多糖的生物合成相关,己糖基转移酶(hexosyltransferases,EC 2.4.1.-)是其主要组成。注释到糖苷转移酶(GT)的基因丰度较高说明黄酒醪中可能有产多糖的微生物存在,据研究,绍兴黄酒多糖具有抗氧化、免疫调节、抑制肿瘤和肠道微生物调节等作用。注释基因数目第三的是碳水化合物结合模块,CBM是没有催化活力但有识别多糖能力的蛋白质单位,能帮助酶更有效地结合底物。