2.1.4 稻米的模式识别
黄酒行业快速发展的同时,依然存在着诸多问题,如:酿造技艺发展缓慢、研究方法不成体系、基础理论研究非常薄弱、黄酒品质稳定性差、黄酒消费市场受地域限制、行业发展方向不明确、业内存在无序竞争、宣传力度不够及行业规模普遍较小等,都将严重影响黄酒的发展。
黄酒企业扩大生产规模和产量,对黄酒酿造用原料大米的需求也自然增加,但以往基本都选用黄酒企业当地的优质大米作为酿造原料;黄酒主要产区基本都位于我国东部沿海城市,这些城市普遍占地面积较小,可用耕地本身就有限,加之城市快速发展占用耕地,导致城市可用耕地日益减少,粮食产出严重不足,故出现黄酒酿造用大米尤其是糯米供不应求的局面。因此有专家提出在黄酒产区以外建立原料大米生产基地以缓解原料大米供应不足的现状,浙江省也于2007年出台了黄酒企业在省外建立黄酒用大米基地的鼓励政策,在很大程度上解决了黄酒酿造用米紧缺的困境。但是不同产地适合种植的稻米不仅在品种上存在差异,即使是同一品种的稻米在不同地方生长,由于气候、日照、温度、湿度、土壤矿物含量、微生物种群等不尽相同,稻米品质特性也存在一定差异,不同品质的大米其黄酒酿造特性有一定差异,在生产时为不同大米确定最佳的黄酒酿造工艺成为首要任务。而由于不同品种和产地的大米在感官品质、化学组成、物理特性以及米粒表面微生物种群等方面存在一定差异,其酿造的黄酒也会有所不同,因此为了区分不同大米酿造黄酒的品质,建立更全面、精确的黄酒分类标准,确定不同大米对黄酒品质的影响也是非常必要的。
随着中国黄酒行业的快速发展,其生产工艺也不断革新,生产优质黄酒的主要原料已由传统工艺的糯米扩展为粳米和籼米。但是不同种类的稻米由于在化学组成、加工特性、微生物种群方面存在较大差异,导致了酿造的黄酒特性也不尽相同,每种稻米都具有相应加工工艺。如何通过快速而准确地识别稻米的品种及产地,进而确定黄酒酿造的最优工艺成为业内急需解决的问题。江南大学传统酿造食品研究中心——毛健教授团队首次以来自我国10个不同地区包括粳米、籼米和糯米在内的10种大米为固体样本,采用溴化钾压片法、石蜡油调糊法、显微红外技术、基于OMNIC采样器的单点全反射法以及漫反射法等,选用漫反射傅里叶变换红外光谱(diffuse reflectance Fourier transform infrared spectroscopy,DR-FTIR)对稻米样品进行红外采集,结合软独立模式分类(soft independent modeling of class analogy,SIMCA)模式识别建模方法对稻米的红外信息进行模式识别研究,确定了不同品质大米酿造优质黄酒的工艺并进一步建立以大米为中心的工艺库及快速确定大米酿造工艺的筛选系统,探讨了不同大米酿造的黄酒在化学计量学范畴的差异以及其与原料大米的相关性。这是世界范围内首次对黄酒酿造原料大米进行的一种快速、精确的模式识别方式,对提升黄酒产业化生产具有重要意义。基于消费者对黄酒的风味和口感等品质要求及黄酒国际化的发展趋势,未来黄酒产业的发展可能会向黄酒酿造专用稻米品种、专门产地、产不同风味的专用酿造功能微生物的方向发展,稻米的模式识别能够提供一定的理论基础。
2.1.4.1 稻米种类模式识别方法的建立
大米是一种复杂灰色体系,利用经典的化学分析方法,通过分离、纯化等前处理进行定量检测,最终利用这些信息对大量大米的品种和产地进行分类和识别已经不再可行。有研究发现,化学计量学和光谱学相结合的方法可以进行高通量的数据采集和分析,这解决了物质中信息复杂、难于归类的问题。
(1)基于DR-FTIR与SIMCA大米模式识别方法介绍
化学计量学包含简单的数理统计如标准偏差、置信区间、有效数字、显著性分析、正态分布等,长期以来都被应用于分析化学领域,这些相对简单的统计学与数学方法随着在分析化学领域的应用范围拓宽,深度增加,加之吸收了行为心理学、经济计量学、信息科学、计算机科学等逐渐发展成为数据与信息分析方法,并成功应用于更为复杂的分析工作中,最终成为一门比较成熟的学科,其基本任务是应用和发展统计学方法及其他数学方法进行实验设计,并从大量的实验测量数据中获得有用的化学信息。
红外光是自然光谱中的一种,人们很早就发现了红外光,但直到20世纪50年代初期才出现了商品红外光谱仪,至此红外光谱技术作为一种有效的手段应用于科研和生产,也揭开了有机物质结构鉴定的新篇章,随着不断发展,傅里叶变换红外光谱(FTIR)技术成为了重要的分析手段,得到了十分广泛的应用。FTIR的广泛应用与该方法具备的优点密切相关。由于单色器的存在,使得全部范围的光束可同时照射样品,根据菲尔盖特效益可以使分析时间大幅降低;FTIR的分辨率可低于0.001cm-1,分析物质的稍微改变都能精确测量;傅里叶变换的模/数转换功能,可对IR结果进行多次扫描并累加,能够降低随机噪声信号的影响,有效提高谱图质量;全面的采样技术,使FTIR能够测定任何气体、液体以及固体样品,固体样品可以采用溴化钾研磨法、石蜡油调糊法或者反射方法进行测定,液体样品可以采用涂膜法或液体样品池法测定,而气体样品则利用气体样品池直接测定;针对特殊样品FTIR还发展了很多种专一的测量技术如漫反射傅里叶变换红外光谱法(DR-FTIR)、衰减全反射傅里叶变换红外光谱法(ATR-FTIR)、红外显微镜等;除此以外,红外还具有样品用量少、制样简单无污染、无损检测等优点,广受研究者的青睐。DR-FTIR是随着漫反射附件的发展而兴起的众多红外采集方法中的一种。
模式识别是化学计量学的一个重要分支,是对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程。模式识别主要集中在研究生物体感知对象的方式以及计算机模拟实现的理论和方法,涉及心理学、生理学、生物学、神经生理学等认知科学的范畴,也属于数学、信息科学和计算机科学。SIMCA的基本思想是对训练集中每一类已知样本分别进行PCA(principal component analysis,主成分分析)分析并建立数学模型,然后将未知样品与已建立的模型进行拟合,确定未知样品属于哪一类或不属于任何一类,这一思想基础表明SIMCA计算时,已不再受样品数目与变量个数的比例的严格限制,使该法能够被广泛地应用。通常SIMCA都包括两个主要步骤:建立每一类样本的PCA回归模型;利用模型对未知样本进行拟合,确定其分类。
(2)稻米种类模式识别方法的建立
图2-1是SIMCA模式识别的示意图,从图中明显看出该模式识别数据分为训练集原数据和预测集原数据,训练集则用于建立SIMCA模型。整个模式识别由预处理方法的确定、PCA模型及SIMCA模型的建立、模型检验3大部分构成。
图2-1 SIMCA模式识别过程
光谱数据的预处理是PCA模型及SIMCA模型的建立和预测集样本预测的前提基础,确定红外光谱采集参数后,利用平滑、基线校正以及谱图求导等预处理方法对数据预处理后,使信息尽量展现,以利于良好地区分样品;然后进行特征向量的提取,利用Unscrambler 9.7中的Matrix计算来提取特征向量,同时将不同类别样本进行区分。在建模之前还要进行必要的校正处理,常用的数据校正方法主要有归一化处理、标准正态变量变换(standard normal variate,SNV)和多元散射校正(multiplicative scatter correct,MSC)。通过对糯米、粳米和籼米三种大米的红外对比分析表明籼米在脂质的特征吸收处有很强信号,与粳米和糯米有明显差异;而粳米与糯米之间的差异没有籼米明显,在碳水化合物和蛋白质特征吸收区域内由于信号多而杂,且总体吸收都较强。训练集样本的Matrix计算图由“样品—变量—吸光值”构成的三维空间,能直观地考察籼米、粳米及糯米在红外吸光值上的总体差异。
结合红外谱图和Matrix图的信息,最终选取以下4个组合波段的数据作为特征向量:Ⅰ(980~1170cm-1,1180~1375cm-1和1685~1751cm-1),Ⅱ(980~1170cm-1,1180~1375cm-1),Ⅲ(1180~1375cm-1,1685~1751cm-1)以及Ⅳ(980~1170cm-1,1685~1751cm-1)。不同产地糯米间除了脂质中CO在1735~1750cm-1的吸收以及碳水化合物在800~1200cm-1处的吸收存在一定差异外,其他波段区域内都具有很高的相识度,基本没有明显的规律性差异,说明不同产地糯米虽然存在差异,但是仅凭对红外谱图的直接观察是难以得到有效信息的,这也为糯米产地的模式识别增加了难度,此时需要借助复杂的化学计量学方法,分析并挖掘其中的隐含信息,以达到对糯米按照产地进行区分和识别的目的。
采用交互留一验证法分别建立不同种类大米及不同产地糯米的PCA模型,发现所有样品被明显地分成3个组,各自明显区分且拥有聚集中心,表明能够按照种类将大米分开,且分类效果良好。利用交互留一验证法建立PCA模型的校正均方根误差(root mean square error of calibration,RMSEC)及交互验证均方根误差(root mean square error of cross validation,RMSECV),由于验证集是从训练集中抽离一部分样本信息重新组成的,数据的方差会有所增加,因此验证集的剩余方差会相应地比校正集稍微高一些。在考察PCA模型效果时,RMSEC和RMSECV应该比较低,同时RMSECV略高于RMSEC是两个判断依据。
大米品种的PCA模型中RMSEC和RMSECV维持在10-3和10-4两个数量级,表明只需要几个主成分就能使模型的剩余残差很低,很好地达到了降维的效果,而每个主成分数中RMSECV略比RMSEC大(差异出现在10-5水平),满足了前述的两个判断依据,说明PCA模型良好,可以进一步建立SIMCA模型。不同产地糯米的PCA模型中RMSEC和RMSECV都很小,已达到10-4和10-5的数量级,同时RMSECV也略大于RMSEC,说明PCA模型良好,可以进一步建立SIMCA模型。按照已选的预处理方法和PCA建模方法,对3种大米建模,可得到3种大米各自的PCA模型(表2-9)。
表2-9 PCA模型的RMSEC和RMSECV
利用上述SIMCA模型对不同品种大米预测集样本进行预测,得到了在5%显著性水平下,PCs(4,4,6)的识别率和拒绝率全部为100%。对3种大米进行预测,SIMCA模型都能100%地识别本来属于同一类的大米样本,而不属于同一类的样本也能100%“拒绝”,说明建立的SIMCA模型具有很好的识别效果。进一步利用该模型进行稻米种类模式识别在黄酒酿造中的应用,具体方法在下面内容中详细介绍。
2.1.4.2 稻米种类模式识别在黄酒酿造中的应用
(1)黄酒ATR-FTIR谱图红外吸收的Matrix图
研究发现黄酒红外吸收信号主要集中在850~1800cm-1和2780~3010cm-1两个波段范围内,主要有13个明显的吸收峰,2780~3010cm-1是乙醇中C—H伸缩振动信号,2899cm-1是脂肪酸中C—H的伸缩振动信号,2932cm-1是糖中C—H的伸缩振动信号;850~1800cm-1作为特征基团吸收和“指纹”区域是分析黄酒的重要信息,850~900cm-1是芳香族物质的平面外振动信息,950~1800cm-1是平面内振动,其中最强峰1044cm-1是乙醇的C—OH振动,1081cm-1和1151cm-1是C—O的伸缩振动,1273cm-1是O—H的弯曲振动,1383cm-1和1453cm-1分别是—CH3的对称和反对称振动,同时1200~1800cm-1为蛋白质酰胺键和糖醛酸类的信号区域,1650~1750cm-1是糖醛酸中CO和甲基化羰基或离子化COOH中羰基的吸收,1600~1650cm-1、1500~1600cm-1和1400~1500cm-1分别是Ⅰ类酰胺键、Ⅱ类酰胺键和Ⅲ类酰胺键的吸收信号。通过分析发现黄酒中物质种类多、组分浓度不确定且不同黄酒的谱图差异不明显,难以直接进行辨识和区分,因此需要借助化学计量学对其建立模式识别模型,以达到对不同黄酒进行分类和识别的目的。通过将谱图进一步划分成4个吸收区域,即975~1165cm-1、1250~1500cm-1、1600~1755cm-1和2780~3010cm-1,这些波长范围的红外吸收为建立SIMCA识别模型提供了有力依据。
通过Matrix分析,确定选择4个波数范围的红外吸收作为特征向量:Ⅰ(975~1165cm-1,1250~1500cm-1,1600~755cm-1,2780~3010cm-1),Ⅱ(975~1165cm-1,1250~1500cm-1,1600~1755cm-1),Ⅲ(975~1165cm-1,1250~1500cm-1),Ⅳ(975~1165cm-1)。通过初步试验,发现Savitzky-Golay的9点平滑、自动基线校正、SNV和一阶求导对PCA有明显影响。因此以其建立3种预处理方法:A(Savitzky-Golay的9点平滑、自动基线校正),B(Savitzky-Golay的9点平滑、自动基线校正、SNV),C(Savitzky-Golay的9点平滑、自动基线校正、SNV和一阶求导)。得到了在5%显著性水平下不同预处理的识别率和拒绝率,见表2-10。
表2-10 三种大米训练集样本的识别率和拒绝率 单位:%
从表2-10中数据显示利用特征向量Ⅲ和预处理B建立识别模型得到了100%的识别率和最高的拒绝率,表明该预处理方法是最优的,因此选用特征向量Ⅲ和预处理B作为黄酒按照大米品种进行分类的模式识别的预处理方法。
(2)按照稻米品种建立黄酒的SIMCA识别模型
选取975~1165cm-1和1250~1500cm-1波段作为特征向量,进行Savitzky-Golay的9点平滑、自动基线校正和SNV处理后,采用交互留一验证法可对黄酒进行PCA分析,同时可利用建立的SIMCA模型对不同黄酒的预测集样本进行预测验证模型的识别能力。在5%显著性水平下所有选择的黄酒可实现100%的识别率,而拒绝率除糯米黄酒为75%外其余均达100%,该模型在975~1165cm-1和1250~1500cm-1特定波段作为特征向量时对粳米和籼米稻米品种具备良好的识别能力。对不同稻米品种和对应的黄酒PCA分析显示了前3个主成分,其中PC1、PC2分别表达了所有数据83%、15%的方差,共计98%,说明前两个主成分表达了绝大部分的信息,从统计学角度考虑,剩余的2%的方差可能是误差,这一点与表2-11显示的RMSEC和RMSECV数据相吻合。
表2-11 不同黄酒PCA模型的RMSEC和RMSECV
从表2-11中可知当PCs≥3时,RMSEC和RMSECV都小于10-4数量级,与数据总体均方根误差相比已经足够小,可以将其看作误差舍弃。另外前两个主成分中RMSECV均比RMSEC略大(差异出现在10-5水平),可以进一步建立SIMCA模型。
(3)按照糯米产地建立黄酒的SIMCA识别模型
通过Matrix分析,确定选择4个波数范围的红外吸收作为特征向量:Ⅴ(970~1172cm-1,1245~1370cm-1,1600~1722cm-1,2865~2956cm-1),Ⅵ(970~1172cm-1,1245~1370cm-1,1600~1722cm-1),Ⅶ(970~1172cm-1,1245~1370cm-1),Ⅷ(970~1172cm-1)。通过初步试验,发现Savitzky-Golay的3点平滑、自动基线校正、MSC和一阶求导对PCA有明显影响。因此以其建立3种预处理方法:D(Savitzky-Golay的3点平滑、自动基线校正),E(Savitzky-Golay的3点平滑、自动基线校正、MSC),F(Savitzky-Golay的3点平滑、自动基线校正、MSC和一阶求导)。得到了在5%显著性水平下不同预处理的识别率和拒绝率,如表2-12。
表2-12 不同产地糯米黄酒训练集样本的识别率和拒绝率 单位:%
从表2-12中数据显示每种特征向量和预处理方法建立的识别率都是100%,但是拒绝率并非如此,因此拒绝率成为选取最优特征向量和预处理方法的重要指标。观察发现利用特征向量Ⅵ和预处理D建立识别模型中除AB拒绝率为93%外,其余黄酒的拒绝率均为100%,是效果最优的预处理,因此选用特征向量Ⅵ和预处理D对不同产地糯米黄酒进行分类和模式识别的预处理方法。
SIMCA模型能100%地识别黄酒的种类,而拒绝率基本均达100%,该模型在特定波段作为特征向量对糯米的产地识别具备良好的识别能力。PCA分析了前3个主成分,其中PC1、PC2分别表达了所有数据81%、14%的方差,共计95%,说明前两个主成分表达了绝大部分的信息,从统计学角度考虑,剩余的5%的方差可能是误差,因此以2个主成分数建立PCA模型,这一点与表2-13显示的RMSEC和RMSECV数据相吻合。
表2-13 不同产地糯米黄酒PCA模型的RMSEC和RMSECV
从表2-13中可知当PCs≥3时,RMSEC和RMSECV都小于10-5数量级,与数据总体均方根误差相比已经足够小,可以将其看作误差舍弃;另外前两个主成分中RMSECV都略比RMSEC大一点(差异出现在10-5和10-6水平),说明PCA模型良好,可以进一步建立SIMCA模型。按照已选的预处理方法和PCA建模方法,对6种黄酒建模,得到各自的PCA模型。检验SIMCA模型与上述稻米SIMCA模型相同。