申钦鹏,张 霞,张 涛,雷 萍,段沅杏,杨光宇,韩敬美,赵 伟,陈永宽,缪明明,刘志华
(云南中烟工业有限责任公司技术中心/云南省烟草化学重点实验室,昆明 650231)
摘要:基于烟叶化学数据建立烤烟香型分类模型,然后对各模型进行筛选比较选出最优模型。首先对142个烤烟烟叶样品中的9类成分的63个指标采用行业标准进行检测,然后采用逐步回归法筛选出19个烟叶化学成分,依据这19个指标采用线性判别分析法、Logistic回归、高斯混合模型、分类树、K最邻近法、人工神经网络和支持向量机七种方法进行建模。通过对不同方法建立的模型采用100次随机抽取训练集样本和测试样本计算错误分类率,选择错误分类率较低的模型作为优选模型。经比较发现,线性判别法和高斯混合模型建立的两种香型函数能较好地对未知样品的香型进行正确分类,且效果较好。筛选出的两种优选模型对于烤烟香型分类研究具有一定的应用价值。
教育期刊网 http://www.jyqkw.com
关键词 :烟叶化学成分;烤烟香型;模型分类法
中图分类号:TS44+1文献标识码:A文章编号:0439-8114(2015)05-1220-07
DOI:10.14088/j.cnki.issn0439-8114.2015.05.049
收稿日期:2014-12-16
基金项目:云南省科技厅项目“用超临界一气相二维色谱新方法研究卷烟主流烟气中的香气成分”(2014FD078);云南中烟工业有限责任公司项
目“不同香型烟叶化学成分研究”(2012JC01)、“云南中烟一、二类卷烟新品开发”(2014CP01);云南中烟技术中心项目“SFC-GC-MS的
联用及其在卷烟烟气香气成分中的应用研究”(JSZX2014JC04)
作者简介:申钦鹏(1984-),男,湖南衡阳人,助理研究员,博士,主要从事烟草化学研究,(电话)18687540024(电子信箱)ashb345@126.com;
通信作者,刘志华(1974-),男,云南勐腊人,研究员,硕士,主要从事烟草化学研究,(电话)0871-65869792(电子信箱)zhihualiu@163.com。
目前利用烤烟中化学成分、致香成分对三种烤烟香型进行模式识别已有相关文献报道[1-4]。在国内的研究中,朱立军等[2]对112份市售卷烟样品中20种化学成分采用逐步判别方法进行判别分析取得了较好的分类结果,Zhan等[4]以63个中部和65个上部烟叶为材料,基于其中的67种致香物质对三种香型进行逐步判别分析也取得较好的分类结果并得到很好的应用。目前在利用化学计量学进行模式识别的过程中,已发展出了各种各样的方法[5],采用其他类型的方法是否与经典的判别分析方法具有同样的效果,或是效果要好于经典方法,此方面的研究还未见相关的报道。为此,采用目前较为成熟的经典判别分析方法(LDA)、Logistic回归(LR)、高斯混合模型(Mix)、分类树(Tree)、K最邻近法(KNN)、人工神经网络(CANN)和支持向量机(SVM)七种化学计量学方法,随机抽取不同的训练集和测试集进行分析,拟筛选出分类效果较优且精度较为稳健的模型,以期为烤烟香型分类优化模型的选择提供理论依据。
1 材料与方法
1.1 材料
2011年收集142份烤烟样品,分别来自中国14个省份,16个品种。其中清香型(简称“清”)50个,中间香型简称“中”40个,浓香型(简称“浓”)52个。本次收集的样品均由全国评烟委员会委员组成的评吸专家组对烤烟香型(清香型、浓香型和中间香型)进行鉴定。
1.2 方法
1.2.1 分析检测 在烟叶化学成分中主要对9类成分中的63个指标采用行业标准进行检测。63个指标具体是总糖、还原糖、氯、钾、氮、总植物碱、石油醚提取物、粗纤维素、挥发酸、挥发碱、葡萄糖、果糖、蔗糖、绿原酸、莨菪亭、芸香苷、铁、锰、铜、锌、钠、硼、钙、镁、硝酸根、硫酸根、磷酸根、草酸、丙二酸、苹果酸、棕榈酸、硬脂酸、柠檬酸、亚油酸、亚麻酸、烟碱、降烟碱、麦斯明、假木贼碱、新烟草碱、2,3-联吡啶、叶黄素、胡萝卜素、天冬酰胺酸、组氨酸、丝氨酸、谷氨酰胺酸、精氨酸、甘氨酸、高丝氨酸、天冬氨酸、谷氨酸、苏氨酸、丙氨酸、γ-氨基丁酸、脯氨酸、赖氨酸、酪氨酸、缬氨酸、异亮氨酸、亮氨酸、苯丙氨酸、色氨酸。
1.2.2 统计分析方法 主要的统计分析程序采用R-2.15.3进行。
1)自变量筛选方法。变量筛选方法采用逐步方法,该方法与逐步回归方法较为一致[6,7]。主要通过计算每一逐步过程中所得的F值与指定值进行判断变量移除或进入,并获得每个变量的Wilks’lambda统计量。
2)建模及评估方法。主要采用了判别分析法[8,9]、Logistic回归[10]、高斯混合模型[11]、分类树[12]、K最邻近法[13-15]、人工神经网络[16]和支持向量机[17,18]七种方法进行建模。通过对不同方法建立的模型采用100次随机抽取训练样本和测试样本计算错误分类率[19],选择错误分类率较低的方法所建模型作为优选模型。
3)隐含层计算。在采用人工神经网络进行建模的过程中,涉及到两个参数的优化,一个是隐含层单元数的确定,另一个是权衰减系数的确定。对于权衰减系数的确定主要参看下面“参数优化选择”中的内容进行优化选择,而隐含层单元数的确定主要采用以下公式进行计算:
其中,s为隐含层节点数,m为输入层节点数,n为输出层节点数。通过式(1)可对各化学成分、致香成分和近红外光谱信息的隐含层数进行选择。
4)参数优化选择。在分类树、K最邻近法、人工神经网络和支持向量机这四种方法进行建模的过程需要对分类树中树的复杂度、K最邻近法中最邻近点、人工神经网络权衰减系数及支持向量机中的惩罚因子进行优化选择[19]。一般情况下,优化参数的选择估计主要通过CV(交叉验证)方法进行[20],本研究主要采用十折交叉验证方法(10-fold CV)结合“单个标准误”准则对模型参数进行优化选择。
2 结果与分析
分别采用逐步回归法筛选后的各化学成分对三种烤烟香型进行建模,各模型建立后分别采用100次随机抽取训练样本和测试样本计算错误分类率,选择错误分类率较低、分类准确率高的方法所建模型作为优选模型。
2.1 基于各化学成分对三种烤烟香型定性建模比较择优
对逐步回归筛选出的还原糖、钾、氮、石油醚提取物、挥发酸、葡萄糖、果糖、蔗糖、芸香苷、铁、锰、铜、柠檬酸、烟碱、假木贼碱、2,3-联吡啶、胡萝卜素、天冬酰胺、甘氨酸这19个指标与三种香型采用不同的方法进行定性建模,其结果如下。
从图1可知,采用线性判别分析法对三种烤烟香型数据进行定性建模,其中100次随机抽取训练样本和测试样本计算的三种香型的错误分类率水平较为一致,基本保持在10%以下,中间香型的错误分类率分布范围较浓香型、清香型广,三种香型综合起来的错误分类率分布范围较小。
从图2可知,采用Logistic回归法对三种烤烟香型数据进行定性建模,其中100次随机抽取训练样本和测试样本计算的三种香型与合计的错误分类率水平浓香型、清香型较为一致,基本保持在10%左右,中间香型错误分类率水平较高,为15%~20%,中间香型的错误分类率分布范围较浓香型、清香型和总计广,总计的错误分类率分布范围较小。
从图3可知,采用高斯混合模型对三种烤烟香型数据进行定性建模,其中100次随机抽取训练样本和测试样本计算的三种香型的错误分类率水平较为一致,基本保持在10%左右,三种香型综合起来的错误分类率分布范围较小。
从图4、图5和图6可知,采用K最邻近法(KNN法)对三种烤烟香型数据进行定性建模,在最邻近点数目优化选择中采用随机抽样的测试误差与CV误差法筛选的K值为1;采用100次随机抽取训练样本和测试样本对不同最邻近点数目构建的模型计算总体错误分类率进行优选后的K值可为1、3、4、5、6、7、8和9之间的数值,最终指定优化K值为1。最终利用优化参数所建模型经过100次随机抽取训练样本和测试样本计算的三种香型与合计的错误分类率水平和清香型较为一致,基本保持在20%左右,中间香型错误分类率水平较高,为25%~30%,浓香型错误分类率水平较低,在15%左右,中间香型、清香型的错误分类率分布范围较广,三种香型综合起来的错误分类率分布范围较小。
从图7、图8和图9可知,采用分类树法对三种烤烟香型数据进行定性建模,在树复杂度优化选择中采用随机抽样的测试误差与CV误差法筛选的树复杂度为0.01;采用100次随机抽取训练样本和测试样本对不同树复杂度构建的模型计算总体错误分类率筛选的树复杂度没有找到明显较低趋势的值,最终指定优化树复杂度为0.01。最终利用优化参数所建模型经过100次随机抽取训练样本和测试样本计算的三种香型与合计的错误分类率水平在浓香型、清香型上较为一致,保持在60%~70%,中间香型错误分类率水平较高,在80%左右,三种香型综合起来的错误分类率分布范围较小。
从图10、图11和图12可知,采用神经网络法对三种烤烟香型数据进行定性建模,主要采用三层神经网络结构,在隐含层节点数选择中采用公式进行计算为9,在权衰减系数优化选择中随机抽样的测试误差与CV误差法筛选的权衰减系数为0.15;采用100次随机抽取训练样本和测试样本对不同权衰减系数构建的模型计算总体错误分类率,筛选的权衰减系数没有找到明显较低趋势的值,最终指定优化权衰减系数为0.15。最终利用优化参数所建模型经过100次随机抽取训练样本和测试样本计算的三种香型的错误分类率水平在浓香型、清香型上较为一致,保持在60%左右,中间香型错误分类率水平较高,为70%~80%,中间香型的错误分类率分布范围较广,三种香型综合起来的错误分类率分布范围较小。
从图13、图14和图15可知,采用支持向量法对三种烤烟香型数据进行定性建模,核函数采用径向基函数,在惩罚因子优化选择中采用随机抽样的测试误差与CV误差法筛选的惩罚因子为0.05;采用100次随机抽取训练样本和测试样本对不同惩罚因子构建的模型计算总体错误分类率,筛选的惩罚因子为0.05,最终指定优化惩罚因子为0.05。最终利用优化参数所建模型经过100次随机抽取训练样本和测试样本计算的三种香型的错误分类率水平在浓香型和总计上较为一致,保持在15%~20%,中间香型错误分类率水平较高,为25%~30%,清香型错误分类率水平较低,在10%左右,三种香型综合起来的错误分类率分布范围较小。
对以上几种模型100次随机抽取训练样本和测试样本的总体错误分类率进行比较(图16),发现线性判别法和高斯混合模型具有较低的错误分类率,可作为19种化学成分对三种烤烟香型分类的最优模型。
2.2 基于19个化学成分对三种烤烟香型的分类模型信息汇总
基于烟叶中19个化学成分采用了线性判别分析法、Logistic回归、高斯混合模型、分类树、K最邻近法、人工神经网络和支持向量机七种方法建立了烤烟香型分类模型,然后对所建模型的分类效果进行了比较,选择分类效果最佳的模型为优选模型,主要是依据100次随机抽取训练样本和测试样本集的错误分类率,错误分类率最低、分类效果最好的模型为优选模型。具体结果见表1,从表1中可以看出,线性判别分析法和高斯混合模型对烤烟香型判断准确率均达到90%及以上,因此确定这两种模型可作为优选模型。
3 小结
基于烟叶中19个化学成分分别采用线性判别分析法、Logistic回归、高斯混合模型、分类树、K最邻近法、人工神经网络和支持向量机七种方法建立了烤烟香型的分类模型,并分别比较了七种模型对100次随机抽取训练样本和测试样本的错误分类率,最终选择错误分类率较低、分类效果较好的模型作为优选模型。通过比较对烤烟香型分类的结果,发现采用线性判别分析法和高斯混合模型建立的两种香型函数能较好地对未知样品的香型进行正确分类,且效果较好(各项正确率均达到90%及以上),因此可将这两种模型确定为烤烟香型分类的优选模型。通过本研究确定的两种优选分类模型对于烤烟香型分类研究具有一定的应用价值。
教育期刊网 http://www.jyqkw.com
参考文献:
[1] 毕淑峰, 朱显灵, 马成泽. 逐步判别分析在中国烤烟香型鉴定中的应用[J]. 热带作物学报,2006,27(4):104-107.
[2] 朱立军,王 鹏,施丰成,等. 基于化学成分的卷烟类型逐步判别分析[J]. 西南大学学报(自然科学版),2012,34(3):9-13.
[3] GAO Q, YU L, CHEN L, LIU B Z, et al. Data discriminant analysis of aroma characteristics of tobacco based on DHS-GC/MS volatile data[J]. Computers and Applied Chemistry, 2012, 29(3):309-312.
[4] ZHAN J, ZHOU F F, BAO C Y, et al. Judgment of aroma types of the up-middle flue-cured tobacco leaves based on proportions of aroma components[J]. Agricultural Science & Technology,2013,14(4):612-619.
[5] 褚小立. 化学计量学方法与分子光谱分析技术[M]. 北京: 化学工业出版社, 2011.
[6] HABBEMA J D F, HERMANS J. Selection of variables in discriminant analysis by F-statistic and error rate[J]. Technometrics,1977,19(4):487-493.
[7] MCKAY R J, CAMPBELL N A. Variable selection techniques in discriminant analysis: Ⅱ. Allocation[J]. British Journal of Mathematical and Statistical Psychology, 1982, 35(1): 30-41.
[8] HUBERTY C J. Applied Discriminant Analysis[M]. New York: Wiley,1994.
[9] JOHNSON R A, WICHERN D W. Applied Multivariate Statistical Analysis[M]. New Jersey:Prentice Hall, 2002.
[10] KLEINBAUM D G, KLEIN M. Logistic Regression[M]. New York: Springer, 2002.
[11] HASTIE T, TIBSHIRANI R. Discriminant analysis by gaussian mixtures[J]. JRSS-B, 1996, 58(1):155-176.
[12] BREIMAN L, FRIEDMAN J H, OLSHEN R H, et al. Classification and regression trees[M]. California:Wadsworth Belmont,1984.
[13] DAVIES A N. Mass spectrometry[A]. GAUGLITZ G,VO-DINH T. Handbook of Spectroscopy Vol.2[C]. Weinheim: Wiley-VCH,2003.488-504.
[14] ROBIEN W. Nuclear magnetic resonance spectroscopy[A]. Gauglitz G,Vo-Dinh T. Handbook of Spectroscopy Vol.2 [C]. Weinheim:Wiley-VCH,2003,469-487.
[15] THIELE S, SALZER R. Optical spetcroscopy[A]. Gauglitz G, Vo-Dinh T.Handbook of Spectroscopy Vol.2[C]. Weinheim:Wiley-VCH, 2003.441-468.
[16] RIPLEY B D. Pattern Recognition and Neural Networks[M]. London:Cambridge University Press,1996.
[17] CHRISTIANINI N, SHAWE-TAYLOR J. An Introduction to Support Vector Nachines and Other Kernel-based Learning Methods[M]. London:Cambridge University Press,2000.
[18] VAPNIK V. The Nature of Statistical Learning Theory[M]. New York: Springer,1995.
[19] VARMUZA K, FILZMOSER P. Introduction to Multivariate Statistical Analysis in Chemometrics[M].Boca Raton: CRC Press, 2009.
[20] ANTHONY M, HOLDEN S B. Cross-validation for binary classification by real-valued functions:theoretical analysis[A]. Bartlett P, MANSOUR Y. COLT'98 Proceedings of the eleventh annual conference on computational learning theory[C]. New York:ACM,1998.218-229.
(责任编辑 王晓芳)