上海立信会计学院数学与信息学院 姚 衡 高 瑞
上海立信会计学院立信会计研究院 王双成
【摘要】企业财务信息失真识别越来越多地受到关注。本文使用条件高斯函数代替边缘高斯函数的乘积进行叠加,给出新的多元高斯核函数,在此基础上,建立扩展的连续属性朴素贝叶斯分类器,并将该分类器用于企业财务信息失真识别,实验结果显示,这种分类器具有良好的分类性能。
【关键词】财务信息失真识别 朴素贝叶斯分类器 高斯函数 贝叶斯网络 依赖扩展
一、引言
如何有效识别上市公司会计信息真伪一直受到广泛关注,已成为会计和其它学科交叉研究的热点。
但会计指标具有复杂性、非线性、不确定性和高噪声性等特征,使得对会计信息失真进行可靠识别非常困难。对这样复杂的问题需要进行跨学科和多种技术的综合研究,提高会计信息失真识别的可靠性。
分类器技术是融合了多学科理论与方法而形成的模拟人类概念学习的实用技术,是会计信息失真识别的有力工具,会计信息失真识别的科学化和智能化被认为是其发展的必然趋势。
贝叶斯分类器(Bayesian classifier, BC) 是一个基础概率分类器,由满条件概率的不同计算方法可产生一系列贝叶斯衍生分类器(Bayesian derivativeclassifier, BDC),朴素贝叶斯分类器(naive Bayesianclassifier, NBC) 是最简单的BDC,以高效率和良好的分类准确性而著称,但这种分类器不能有效地利用属性之间的依赖信息,而这种信息也是分类的重要信息,因此,对NBC 进行依赖扩展便成为BDC 研究的一条主线。其中主要是针对离散属性BDC 的研究。本文研究不离散化连续属性的NBC 和依赖扩展( 需要估计属性密度),其研究结果可推广到混合属性的情况。在属性密度估计方面,John 和Langley 使用高斯函数和高斯核函数估计属性边缘密度建立了GNBC(Gaussian naive Bayesian classifier) 和FBC(flexible Bayesian classifier) 两种分类器,虽然分类效果并不理想,但奠定了基于密度估计研究连续属性贝叶斯衍生分类器的基础。Pérez 和 Larranga 等通过为高斯核函数引入平滑参数,以及基于高斯函数和高斯核函数的连续属性互信息计算对NBC 进行依赖扩展,使分类器的分类准确率得到改进,但当属性较多时,协方差矩阵的计算非常困难。夏战国等将高斯过程用于具有不均衡类的半监督分类器学习,取得了较好的分类效果。Liu 等对复杂和简单的高斯过程分类器进行理论分析和实验比较,认为复杂的高斯过程分类器往往能够取得更好的分类效果。
使用高斯核函数能够估计复杂的属性密度,使分类器充分拟合数据,而且通过平滑参数调整又能够避免与数据集的过度拟合。但目前多元高斯核函数采用边缘高斯函数的乘积进行叠加,实质上也蕴含着条件独立性假设,因此会丢失属性之间的依赖信息,从而降低分类器的可靠性。为提高分类器的学习与分类效率。本文使用条件高斯函数代替二元高斯核函数中边缘高斯函数的乘积进行叠加,建立新的二元高斯核函数,对NBC 进行一阶依赖扩展( 将扩展后的分类器简记为OKNB),最后使用UCI 数据和企业财务数据进行实验与分析。
二、KBDC 概述
(一)分类器结构
NBC 具有星形结构( 用S 表示),KBDC 一般不再具有星形结构( 用T 表示), 而是约束树或约束森林,两种分类器的结构如图( 1)所示。
(三)KBDC 结构学习与优化
KBDC 结构学习就是在NBC 的基础上,发现每一个属性新父结点的过程。首先根据Quinlan 的信息增益率为属性排序;然后以分类准确性为标准,按照属性的顺序依次进行贪婪搜索来发现属性的新父结点,建立KBDC 结构。
三、KBDC 可靠性分析与应用
(一)KBDC 的可靠性分析
在UCI 中选择30 个连续属性的分类数据集用于实验和分析,删除具有丢失数据的记录,数据集中记录的位置也进行随机初始化。选取十二个分类器,其中前四个是离散属性分类器( 对连续属性采用Fayyad 和Irani(1993) 方法进行离散化),后八个是连续属性分类器,将其与KBDC 进行分类准确性比较实验。用于比较的分类器的具体情况依次是:
离散属性NBC(DNB) ;基于Quinlan(1986) 的信息增益率为属性排序,按照属性顺序对NBC 进行链依赖扩展而得到的分类器(DCNB) ;Friedman 等(1997)给出的TAN 分类器(DTAN) ;采用属性排序和贪婪打分- 搜索方法所建立的约束贝叶斯网络分类器(DCBN),其中属性排序采用Quinlan(1986) 的信息增益率,打分函数使用MDL(minimal description length)标准;基于高斯函数估计属性条件边缘密度而建立的NBC(GNB) ;使用Pérez 等(2009) 方法建立的NBC(GKNB) ;使用Pérez 等(2006) 方法建立的连续属性树结构分类器(CTAN) ;基于高斯函数估计属性联合密度,并结合分类准确性标准与前向贪婪属性选择而建立的完全贝叶斯分类器(GFB) ;使用高斯核函数估计属性联合密度,并结合分类准确性标准与贪婪搜索进行单平滑参数优化而建立的完全贝叶斯分类器(GKFB) ;最近邻域分类器(NNC) ;Quinlan(1986) 的决策树分类器(C4.5) ;支持向量机分类器(SVM, libsvm, http://www.csie.ntu.edu.tw/) ;基于二元高斯核函数估计属性密度的一阶贝叶斯衍生分类器(KBDC)。
采用10 折交叉有效性验证方法进行分类器的分类错误率估计,并使用Wilcoxon Signed-Ranks Test和Friedman Test with post-hoc Bonferroni test(Demsar2006) 进行两个分类器分类错误率之间差异的置信打分,其中※ 表示KBDC 和用于比较的分类器相对于给定的检验方法差别显著。十二个分类器与KBDC的分类错误率实验结果如表( 2)所示。
综合分类器之间的分类错误率差异的显著性检验、分类准确性平均值比较和分类准确性差异百分比计算三方面的结果,显示了KBDC 相对于其它十二个分类器在分类准确性方面具有明显的优势。
(二)基于KBDC 的企业财务信息失真识别
根据专家信息确定与企业财务信息失真指标(KBDC 属性),从Wind 数据库获取2013 年企业财务信息失真相关数据,通过学习建立KBDC,并检验使用KBDC 进行企业财务信息失真识别的可靠性。
企业财务信息失真识别相关指标。用于企业财务信息失真识别的指标包括:企业财务信息失真情况(C)、总资产周转率(X1)、应收账款周转率(X2)、销售净利率(X3)、总资产净利率(X4)、流动比率(X5)、产权比率(X6)、担保总额占净资产比例(X7)、关联交易占总资产比例(X8)、关联交易占营业总收入比例(X9)、2 年内公司层面存在内控缺陷(X10)、2年内存在合同管理内控缺陷(X11)、2 年内存在投资活动内控缺陷(X12)、2 年内存在筹资活动内控缺陷(X13)、2 年内存在对外担保内控缺陷(X14)、2 年内存在关联交易内控缺陷(X15)、2 年内财务报告编制存在缺陷(X16)、2 年内信息披露存在缺陷(X17)、2年内存在的其他缺陷(X18)。
用于企业财务信息失真识别的KBDC 结构。根据企业财务信息失真识别的相关指标,KBDC 的结构如图(2)所示。
器的可靠性比较。从Wind 数据库获取2013 年企业财务信息失真相关数据,使用上面13个分类器,进行企业财务信息失真识别。采用10 折交叉有效性(10-fold cross-validation) 验证方法进行分类器的分类准确性估计,如图(3)所示。
可以看出,使用企业财务数据,相对于其它12个分类器KBDC 同样具有优势,这表明将KBDC 用于企业财务信息失真识别将会得到更可靠的结果。
四、结语
针对连续属性NBC 和多元高斯核函数存在的问题,本文使用条件高斯函数代替边缘高斯函数的乘积进行叠加,给出新的多元高斯核函数,结合这种多元高斯核函数和一阶依赖扩展方法建立OKNB。
使用UCI 和企业财务信息失真识别数据的实验结果显示,OKNB 具有良好的分类准确性和可扩展性。
参考文献
[1] 梁杰, 位金亮, 扎彦春. 基于神经网络的会计舞弊混合识别模型研究. 统计与决策, 2006(2): 152-154.
[2] 张玲, 杜庆宣. 上市公司会计信息失真识别研究:CART 与MDA 模型应用比较. 南京师大学报( 社会科学版), 2009(4): 53-58.
[3] 于彪, 陈思凤. 会计信息失真识别的成本控制型支持向量机模型. 商场现代化, 2011(6): 131-133.
[4] 刘澄, 胡巧红, 孙莹. 基于分类回归树的会计信息失真识别研究. 中国管理信息化, 2013, 16(6): 1-3.
[5] 王双成, 杜瑞杰, 刘颖. 连续属性完全贝叶斯分类器的学习与优化. 计算机学报, 2012, 35(10): 2129-2138.
[6] J o h n G H , L a n g l e y P . E s t i m a t i n g C o n t i n u o u sDistributions in Bayesian Classifiers. In Proceedings ofthe Eleventh Conference on Uncertainty in ArtificialIntelligence(UAI-1995), Morgan Kaufmann, Canada,1995, 338-345.
[7] Pérez A, Larra?agaa P, Inzaa I. Supervised classificationwith conditional Gaussian networks: Increasing thestructure complexity from naive Bayes. InternationalJournal of Approximate Reasoning, 2006, 43(1):1-25.
[8] X I A Z h a n - G u o , X I A S h i - X i o n g , C A I S h i - Y u ,等. Semi-supervised Gaussian process classificationalgorithm addressing the class imbalance. Journal onCommunications, 2013, 34(5): 42-51.
[9] Liu G Q, Wu J X, Zhou S P. Probabilistic classifierswith a generalized Gaussian scale mixture prior. PatternRecognition, 2013, 46(1): 332-345.
[10] Quinlan J R. Induction of decision trees. MachineLearning, 1986, 1(1): 81-106.
[11] Fayyad U, Irani K. Mult-interval discretization ofcontinuous-valued attributes for calssification learning.I n : P r o c e e d i n g s o f t h e 13t h I n t e r n a t i o n a l J o i n tConference on Artificial Intelligence, Chambery, France,1993, 1022-1027.
[12] Kohavi R. A study of cross-validation and bootstrap foraccuracy estimation and model selection. In: Proceedingsof the 14th International Joint Conference on ArtificialIntelligence(IJCAI), Morgan Kaufmann, Canada, 1995,1137-1143.
编辑: 彭秋龙