基于行业分布的企业网络信息安全威胁及对策研究
Enterprise Internet Information Security Threats and Countermeasure
Research Based on Industry Distribution
王茜 WANG Qian;习磊 XI Lei
(中山大学管理学院,广州 510006)
(School of Business,Sun Yat-Sen University,Guangzhou 510006,China)
摘要:在互联网日益普及的今天,企业越来越重视自身的信息化建设,企业信息化的发展使得接入互联网的企业不断增长,如何保护企业信息安全成为企业发展的关键内容之一。本文采取数理统计及文本分类的方法,对来自某知名黑客论坛的300余万条数据进行分析,通过TF-IDF模型与KNN算法分类思想,得出不同行业的网络信息安全威胁程度,并划分出较低、适中以及较高三类等级。在此基础上,根据行业特点深入剖析了不同行业产生信息安全问题的原因,并提出了相应的改进措施和建议。
Abstract: With the growing popularity of the internet today, the enterprises have paid more attention to their informatization construction. The development of enterprise informatization made more and more enterprise connect to the internet, how to protect the information security is one of the critical problems enterprises should consider. This paper took mathmatical statistics and text classification to analyze more than 3 million data from a famouse hacker´s forum. The paper got the levels of informaiton security threats for different industries through TF-IDF model and KNN algorithm. From that, it analyzed the reasons why there are so many information security problems in different industries deeply, and provided some targeted suggestions.
教育期刊网 http://www.jyqkw.com
关键词 : 网络信息安全;TF-IDF模型;KNN算法;行业分布
Key words: Internet information security;TF-IDF model;KNN algorithm;industry distribution
中图分类号:TP399文献标识码:A文章编号:1006-4311(2015)20-0050-04
0引言
随着互联网的迅速发展和普及,企业的信息化建设的步伐也在不断地加快。从外部环境来看,由于市场范围不断扩大,科技竞争、营销竞争、市场和人才的争夺日益激烈,对企业形成了强大的压力。依托互联网及信息资源,采用信息技术来实现信息化,是企业保持竞争优势的有力措施。从企业内部来看,为适应外部竞争环境,企业内部结构、业务流程、管理方式以及商业模式都需不断调整、重组、变革。企业与互联网结合进行信息化建设,在引入新技术的同时,能够提高企业的应变能力、创新能力和竞争能力[1]。
同时,企业通过互联网可以快速了解市场信息,掌握市场动态,传递和交换商业信息,进而提高工作效率,节省成本,企业的信息化建设在市场竞争中具有重要的战略地位[2]。
关于企业网络信息安全的研究多集中于网络威胁的检测和具体的方法技术,或者从安全管理制度入手,协调企业内部管理机制,建立信息安全管理模型[4]。也有学者从技术、管理和资源角度出发,考虑信息安全体系的构建原则,或者针对具体的安全问题,提出具有创见性的解决或操作方案[5]。这些都是从企业建设的角度,来分析企业信息安全问题,企业个体层面的研究较多。
而从宏观上来看,不同行业面临的信息安全问题也会有所区别,如何明确不同行业的信息安全威胁程度,并出台相应政策改善信息安全状况,是相关政策制定者亟需考虑的问题。
从行业分布来看企业的信息安全状况,能够给企业带来战略性的指导,通过明确信息安全威胁程度,可以有针对性地制定信息安全投入策略,优化企业管理资源配置[6]。
此外,信息安全的行业分布特征可以从整体上反映我国的信息安全体系建设的状况,进而通过加强对不同行业的引导,探索保护企业信息安全的有效途径,来完善相应的法律法规制度。
网络信息安全事件中,绝大多数是由黑客行为造成的,在易受黑客攻击的行业中,依然有部分企业完全忽视了信息安全的重要性。
本文从探究不同行业的网络信息安全威胁的角度出发,以某知名黑客论坛搜集到的300多万条黑客攻击数据为基础,旨在通过实证研究得出不同行业的网络信息安全威胁程度,为相关部门制定信息安全政策提供支持,同时为不同的行业区分不同的信息安全等级,有针对性地实施信息安全保护措施。
1入侵行为样本数据采集及预处理
本文所采用的数据来自于某知名黑客论坛,该论坛收录了大量的网站入侵数据,每条数据由黑客攻击者本身上传,并提供相应的证据证实该行为的真实性,该论坛的工作人员会对提交的信息进行审核,确认其真实性后才会在网站社区进行发布。数据的采集以网络爬虫(Web Crawler)抓取的方式进行,主要抓取被攻击网站的中文标题和中文关键字,便于后续的数据处理和分析。
从该网站采集的数据文字信息杂乱无规律,且数据量大,其中大部分为无效数据。由于无效数据扩大了样本容量,不具有分析价值,在对数据的冗余统计上,会使结果造成很大的偏差。为了使分析结果更加准确,我们通过编写相应的程序代码,对初始数据进行预处理,包括外文字符的处理、半角及全角转换、汉字编码转换以及无效数据的清除等工作。清除无效数据主要包括去除无明显含义的字词、空白字符和特殊符号。我们收集到的数据总量为3445153条,经过筛选和预处理,有效数据为725550条。
《财富中国》曾经根据发达国家的行业界定与行业演变规则,对中国的行业进行了新的分类,本文参考它的分类标准,将细分的行业归结到新的行业大类中。由于分析的数据量比较大,我们采用文本分类算法对数据进行分类,先由算法学习训练数据集的分类标准,再批量完成对其他数据的分类。从有效数据中随机选取10000条不同的数据进行人工分类作为训练数据集,通过每条数据的关键字和句子描述的意义判断它属于哪个具体的行业。
2网络信息安全数据分析
由于每一条有效数据代表着一次黑客攻击或者信息安全事件,得出每条数据的行业分类,就能看出整体的网络信息安全事件的行业分布情况。本文根据现有数据选择能够代表每个行业的关键字集合,即行业特征值,再结合训练数据集(人工分类数据集),以及KNN分类算法,对数据进行自动分类。
在数据分类过程中,对于行业特征值的选择遵循两个原则,一是关键字要具有代表性,不仅在语义上能表明这个行业,还要在分析的样本数据中,与其他行业具有一定的区分度;二是与其他行业关键字之间互斥,尽量避免与其他行业的分类词相关联,并且在其他行业数据中出现的次数比较少。为了更有效地选取行业特征值,我们采用TF-IDF模型来确定。
获得数据中每个行业的特征值之后,我们采用KNN算法对数据进行分类。由于KNN算法是非参数算法,只需要提供已经按照规则分类好的训练数据集,和分类属性的特征值,KNN算法便可以通过学习来进行新的分类。此外,KNN算法分类效果较为准确,虽然需要比对训练数据集,但由于本训练集的内容是单条数据,可以克服KNN运算时空开销大的弊端[7]。
2.1 TF-IDF模型选取行业特征值
在本研究中,TF-IDF模型的主要作用是用来寻找能够有效代表某一行业的名词,即行业特征值。一个名词在某一行业的文本中出现的频率越高,而在所有的文本中出现的越少,则区分其他行业的效用越大,相应的TF-IDF值就越大[8]。TF-IDF值的计算是基于10000条样本数据进行的。其公式为:
其中:TF:该名词在某一行业文本中的词频;n:该名词在某一行业文本中出现的次数;N:行业文本中名词的总数;IDF:逆向文本频率,即所有文本数与包含该关键字文本数的商的对数;W:所有文本数,在样本数据中,值为10000;d:包含该关键字的文本数。
TF-IDF模型能够减少模糊匹配和互斥性差对分类造成的影响,较好地体现了行业特征值对行业的代表性,以及行业特征值对于分类结果的互斥性[9]。
①获取关键字的TF值。
TF-IDF模型使用人工分类的数据(训练数据集)来获取行业特征值,在得到某一行业的行业特征值之前,我们将候选的名词称为关键字。由于篇幅有限,这里只以信息相关行业为例介绍如何通过TF-IDF模型选择关键字,并优化形成行业特征值的过程。首先通过编写程序对“信息相关行业”样本数据进行分词并标注词性,随后选取名词作为关键字,统计词频获得TF值。
②计算IDF值,并获得TF-IDF值。
经过分词后会产生很多与信息相关行业无关的名词,这些名词并不都能代表信息相关行业。我们从上述列表中依次挑选出可以代表信息相关行业的关键字,并在10000条样本数据中搜索包含该关键字的数据条数,即模型中的d。依据TF-IDF模型公式计算出IDF值,然后将TF值与IDF值相乘获得TF-IDF值。
③基于TF-IDF模型获取行业特征值集合。
TF-IDF值计算出来后,根据大小排列,我们可以很好地了解哪些关键字最能代表信息相关行业,并能进一步明确行业特征值集合。设信息相关行业的行业特征值集合为M{n1,n2,n3…},ni表示集合中的关键字,依据TF-IDF值列表,由高到低依次向该集合中添加一个关键字,并以M集合中的关键字作为查询条件,获得数据条数。该过程是一个动态的优化过程,每添加一个关键字,搜索的数据条数都会改变,与人工分类的结果越接近我们认为分类效果越好。
我们设置参数偏离度De来衡量优化性能,De的计算公式为:
其中:De:用来衡量与人工分类偏离程度,值越小,表明分类效果越好;R:经过TF-IDF模型优化后的分类方案所得出的行业百分比;s:用行业特征值集合查询的数据条数;S:样本数据总条数,为10000;P:人工分类的行业百分比,信息相关行业P值为19.01%。
2.2 应用KNN算法进行数据分类
由于KNN算法能够学习训练数据集的分类标准,且具有分类精度高、稳定性强的特点[10],本文采用KNN算法实现文本的自动分类。KNN算法分类过程涉及到特征值的选取和相似度的计算,特征值即在TF-IDF模型优化的过程中选出的行业特征值集合。语义相似度采用夹角余弦函数进行计算,两个文本向量在空间中的夹角越小,余弦值越大,表示其语义相似度越大,反之亦然。KNN的决策过程如下:
量的相似度。
2.3 数据分类结果
依据KNN算法分类思想,结合自然语言处理开源工具包(FudanNLP),编写相应的程序代码,实现KNN分类器的算法分类。FudanNLP运行环境为联想Z460笔记本电脑,6G内存,酷睿i3处理器,2.53GHz。全部的有效数据经过KNN分类器运算的分类结果如表1所示,信息相关行业、专业服务、教育、旅游休闲均超过了5%,其中信息相关行业逼近20%,是网络信息安全问题出现最多的行业。其次,建筑建材、医药卫生、文化超过了3%,企业的网络信息安全问题仍然严峻。其他行业占比比较低,交通运输和制造业相对较高。
3行业分类结果分析与建议
根据分类结果,我们对不同行业所面临的网络信息安全威胁进行了等级划分,如图1所示。在本研究数据中,网络信息安全问题占比5%以下的行业,网络信息安全威胁程度较低;占比5%-15%的行业,网络信息安全威胁程度适中;占比5%-15%的行业,网络信息安全威胁程度较高。
3.1 建立信息安全管理体系框架
英国标准协会(SBI)于1959年制定了信息安全管理体系标准,并于1999年进行了修订改版,2000年12月经包括中国在内的国际标准组织成员国投票表决,正式转化成国际标准。信息安全管理体系框架(ISMS)的建立,对保护企业信息资产安全,建立良好的市场秩序,提升企业的综合竞争力,有着重要意义。这是一个庞大的系统工程,必须依赖政府自上而下的顶层设计,来构建新的治理体系[11]。该框架应对信息安全的管理目标、管理主体与客体及管理工具,进行详细的阐述与界定,对不同的行业应有不同的要求,根据行业信息安全威胁程度,来实施信息安全保护及等级评估的具体措施。
目前,我国政府以及各行各业已经认识到了信息安全的重要性,国务院办公厅先后颁布了一系列相关政策,直接引导推进信息安全系统的应用和发展。
此外,政府相关部门应对信息基础设施加以整合,集中网络信息安全的领导权和统一诸如加密标准、认证标准、数字签名标准等信息安全产业标准,通过加强跨区域、跨部门的系统互联来实现网络信息安全。
同时,各行业信息安全管理框架应由各机构根据自身的实际状况搭建,制定适合企业自身业务发展的信息安全管理框架。
3.2 信息相关行业
由统计结果可以看出,信息相关行业中的企业更容易出现网络信息安全问题,占比接近20%,这和信息相关行业本身的性质有关。
首先,信息相关行业以互联网企业居多,与网络有更强的粘滞性,大部分的业务都需要通过网络来完成,网络中存在大量的信息安全威胁,对直接暴露在复杂网络环境中的服务器、主机终端等硬件设施,和处理企业事务的软件,具有较强的破坏性。
比如2014年9月,美国家得宝公司确认其支付系统遭到网络攻击,将近有5600万张银行卡的信息被盗。其次,部分企业自身的防范意识不足,防范措施不完善,无法适应较高的信息安全要求,尤其缺乏专业的信息安全管理人员,导致信息安全事件频发。
此外,国内信息相关行业的安全体系并没有完全建立起来,无法对企业形成有力的督促效应和政策约束,大部分企业忽视了在信息安全方面的投入,没有上升到企业战略的高度。
信息相关行业中的企业应明确自身承受着较高的网络信息安全威胁,首先应加大在信息安全方面的资源投入,一是增加物理防护,增加服务器,运行防火墙等软件,或者开辟网络专线;二是增加软件防护,安装企业级的杀毒软件,对网络安全状况进行及时的监控,并排除威胁。其次,设立严格的信息安全保障制度,保证业务的正常开展,从而减少信息泄露或企业业务中断的风险,获得商业竞争优势。
同时,国家信息安全相关部门可以对信息相关行业中的企业设置信息安全建设绿色通道,鼓励他们积极完善自身的信息安全防护机制,必要时设立审查制度,定期对企业的信息安全建设情况进行审查并进行评级,确保相关政策有效落实。
3.3 专业服务、教育和旅游休闲行业
专业服务、教育和旅游休闲的信息安全事件均超过了5%,表明在这三个领域仍然存在着较高的网络信息安全威胁。服务行业包括广告、维修、设计、通信等,从行业特征来看,他们在互联网安全的投入中并不会占整体投入的太多比例,网络安全受到威胁,不会对他们的业务带来显著的影响。
相对于信息相关行业,专业服务、教育和旅游休闲的企业信息安全问题,更多的是来源于网络安全基础设备的不足,由于网络连接不涉及核心业务,大部分企业忽视了硬件设备的采购以及防护体系的建立,企业信息遭到窃取和泄露在所难免。
这一问题在教育行业尤为突出,一些高校为了减少网络建设投入,同时也为了给学生提供技术锻炼平台,直接将门户网站和非关键系统的建设与维护交给了学生团体,由于缺乏经验的积累和相关核心安全技术,部分高校网站的脆弱性可见一斑。
旅游休闲类服务型企业,通常会通过在线交易开展业务,比如预定付款、网络游戏充值等等,更容易成为不法分子的攻击目标,信息安全事件也时有发生。2014年10月,摩根大通银行网络数据库遭窃,其承认7600万家庭和700万小企业的相关信息被泄露。
该行业中的企业由于自身业务的限制,往往缺乏相应的信息安全应急机制和处理方案,更没有针对自身信息系统的安全管理措施。这种情况下,企业应加强寻求对外合作,让更专业的第三方机构负责信息系统的实施与维护,签订服务水平协议,并提供信息安全保障。
此外,尽量减少经济利益的网上流通,加大审查力度,网上支付、在线交易等要进行严格的审批,没有足够安全保障的企业,不能提供此项服务;同时也要对现有的线上支付方式进行检查,具有潜在安全隐患的要及时进行警告和撤销,并转换为线下支付。
3.4 其他行业
建筑建材、文化、医药卫生、机构组织、交通运输、制造业等行业中的信息安全事件均超过了1%,其余行业的信息安全威胁较低。这类行业较少利用网络来开展业务,因此企业信息泄露的风险普遍较低,发生信息安全事件的可能性不高。
尽管如此,每年仍然会有相当规模的网络恶意攻击,导致部分企业服务器瘫痪,无法进行工作。这类安全事件主要由黑客造成,多半是为了展示能力、炫耀技术或者娱乐,并非仅仅是为了获得企业的商业机密信息。
此外,企业内部人员疏于管理,信息安全意识不强,通过文件传递、口头传播或者交流聊天都有可能泄露企业私密信息。值得关注的是,金融和军事类企业网络信息安全威胁较低,主要是因为它们具有严格的内部管理制度,员工的信息安全意识,纪律性较强。
其次,它们在物理防护和软件防护上都做的比较完善,军事类企业和组织甚至开辟专用网络链路来保证信息安全。这些行业中的企业在日常运作的过程中,所受信息安全威胁较低,应主要完善内部的制度建设,加强员工的信息安全意识的培养,做到人员管理安全。同时,建立完备的危机应急机制十分必要,当网络信息安全事件发生时,企业能够从容应对。
4结束语
网络信息安全威胁是现代企业都有可能面对的问题,通过互联网等现代信息技术开展业务是企业发展过程中的必然趋势。
本文采用TF-IDF模型和KNN算法,借用计算机编程,顺利地实现了文本数据的分类,获得不同行业的网络信息安全威胁程度。明确自身所处行业的网络信息安全威胁程度,企业才能采取更加有效的应对措施,合理利用管理资源。网络信息安全的行业差异性,为政府相关部门制定具有针对性的政策提供了依据,避免了一刀切、粗放型的管理方式。
然而本文的研究仍然存在一定的局限性,数据的挖掘深度不够,比如可以进一步探讨不同行业之间信息安全问题的联系和相关性,以及它们的对比分析,同时结合时间序列数据,也可以研究不同行业信息安全问题的演变和发展,这些将是今后进一步的研究内容。
教育期刊网 http://www.jyqkw.com
参考文献:
[1]刘文臣,朱建明.企业信息安全投资的博弈分析[J].湖北大学学报(哲学社会科学版),2012,03:138-141.
[2]孙军军,赵明清,李辉,冯梅.企业信息安全现状与发展趋势分析[J].信息网络安全,2012(10):90-92.
[3]尹鸿波.网络环境下企业信息安全管理对策研究[J].电脑与信息技术,2011(02):45-47.
[4]肖锟.浅议网络环境下的企业信息安全管理[J].标准科学,2010(08):20-23.
[5]曹如中,曾瑜,郭华.基于网络信息安全的国家竞争情报体系构建研究[J].情报杂志,2014(08):13-18,36.
[6]耿丽娟,李星毅.用于大数据分类的KNN算法研究[J].计算机应用研究,2014(05):1342-1344,1373.
[7]路永和,李焰锋.改进TF-IDF算法的文本特征项权值计算方法[J].图书情报工作,2013(03):90-95.
[8]张瑾.基于改进TF-IDF算法的情报教育期刊网 http://www.jyqkw.com
关键词 提取方法[J].情报杂志,2014(04):153-155.
[9]路永和,何新宇.文档相似矩阵在提高KNN分类效率中的应用[J].情报理论与实践,2014(01):141-144.
[10]陈美.国家信息安全协同治理:美国的经验与启示[J].情报杂志,2014(02):10-14.
[11]Kang A N, Barolli L, Park J H, et al. A strengthening plan for enterprise information security based on cloud computing[J]. Cluster Computing, 2013: 1-8.
[12]Cholez H, Girard F. Maturity assessment and process improvement for information security management in small and medium enterprises[J]. Journal of Software: Evolution and Process, 2014,26(5): 496-503.
[13]Ahmad A, Maynard S B, Park S. Information security strategies: towards an organizational multi-strategy perspective[J]. Journal of Intelligent Manufacturing, 2014, 25(2): 357-370.