摘 要:数据挖掘是适应信息社会从海量的数据库中提取信息的需要而产生的新学科。它是统计学、机器学习、数据库、模式识别、人工智能等学科的交叉。以往的数据挖掘技术的应用大多是在金融领域,而在其他领域里面应用不是很多,如在高校招生中的应用更是如此。数据挖掘技术对招生工作的深层研究与挖掘将会得到各高校的更多重视。以某高校招生数据作为招生信息为依据,对高校招生的关联规则进行分析。从而对关联性规则的应用作进一步的研究。
关键词:关联规则;Apriori算法;置信度;支持度;建模
1 民办高校招生的现状分析
招生工作一直是民办学校最重要的工作,民办学校在招生上的投入占一年总支出的很大部份,采用的招生方式也在不断的更新,使用新方法,新模式。但同时也会发现,有些方式方法并不能解决招生问题,浪费了有限的资源,得不偿失,主要表现在招生成本高、没有严格的招生机制,宣传模式单一等。归根原因是没有找到适合本校的招生方法与模式,而要能做到这一点,必须要对招生工作做一个详细的研究,根据以住招生的情况,总结分析,找出问题所在点和发光点,为招生工作更好的方式提供有力的依据。
2 Apriori算法分析
2.1 挖掘关联规则的主要步骤
步骤1:发现所有的频繁集。项集的频度至少应等于(预先设置的)最小支持度。关联规则的整个性能主要取决于这一步。
步骤2:根据所获得的频繁项集,产生相应的强关联规则。这些规则必须满足最小置信度阈值。
2.2 Apriori算法
Apriori算法是挖掘产生关联规则所需要的频繁项集的基本算法,是数据挖掘领域里面常用的一种关联规则挖掘算法。该算法利用一个层次顺序搜索的循环方法来完成频繁集的挖掘工作。这一循环方法就是利用(k-1)-项集来产生k-项集,具体的做法是首先找出频繁集I-项集,记为L1;然后利用L1来挖掘产生L2,即频繁2-项集,如此循环往返,直到无法发现更多的频繁k-项集为止。在每一层挖掘产生Lk时,都需要对整个数据库扫描一遍。Apriori算法利用Lk-1来生成Lk。
3.2 利用spss Clemention建模
利用spss Clemention工具建立模型,本例用2012年入学数据与2013年入学数据进行比较,得出两年的地区与是否报到的关联性分析,建模如图3所示。
3.3 设置最低条件支持度,最小规则置信度,最大前项数
在2012年的数据中,设置最低条件支持度为8.0,最小规则置信度60.0%,最大前项数为5,得到的数据分析结果如图4所示。
如果把2013的规则支持度和置信度设置和2012相同,结果如图5所示。
3.4 地区与是否报到关联规则结果分析
根据图4和图5进行比较,B(云南大理)和D(云南昭通)地区的学生报到是趋于正常的发展,在2013年招生中,A(云南昆明)、C(云南曲靖)和E(云南丽江)加大了招生宣传,取得了非常明显的效果,那么在2014年的招生宣传中,还需要在A、C、E地区保持一定的宣传投入,在B和D地区可以适当减少招生投入。
一个学校生源的多少决定了它规模及发展。特别是在民办高校,“招生就是一切”,招生中不仅要数量、质量也是发展的关键。民办院校在不同的发展时期会有不同的发展策略,在不同的历史时期院校也就有不同的招生策略及队伍建设适应发展的需求。因此,只有在清楚制定了院校发展战略规划后,才能顺理成章地制定出院校人力资源需求、发展、策略、培训、扩建和储备计划。充分把数据挖掘技术利用在招生工作中,将对个高校的招生工作提供决策支持,对高校的招生成本的整合具有深远的意义。
参考文献
[1] 赵祖应,丁勇.基于Apriori算法的购物篮关联规则分析[J].江西科学,2012(1).
[2] 王嵩岩.基于数据挖掘的关联规则研究[J].吉林省经济管理干部学院学报,2008,22(1):80-82.
[3] 朱建平,谢邦昌.数据挖掘中关联规则的提升及其应用[J].统计研究,2004(12):34-39.
[4] 姚俊.浅谈关联规则挖掘[J].信息技术,2005(6).
[5] 刘柱文,李丽琳.关联规则技术在数据挖掘中的应用[J].科学技术与工程,2008(6).
[6] 谭建豪,章兢.数据挖掘技术[M].北京:中国水利水电出版社,2009.
[7] 刘世平.数据挖掘技术与应用[M].北京:高等教育出版社,2010.