nsprint算法的研究与应用.rar
nsprint算法的研究与应用,摘 要随着数据挖掘分类技术的广泛应用,决策树在数据挖掘技术中的作用越来越重要,并且取得了众多的研究成果。实际应用中由于存储数据量爆炸性的增长,使许多算法挖掘效率下降,而传统的决策树算法已经不能很好的从海量的数据中找出有用的信息,使得它的应用受到了一定的局限性。为了解决决策树算法应用的局限性问题,本文着重对决策树挖掘算法...
该文档为压缩文件,包含的文件列表如下:
内容介绍
原文档由会员 li484167 发布摘 要
随着数据挖掘分类技术的广泛应用,决策树在数据挖掘技术中的作用越来越重要,并且取得了众多的研究成果。实际应用中由于存储数据量爆炸性的增长,使许多算法挖掘效率下降,而传统的决策树算法已经不能很好的从海量的数据中找出有用的信息,使得它的应用受到了一定的局限性。为了解决决策树算法应用的局限性问题,本文着重对决策树挖掘算法进行了研究,在现有算法的基础上对SPRINT算法进行改进,并运用改进的算法对影响本科生创新能力的主要因素进行挖掘。主要的研究工作集中体现在以下几个方面:
(1)对经典决策树算法的理论和实现原理进行了研究;深入分析了SPRINT算法,针对该算法的不足进行了改进,并将改进算法与原有算法进行了测试;对Eclipse开发平台的结构和Weka平台的结构、功能、内核进行了分析。
(2)在上述研究的理论方法的基础上,对SPRINT算法中关键的成员变量、方法以及数据结构进行设计,根据规则建立分类器,将SPRINT算法封装进Weka平台中,并通过实例将封装的SPRINT算法与Weka平台自带的J4.8算法(即C4.5算法)进行比较测试。
(3)将封装的SPRINT算法应用到学生创新能力挖掘中,对分类的结果进行分析,总结出学生创新能力与教学方法的之间的关系,为教师指导学生提供决策支持。
(4)最后对改进的SPRINT算法的理论思想和实验原理进行了详细的总结,同时对论文存在的问题做了说明,展望下一步的工作。
关键词:数据挖掘;决策树算法;数据挖掘平台;创新能力;创新能力挖掘
Abstract
With the extensive applications of classifying technology of data mining, decision tree classifier has achieved much research achievement. In practical applications the efficiency of many mining algorithms declines with the explosive growth of data storage.The traditional decision-making tree algorithms has already could not find out useful information from a mass of data well. It makes the application subject to certain limitations. In order to resolve the open questions of decision-making tree algorithms, this thesis focuses on the research of decision tree mining algorithms. Improve the SPRINT algorithm based on the existing algorithm and excavate the major factor that impact innovative capability of students by using improved algorithms. Researchs of this thesis mainly reflects in the following aspects:
Research the theory of the classical decision-making tree algorithms, especially SPRINT algorithm. Improve the SPRINT algorithm according to the original algorithm’s shortages. Analyse the structure of Eclipse platform and the structure, function, kernel of Weka platform.
Design the key member variables, methods and data structure of the SPRINT algorithm based on the above-mentioned theory. Establish classification by rules, encapsulate SPRINT algorithm into the Weka platform .And compare encapsulated SPRINT algorithm with the J4.8 algorithm (C4.5 algorithm) that comes with Weka platform by examples.
Apply encapsulated SPRINT algorithm to the excavation of the students’innovation ability.Analyze the results of classification; sum up the relationship between the students’ innovation ability and teaching methods, which provide decision support for teacher.
Summarize the principle of the improved SPRINT algorithm.Look forward to the next phase of work at the same time.
Keywords:Data Mining; Decision Tree Algorithm; Data Mining Platform; Innovation Ability; Innovation Ability Mining
目 录
摘 要 i
Abstract ii
第1章 引 言 1
1. 1 研究背景和意义 1
1.2 国内外研究现状 1
1.2.1 Weka的国内外研究现状 1
1.2.2 决策树的研究现状 2
1.3.本文的主要内容 3
第2章 决策树算法及其改进 4
2.1 决策树的构造过程 4
2.2决策树算法 5
2.2.1对ID3算法的深入分析 5
2.2.2 对C4.5算法的深入分析 6
2.2.3 对SLIQ算法的深入分析 6
2.2.4 对SPRINT算法的深入分析 7
2.2.5 决策树算法的比较 11
2.3 SPRINT算法的改进 12
2.4 改进算法的测试 14
2.5 小结 15
第3章 改进算法的封装与应用 16
3.1 平台的选择 16
3.1.1 开发平台的选择 16
3.1.2 数据挖掘平台的选择 16
3.1.3 Weka框架设计 16
3.2.改进的SPRINT算法设计与封装 22
3.2.1 关键成员变量、成员方法和数据结构的设计 22
3.2.2 部分程序体设计 24
3.2.3 算法的封装 25
3.3 算法测试 27
3.3.1 图形用户界面调用过程 27
3.3.2 测试结果分析 29
3.4 实例 32
3.4.1 创新的内涵 32
3.4.2 分析数据背景 33
3.4.3 数据预处理与转换 35
3.4.4 Weka挖掘的结果 36
3.4.5 挖掘的结果分析 38
3.4.6 课程教学调整建议 38
3.5 本章小结 39
第4章 总结与展望 40
4.1 工作总结 40
4.2 进一步研究工作展望 40
参考文献 42
研究生期间发表论文 44
致 谢 45
附录 46