关于单数据流和分布式数据流挖掘分类算法的研究.doc
约44页DOC格式手机打开展开
关于单数据流和分布式数据流挖掘分类算法的研究,摘 要随着科学技术的发展,社会经济不断进步,在社会生产的各个领域中都产生了大量的数据,这些数据中蕴含着大量的丰富的信息。但是,如何处理这些数据并从中得到有用的信息,是对当今计算机科学研究的一项重大的挑战。数据挖掘技术成为了当前研究的一项重要的课题。近年来,单数据流的挖掘得到了...
内容介绍
此文档由会员 陈海峰 发布
关于单数据流和分布式数据流挖掘分类算法的研究
摘 要
随着科学技术的发展,社会经济不断进步,在社会生产的各个领域中都产生了大量的数据,这些数据中蕴含着大量的丰富的信息。但是,如何处理这些数据并从中得到有用的信息,是对当今计算机科学研究的一项重大的挑战。数据挖掘技术成为了当前研究的一项重要的课题。近年来,单数据流的挖掘得到了广泛的研究,提出了许多有价值的模型和算法。但是,随着网络环境应用的普及,单一数据流的应用必然向着多节点的分布式数据流方向转移,并有着广泛的应用前景。本课题阐述了当前国际上关于单数据流和分布式数据流挖掘分类算法的研究现状,按照算法学习模式的方法,对各种分类算法进行比较、归纳,同时,对分类技术当前所面临的问题和发展趋势进行了总结和展望。在单数据流环境里,增量式学习和集成学习是两种典型的学习方法;在分布式数据流环境里,集中式挖掘和分布式挖掘是两种典型的架构,各具优势。
关键字:数据挖掘,单数据流,分布式数据流,Weka
Abstract
With the development of science and technology, as well as the progress of the economics, there are a lot of data in different areas, which contain large amount of information. However, how to handle these data and derive useful information today is such a major challenge of Computer Science. Data mining technology is becoming an important topic in current research. In recent years, the mining of single data stream has been studied extensively and many valuable models and algorithms emerged. But, with the popularity of internet applications, the application of a single data stream towards the inevitable multi-node transfer of distributed data flow direction and has a wide range of applications. This topic describes the current international and distributed on a single data stream of data stream mining Research Classification Algorithm, In accordance with the method of learning algorithms, to compare and to summarized the various classification algorithm, at the same time classification and current problems faced by a summary of trends and prospects. In a single data stream environment, Incremental learning and integrated learning are two typical learning. In a distributed environment where data flow, centralized mining and mining are two typical distributed architecture, they have different advantage.
Keywords: Data Mining ,Single data stream, Distributed data streams, Weka
目 录
摘 要 1
Abstract 2
第1章 绪 论 4
1.1本文工作的来源 4
1.2目的和意义 5
1.3国内外进展 5
1.4本文工作的主要内容 5
第二章 数据流的概述 7
2..1数据流管理系统的研究 8
2.2数据流在不同领域的应用 9
2.2.1在电信数据处理方面 9
2.2.2在军事作战环境中 9
2.2.3在科学计算领域方面 10
2.3数据流的特点 10
2.4数据流挖掘框架 11
2.5本章总结 12
第三章 单数据流分类方法研究 13
3.1传统的分类方法 13
3.2数据流分类技术 15
3.2.1增量式(incremental)算法。 15
3.2.2集合分类器 17
3.3本章总结 19
第四章 分布式数据流分类方法研究 20
4.1分布式数据流的定义 20
4.2分布式数据流挖掘面临的挑战 21
4.3分布式数据流相关系数计算 22
4.4基于SPRINT的VHDDS分类方法 23
4.4.1 SPRINT算法简介 23
4.4.2 VHDDS分类算法 23
4.4.3算法过程 24
4.5本章总结 28
第五章 分析数据挖掘工具 29
5.1Weka背景 29
5.2Weka功能 29
5.3Weka的输入 30
5.4Weka的输出 31
5.5Weka的可视化 32
5.6本章总结 32
参考文献 33
致 谢 35
外文科技资料翻译 36
英文原文 36
中文译文 41
摘 要
随着科学技术的发展,社会经济不断进步,在社会生产的各个领域中都产生了大量的数据,这些数据中蕴含着大量的丰富的信息。但是,如何处理这些数据并从中得到有用的信息,是对当今计算机科学研究的一项重大的挑战。数据挖掘技术成为了当前研究的一项重要的课题。近年来,单数据流的挖掘得到了广泛的研究,提出了许多有价值的模型和算法。但是,随着网络环境应用的普及,单一数据流的应用必然向着多节点的分布式数据流方向转移,并有着广泛的应用前景。本课题阐述了当前国际上关于单数据流和分布式数据流挖掘分类算法的研究现状,按照算法学习模式的方法,对各种分类算法进行比较、归纳,同时,对分类技术当前所面临的问题和发展趋势进行了总结和展望。在单数据流环境里,增量式学习和集成学习是两种典型的学习方法;在分布式数据流环境里,集中式挖掘和分布式挖掘是两种典型的架构,各具优势。
关键字:数据挖掘,单数据流,分布式数据流,Weka
Abstract
With the development of science and technology, as well as the progress of the economics, there are a lot of data in different areas, which contain large amount of information. However, how to handle these data and derive useful information today is such a major challenge of Computer Science. Data mining technology is becoming an important topic in current research. In recent years, the mining of single data stream has been studied extensively and many valuable models and algorithms emerged. But, with the popularity of internet applications, the application of a single data stream towards the inevitable multi-node transfer of distributed data flow direction and has a wide range of applications. This topic describes the current international and distributed on a single data stream of data stream mining Research Classification Algorithm, In accordance with the method of learning algorithms, to compare and to summarized the various classification algorithm, at the same time classification and current problems faced by a summary of trends and prospects. In a single data stream environment, Incremental learning and integrated learning are two typical learning. In a distributed environment where data flow, centralized mining and mining are two typical distributed architecture, they have different advantage.
Keywords: Data Mining ,Single data stream, Distributed data streams, Weka
目 录
摘 要 1
Abstract 2
第1章 绪 论 4
1.1本文工作的来源 4
1.2目的和意义 5
1.3国内外进展 5
1.4本文工作的主要内容 5
第二章 数据流的概述 7
2..1数据流管理系统的研究 8
2.2数据流在不同领域的应用 9
2.2.1在电信数据处理方面 9
2.2.2在军事作战环境中 9
2.2.3在科学计算领域方面 10
2.3数据流的特点 10
2.4数据流挖掘框架 11
2.5本章总结 12
第三章 单数据流分类方法研究 13
3.1传统的分类方法 13
3.2数据流分类技术 15
3.2.1增量式(incremental)算法。 15
3.2.2集合分类器 17
3.3本章总结 19
第四章 分布式数据流分类方法研究 20
4.1分布式数据流的定义 20
4.2分布式数据流挖掘面临的挑战 21
4.3分布式数据流相关系数计算 22
4.4基于SPRINT的VHDDS分类方法 23
4.4.1 SPRINT算法简介 23
4.4.2 VHDDS分类算法 23
4.4.3算法过程 24
4.5本章总结 28
第五章 分析数据挖掘工具 29
5.1Weka背景 29
5.2Weka功能 29
5.3Weka的输入 30
5.4Weka的输出 31
5.5Weka的可视化 32
5.6本章总结 32
参考文献 33
致 谢 35
外文科技资料翻译 36
英文原文 36
中文译文 41