子空间离群点数据挖掘系统的设计与实现[独家原创].doc

   
约33页DOC格式手机打开展开

子空间离群点数据挖掘系统的设计与实现[独家原创],子空间离群点数据挖掘系统的设计与实现1.47万字自己原创的毕业论文,已经通过校内系统检测,重复率低,仅在本站独家出售,大家放心下载使用摘要 离群数据挖掘是数据挖掘中的主要研究内容之一,通过离群数据挖掘,能够发现一些真实的、但又出乎人们意外的知识,可以揭示稀有事件和现象,发现有趣的模式。近些年来,离群数据挖掘成为信息科学...
编号:99-423106大小:1.39M
分类: 论文>计算机论文

内容介绍

此文档由会员 淘宝大梦 发布

子空间离群点数据挖掘系统的设计与实现

1.47万字
自己原创的毕业论文,已经通过校内系统检测,重复率低,仅在本站独家出售,大家放心下载使用

摘要 离群数据挖掘是数据挖掘中的主要研究内容之一,通过离群数据挖掘,能够发现一些真实的、但又出乎人们意外的知识,可以揭示稀有事件和现象,发现有趣的模式。近些年来,离群数据挖掘成为信息科学中一个活跃的分支,在数据库、数据挖掘、机器学习和统计学等领域受到广泛关注。
随着数据获取手段的发展,表示现实世界的数据越来越复杂,“丰富的数据与贫乏的知识”问题也日渐突出,这些数据背后隐藏着许多有用的信息和知识,如何获取这些知识和信息,促使了对数据挖掘技术的广泛研究。然而这些数据的维数普遍都非常高,数据的高维性是最棘手的,这对已有的离群数据挖掘算法是一个挑战,针对这一问题,本课题基于子空间的离群数据挖掘方法,先把高维数据投影到低维子空间,然后在子空间中观察数据,并利用微粒群算法搜索稀疏子空间和最优划分,进而确定离群数据。主要针对高维数据集中的离群数据挖掘问题进行了研究,研究内容主要包括以下几个方面:
1. 给出了一种基于基于距离的关联子空间离群点挖掘算法。第一类是先搜索所有的关联子空间,然后在关联子空间中进行离群点挖掘,如HiCS。二类是先确定给定数据点的关联子空间集合,然后计算相应的离群度。这种方式通常会更加有意义,可以更好的解释数据点离群的原因,如OUTRES。
2. 给出了一种基于微粒群和子空间的离群数据挖掘算法,该算法的核心思想是针对实际应用中,对于高维数据的异常行为通常只发生在属性子集上,而与其余维几乎没有关系。算法首先将高维数据投影到低维子空间,计算每个子空间的稀疏系数,把子空间稀疏系数作为子空间异常程度的度量。采用带有变异算子的PSO算法来搜索子空间。
在上述研究的基础上,以eclipse为开发工具,设计并实现离群数据挖掘系统,对软件模块功能、关键技术进行详细描述。

关键词 离群数据 子空间 数据挖掘

Design and Implementation of Management System of Outlier Mining Algorithms Based on Subspace
Abstract outlier mining is one of the most important topic in data mining.outlier mining can help people discover true and unexpected information,and has aroused the interest of the many researchers.most traditional methods of outlier mining regard outliers from overall point of view .so it is difficult to find bias data or outliers in subspace.this paper studies outliers mining in subspace by partitioning high dimensional space into low dimensional subspace.main researches are as follows:
(1)HiCS will search for high-contrast sub-space as a subspace outlier mining preprocessing step, and then the various high-contrast subspace outlier score integrate, to get the final results will be sorted outliers,HiCS search subspace from the overall situation, not determined its associated sub-space for each data point.。
(2) An outlier mining algorithm based on PSO (Particle swarm optimization)and subspace is presented .the algorithm regards outlier subspace swarm,and searches for outlier subspace with mutational PSO algorithm according to sparsity coefficient of subspace.data in outlier subspace is regard as outlier.finally,the experiment results validate the PSO algorithm by taking the star spectra data from the lamost project.
(3) Local outlier mining algorithm based in subspace partitioning is presented .firstly ,data set is divided into the disjoint subspace.merits of partition are measured by skew of partition,and the best partition of the subspace is searched by using the PSO.secondly,the local outlier is measured by its SPLOF value.finally,experimental results show that the PSO-LOF algorithm does not depend on user’s parameters ,and has scalability and high efficiency by taking spectral data as data set.
(4) On the base of the above ,the outlier mining system based on subspace is designed and implemented by using ECLIPSE as development tools .its function modules and key technology are elaborated.



Key words Outlier;subspace;data mining

目 录
第一章 绪论 1
1.1 研究背景 1
1.2 研究现状 1
1.3 研究内容 2
1.4 论文结构 2
第二章 相关技术 3
2.1 数据挖掘技术 3
2.2 JAVA技术 6
2.3 Eclipse 开发工具 6
第三章 基于距离的关联子空间离群算法 8
3.1 Hics算法 8
3.2 outres算法 13
3.3 LOF算法 16
第四章 基于微粒群和子空间的离群数据挖掘算法 18
4.1 引言 18
4.2 PSO算法 18
第五章 基于子空间的离群数据挖掘系统的实现 22
5.1 系统功能模块 22
5.2 主界面 22
5.3 运行结果分析 23
第六章 总结与展望 27
6.1 结论 27
6.2 展望 27
致 谢 28
参考文献 29