基于weka数据挖掘工具的设计与开发--模糊c-均值聚类设计与实现.doc
基于weka数据挖掘工具的设计与开发--模糊c-均值聚类设计与实现,摘要在现代社会中,企业公司大多数商务流程的核心部分是数据。而数据挖掘(data mining,dm)的任务就是在如此海量的数据中提取有用的数据,它在商业方面的成功应用使得各种dm工具接踵而至。但这些工具之中大多数都是商业软件,而且通常还很昂贵,所以开发一种免费实用的dm工具是非常有必要的。weka(怀卡托智能分析系统)...
内容介绍
此文档由会员 li484167 发布摘要
在现代社会中,企业公司大多数商务流程的核心部分是数据。而数据挖掘(Data Mining,DM)的任务就是在如此海量的数据中提取有用的数据,它在商业方面的成功应用使得各种DM工具接踵而至。但这些工具之中大多数都是商业软件,而且通常还很昂贵,所以开发一种免费实用的DM工具是非常有必要的。Weka(怀卡托智能分析系统)就是一种免费且开源的数据挖掘软件,它由新西兰怀卡托大学开发,功能强大、方便使用,本课题将对Weka进行扩充开发。聚类是数据挖掘的重要分支之一,引入模糊理论的模糊聚类分析为现实数据提供了模糊处理能力,这里把模糊C-均值(FCM)聚类算法集成到Weka里面,扩充Weka的数据处理功能。
本文将介绍数据挖掘相关知识、技术和算法(这里主要是聚类算法)、数据挖掘工具weka的相关知识以及对加入到weka中的FCM聚类算法的分析和具体实现。
关键词:Weka,模糊C均值,FCM聚类算法,数据挖掘
Abstract
In the modern times,The data of business enterprise is the most important thing in the business process. The purpose of Data Mining(DM) is withdraw some useful information from a great deal of data,the successful of DM in the commercial application makes a lot of data mining tools emerged.but many of these tools are commercial software, they will cost us much money if we own them,So We need to develop a free and useful data mining tool.Weka(Waikato Environment for Knowledge Analysis)is one kind of DM tool and we can get it free,it’s also an open-source tool 。Weka was developed at the University of Waikato in New Zealand,it’s function is strong and you can easily using it, This assigment will extension develops Weka . Clustering is one of the important tasks in the field of data mining. Fuzzy clustering analysis that introduces the theory of fuzzy sets, provides the capability that be used to deal with real data. the fuzzy c-means (FCM) clustering algorithm will be integrated into Weka here,that can strengthen weka’s function .
This dissertation introduces Knowledge of DM and its relative technology as well as its programs(clustering algorithm),here also Elaborate Weka and the fuzzy c-means clustering algorithm’s structure and analysis of implementation in details.
Key Words:Weka, fuzzy c-means,FCM clustering algorithm, data mining
目录
第一章 绪论 - 1 -
1.1设计背景 - 1 -
1.2 数据挖掘工具在国内外应用及研究现状 - 1 -
1.2.1 数据挖掘工具介绍 - 1 -
1.2.2 国内外数据挖掘工具应用及研究现状 - 3 -
1.3 设计内容 - 6 -
第二章 数据挖掘简介 - 7 -
2.1 数据挖掘的定义 - 7 -
2.1.1技术上的定义 - 7 -
2.1.2商业角度的定义 - 7 -
2.2 数据挖掘的产生背景 - 8 -
2.2.1处理急剧增长的巨量信息的需要 - 8 -
2.2.2相关技术支持的逐渐成熟 - 8 -
2.3 数据挖掘功能和方法 - 8 -
2.3.1数据挖掘功能 - 8 -
2.3.2 数据挖掘方法 - 9 -
2.4数据挖掘工具 - 9 -
2.4.1 数据挖掘工具结构 - 9 -
2.4.2 数据挖掘工具分类 - 10 -
2.5本章小结 - 11 -
第三章 数据挖掘聚类分析 - 12 -
3.1聚类概念 - 13 -
3.2聚类中数据类型 - 14 -
3.2.1数据标准化 - 15 -
3.2.2 相似度量方法 - 16 -
3.2.3 聚类的方法 - 17 -
3.3本章小结 - 18 -
第四章 FCM聚类算法原理 - 19 -
4.1模糊集 - 19 -
4.2模糊划分聚类 - 20 -
4.3模糊C-均值(FCM)聚类算法 - 20 -
4.3.1 K均值聚类算法(HCM)介绍 - 20 -
4.3.2 FCM聚类算法原理 - 22 -
第五章 FCM算法在WEKA中的实现 - 25 -
5.1 WEKA简介 - 25 -
5.1.1 Weka的主要功能模块 - 25 -
5.1.2 Weka 的数据格式 - 26 -
5.1.3 Weka聚类器(Clusterer)接口说明 - 28 -
5.2 FCM算法的在WEKA中的实现 - 30 -
5.2.1 FCM算法的主要函数 - 30 -
5.2.2 FCM算法的主要函数代码 - 31 -
第六章 FCM聚类测试 - 36 -
6.1主要界面: - 36 -
6.2数据测试 - 38 -
结束语 - 43 -
参考文献 - 44 -
致 谢 46