基于web日志的用户访问.docx
约74页DOCX格式手机打开展开
基于web日志的用户访问,摘要随着网络和信息技术的高速发展,基于web的应用已经覆盖社会生活的各个方面,因此web上的数据通常是海量的。在这些数据中,相比网页结构和内容,用户的使用模式更加引人关注。通过获取用户的访问模式,可以实现从优化网站设计到改善客户关系的一系列应用:根据访问者的行为模式来设计和修改网站结构和布局,让用户以最短的时间访问到感...
内容介绍
此文档由会员 违规屏蔽12 发布
摘 要
随着网络和信息技术的高速发展,基于Web的应用已经覆盖社会生活的各个方面,因此Web上的数据通常是海量的。在这些数据中,相比网页结构和内容,用户的使用模式更加引人关注。通过获取用户的访问模式,可以实现从优化网站设计到改善客户关系的一系列应用:根据访问者的行为模式来设计和修改网站结构和布局,让用户以最短的时间访问到感兴趣的页面,优化服务性能;理解和分析用户的浏览行为,发现潜在的用户并使用户驻留;通过对用户访问行为的把握,组织决策者可以更有针对性地设计商品目录,提高商业决策的准确性;发现个体用户的访问模式,从而识别出用户的兴趣、爱好、习惯和需求,建立个性化用户模型,为用户提供更个性化的内容和服务。
用户使用模式的信息通常在Web服务器日志中有所体现。Web服务器日志记录了用户与服务器的交互信息,反映了用户访问Web站点的所有动作。对Web日志进行分析挖掘,获得用户访问行为的模式和兴趣爱好等有用信息,从而可以理解用户的访问行为。
本文基于Web使用挖掘的方法和过程,将Web服务器日志文件作为数据源,旨在挖掘出单个用户以及群体用户的频繁访问路径,以发现网站用户的访问模式。
针对单个用户的频繁访问路径挖掘,在详细介绍两种具有代表性的关联规则挖掘算法的基础上,从提高关联规则有用性的角度,引入有趣度测量因子实现对算法的改进;针对群体用户,在详细分析用户聚类的过程后,采用基于浏览路径的聚类算法实现对群体用户访问模式的发现。
最后提出一个用户访问模式挖掘系统的模型框架,介绍各模块的功能并进行了实验分析,结合具体的实例数据加以说明。
关键词 Web使用挖掘;Web日志;关联规则;用户聚类;行为模式
Abstract
With the rapid development of the network and information technology, the application based on Web has covered all aspects of social life, so the data on the Web is usually huge. In these data, compared with the web structure and content, the using mode of users is more remarkable. By obtaining the access mode of users, we can realize a series of application from optimizing the design of websites to improving the customer relationship. Designing and modifying the structure and layout of websites according to the behavior patterns of users can let users visit interested pages in the shortest time and improve service performance. Understanding and analyzing the access behavior of users can find potential customers and keep users presence. By mastering the access behavior of users, group decision makers can design the goods catalogue more purposefully and improve the accuracy of business decisions. Finding the access pattern of the individual user can recognize the user's interests, hobbies, habits and needs, establish the personalized user model, provide the content and service more personally.
The information of usage modes is usually revealed in Web server logs. Web server logs records the mutual reacting information between users and servers which reflects all movement by users. Mining and analyzing Web logs can obtain access patterns and useful information including hobbies and interests so as to understand the access behavior of users.
Basing on the method and the process of Web usage mining and using Web server logs as data sources, the paper aims to mine frequent access paths of the individual user and group users, in order to find out the access modes of web users.
As for mining frequent access paths of the individual user, the paper introduces two representative association rule mining algorithm in detail, improves the algorithm by adding interesting measurement factor from the aspect of enhancing usefulness of association rules. As for group users , the paper analyzes the process of user clustering in detail, and uses UBPC to mine access patterns of users.
Finally, the paper proposes a model of user access patterns mining system, introduces the function of each module, does the experimental analysis by combining the concrete data to illustrate.
Key Words: web usage mining; web logs; association rule; user clustering; behavior mode
目录
摘 要 I
Abstract II
第1章 绪论 1
1.1 课题研究的背景及意义 1
1.1.1 课题研究的背景 1
1.1.2 课题研究的意义 2
1.2 国内外研究现状 3
1.2.1 数据预处理的国内外研究现状 3
1.2.2 模式发现的国内外研究现状 3
1.2.3 模式分析的国内外研究现状 4
1.3 论文的主要研究内容 5
1.4 论文的组织结构 6
1.5 本章小结 6
第2章 数据预处理 8
2.1 Web使用挖掘概述 8
2.1.1 Web使用挖掘的概念和应用 8
2.1.2 Web日志的内容 9
2.1.3 Web使用挖掘的过程 11
2.2 数据预处理 11
2.2.1 数据清洗 12
2.2.2 用户识别 14
2.2.3 会话识别 15
2.2.4 路径补充 16
2.2.5 事务识别 17
2.3 本章小结 19
第3章 基于关联规则的用户频繁访问模式挖掘 20
3.1 用户频繁访问模式 20
3.2 关联规则概述 20
3.2.1 关联规则的概念和形式定义 20
3.2.2 支持度 22
3.2.3 置信度 22
3.3 关联规则挖掘算法 22
3.3.1 Apriori算法 23
3.3.2 对Apriori算法经典改进的介绍 24
3.3.3 FP增长算法 25
3.4 基于有趣度的改进的关联规则挖掘算法 28
3.4.1 已有的有趣度定义 29
3.4.2 本文提出的有趣度定义 29
3.4.3 改进的算法 30
3.4.4 实验结果 32
3.4.5 实例分析 33
3.5 本章小结 35
第4章 基于聚类分析的群体用户访问模式发现 36
4.1 聚类 36
4.1.1 聚类的类型 36-..
随着网络和信息技术的高速发展,基于Web的应用已经覆盖社会生活的各个方面,因此Web上的数据通常是海量的。在这些数据中,相比网页结构和内容,用户的使用模式更加引人关注。通过获取用户的访问模式,可以实现从优化网站设计到改善客户关系的一系列应用:根据访问者的行为模式来设计和修改网站结构和布局,让用户以最短的时间访问到感兴趣的页面,优化服务性能;理解和分析用户的浏览行为,发现潜在的用户并使用户驻留;通过对用户访问行为的把握,组织决策者可以更有针对性地设计商品目录,提高商业决策的准确性;发现个体用户的访问模式,从而识别出用户的兴趣、爱好、习惯和需求,建立个性化用户模型,为用户提供更个性化的内容和服务。
用户使用模式的信息通常在Web服务器日志中有所体现。Web服务器日志记录了用户与服务器的交互信息,反映了用户访问Web站点的所有动作。对Web日志进行分析挖掘,获得用户访问行为的模式和兴趣爱好等有用信息,从而可以理解用户的访问行为。
本文基于Web使用挖掘的方法和过程,将Web服务器日志文件作为数据源,旨在挖掘出单个用户以及群体用户的频繁访问路径,以发现网站用户的访问模式。
针对单个用户的频繁访问路径挖掘,在详细介绍两种具有代表性的关联规则挖掘算法的基础上,从提高关联规则有用性的角度,引入有趣度测量因子实现对算法的改进;针对群体用户,在详细分析用户聚类的过程后,采用基于浏览路径的聚类算法实现对群体用户访问模式的发现。
最后提出一个用户访问模式挖掘系统的模型框架,介绍各模块的功能并进行了实验分析,结合具体的实例数据加以说明。
关键词 Web使用挖掘;Web日志;关联规则;用户聚类;行为模式
Abstract
With the rapid development of the network and information technology, the application based on Web has covered all aspects of social life, so the data on the Web is usually huge. In these data, compared with the web structure and content, the using mode of users is more remarkable. By obtaining the access mode of users, we can realize a series of application from optimizing the design of websites to improving the customer relationship. Designing and modifying the structure and layout of websites according to the behavior patterns of users can let users visit interested pages in the shortest time and improve service performance. Understanding and analyzing the access behavior of users can find potential customers and keep users presence. By mastering the access behavior of users, group decision makers can design the goods catalogue more purposefully and improve the accuracy of business decisions. Finding the access pattern of the individual user can recognize the user's interests, hobbies, habits and needs, establish the personalized user model, provide the content and service more personally.
The information of usage modes is usually revealed in Web server logs. Web server logs records the mutual reacting information between users and servers which reflects all movement by users. Mining and analyzing Web logs can obtain access patterns and useful information including hobbies and interests so as to understand the access behavior of users.
Basing on the method and the process of Web usage mining and using Web server logs as data sources, the paper aims to mine frequent access paths of the individual user and group users, in order to find out the access modes of web users.
As for mining frequent access paths of the individual user, the paper introduces two representative association rule mining algorithm in detail, improves the algorithm by adding interesting measurement factor from the aspect of enhancing usefulness of association rules. As for group users , the paper analyzes the process of user clustering in detail, and uses UBPC to mine access patterns of users.
Finally, the paper proposes a model of user access patterns mining system, introduces the function of each module, does the experimental analysis by combining the concrete data to illustrate.
Key Words: web usage mining; web logs; association rule; user clustering; behavior mode
目录
摘 要 I
Abstract II
第1章 绪论 1
1.1 课题研究的背景及意义 1
1.1.1 课题研究的背景 1
1.1.2 课题研究的意义 2
1.2 国内外研究现状 3
1.2.1 数据预处理的国内外研究现状 3
1.2.2 模式发现的国内外研究现状 3
1.2.3 模式分析的国内外研究现状 4
1.3 论文的主要研究内容 5
1.4 论文的组织结构 6
1.5 本章小结 6
第2章 数据预处理 8
2.1 Web使用挖掘概述 8
2.1.1 Web使用挖掘的概念和应用 8
2.1.2 Web日志的内容 9
2.1.3 Web使用挖掘的过程 11
2.2 数据预处理 11
2.2.1 数据清洗 12
2.2.2 用户识别 14
2.2.3 会话识别 15
2.2.4 路径补充 16
2.2.5 事务识别 17
2.3 本章小结 19
第3章 基于关联规则的用户频繁访问模式挖掘 20
3.1 用户频繁访问模式 20
3.2 关联规则概述 20
3.2.1 关联规则的概念和形式定义 20
3.2.2 支持度 22
3.2.3 置信度 22
3.3 关联规则挖掘算法 22
3.3.1 Apriori算法 23
3.3.2 对Apriori算法经典改进的介绍 24
3.3.3 FP增长算法 25
3.4 基于有趣度的改进的关联规则挖掘算法 28
3.4.1 已有的有趣度定义 29
3.4.2 本文提出的有趣度定义 29
3.4.3 改进的算法 30
3.4.4 实验结果 32
3.4.5 实例分析 33
3.5 本章小结 35
第4章 基于聚类分析的群体用户访问模式发现 36
4.1 聚类 36
4.1.1 聚类的类型 36-..