pdf文件抽取.rar
pdf文件抽取,pdf文件抽取页数:33字数:15158内容摘要 随着计算机技术的发展,电子期刊大量涌现,网上获取全文资料非常重要,但文件的格式多样化,这给用户的阅读带来一定麻烦。pdf文件格式与其它格式相比,有很多优点,为大部分网络出版商所接受,国外的电子期刊大部分采用pdf 格式,而国内对此文件格式的应用不多见。本文简单介绍了电子...
该文档为压缩文件,包含的文件列表如下:
内容介绍
原文档由会员 伊丽莎 发布
PDF文件抽取
页数:33
字数:15158
内容摘要
随着计算机技术的发展,电子期刊大量涌现,网上获取全文资料非常重要,但文件的格式多样化,这给用户的阅读带来一定麻烦。PDF文件格式与其它格式相比,有很多优点,为大部分网络出版商所接受,国外的电子期刊大部分采用PDF 格式,而国内对此文件格式的应用不多见。本文简单介绍了电子期刊及其对文件格式的要求,及PDF 文件格式的特点。
但是PDF文件格式是面向显示的,PDF文件本身缺乏语义信息,不适合基于语义的查询。随着Web应用的发展,在出版、编辑、数字图书馆等领域,对PDF文件基于语义的查询变得越来越重要,因此,对PDF 文件进行文本内容的提取具有十分重要的意义。本文的主要任务就是如何利用tika对PDF文件进行抽取。
目 录
1 概述 1
1.1 选题背景和意义 1
1.2 论文结构 1
2 相关知识和技术 2
2.1 搜索引擎简介 2
2.1.1 搜索引擎概念界定与说明 2
2.2.2 搜索引擎的工作原理 2
2.1.3 垂直搜索引擎 3
2.2 PDF文档信息抽取的必要性 4
2.3 PDF文件的特点 4
2.4 常用解析工具分析比较 5
2.4.1 PDFBox分析 5
2.4.2 XPDF分析 5
2.4.3 PDFBox和XPDF的比较 6
2.5 apache-tika介绍 6
2.7 元数据标准 8
2.7.1 元数据标准简介 8
2.7.2 通用元数据标准 8
2.7.3 特定领域元数据标准 9
3 详细分析与设计 10
3.1 PDF文件结构 10
3.3.1 PDF的含义[9] 10
3.3.2 PDF的文件结构 10
3.3.3 PDF的文档结构 11
3.3.4 PDF的页面描述 12
3.2 PDFBox深入分析 13
3.3 PDF文档信息抽取系统的研究 15
3.4 tika功能及体系架构 18
3.5 数据库设计 20
4 系统实现 21
4.1 tika的安装和配置 21
4.2 MySQL数据库安装配置 28
4.3 PDF文件格式转换批处理功能实现 30
5 总结 33
参考文献: 35
参考文献:
1 http://iip.dlmu.edu.cn/haisou/zh/resume.html
2 乔冬梅 搜索引擎现状与发展研究 郑州大学 2002-05-01
3 李广丽 垂直搜索引擎的研究与设计 华东交通大学 2008-04-10
4 张秀秀,张立峰 PDF文件文本内容提取研究 中国科学院国家科学图书馆兰州分馆,兰州交通大学数理与软件工程学院 2008-11-10
5 田海月 PDF文件格式研究 中国高新技术企业 2009年第6期
6 Michael Kofler MySQL 5权威指南(第3版) 人民邮电出版社 2006-12
7 周勋 元数据标准注册系统研究与原型实现 南京理工大学 2007-07-07
8 Warwick Cathro 元数据研究概述 澳大利亚标准研究会图书馆标准分部 2004-04
9 季永芹 PDF详解 印刷世界 2004-05
10 宋艳娟,张文德 基于XML的PDF文档信息抽取系统的研究 现代图书情报技术 2005年第9期
页数:33
字数:15158
内容摘要
随着计算机技术的发展,电子期刊大量涌现,网上获取全文资料非常重要,但文件的格式多样化,这给用户的阅读带来一定麻烦。PDF文件格式与其它格式相比,有很多优点,为大部分网络出版商所接受,国外的电子期刊大部分采用PDF 格式,而国内对此文件格式的应用不多见。本文简单介绍了电子期刊及其对文件格式的要求,及PDF 文件格式的特点。
但是PDF文件格式是面向显示的,PDF文件本身缺乏语义信息,不适合基于语义的查询。随着Web应用的发展,在出版、编辑、数字图书馆等领域,对PDF文件基于语义的查询变得越来越重要,因此,对PDF 文件进行文本内容的提取具有十分重要的意义。本文的主要任务就是如何利用tika对PDF文件进行抽取。
目 录
1 概述 1
1.1 选题背景和意义 1
1.2 论文结构 1
2 相关知识和技术 2
2.1 搜索引擎简介 2
2.1.1 搜索引擎概念界定与说明 2
2.2.2 搜索引擎的工作原理 2
2.1.3 垂直搜索引擎 3
2.2 PDF文档信息抽取的必要性 4
2.3 PDF文件的特点 4
2.4 常用解析工具分析比较 5
2.4.1 PDFBox分析 5
2.4.2 XPDF分析 5
2.4.3 PDFBox和XPDF的比较 6
2.5 apache-tika介绍 6
2.7 元数据标准 8
2.7.1 元数据标准简介 8
2.7.2 通用元数据标准 8
2.7.3 特定领域元数据标准 9
3 详细分析与设计 10
3.1 PDF文件结构 10
3.3.1 PDF的含义[9] 10
3.3.2 PDF的文件结构 10
3.3.3 PDF的文档结构 11
3.3.4 PDF的页面描述 12
3.2 PDFBox深入分析 13
3.3 PDF文档信息抽取系统的研究 15
3.4 tika功能及体系架构 18
3.5 数据库设计 20
4 系统实现 21
4.1 tika的安装和配置 21
4.2 MySQL数据库安装配置 28
4.3 PDF文件格式转换批处理功能实现 30
5 总结 33
参考文献: 35
参考文献:
1 http://iip.dlmu.edu.cn/haisou/zh/resume.html
2 乔冬梅 搜索引擎现状与发展研究 郑州大学 2002-05-01
3 李广丽 垂直搜索引擎的研究与设计 华东交通大学 2008-04-10
4 张秀秀,张立峰 PDF文件文本内容提取研究 中国科学院国家科学图书馆兰州分馆,兰州交通大学数理与软件工程学院 2008-11-10
5 田海月 PDF文件格式研究 中国高新技术企业 2009年第6期
6 Michael Kofler MySQL 5权威指南(第3版) 人民邮电出版社 2006-12
7 周勋 元数据标准注册系统研究与原型实现 南京理工大学 2007-07-07
8 Warwick Cathro 元数据研究概述 澳大利亚标准研究会图书馆标准分部 2004-04
9 季永芹 PDF详解 印刷世界 2004-05
10 宋艳娟,张文德 基于XML的PDF文档信息抽取系统的研究 现代图书情报技术 2005年第9期