pdf文件抽取.rar

RAR格式版权申诉手机打开展开

pdf文件抽取,pdf文件抽取页数：33字数：15158内容摘要随着计算机技术的发展，电子期刊大量涌现，网上获取全文资料非常重要，但文件的格式多样化，这给用户的阅读带来一定麻烦。pdf文件格式与其它格式相比，有很多优点，为大部分网络出版商所接受，国外的电子期刊大部分采用pdf 格式，而国内对此文件格式的应用不多见。本文简单介绍了电子...
编号:99-30565大小:1.84M
分类: 论文>计算机论文

该文档为压缩文件,包含的文件列表如下:

内容介绍

原文档由会员伊丽莎发布

PDF文件抽取

页数：33
字数：15158
内容摘要

随着计算机技术的发展，电子期刊大量涌现，网上获取全文资料非常重要，但文件的格式多样化，这给用户的阅读带来一定麻烦。PDF文件格式与其它格式相比，有很多优点，为大部分网络出版商所接受，国外的电子期刊大部分采用PDF 格式，而国内对此文件格式的应用不多见。本文简单介绍了电子期刊及其对文件格式的要求，及PDF 文件格式的特点。
但是PDF文件格式是面向显示的，PDF文件本身缺乏语义信息，不适合基于语义的查询。随着Web应用的发展，在出版、编辑、数字图书馆等领域，对PDF文件基于语义的查询变得越来越重要，因此，对PDF 文件进行文本内容的提取具有十分重要的意义。本文的主要任务就是如何利用tika对PDF文件进行抽取。
目录

1 概述 1
1.1 选题背景和意义 1
1.2 论文结构 1
2 相关知识和技术 2
2.1 搜索引擎简介 2
2.1.1 搜索引擎概念界定与说明 2
2.2.2 搜索引擎的工作原理 2
2.1.3 垂直搜索引擎 3
2.2 PDF文档信息抽取的必要性 4
2.3 PDF文件的特点 4
2.4 常用解析工具分析比较 5
2.4.1 PDFBox分析 5
2.4.2 XPDF分析 5
2.4.3 PDFBox和XPDF的比较 6
2.5 apache-tika介绍 6
2.7 元数据标准 8
2.7.1 元数据标准简介 8
2.7.2 通用元数据标准 8
2.7.3 特定领域元数据标准 9
3 详细分析与设计 10
3.1 PDF文件结构 10
3.3.1 PDF的含义[9] 10
3.3.2 PDF的文件结构 10
3.3.3 PDF的文档结构 11
3.3.4 PDF的页面描述 12
3.2 PDFBox深入分析 13
3.3 PDF文档信息抽取系统的研究 15
3.4 tika功能及体系架构 18
3.5 数据库设计 20
4 系统实现 21
4.1 tika的安装和配置 21
4.2 MySQL数据库安装配置 28
4.3 PDF文件格式转换批处理功能实现 30
5 总结 33
参考文献： 35

参考文献：
1 http：//iip.dlmu.edu.cn/haisou/zh/resume.html
2 乔冬梅搜索引擎现状与发展研究郑州大学 2002-05-01
3 李广丽垂直搜索引擎的研究与设计华东交通大学 2008-04-10
4 张秀秀，张立峰 PDF文件文本内容提取研究中国科学院国家科学图书馆兰州分馆，兰州交通大学数理与软件工程学院 2008-11-10
5 田海月 PDF文件格式研究中国高新技术企业 2009年第6期
6 Michael Kofler MySQL 5权威指南（第3版）人民邮电出版社 2006-12
7 周勋元数据标准注册系统研究与原型实现南京理工大学 2007-07-07
8 Warwick Cathro 元数据研究概述澳大利亚标准研究会图书馆标准分部 2004-04
9 季永芹 PDF详解印刷世界 2004-05
10 宋艳娟，张文德基于XML的PDF文档信息抽取系统的研究现代图书情报技术 2005年第9期

pdf文件抽取.rar

该文档为压缩文件,包含的文件列表如下:

内容介绍

TA们正在看...

相关文档

官方微信

支付宝红包