spire.office文档处理组件是为从事Microsoft word软件开发的用户打造的编程工具,你能在不安装word程序的情况下编辑、修改word文件,软件可同时在32位和64位系统中运行。
一、文本提取
通常我们在做一些文档索引或者文档解析的时候,需要得到文档的纯文本内容,这样便于对不同格式的文档进行通用的处理。最常见的就是将文档内容作为索引提交的搜索引擎,从而实现对不同格式文档的搜索。
通过Spire.Office的Doc和Pdf组件能比较方便的抽取文档的文本,需要用到以下两个组件
Spire.Pdf
demo界面
抽取Word文档
以下代码是加载一个文件流,这个示例是读取上传的文件流,然后遍历文档的每个section,再遍历每个section下的Paragraph,读取里面的文本,得到最终的文档文本内容。
下图是用于提取的doc文档以及提取后纯文本内容
(word原文) (抽取后的原文)
抽取Pdf文档
类似于Word文档抽取,代码直观明了,加载文件流,然后遍历每一页,提取文本。
下图是用于提取的pdf文档以及提取后纯文本内容
(pdf原文) (抽取后的文本)
二、导出Excel数据
导出Excel也是开发中经常遇到的烂大街功能,初期使用过response直接写csv文件,之后用上了专业的组件比如NPOI,现在用Spire.Xls组件来看看效果如何。
demo界面,为了方便演示,直接让用户提交数据库连接字符串和查询语句,然后导出Excel文件
关键代码
大概步骤就是,创建一个Workbook,然后将从数据库得到的DataTable插入到shee中,几行代码比较便捷的得到包含数据的Excel文件
导出的文件效果
导出Excel文档效果(基于[AdventureWorks2014].[Production].[Product]表)
由于用的是评估版,所以导出的Excel最后一个sheet是一些试用提示信息
三、生成文档
文档生成通常用于动态从数据库读取一些变化的数据,然后套用某个模板将数据填入,最终生成看起来一个有模有样的文档,通常是那种八股文。曾经做个简历导出,就是用的类似的方式,实现将同一份数据导出成不同的文档格式。
这里使用Spire.Doc和Spire.Pdf两大组件,实现创建word和pdf文档的功能
demo界面,通过输入文档标题,文档名,若干个文档段落生成文档
关键代码
实现过程有点类似于文本抽取的逆向操作
创建Word文档
依次设置标题以及各个段落的内容
生成文档效果,由于是评估版,还是被硬生生的插入了一段提示,并且生成的word文档不能编辑(付费后应该是可以编辑的)
创建Pdf文档
创建过程类似于使用canvas画板,生成一个简单文档还不算复杂
生成文档效果,同样也是毫无违和感的被插入了评估版的提示。这里看到使用的是英文内容,因为目前测试评估版输入中文生成文档会显示为乱码,还没找到设置编码的方式
开发人员可以使用Spire.Office for .NET创建大量的含有文档编辑功能的应用程序,这些文档编辑功能包括打开、创建、修改、转换、打印、查看MS Word/ Excel/ PDF文档,并且允许用户将数据导出为MS Word/ Excel/ RTF/ Acces、PDF、XPS、HTML、XML、Text、CSV、DBF、Clipboard、SYLK等格式的文件。
Spire.Office for .NET可以链接到任何一个32位或64位的.NET应用,包括ASP.NET、Web Services和从2.0到4.0版本的WinForms for .NET框架。
与Microsoft word软件相比,spire.office文档处理组件的体积不到1MB,你能用它来处理word、excel、pdf文件,将excel中的资料导入数据库中,想要熟练掌握该软件需要拥有一定的编程知识。
以上就是spire.office文档处理组件的全部内容了,快快收藏IE浏览器中文网站下载更多电脑软件吧!