正在加载图片...
21文档[ Document模块 在 Lucene重, Document是承载数据的实体,包含一些域(Fied)的集合相当于一个虚 拟的文档,比如:一个web页面、一个Ema消息或者一个文本文件等,从中可以提取出大 量的数据。一个文档的域代表文档或者和文档相关的一些源数据。文档数据的数据源对于 Lucene来说是无关紧要的,像作者、标题、主题、修改日期等元数据都作为文档的不同的 域被单独存储并索引。 Document对象中有一个更小的概念,是 Lucene为了更加有效的分析文档内容而提出 的一域( Field),每一个域都对应一段数据,这些数据都是在搜索过程中可能会被查询或者 在索引中被检索的,域的分类主要有一下四种 域类型 解释 Keyword域 不需要被分析,会逐字地被索引并存储,适用于需要被全部保留的域 如:URL、文件系统路径、日期、个人姓名等 UnIndex域 不需要被分析和索引,但是会被存储在索引文件中,适用于需要和搜索 结果一起被显示出来的而不会被用户直接搜索的数据,如URL或者数据 库的主键等 UnStored域 需要被分析和索引,但是不会被存储到索引文件中,适用于不需要原始 形式的大量的数目索引文本,例如:网页的正文等 Text域 需要被分析和索引,能够被搜索。 211功能 由于 Document是 Lucene中承载数据的实体这个特性,那么同事也决定了它的功能是 抽取数据源中的有用的数据,以域的形式保存在数据实体中,然后再将其添加到索引中去。 从这个角度来看, Document的功能范围直接影响到 Lucene可以进行操作的数据源的范围 因为 Document本身只能对 java. lang String和 java. io. Reader两种对象进行处理,所以 Lucene 只能处理文本,那么对非文本文件的处理工作需要利用相关工具进行二次处理,转化为文本 文件,才能进行操作 212使用方法 在实际的使用过程中,通常都需要对 Lucene中的 Document类进行重写,以满足在效 率和作用范围的要求。在本项目小组研究研究过程中用到的编写的程序中,建立了自己的 File Document类,对 Lucene自带的 Document操作进行封装,创建了关于这个文件的三个域, 分别为:path(文件路径)、 modified(修改时间)、 contents(文件内容),从而把搜索信息 和结果限制在这三方面的内容中。具体信息请参考如下代码片段:2.1 文档(Document)模块 在 Lucene 重,Document 是承载数据的实体,包含一些域(Field)的集合相当于一个虚 拟的文档,比如:一个 web 页面、一个 Email 消息或者一个文本文件等,从中可以提取出大 量的数据。一个文档的域代表文档或者和文档相关的一些源数据。文档数据的数据源对于 Lucene 来说是无关紧要的,像作者、标题、主题、修改日期等元数据都作为文档的不同的 域被单独存储并索引。 Document 对象中有一个更小的概念,是 Lucene 为了更加有效的分析文档内容而提出 的―域(Field),每一个域都对应一段数据,这些数据都是在搜索过程中可能会被查询或者 在索引中被检索的,域的分类主要有一下四种: 域类型 解释 Keyword 域 不需要被分析,会逐字地被索引并存储,适用于需要被全部保留的域, 如:URL、文件系统路径、日期、个人姓名等。 UnIndex 域 不需要被分析和索引,但是会被存储在索引文件中,适用于需要和搜索 结果一起被显示出来的而不会被用户直接搜索的数据,如 URL 或者数据 库的主键等。 UnStored 域 需要被分析和索引,但是不会被存储到索引文件中,适用于不需要原始 形式的大量的数目索引文本,例如:网页的正文等。 Text 域 需要被分析和索引,能够被搜索。 2.1.1 功能 由于 Document 是 Lucene 中承载数据的实体这个特性,那么同事也决定了它的功能是 抽取数据源中的有用的数据,以域的形式保存在数据实体中,然后再将其添加到索引中去。 从这个角度来看,Document 的功能范围直接影响到 Lucene 可以进行操作的数据源的范围, 因为 Document 本身只能对 java.lang.String 和 java.io.Reader 两种对象进行处理,所以 Lucene 只能处理文本,那么对非文本文件的处理工作需要利用相关工具进行二次处理,转化为文本 文件,才能进行操作。 2.1.2 使用方法 在实际的使用过程中,通常都需要对 Lucene 中的 Document 类进行重写,以满足在效 率和作用范围的要求。在本项目小组研究研究过程中用到的编写的程序中,建立了自己的 FileDocument类,对Lucene自带的Document操作进行封装,创建了关于这个文件的三个域, 分别为:path(文件路径)、modified(修改时间)、contents(文件内容),从而把搜索信息 和结果限制在这三方面的内容中。具体信息请参考如下代码片段:
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有