复旦大学：《面向对象分析和设计》课程资料_开源项目研讨报告_Lucene项目分析报告.pdf_大学文库

目录 1 简介...........................................................................................................................................3 2 功能模块...................................................................................................................................3 2.1 文档(Document)模块 ...................................................................................................4 2.1.1 功能...................................................................................................................4 2.1.2 使用方法...........................................................................................................4 2.1.3 设计思路...........................................................................................................5 2.2 索引(Index)模块 ...........................................................................................................6 2.2.1 功能...................................................................................................................7 2.2.2 使用方法...........................................................................................................7 2.2.3 设计思路...........................................................................................................9 2.3 查询(Search)模块 .........................................................................................................9 2.3.1 功能...................................................................................................................9 2.3.2 使用方法.........................................................................................................10 2.3.3 设计思路.........................................................................................................10 2.4 语汇分析(Analysis)模块 .............................................................................................11 2.4.1 功能.................................................................................................................11 2.4.2 使用方法.........................................................................................................12 2.4.3 设计思路.........................................................................................................12 2.5 存储(store)模块..........................................................................................................13 2.5.1 功能.................................................................................................................13 2.5.2 使用方法.........................................................................................................13 2.5.3 设计思路.........................................................................................................14 3 综合应用.................................................................................................................................15 4 总结.........................................................................................................................................15

1简介在介绍 Lucene之前,首先,要介绍一下全文检索这个重要的概念,那么什么是全文检索呢? 全文检索,就是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户査询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程其次, Lucene是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的査询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。 Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。 Lucene属于 apache软件基金会 jakarta项目组的一个子项目。 2功能模块经过一个学期对 Lucene项目的功能及源码的研究,本项目小组发现再 Lucene中的核心类库应该包括以下几个方面: Document、ndex、 Search、 Analyzer、 Store,如下表所示: 核心包名称解释 Document类是 Lucene中的文件最小单元,与文件系统中存在的每个文件有一一对应的关系,通过 Lucene内部定义的Feld(域)概念将一个文件中划分为多个部分,分别提取出每一块的关键内容进行索引记录。 Index ndex包将所有需要搜索的数据源进行再加工,形成了适于 Lucene的搜索操作的文件结构,去除了一些不可能作为搜索关键的词语,减少了信息检索量,从而提高了信息检索的效率,通过不断的增减索引内容,达到与原始数据源同步的目的 Search Search功能的实现是基于索引文件的建立,通过对索引文件的检索达到真正搜索的目的, Lucene项目内部为搜索操作提供了多种实现方法,包括:项搜索、范围搜索、字符串前缀搜索、短语搜索、组合搜索、通配符搜索、类似项搜索等。 Analyzer Analyzer功能是在索引和搜索两本分的基础上产生的,是为了辅助索引创建和搜索过程而产生的,在整个 Lucene项目中,语汇分析这个模块最能体现出其关于搜索的特性。 Store Store的功能也在于加强 Lucene的搜索效率,但是与 Analyzer不同的是,它重点在研究如何利用计算机的内存容量和文件系统的存储空间来提高搜索效率,具体的方法包括:缓存查找结果、在内存中创建索引等本文档将按照这五个功能的先后顺序对 Lucene的开源项目进行详细阐述,并且在其中增加项目小组成员对不同模块的分析内容,对项目中已有的设计模式的思想进行抽象和概括

1 简介在介绍 Lucene 之前，首先，要介绍一下全文检索这个重要的概念，那么什么是全文检索呢？全文检索，就是指计算机索引程序通过扫描文章中的每一个词，对每一个词建立一个索引，指明该词在文章中出现的次数和位置，当用户查询时，检索程序就根据事先建立的索引进行查找，并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。其次，Lucene 是一个开放源代码的全文检索引擎工具包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）。Lucene 的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。Lucene 属于 apache 软件基金会 jakarta 项目组的一个子项目。 2 功能模块经过一个学期对 Lucene 项目的功能及源码的研究，本项目小组发现再 Lucene 中的核心类库应该包括以下几个方面：Document、Index、Search、Analyzer、Store，如下表所示：核心包名称解释 Document Document 类是 Lucene 中的文件最小单元，与文件系统中存在的每个文件有一一对应的关系，通过 Lucene 内部定义的 Field（域）概念，将一个文件中划分为多个部分，分别提取出每一块的关键内容进行索引记录。 Index Index 包将所有需要搜索的数据源进行再加工，形成了适于 Lucene 的搜索操作的文件结构，去除了一些不可能作为搜索关键的词语，减少了信息检索量，从而提高了信息检索的效率，通过不断的增减索引内容，达到与原始数据源同步的目的。 Search Search 功能的实现是基于索引文件的建立，通过对索引文件的检索达到真正搜索的目的，Lucene 项目内部为搜索操作提供了多种实现方法，包括：项搜索、范围搜索、字符串前缀搜索、短语搜索、组合搜索、通配符搜索、类似项搜索等。 Analyzer Analyzer 功能是在索引和搜索两本分的基础上产生的，是为了辅助索引创建和搜索过程而产生的，在整个 Lucene 项目中，语汇分析这个模块最能体现出其关于搜索的特性。 Store Store 的功能也在于加强 Lucene 的搜索效率，但是与 Analyzer 不同的是，它重点在研究如何利用计算机的内存容量和文件系统的存储空间来提高搜索效率，具体的方法包括：缓存查找结果、在内存中创建索引等。本文档将按照这五个功能的先后顺序对 Lucene 的开源项目进行详细阐述，并且在其中增加项目小组成员对不同模块的分析内容，对项目中已有的设计模式的思想进行抽象和概括

21文档[ Document模块在 Lucene重, Document是承载数据的实体,包含一些域(Fied)的集合相当于一个虚拟的文档,比如:一个web页面、一个Ema消息或者一个文本文件等,从中可以提取出大量的数据。一个文档的域代表文档或者和文档相关的一些源数据。文档数据的数据源对于 Lucene来说是无关紧要的,像作者、标题、主题、修改日期等元数据都作为文档的不同的域被单独存储并索引。 Document对象中有一个更小的概念,是 Lucene为了更加有效的分析文档内容而提出的一域( Field),每一个域都对应一段数据,这些数据都是在搜索过程中可能会被查询或者在索引中被检索的,域的分类主要有一下四种域类型解释 Keyword域不需要被分析,会逐字地被索引并存储,适用于需要被全部保留的域如:URL、文件系统路径、日期、个人姓名等 UnIndex域不需要被分析和索引,但是会被存储在索引文件中,适用于需要和搜索结果一起被显示出来的而不会被用户直接搜索的数据,如URL或者数据库的主键等 UnStored域需要被分析和索引,但是不会被存储到索引文件中,适用于不需要原始形式的大量的数目索引文本,例如:网页的正文等 Text域需要被分析和索引,能够被搜索。 211功能由于 Document是 Lucene中承载数据的实体这个特性,那么同事也决定了它的功能是抽取数据源中的有用的数据,以域的形式保存在数据实体中,然后再将其添加到索引中去。从这个角度来看, Document的功能范围直接影响到 Lucene可以进行操作的数据源的范围因为 Document本身只能对 java. lang String和 java. io. Reader两种对象进行处理,所以 Lucene 只能处理文本,那么对非文本文件的处理工作需要利用相关工具进行二次处理,转化为文本文件,才能进行操作 212使用方法在实际的使用过程中,通常都需要对 Lucene中的 Document类进行重写,以满足在效率和作用范围的要求。在本项目小组研究研究过程中用到的编写的程序中,建立了自己的 File Document类,对 Lucene自带的 Document操作进行封装,创建了关于这个文件的三个域, 分别为:path(文件路径)、 modified(修改时间)、 contents(文件内容),从而把搜索信息和结果限制在这三方面的内容中。具体信息请参考如下代码片段:

2.1 文档(Document)模块在 Lucene 重，Document 是承载数据的实体，包含一些域（Field）的集合相当于一个虚拟的文档，比如：一个 web 页面、一个 Email 消息或者一个文本文件等，从中可以提取出大量的数据。一个文档的域代表文档或者和文档相关的一些源数据。文档数据的数据源对于 Lucene 来说是无关紧要的，像作者、标题、主题、修改日期等元数据都作为文档的不同的域被单独存储并索引。 Document 对象中有一个更小的概念，是 Lucene 为了更加有效的分析文档内容而提出的―域（Field），每一个域都对应一段数据，这些数据都是在搜索过程中可能会被查询或者在索引中被检索的，域的分类主要有一下四种：域类型解释 Keyword 域不需要被分析，会逐字地被索引并存储，适用于需要被全部保留的域，如：URL、文件系统路径、日期、个人姓名等。 UnIndex 域不需要被分析和索引，但是会被存储在索引文件中，适用于需要和搜索结果一起被显示出来的而不会被用户直接搜索的数据，如 URL 或者数据库的主键等。 UnStored 域需要被分析和索引，但是不会被存储到索引文件中，适用于不需要原始形式的大量的数目索引文本，例如：网页的正文等。 Text 域需要被分析和索引，能够被搜索。 2.1.1 功能由于 Document 是 Lucene 中承载数据的实体这个特性，那么同事也决定了它的功能是抽取数据源中的有用的数据，以域的形式保存在数据实体中，然后再将其添加到索引中去。从这个角度来看，Document 的功能范围直接影响到 Lucene 可以进行操作的数据源的范围，因为 Document 本身只能对 java.lang.String 和 java.io.Reader 两种对象进行处理，所以 Lucene 只能处理文本，那么对非文本文件的处理工作需要利用相关工具进行二次处理，转化为文本文件，才能进行操作。 2.1.2 使用方法在实际的使用过程中，通常都需要对 Lucene 中的 Document 类进行重写，以满足在效率和作用范围的要求。在本项目小组研究研究过程中用到的编写的程序中，建立了自己的 FileDocument类，对Lucene自带的Document操作进行封装，创建了关于这个文件的三个域，分别为：path（文件路径）、modified（修改时间）、contents（文件内容），从而把搜索信息和结果限制在这三方面的内容中。具体信息请参考如下代码片段：

223设计思路在上面所讲的创建索引的过程中,有一步是对索引进行优化,即 Indexwriter类调用 “ Optimize”方法,这就是索引优化过程,这个方法表面上调用简单,实际上隐藏了 Lucene 内部的许多实现细节,通常,用户是不必关系优化的内部实现的。除非特别需要,用户允许使用 Lucene内部提供的优化方式,进行搜索引擎加速。下面将对 Lucene内部索引优化过程进行详细的阐述在索引的优化处理中, Lucene的内部系统采用了 Segment分段的概念,进行索引文件的组织。 Lucene中对段的区分是通过不同的文件名后缀来实现的,索引是由一个或多个段 ( Segment)组成,而每个段又是由多个索引文件组成,属于同一个段的索引文件具有相同的前缀名以及不同的后缀名,每一个段都可以被看作为一个子索引。因此,创建索引的过程就是利用 Indexwriter类中 add Document( Document)方法将多个文档添加到索引库中。 Lucene支持两种索引结构:多文件索引( multifile indexex)和复合索引( compound indexer),这两者之间惟一的差别就是索引目录的内容。与多索引文件需要到开并读取的文件数目相比,访问符合索引时需要打开的文件更少,消耗的系统资源更少。符合索引减少了索引文件的数量,但是段、文档、域和项的概念仍然适用。复合索引中每个段包含一个ct 文件将多索引文件的每个段的多个不同的文件封装了起来。总之,索引结构的基本原理包括性能最大化和资源利用最小化两个部分,在 Lucene中所有的索引结构都是按照这个原则进行设计的 23查询〔 Search)模块 Lucene中能够快速的提供相关度搜索的功能主要是依靠 search包中的αuery类系实现的,在索引建立完成之时,通过 Indexsearch调用 Query类对索引的检索操作,返回一个有序的Hts对象结果的集合( Collection)。 Lucene的主要搜索AP,如下所示类 IndexSearcher 搜索操作的主入口。所有的搜索操作都是通过 Indexsearch实例使用一个重载的 search方法来实现的。 uey(及其子类)具体的 Query子类为每一种特定类型的查询进行了逻辑上的封装 Query实例被传递到 IndexSearcher的 search中。 Hits 提供对搜索结果的访问。Hits对象由 IndexSearcher的 search方法 231功能首先,介绍査询操作的一般步骤,如下査询者输入査询条件,条件之间可以通过特定运算符进行运算,比如查询希望查询到与 “中国”和“北京”相关的记录,但不希望结果中包括“海淀区中关村”,于是输入条件为“中国+北京海淀区中关村”; 2.查询条件被传达到查询分析器中,分析器将将对“中国+北京-海淀区中关村”进行分析, 首先分析器解析字符串的连接符,即这里的加号和减号,然后对每个词进行切词,一般最小的词元是两个汉字,则中国和北京两个词不必再切分,但对海淀区中关村需要切分

2.2.3 设计思路在上面所讲的创建索引的过程中，有一步是对索引进行优化，即 IndexWriter 类调用 “Optimize”方法，这就是索引优化过程，这个方法表面上调用简单，实际上隐藏了 Lucene 内部的许多实现细节，通常，用户是不必关系优化的内部实现的。除非特别需要，用户允许使用 Lucene 内部提供的优化方式，进行搜索引擎加速。下面将对 Lucene 内部索引优化过程进行详细的阐述。在索引的优化处理中，Lucene 的内部系统采用了 Segment 分段的概念，进行索引文件的组织。Lucene 中对段的区分是通过不同的文件名后缀来实现的，索引是由一个或多个段（Segment）组成，而每个段又是由多个索引文件组成，属于同一个段的索引文件具有相同的前缀名以及不同的后缀名，每一个段都可以被看作为一个子索引。因此，创建索引的过程就是利用 IndexWriter 类中 addDocument（Document）方法将多个文档添加到索引库中。 Lucene 支持两种索引结构：多文件索引（multifile indexex）和复合索引（compound indexer），这两者之间惟一的差别就是索引目录的内容。与多索引文件需要到开并读取的文件数目相比，访问符合索引时需要打开的文件更少，消耗的系统资源更少。符合索引减少了索引文件的数量，但是段、文档、域和项的概念仍然适用。复合索引中每个段包含一个 cfs 文件将多索引文件的每个段的多个不同的文件封装了起来。总之，索引结构的基本原理包括性能最大化和资源利用最小化两个部分，在 Lucene 中所有的索引结构都是按照这个原则进行设计的。 2.3 查询(Search)模块 Lucene 中能够快速的提供相关度搜索的功能主要是依靠 search 包中的 Query 类系实现的，在索引建立完成之时，通过 IndexSearch 调用 Query 类对索引的检索操作，返回一个有序的 Hits 对象结果的集合（Collection）。Lucene 的主要搜索 API，如下所示：类用途 IndexSearcher 搜索操作的主入口。所有的搜索操作都是通过 IndexSearch 实例使用一个重载的 search 方法来实现的。 Query（及其子类）具体的 Query 子类为每一种特定类型的查询进行了逻辑上的封装。 Query 实例被传递到 IndexSearcher 的 search 中。 Hits 提供对搜索结果的访问。Hits 对象由 IndexSearcher 的 search 方法返回。 2.3.1 功能首先，介绍查询操作的一般步骤，如下： 1．查询者输入查询条件，条件之间可以通过特定运算符进行运算，比如查询希望查询到与 “中国”和“北京”相关的记录，但不希望结果中包括“海淀区中关村”，于是输入条件为“中国+北京-海淀区中关村”； 2．查询条件被传达到查询分析器中，分析器将将对“中国+北京-海淀区中关村”进行分析，首先分析器解析字符串的连接符，即这里的加号和减号，然后对每个词进行切词，一般最小的词元是两个汉字，则中国和北京两个词不必再切分，但对海淀区中关村需要切分

假设根据切词算法，把该词切分为“海淀区”和“中关村”两部分，则最后得到的查询条件可以表示为：“中国” AND “北京” AND NOT（“海淀区” AND “中关村”）。 3．查询器根据这个条件遍历索引树，得到查询结果，并返回结果集，返回的结果集类似于 JDBC 中的 ResultSet。 4．将返回的结果集显示在查询结果页面，当点击某一条内容时，可以链接到原始网页，也可以打开全文检索库中存储的网页内容。其次，从以上的操作步骤中可以看出，Lucene 中的查询机制是通过不同类型的 Query 子类来实现的，通常用到的查询类型包括 TermQuery、RangeQuery、BooleanQuery 等； 2.3.2 使用方法 Query 的产生是基于用户输入的查询语句，依据特定的分析器 Analyzer，由查询转换器 QueryParser 实现的，分析器的概念将在下一节进行详细阐述。在完整的查询条件 Query 生成之后，由 IndexSearch 对这些查询条件对索引进行搜索，返回查询结果 Hits，通过遍历的方式将所有结果都显示出来，这样用户就可以知道具体搜索结果的内容了。 Query query = parser.parse(line); System.out.println("Searching for: " + query.toString(field)); Hits hits = searcher.search(query); if (repeat > 0) { // repeat & time as benchmark Date start = new Date(); for (int i = 0; i < repeat; i++) { hits = searcher.search(query); } Date end = new Date(); System.out.println("Time:+(end.getTime()-start.getTime())+"ms"); } System.out.println(hits.length() + " total matching documents"); 2.3.3 设计思路在关于搜索过程中，Lucene 的设计在查询转换、评分策略。查询类体系的设计都是十分巧妙的，这里，只介绍关于查询类体系的设计过程。关于 Query 体系的设计，最大的特点就是能够体现出在搜索过程中，用户可能采取的所有搜索模式，并且将这些模式进行布尔逻辑组合，尽可能反映出用户的真实搜索意图。详细的 Query 类体系结构如下图所示：