的索引技术主要有倒排文件 (inverted file)、签名文件 (s

正在加载图片...

·1164· 智能系统学报第15卷的索引技术主要有倒排文件(inverted file)、签名 1相关工作文件(signature file)和位图索引(bitmap)等。上述文本索引以及空间-文本索引主要适用于查询关随着移动网络的普遍应用，网络上出现了越键字的严格形式匹配，但由于现实中文本表达形来越多的空间Web对象(spatial web object)。一个式多样，如果采用关键字严格形式匹配，可能导空间对象通常包含位置信息（如经纬度）、文本信致返回的查询结果太少或没有结果。针对上述问息（如空间对象的名称、设施、类别等）以及数值题，相关研究如文献[6-8]中提出了一些新的索引信息（如价格、用户评分等），数值信息有时也归为技术以处理文本中的拼写错误，然而这些方法并文本信息。现有工作将数值信息作为文本关键字没有考虑文本之间的语义相似/相关度。尽管最来进行处理，但实际上数值信息的处理方法与文近有少数工作研究了空间关键字查询的语义匹配，本信息匹配的处理方法有本质区别（如文本信息但空间对象除包含位置信息和文本信息外，还包的主要处理方法是统计和字符串匹配，而数值信含了价格、用户评分等数值数据。目前还没有相息可以进行数值大小比较、数值计算等操作)。关工作同时考虑空间对象与空间关键字查询在位现有的空间关键字查询处理模式主要可以分置、文本、语义和数值上的综合相关度，进而也就为4类：布尔范围查询、布尔k近邻(kNN)查询、没有同时支持上述综合查询的混合索引结构。 top-k范围查询以及top-kk近邻查询。上述四类针对上述问题，本文工作的重点是建立一种方法呈递进式发展，后者是对前者的改进。布尔同时融合位置信息、文本信息、语义信息和数值范围查询的缺点是不能控制查询结果规模，且没信息的空间关键字查询处理模式，并提出一种有有对查询结果进行排序；布尔k近邻查询是通过效的混合索引结构来提高查询效率。兴趣点与查询点之间的距离对查询结果排序，排本文的主要贡献如下：序前后与距离大小成反比。布尔范围查询和布 l)提出了基于Word Embedding技术对初始尔k近邻查询方法都需要兴趣点的文本描述中包查询关键字进行语义扩展的方法，能够为用户提含所有查询关键字，这很可能导致查询不到结果供语义相关的近似查询结果；或只有少量查询结果，或是得到的查询结果距离 2)在文本信息匹配方面，考虑了查询关键字查询点的位置很远。top-k范围查询和top-k近邻可能会出现拼写错误情况，提出了基于编辑距离查询模式不要求兴趣点的描述信息包含所有的查的字符串相似度度量方法，尽量避免因查询关键询关键字，查询结果也可以是仅包含部分关键字字拼写错误而导致没有匹配结果的情况：的查询结果。然而，top-k范围查询的排序方法仅 3)提出了基于Skyline的数值属性处理方法，考虑了兴趣点的文本相关性而没有考虑位置相近使得空间关键字查询处理模式能够处理数值属性，top-kk近邻查询同时考虑了兴趣点与查询的性，令查寻结果更能满足用户的个性化需求。位置相近性和文本相关性，但没考虑语义相关性。 4)构建了一种新型的混合索引结构AIR 空间关键字查询o1山通常需要将空间索引和 Tree,该索引结构能够直接从每个节点中获取该文本索引相结合起来构建混合索引结构，从而达节点对应的数值属性的Skyline集合，并能同时对到高效地检索空间对象的目的。当前主要的空间位置信息、文本信息和语义信息进行索引。数据混合索引结构可归结为表1所示的几类。表1混合索引结构 Table 1 Hybrid index structure 索引名称组合模式优点缺点两阶段索引阿 R-tree,Inverted file 结构简单存储代价高，无法确定第一阶段产生的候选对象个数 IR'-tree R-tree+Signature 存储代价低、搜索效率高查询关键字必须严格匹配 IR-tree R-tree+Inverted file存储空间小，提高了搜索效率，允许查询未考虑查询的语义相关性关键字部分匹配 bR*-tree间 R*-tree+Bitmap 存储空间小，关键字匹配效率高关键字多，I/O代价高 Light--Weighted索lW R*-tree和Inverted 可扩展性较强，搜索效率高存储代价高，频繁插入操作 fle分开存储的计算代价过高 Quadtree索引 Quadtree+Inverted file 区域搜索效率高树结构不平衡，存储代价较高 G--index索聚类标准+聚类操作通用性强存储代价高，泛化计算代价高的索引技术主要有倒排文件 (inverted file)、签名文件 (signature file) 和位图索引 (bitmap) 等。上述文本索引以及空间−文本索引主要适用于查询关键字的严格形式匹配，但由于现实中文本表达形式多样，如果采用关键字严格形式匹配，可能导致返回的查询结果太少或没有结果。针对上述问题，相关研究如文献 [6-8] 中提出了一些新的索引技术以处理文本中的拼写错误，然而这些方法并没有考虑文本之间的语义相似/相关度。尽管最近有少数工作研究了空间关键字查询的语义匹配[9] ，但空间对象除包含位置信息和文本信息外，还包含了价格、用户评分等数值数据。目前还没有相关工作同时考虑空间对象与空间关键字查询在位置、文本、语义和数值上的综合相关度，进而也就没有同时支持上述综合查询的混合索引结构。针对上述问题，本文工作的重点是建立一种同时融合位置信息、文本信息、语义信息和数值信息的空间关键字查询处理模式，并提出一种有效的混合索引结构来提高查询效率。本文的主要贡献如下： 1) 提出了基于 Word Embedding 技术对初始查询关键字进行语义扩展的方法，能够为用户提供语义相关的近似查询结果； 2) 在文本信息匹配方面，考虑了查询关键字可能会出现拼写错误情况，提出了基于编辑距离的字符串相似度度量方法，尽量避免因查询关键字拼写错误而导致没有匹配结果的情况； 3) 提出了基于 Skyline 的数值属性处理方法，使得空间关键字查询处理模式能够处理数值属性，令查寻结果更能满足用户的个性化需求。 4) 构建了一种新型的混合索引结构 AIRTree，该索引结构能够直接从每个节点中获取该节点对应的数值属性的 Skyline 集合，并能同时对位置信息、文本信息和语义信息进行索引。 1 相关工作随着移动网络的普遍应用，网络上出现了越来越多的空间 Web 对象 (spatial web object)。一个空间对象通常包含位置信息 (如经纬度)、文本信息 (如空间对象的名称、设施、类别等) 以及数值信息 (如价格、用户评分等)，数值信息有时也归为文本信息。现有工作将数值信息作为文本关键字来进行处理，但实际上数值信息的处理方法与文本信息匹配的处理方法有本质区别 (如文本信息的主要处理方法是统计和字符串匹配，而数值信息可以进行数值大小比较、数值计算等操作)。现有的空间关键字查询处理模式主要可以分为 4 类：布尔范围查询、布尔 k 近邻 (kNN) 查询、 top-k 范围查询以及 top-k k 近邻查询。上述四类方法呈递进式发展，后者是对前者的改进。布尔范围查询的缺点是不能控制查询结果规模，且没有对查询结果进行排序；布尔 k 近邻查询是通过兴趣点与查询点之间的距离对查询结果排序，排序前后与距离大小成反比。布尔范围查询和布尔 k 近邻查询方法都需要兴趣点的文本描述中包含所有查询关键字，这很可能导致查询不到结果或只有少量查询结果，或是得到的查询结果距离查询点的位置很远。top-k 范围查询和 top-k 近邻查询模式不要求兴趣点的描述信息包含所有的查询关键字，查询结果也可以是仅包含部分关键字的查询结果。然而，top-k 范围查询的排序方法仅考虑了兴趣点的文本相关性而没有考虑位置相近性，top-k k 近邻查询同时考虑了兴趣点与查询的位置相近性和文本相关性，但没考虑语义相关性。空间关键字查询[10-11] 通常需要将空间索引和文本索引相结合起来构建混合索引结构，从而达到高效地检索空间对象的目的。当前主要的空间数据混合索引结构可归结为表 1 所示的几类。表 1 混合索引结构 Table 1 Hybrid index structure 索引名称组合模式优点缺点两阶段索引[12] R-tree，Inverted file 结构简单存储代价高，无法确定第一阶段产生的候选对象个数 IR2 -tree R-tree+Signature 存储代价低、搜索效率高查询关键字必须严格匹配 IR-tree R-tree+Inverted file 存储空间小，提高了搜索效率，允许查询关键字部分匹配未考虑查询的语义相关性 bR*-tree[13] R*-tree+Bitmap 存储空间小，关键字匹配效率高关键字多，I/O代价高 Light-Weighted索引[14] R*-tree和Inverted file分开存储可扩展性较强，搜索效率高存储代价高，频繁插入操作的计算代价过高 Quadtree索引 Quadtree+Inverted file 区域搜索效率高树结构不平衡，存储代价较高 G-index索引[15] 聚类标准+聚类操作通用性强存储代价高，泛化计算代价高 ·1164· 智能系统学报第 15 卷

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】空间关键字个性化语义近似查询方法