当前位置:高等教育资讯网  >  中国高校课件下载中心  >  大学文库  >  浏览文档

厦门大学数据库实验室论文阅读报告二

资源类别:文库,文档格式:PPT,文档页数:28,文件大小:1.23MB,团购合买
Pass-Join: A Partition-based Method for Similarity Joins Trie-Join: Efficient Trie-based String Similarity Joins with Edit-Distance Constraints
点击下载完整版文档(PPT)

2015 暑假拼血 在战7 夏门大学林 DAYS 厦门大学数据库实验室 论文阅读报告二 报告人:罗道文 导师:林子雨 时间:2015年07月27日

厦门大学数据库实验室 论文阅读报告二 报告人:罗道文 导师:林子雨 时间:2015年07月27日

过渡页 目录 Pass-Join: A Partition-based Method for Similarity Joins 2 Trie-Join: Efficient Trie-based String Similarity Joins with Edit-Distance Constraints

过渡页 1 目 录 Trie-Join: Efficient Trie-based String Similarity Joins with Edit-Distance Constraints 1 Pass-Join: A Partition-based Method for Similarity Joins 2

基础知识 基础知

基础知识 2 基础知识

基础知识 知识科普 1、所谓相似性连接( similarity join)是指在给定的数据集(同一个数据集,或者两个数 据集,甚至多个数据集之间)上并设定相应的阈值,通过某一种相似性度量函数找出所 有相似度不小于阈值的数据对的操作。 2、四种数据集:字符串相似性连接、集合或多重集合相似性连接、冋量相似性连接 和图的相似性连接 3、相似性度量:汉明距离〔 hammingdistance)、 Levenshtein距离、编辑距离相 似性、标准化编辑距离( normalized editdistance)

基础知识 3 知识科普: 1、所谓相似性连接(similarity join)是指在给定的数据集(同一个数据集,或者两个数 据集,甚至多个数据集之间)上并设定相应的阈值,通过某一种相似性度量函数找出所 有相似度不小于阈值的数据对的操作。 2、四种数据集:字符串相似性连接、集合或多重集合相似性连接、向量相似性连接 和图的相似性连接 3、相似性度量:汉明距离(hammingdistance)、Levenshtein 距离、编辑距离相 似性、标准化编辑距离(normalized editdistance)

基础知识 举个例子: 编辑距离( Edit Distance),又称 editdistance距离,是指两个字串之间,由一个 转成另一个所需的最少编辑操作次数。编辑操作包括将—个字符替换成另一个字符 ,插入一个字符,删除一个字符。 例如,有两个字符串t1: string和t2: thing,如果要从t1->t2,编辑距离为2 如果阈值设为3,则t和t2位相似字符串

基础知识 4 举个例子: 编辑距离(Edit Distance),又称editdistance距离,是指两个字串之间,由一个 转成另一个所需的最少编辑操作次数。编辑操作包括将一个字符替换成另一个字符 ,插入一个字符,删除一个字符。 例如,有两个字符串t1:string和t2:thing,如果要从t1->t2,编辑距离为2 如果阈值设为3,则t1和t2位相似字符串

论文 论文

论文一 5 论文一

论文 论文信息 LI Guo-liang deng dong Wang Jian- nan, et al. Pass -Join a partition-based method for similarity joins [J]. Proceedings of the vldb endowment, 2011, 5 (3): 253-264

论文一 6 论文信息: LI Guo-liang,DENG Dong,WANG Jian-nan,et al. Pass-Join: a partition-based method for similarity joins[J]. Proceedings of the VLDB Endowment,2011,5( 3) : 253-264.

论文 辅助定理: Given a string r with T 1 segments and a string s, if s is similar to r within threshold T s must contain a substring which matches a segment of r. 字符串s: ab ds fd ds(sa字符串r: cy/kg fd gf

论文一 7 Given a string r with τ + 1 segments and a string s, if s is similar to r within threshold τ , s must contain a substring which matches a segment of r. 辅助定理: 字符串s:ab ds fd ds sa 字符串r: cy kg fd gf

论文 主要思想 先过滤,后验证 假设有两个字符串集R和S,通过分别迭代R和S中的字符串R1和S1 1、如果R1和S1中有匹配的子字符串,则R1和S1作为候选相似字符串,最 后在计算R1和S1的编辑距离ed(R1,S1),如果ed(R1,S1)<阈值τ,则字符串 为相似字符串。 2、如果R1和S1没有匹配子字符串,则R1和S1肯定不是相似字符串,即不 用计算机R1和S1的编辑距离,减少验证时间

论文一 8 假设有两个字符串集R和S,通过分别迭代R和S中的字符串R1和S1, 1、如果R1和S1中有匹配的子字符串,则R1和S1作为候选相似字符串,最 后在计算R1和S1的编辑距离ed(R1,S1),如果ed(R1,S1)<阈值τ,则字符串 为相似字符串。 2、如果R1和S1没有匹配子字符串,则R1和S1肯定不是相似字符串,即不 用计算机R1和S1的编辑距离,减少验证时间。 主要思想: 先过滤,后验证

论文 实例分析 SIvankateshI s2-avatareshalsy=kaushic chadurils=kaushik chakrablss=kayshuk chadhuiIs6caushik chakrabar 10 L 15 15 23 hieshik: cha: duri krab ka ik shuk cha: duri krab hui candidate Candidate Candidates Candidates Answer:中 Answer:φ1 Answer:φ I Answer: Figure 1: An example of our partition-based framework

论文一 9 实例分析:

点击下载完整版文档(PPT)VIP每日下载上限内不扣除下载券和下载次数;
按次数下载不扣除下载券;
24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
共28页,试读已结束,阅读完整版请下载
相关文档

关于我们|帮助中心|下载说明|相关软件|意见反馈|联系我们

Copyright © 2008-现在 cucdc.com 高等教育资讯网 版权所有