正在加载图片...
2009年4月 的名词短语、难以确定修饰关系的一串名词、并列最小支持度的频繁规则项,作为商品的候选特 名词性成分、专有名词时间地点等这种基本名点,利用 Apriori算法从上一步所生成事务文 词短语占语料中所有基本短语的60.8%(用件中找到频繁项集作为候选的商品特征集合b Chinese treebank做统计)很显然,专有名词和时用的最小支持度为1%(参考英文评论处理方 间地点名词一般情况下不是普通产品特征(对法);3项以上的频繁项可以很明显的看出不是产 于一些特殊商品的特点挖掘可能需要,比如旅游品特征,这一特点在英文评论的商品特点挖掘中 目的地),所以在本文中,名词短语将按照以下两也是一样的,采用同类研究的解决办法,不考虑3 种情况界定 项以上的频繁项 (1)由两个或三个相邻的名词所连接成的短 步骤5将候选产品特征集l按照邻近规则 语(不包含专有名词和时间、地点名词,但包含具剪枝成为候选特征集l1 有名词功能的形容词或者动词); 参考英文邻近规则定义,可以定义中文评论 (2)两个名词之间仅用结构助词“的”连接中的邻近规则 成的短语. 定义1在中文评论中,假设∫是频繁规则 本文根据这两种情况提出了中文网络评论中项,而且∫包含n个名词(或名词短语),假设一个 基本名词短语的提取模式如表1所示,其中名词句子s包含∫,而且在∫中的词(或名词短语)出现 不包含专有名词和时间地点名词但是包含二级在s中的顺序为:1,2,…,灬假设s中任何两 分词标注出来具有名词功能的形容词或者动词.个相连的名词(或名词短语);和如+的距离不 在应用标注工具进行词性标注后,再按照这几种超过3个词(根据中文分词结果),则可以说f在5 模式提取出基本名词短语 中是邻近的 表1中文基本名词短语提取模式 例如下面三句话 Table 1 Extracting pattems of Chinese basic noun phrase “这款于机功能非常强大.” 序号第1个词「第2个词「第3个词 “摄像功能已经成为重要的手机功能之一,” 作为一款女士手机,外观是非常重要的,而 些商务功能则不是必须的.” 对于“手机功能”这一候选特征,“手机”和 “功能”这两个词在前两句话中满足邻近规则,最 步骤3利用词性标注后的评论语料创建关后一句话中不满足.但已经在两句话中邻近,可以 联规则事务文件( transaction file) 说“手机功能”是一个邻近的特征名词短语 本文所提出的方法基于关联规则分类算法 在这一步骤中,遍历每一个名词短语2-项 需要对于文本评论进行形式化预处理所以首先和3-项频繁项∫,如果∫出现在评论数据库中的m 需要建立事务数据库,这里事务数据库以文本文个句子中,而且至少在2个句子中是邻近的,就可 件的形式存储在这一步骤中以句子为事务单位,以称∫是一个邻近的特征名词短语,加入到候选 提取评论中的所有名词或者基本名词短语作为项项集合l中 (item)构成一个事务文件,为下面提取频繁项集 步骤6将候选产品特征集l按照独立支持 ( frequent itemset)做好数据准备 度规则进行修正,形成候选特征集l 步骤4基于关联规则 Apriori算法找到频繁 参考英文独立支持度的定义,可以定义中文 项集作为候选产品特征集合l 评论中的独立支持度 一般来讲关联规则的挖掘分为两步:一是找 定义2在中文评论中名词或者基本名词短 出所有的频繁项集,这些项集出现的频繁性至少语/r的独立支持度(p- support)是包含fr的而且 和预定义的最小支持计数( min support count)一句子中不包fr的父集作为频繁特征项的句子 样;二是由频繁项集产生强关联规则对于评论中数量 产品特征的挖掘研究只用到第一步,挖掘出满足 例如“屏幕”作为频繁项,出现的句子为10 万方数据一146一 管理科学学报 2009年4月 的名词短语、难以确定修饰关系的一串名词、并列 名词性成分、专有名词、时间、地点等,这种基本名 词短语占语料中所有基本短语的60.8%(用 Chinese treebank做统计).很显然,专有名词和时 间、地点名词一般情况下不是普通产品特征(对 于一些特殊商品的特点挖掘可能需要,比如旅游 目的地),所以在本文中,名词短语将按照以下两 种情况界定: (1)由两个或三个相邻的名词所连接成的短 语(不包含专有名词和时间、地点名词,但包含具 有名词功能的形容词或者动词); (2)两个名词之间仅用结构助词“的”连接 成的短语. 本文根据这两种情况提出了中文网络评论中 基本名词短语的提取模式,如表1所示,其中名词 不包含专有名词和时间、地点名词,但是包含二级 分词标注出来具有名词功能的形容词或者动词. 在应用标注T具进行词性标注后,再按照这几种 模式提取出基本名词短语. 表l 中文基本名词短语提取模式 Table l Ex”acting pattems of Chinese b鹅ic noun phmse 序号 第1个词 第2个词 第3个词 1 名词 名词 不是名词 2 名词 名词 名词 3 名渊 助词“的” 名词 步骤3 利用词性标注后的评论语料创建关 联规则事务文件(transaction file). 本文所提出的方法基于关联规则分类算法, 需要对于文本评论进行形式化预处理.所以首先 需要建立事务数据库,这里事务数据库以文本文 件的形式存储.在这一步骤中以句子为事务单位, 提取评论中的所有名词或者基本名词短语作为项 (item)构成一个事务文件,为下面提取频繁项集 (frequent itemset)做好数据准备. 步骤4 基于关联规则Apri嘶算法找到频繁 项集作为候选产品特征集合,0. 一般来讲关联规则的挖掘分为两步:一是找 出所有的频繁项集,这些项集出现的频繁性至少 和顶定义的最小支持计数(min support count)一 样;二是由频繁项集产生强关联规则.对于评论中 产品特征的挖掘研究只用到第一步,挖掘出满足 最小支持度的频繁规则项,作为商品的候选特 点[3 5|.利用Apriori算法从上一步所生成事务文 件中找到频繁项集作为候选的商品特征集合厶, 采用的最小支持度为1%(参考英文评论处理方 法);3项以上的频繁项可以很明屁的看出不是产 品特征,这一特点在英文评论的商品特点挖掘中 也是一样的,采用同类研究的解决办法,不考虑3 项以上的频繁项口1. 步骤5 将候选产品特征集,0按照邻近规则 剪枝,成为候选特征集,卜 参考英文邻近规则定义,可以定义中文评论 中的邻近规则. 定义l 在中文评论中,假设/是频繁规则 项,而且,包含n个名词(或名词短语),假设一个 句子s包含厂,而且在厂中的词(或名词短语)出现 在s中的顺序为:埘,,埘:,…,埘。.假设s中任何两 个相连的名词(或名词短语)埘i和加…的距离不 超过3个词(根据中文分词结果),则可以说,在s 中是邻近的. 例如下面三句话: “这款手机功能非常强大.” “摄像功能已经成为重要的手机功能之一.” “作为一款女士手机。外观是非常重要的,而 一些商务功能则不是必须的.” 对于“手机功能”这一候选特征,“手机”和 “功能”这两个词在前两句话中满足邻近规则,最 后一句话中不满足.但已经在两句话中邻近,可以 说“手机功能”是一个邻近的特征名词短语. 在这一步骤中,遍历每一个名词短语、2一项 和3一项频繁项厂,如尉出现在评论数据库中的m 个句子中,而且至少在2个句子中是邻近的,就可 以称/是一个邻近的特征名词短语,加入到候选 项集合,1中. 步骤6 将候选产品特征集,。按照独立支持 度规则进行修正,形成候选特征集,2. 参考英文独立支持度的定义,可以定义中文 评论中的独立支持度: 定义2 在中文评论中名词或者基本名词短 勘r的独立支持度(p—support)是包含力r的而且 句子中不包以r的父集作为频繁特征项的句子 数量. 例如“屏幕”作为频繁项,出现的句子为10 万方数据
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有