一146一管理科学学报 2009年4月的名词短语、难以确定修饰关系的一

点击下载：《电子商务 E-business》阅读文献：中文网络客户评论的产品特征挖掘方法研究

正在加载图片...

2009年4月的名词短语、难以确定修饰关系的一串名词、并列最小支持度的频繁规则项,作为商品的候选特名词性成分、专有名词时间地点等这种基本名点,利用 Apriori算法从上一步所生成事务文词短语占语料中所有基本短语的60.8%(用件中找到频繁项集作为候选的商品特征集合b Chinese treebank做统计)很显然,专有名词和时用的最小支持度为1%(参考英文评论处理方间地点名词一般情况下不是普通产品特征(对法);3项以上的频繁项可以很明显的看出不是产于一些特殊商品的特点挖掘可能需要,比如旅游品特征,这一特点在英文评论的商品特点挖掘中目的地),所以在本文中,名词短语将按照以下两也是一样的,采用同类研究的解决办法,不考虑3 种情况界定项以上的频繁项 (1)由两个或三个相邻的名词所连接成的短步骤5将候选产品特征集l按照邻近规则语(不包含专有名词和时间、地点名词,但包含具剪枝成为候选特征集l1 有名词功能的形容词或者动词); 参考英文邻近规则定义,可以定义中文评论 (2)两个名词之间仅用结构助词“的”连接中的邻近规则成的短语. 定义1在中文评论中,假设∫是频繁规则本文根据这两种情况提出了中文网络评论中项,而且∫包含n个名词(或名词短语),假设一个基本名词短语的提取模式如表1所示,其中名词句子s包含∫,而且在∫中的词(或名词短语)出现不包含专有名词和时间地点名词但是包含二级在s中的顺序为:1,2,…,灬假设s中任何两分词标注出来具有名词功能的形容词或者动词.个相连的名词(或名词短语);和如+的距离不在应用标注工具进行词性标注后,再按照这几种超过3个词(根据中文分词结果),则可以说f在5 模式提取出基本名词短语中是邻近的表1中文基本名词短语提取模式例如下面三句话 Table 1 Extracting pattems of Chinese basic noun phrase “这款于机功能非常强大.” 序号第1个词「第2个词「第3个词 “摄像功能已经成为重要的手机功能之一,” 作为一款女士手机,外观是非常重要的,而些商务功能则不是必须的.” 对于“手机功能”这一候选特征,“手机”和 “功能”这两个词在前两句话中满足邻近规则,最步骤3利用词性标注后的评论语料创建关后一句话中不满足.但已经在两句话中邻近,可以联规则事务文件( transaction file) 说“手机功能”是一个邻近的特征名词短语本文所提出的方法基于关联规则分类算法在这一步骤中,遍历每一个名词短语2-项需要对于文本评论进行形式化预处理所以首先和3-项频繁项∫,如果∫出现在评论数据库中的m 需要建立事务数据库,这里事务数据库以文本文个句子中,而且至少在2个句子中是邻近的,就可件的形式存储在这一步骤中以句子为事务单位,以称∫是一个邻近的特征名词短语,加入到候选提取评论中的所有名词或者基本名词短语作为项项集合l中 (item)构成一个事务文件,为下面提取频繁项集步骤6将候选产品特征集l按照独立支持 ( frequent itemset)做好数据准备度规则进行修正,形成候选特征集l 步骤4基于关联规则 Apriori算法找到频繁参考英文独立支持度的定义,可以定义中文项集作为候选产品特征集合l 评论中的独立支持度一般来讲关联规则的挖掘分为两步:一是找定义2在中文评论中名词或者基本名词短出所有的频繁项集,这些项集出现的频繁性至少语/r的独立支持度(p- support)是包含fr的而且和预定义的最小支持计数( min support count)一句子中不包fr的父集作为频繁特征项的句子样;二是由频繁项集产生强关联规则对于评论中数量产品特征的挖掘研究只用到第一步,挖掘出满足例如“屏幕”作为频繁项,出现的句子为10 万方数据一146一管理科学学报 2009年4月的名词短语、难以确定修饰关系的一串名词、并列名词性成分、专有名词、时间、地点等，这种基本名词短语占语料中所有基本短语的60．8％(用 Chinese treebank做统计)．很显然，专有名词和时间、地点名词一般情况下不是普通产品特征(对于一些特殊商品的特点挖掘可能需要，比如旅游目的地)，所以在本文中，名词短语将按照以下两种情况界定： (1)由两个或三个相邻的名词所连接成的短语(不包含专有名词和时间、地点名词，但包含具有名词功能的形容词或者动词)； (2)两个名词之间仅用结构助词“的”连接成的短语．本文根据这两种情况提出了中文网络评论中基本名词短语的提取模式，如表1所示，其中名词不包含专有名词和时间、地点名词，但是包含二级分词标注出来具有名词功能的形容词或者动词．在应用标注T具进行词性标注后，再按照这几种模式提取出基本名词短语．表l 中文基本名词短语提取模式 Table l Ex”acting pattems of Chinese b鹅ic noun phmse 序号第1个词第2个词第3个词 1 名词名词不是名词 2 名词名词名词 3 名渊助词“的” 名词步骤3 利用词性标注后的评论语料创建关联规则事务文件(transaction file)．本文所提出的方法基于关联规则分类算法，需要对于文本评论进行形式化预处理．所以首先需要建立事务数据库，这里事务数据库以文本文件的形式存储．在这一步骤中以句子为事务单位，提取评论中的所有名词或者基本名词短语作为项 (item)构成一个事务文件，为下面提取频繁项集 (frequent itemset)做好数据准备．步骤4 基于关联规则Apri嘶算法找到频繁项集作为候选产品特征集合，0．一般来讲关联规则的挖掘分为两步：一是找出所有的频繁项集，这些项集出现的频繁性至少和顶定义的最小支持计数(min support count)一样；二是由频繁项集产生强关联规则．对于评论中产品特征的挖掘研究只用到第一步，挖掘出满足最小支持度的频繁规则项，作为商品的候选特点[3 5|．利用Apriori算法从上一步所生成事务文件中找到频繁项集作为候选的商品特征集合厶，采用的最小支持度为1％(参考英文评论处理方法)；3项以上的频繁项可以很明屁的看出不是产品特征，这一特点在英文评论的商品特点挖掘中也是一样的，采用同类研究的解决办法，不考虑3 项以上的频繁项口1．步骤5 将候选产品特征集，0按照邻近规则剪枝，成为候选特征集，卜参考英文邻近规则定义，可以定义中文评论中的邻近规则．定义l 在中文评论中，假设／是频繁规则项，而且，包含n个名词(或名词短语)，假设一个句子s包含厂，而且在厂中的词(或名词短语)出现在s中的顺序为：埘，，埘：，…，埘。．假设s中任何两个相连的名词(或名词短语)埘i和加…的距离不超过3个词(根据中文分词结果)，则可以说，在s 中是邻近的．例如下面三句话： “这款手机功能非常强大．” “摄像功能已经成为重要的手机功能之一．” “作为一款女士手机。外观是非常重要的，而一些商务功能则不是必须的．” 对于“手机功能”这一候选特征，“手机”和 “功能”这两个词在前两句话中满足邻近规则，最后一句话中不满足．但已经在两句话中邻近，可以说“手机功能”是一个邻近的特征名词短语．在这一步骤中，遍历每一个名词短语、2一项和3一项频繁项厂，如尉出现在评论数据库中的m 个句子中，而且至少在2个句子中是邻近的，就可以称／是一个邻近的特征名词短语，加入到候选项集合，1中．步骤6 将候选产品特征集，。按照独立支持度规则进行修正，形成候选特征集，2．参考英文独立支持度的定义，可以定义中文评论中的独立支持度：定义2 在中文评论中名词或者基本名词短勘r的独立支持度(p—support)是包含力r的而且句子中不包以r的父集作为频繁特征项的句子数量．例如“屏幕”作为频繁项，出现的句子为10 万方数据

<<向上翻页向下翻页>>

点击下载：《电子商务 E-business》阅读文献：中文网络客户评论的产品特征挖掘方法研究