正在加载图片...
1132 计算机学报 2013年 Complemental Clustering Index Table(CCITO) CCIT2,key2=idx2+id+idx2Length id idx1 idx2 info key2 idx1 info 001 cpu n1 infol n100102cpu infol 002 mem n1 info2 h100202mem info2 003 net n3 info3 n200402cpu info4 004 cpu n2 n300302net info3 key2 idul id idxlidx2 雪x乙 CCITI,keyl=idx1+id+idx1Length Complemental Check Table,CCTo key2 idx2 info CCT2. replicated cpu00103 nl infol replicated Cpu00403 n2 infod mem00203 n1 info2 net00303n3 info3 CCTI. Primary key replicated Index column Data 图3互补聚簇索引表[ 并且具有多种多样的表现形式.数据的演化过程同 量,以损失函数为优化目标,寻找在检索领域中常用 时也伴随着数据不确定性的演化,可以利用数据的 的评价准则下最好的排序函数,常见的排序学习算法 世系追踪数据不确定性的来源和演化过程;(3)如 可以分为逐点(Pointwise,如McRanktso])、逐对 何解决异构世系标准的融合问题.大数据应用将涵 (Pairwise,如RankBoost[s)、RankNet'sz)和逐列 盖更多的原本可能相互隔离的数据集合,如何将适 (Listwise,t如ListNettss]、AdaRanktst]、SVM-MAp]) 用不同标准的数据世系信息整合在一起是一个关键 3类方法.现有模型在处理用户需求相关性、多样性 问题, 和重要性等不同目标排序方面仍有不足,此外,社会 媒体中需要关注数据的短文本特征、对简短关键 5网络大数据挖掘和社会计算 词表达的深入理解和分析,掌握用户真实的查询 意图56. 利用计算技术对网络大数据进行挖掘分析,发 命名实体是现实世界中的具体或者抽象但具有 现蕴含的知识,研究社会运行的规律与发展趋势,是 特定意义的实体,从海量信息中获取其蕴含的内在 挖掘网络大数据的深层价值和实现社会行为可计算 知识,需要研究对命名实体、实体关系的挖掘.社会 的主要途径.随着社会媒体的涌现,持续增长的用户 媒体生成的海量网络数据中,实体类型趣来越多,力 数据在规模和复杂性上都有着指数式的攀升,导致 度越来越细,关系越来越繁杂.对于实体关系的挖 传统的挖掘和计算方法在性能和效用上遇到了严重 掘,研究人员提出了基于规则s刃和基于机器学习[] 的瓶颈,基于内容信息的数据挖掘和基于结构信息 的方法.2007年,Getoor等提出统计关系学习是里 的社会计算是目前网络大数据挖掘和社会计算领域 程碑式的技术[6),突破了传统统计模型对于研究对 的研究热点. 象同类型、不相关的两个假设,可以更全面地表达领 5.1基于内容信息的数据挖掘 域知识.目前,实体和关系的挖掘仍是网络数据挖掘 语言是社会媒体最重要的表现形式,文本是社 领域关注的研究问题,存在很多亟待解决的问题,例 会媒体中用户表达信息的最重要的方式.基于内容 如对新涌现出的实体的抽取与识别,挖掘结果的可 信息的数据挖掘包括网络搜索技术与实体关联分析 用性和可理解性,大规模高效知识库、本体库语义网 等主要研究内容 络的构建等 社会媒体的出现为互联网信息搜索提出了新的 5.2基于结构信息的社会计算 挑战,研究的热点从传统的海量数据抓取、索引结构 社会网络是以社会媒体中的用户为节点,用户 优化和用户查询分析等转移到了排序学习算法,专注 间的关系为连边而构建的网络.它既是用户间社会 于提高检索质量.排序学习模型将文档表示为特征向 关系的反映,也是用户之间进行信息交互的载体,具 ?1994-2015 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net图 3 互补聚簇索引表[45] 并且具有多种多样的表现形式.数据的演化过程同 时也伴随着数据不确定性的演化,可以利用数据的 世系追踪数据 不 确 定 性 的 来 源 和 演 化 过 程;(3)如 何解决异构世系标准的融合问题.大数据应用将涵 盖更多的原本可能相互隔离的数据集合,如何将适 用不同标准的数据世系信息整合在一起是一个关键 问题. 5 网络大数据挖掘和社会计算 利用计算技术对网络大数据进行挖掘分析,发 现蕴含的知识,研究社会运行的规律与发展趋势,是 挖掘网络大数据的深层价值和实现社会行为可计算 的主要途径.随着社会媒体的涌现,持续增长的用户 数据在规模和复杂性上都有着指数式的攀升,导致 传统的挖掘和计算方法在性能和效用上遇到了严重 的瓶颈.基于内容信息的数据挖掘和基于结构信息 的社会计算是目前网络大数据挖掘和社会计算领域 的研究热点. 5.1 基于内容信息的数据挖掘 语言是社会媒体最重要的表现形式,文本是社 会媒体中用户表达信息的最重要的方式.基于内容 信息的数据挖掘包括网络搜索技术与实体关联分析 等主要研究内容. 社会媒体的出现为互联网信息搜索提出了新的 挑战,研究的热点从传统的海量数据抓取、索引结构 优化和用户查询分析等转移到了排序学习算法,专注 于提高检索质量.排序学习模型将文档表示为特征向 量,以损失函数为优化目标,寻找在检索领域中常用 的评价准则下最好的排序函数,常见的排序学习算法 可 以 分 为 逐 点 (Pointwise,如 McRank[50])、逐 对 (Pairwise,如 RankBoost[51]、RankNet[52])和 逐 列 (Listwise,如 ListNet[53]、AdaRank[54]、SVM-MAP[55]) 3类方法.现有模型在处理用户需求相关性、多样性 和重要性等不同目标排序方面仍有不足.此外,社会 媒体中 需 要 关 注 数 据 的 短 文 本 特 征、对 简 短 关 键 词表 达 的 深 入 理 解 和 分 析,掌握用户真实的查询 意图[56] . 命名实体是现实世界中的具体或者抽象但具有 特定意义的实体,从海量信息中获取其蕴含的内在 知识,需要研究对命名实体、实体关系的挖掘.社会 媒体生成的海量网络数据中,实体类型越来越多,力 度越来越细,关 系 越 来 越 繁 杂.对 于 实 体 关 系 的 挖 掘,研究人员提出了基于规则[57]和基于机器学习[58] 的方法.2007年,Getoor等提出统计关系学习是里 程碑式的技术[59],突破了传统统计模型对于研究对 象同类型、不相关的两个假设,可以更全面地表达领 域知识.目前,实体和关系的挖掘仍是网络数据挖掘 领域关注的研究问题,存在很多亟待解决的问题,例 如对新涌现出的实体的抽取与识别,挖掘结果的可 用性和可理解性,大规模高效知识库、本体库语义网 络的构建等. 5.2 基于结构信息的社会计算 社会网络是以社会媒体中的用户为节点,用户 间的关系为连边而构建的网络.它既是用户间社会 关系的反映,也是用户之间进行信息交互的载体.具 2311 计 算 机 学 报 2013年
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有