正在加载图片...
中调计年栽学拿通讽第8卷第10期2012年10月 很快将成为大数据的重要来源。截止到2012年9月 mining)就是针对不同模态信息关联性以及不同模 全国手机用户早已突破10亿,一个人每天拍一张照 态挖掘结果整合等传统单模态环境下所忽视的内容 片上传到微博,用语音聊天10分钟,开车时用GPS 开展研究。例如用户在灾难发生时用手机照相,记 导航20分钟,打电话半小时,上网浏览1小时,这 录下从各自角度看灾难发生的基本情况。大量这样 10亿手机用户就产生超过PB量级的数据了。如果的照片结合照相时其他传感器的信息例如地点、方 这些手机再做一些并非用户本身需求的感知工作,向、焦距、声音、运动信息等可以作为判断灾难事 而这些数据中有些具有用户标注,有些没有,有些件或者重现灾难场景的第一手资料。另外,通过传 是结构化的(比如数值、符号)有些是非结构化的 感器数据来分析用户的行为(行动坐卧走)或者用 (比如图片、声音),有些时效性强有些时效性 户所处的环境(办公室/会议室、室内室外等)已 弱,有些价值密度高有些价值密度低,这都是将给成为行为识别(activity recognition)和体域传感网 大数据处理技术带来关注的新焦点。 (body-area sensor network)的研究热点,催生出新 同时,数据质量管理也成为群智感知应用成败 型的模式识别方法。 的关键。大量未经训练的用户作为基本感知单元会 如果眼光更开阔一些,群智感知为研究人类的 更凸显感知数据不精确、不完整、不一致、不及时社会行为提供了新的途径。手机随时随地陪伴使用 等质量问题。用户感知方式的随意性以及不同用户者的特性为记录人们的社会活动提供了可能。比如 的使用习惯都会影响感知数据的正确表达和解释。 邻近手机的发现(手机发现周围的手机)可以记录 对感知数据去粗取精、去伪存真,不被低质量的数人们的社交活动,某年某月某日和某人接触:大量 据所蒙敲,让精炼后的数据可以高精度地反映物理这样的数据在匿名化之后可以作为社会学研究的基 世界,将成为提升群智感知质量的重要一环。W-F1本资料。挖掘感知数据的社会学意义有助于观察、 定位服务商Skyhooki通过全球大量的移动设备收集发现、解释和利用大规模用户的行为习惯。因此, Wi-Fi网络信息并建立了规模庞大的Wi-F指纹数据 群智感知数据除了能完成特定应用的功能外,还具 库。Skyhook曾将我们科研组一个同学临时搭建的有广泛的社会学意义。这就有更深刻的意思了。想 W-F网络信息收集到其数据库中,而当他在另一地想本来要治疗冠心病的辉瑞没留神做出了畅销全球 点建立同样的网络后,却被错误的定位到之前的地的蓝色小药丸“Viagra”,弗莱明因为忘记给盛有 点,这说明Skyhook对由于经常移动而造成在定位葡萄球菌培植盘盖上盖子发现了青霉素,斯彭塞做 方面质量低下的无线网络没有进行有效的处理。在雷达实验时发现随手放在口袋里的巧克力变得一塌 群智感知中,数据质量管理变得更加不可或缺,需 糊涂而做出了微波炉,“有意识瞄准,无意识击 要根据感知数据的质量设计利用方法,不同质量的 发”,谁知道这些数据将来能干出什么呢!■ 感知数据都能尽量用到又不致误读。 群智感知数据来自不同的传感器、不同的用 户,必须智能地利用才能有效地发挥价值,形成 从数据到信息再到知识的飞跃。智能手机上的传 刘云浩 感器包括加速度计、陀螺仪、指南针、GPS、麦克 CCF理事、国际合作部主任。ACM中 风、摄像头以及各种无线信号如GSM、Wi-Fi和蓝 国副主席。清华大学教授、博士生导 牙等。原始感知数据在不同维度上刻画被感知的对 师。yunhao(@greenorbs.com 象,即使原本针对同一个对象其结果也是千姿百态 的,需要经过不同层次的加工和精炼才能展现出人 们感兴趣的内容。多模态数据发掘(multimodal data 41第 8 卷 第10 期 2012 年 10 月 41 很快将成为大数据的重要来源。截止到2012年9月 全国手机用户早已突破10亿,一个人每天拍一张照 片上传到微博,用语音聊天10分钟,开车时用GPS 导航20分钟,打电话半小时,上网浏览1小时,这 10亿手机用户就产生超过PB量级的数据了。如果 这些手机再做一些并非用户本身需求的感知工作, 而这些数据中有些具有用户标注,有些没有,有些 是结构化的(比如数值、符号)有些是非结构化的 (比如图片、声音),有些时效性强有些时效性 弱,有些价值密度高有些价值密度低,这都是将给 大数据处理技术带来关注的新焦点。 同时,数据质量管理也成为群智感知应用成败 的关键。大量未经训练的用户作为基本感知单元会 更凸显感知数据不精确、不完整、不一致、不及时 等质量问题。用户感知方式的随意性以及不同用户 的使用习惯都会影响感知数据的正确表达和解释。 对感知数据去粗取精、去伪存真,不被低质量的数 据所蒙蔽,让精炼后的数据可以高精度地反映物理 世界,将成为提升群智感知质量的重要一环。Wi-Fi 定位服务商Skyhook通过全球大量的移动设备收集 Wi-Fi网络信息并建立了规模庞大的Wi-Fi指纹数据 库。Skyhook曾将我们科研组一个同学临时搭建的 Wi-Fi网络信息收集到其数据库中,而当他在另一地 点建立同样的网络后,却被错误的定位到之前的地 点,这说明Skyhook对由于经常移动而造成在定位 方面质量低下的无线网络没有进行有效的处理。在 群智感知中,数据质量管理变得更加不可或缺,需 要根据感知数据的质量设计利用方法,不同质量的 感知数据都能尽量用到又不致误读。 群智感知数据来自不同的传感器、不同的用 户,必须智能地利用才能有效地发挥价值,形成 从数据到信息再到知识的飞跃。智能手机上的传 感器包括加速度计、陀螺仪、指南针、GPS、麦克 风、摄像头以及各种无线信号如GSM、Wi-Fi和蓝 牙等。原始感知数据在不同维度上刻画被感知的对 象,即使原本针对同一个对象其结果也是千姿百态 的,需要经过不同层次的加工和精炼才能展现出人 们感兴趣的内容。多模态数据发掘(multimodal data mining)就是针对不同模态信息关联性以及不同模 态挖掘结果整合等传统单模态环境下所忽视的内容 开展研究。例如用户在灾难发生时用手机照相,记 录下从各自角度看灾难发生的基本情况。大量这样 的照片结合照相时其他传感器的信息例如地点、方 向、焦距、声音、运动信息等可以作为判断灾难事 件或者重现灾难场景的第一手资料。另外,通过传 感器数据来分析用户的行为(行动坐卧走)或者用 户所处的环境(办公室/会议室、室内/室外等)已 成为行为识别(activity recognition)和体域传感网 (body-area sensor network)的研究热点,催生出新 型的模式识别方法。 如果眼光更开阔一些,群智感知为研究人类的 社会行为提供了新的途径。手机随时随地陪伴使用 者的特性为记录人们的社会活动提供了可能。比如 邻近手机的发现(手机发现周围的手机)可以记录 人们的社交活动,某年某月某日和某人接触;大量 这样的数据在匿名化之后可以作为社会学研究的基 本资料。挖掘感知数据的社会学意义有助于观察、 发现、解释和利用大规模用户的行为习惯。因此, 群智感知数据除了能完成特定应用的功能外,还具 有广泛的社会学意义。这就有更深刻的意思了。想 想本来要治疗冠心病的辉瑞没留神做出了畅销全球 的蓝色小药丸“Viagra”,弗莱明因为忘记给盛有 葡萄球菌培植盘盖上盖子发现了青霉素,斯彭塞做 雷达实验时发现随手放在口袋里的巧克力变得一塌 糊涂而做出了微波炉,“有意识瞄准,无意识击 发”,谁知道这些数据将来能干出什么呢!■ 刘云浩 CCF理事、国际合作部主任。ACM中 国副主席。清华大学教授、博士生导 师。yunhao@greenorbs.com
<<向上翻页
©2008-现在 cucdc.com 高等教育资讯网 版权所有