专栏中喝计汗機学个通沁第8卷第10期2012年10月 群智感知计算 刘云浩 清华大学 关键词:群智感知计算 特邀专栏作家 小时候在寿县,最爱听老和尚讲善恶有报的故的例子。一个是足不出户寻找外星人(SET1@ 事,听多了当然也不免思辨一下,好人似乎未必尽得 home)一通过互联网利用家用个人计算机处理 好结果。读大学的时候看了中国禅宗始祖达摩见梁武 天文数据共同搜寻地外文明。从1999年到2004年, 帝的传说,才理解到人家是说,做了善事必有人得善 繁复的科学计算任务被分解为千百万个小的工作单 报,做了恶事也必有人得恶果,但这个善报恶果未必元,由客户电脑在计算资源闲置时(即屏幕保护运 就一定体现在那个做了善事恶事的人身上。 行时)对数据进行处理。任何电脑用户只要能上网 达摩“有为庄严实无功德”的说法让“一生造就能参与这个项目,奉献计算资源的同时又不影响 寺度僧、布施设斋”的梁武帝郁闷了。这个思想的自己使用。一旦发现有价值的信号,SETI@home将 关键在于鼓励做好事不要为了特有目的,最好也以按照国际天文学联合会的电报发表公告,这是天文 不损失任何人的利益为佳。人类文明的进展大体也学界取得重大发现时公之于众的一种标准方式。而 是这样的,一般情况下,鼓励我们先解决自己的温用其屏幕保护程序找到该信号的人将被赋予“合作 饱再顺便帮别人一把。连飞机上都写着,遇到紧急发现者”的称号。2005年关闭之前,SETI@home吸 情祝,您先戴好自己的那个氧气面罩再给别人戴。引了543万个用户,这些用户的电脑累积工作了243 这样的思想在互联网刚刚繁荣没有多久就体现万年,分析了大量积压数据。当然结果稍稍有点不 在了几个新型的应用上。《连线》(Wired)杂志爽,没有发现外星文明的直接证据。 2006年发明了一个专业术语—众包(crowdsourc- 另一个就更有创意了。《纽约时报》古老的报 ig),用来描述这个组织形式,即在互联网上把纸存档打算数字化,但是由于时间久远且字迹不清 工作分配出去、发现创意或解决技术问题。相比之楚,其中有很大的比例不是计算机A能认识的,而 下,众包的定义更多的是从商业角度来描述,而我人却能非常轻松地凭着模糊直觉和望文生义,识别 宁愿用群智计算来概括这些应用.事实上这些应用 其中的绝大多数。于是就有了reCAPTCHA这个新一 的出现也远远早于众包这个词的发明。 代验证码系统,在验证的确是正常用户而不是机器 利用互联网实现群智计算有两个非常著名在后台操纵的同时,用户对于污染、扭曲文字的识 ·寿县:寿县位于安徽省中部、淮河中游南岸,依八公山,傍淮、淠河,与安徽省省会合肥市接壤,与淮南市毗 邻。全县总面积2986平方公里,辖25个乡镇。总人口134万。寿县历史悠久。古称寿春、寿阳、寿州,屡为州、 府、道、郡等治所。它古属淮夷部落,夏为扬州域,商周为州来国地,春秋属楚。三国是为魏地,已是十余万 人的重镇。自晋以后到唐、宋,寿县继续以繁华著称于世,所谓“扬(州)寿(州)皆为重镇。” 38
专栏 第 8 卷 第 10 期 2012 年 10 月 38 小时候在寿县1 ,最爱听老和尚讲善恶有报的故 事,听多了当然也不免思辨一下,好人似乎未必尽得 好结果。读大学的时候看了中国禅宗始祖达摩见梁武 帝的传说,才理解到人家是说,做了善事必有人得善 报,做了恶事也必有人得恶果,但这个善报恶果未必 就一定体现在那个做了善事恶事的人身上。 达摩“有为庄严实无功德”的说法让“一生造 寺度僧、布施设斋”的梁武帝郁闷了。这个思想的 关键在于鼓励做好事不要为了特有目的,最好也以 不损失任何人的利益为佳。人类文明的进展大体也 是这样的,一般情况下,鼓励我们先解决自己的温 饱再顺便帮别人一把。连飞机上都写着,遇到紧急 情况,您先戴好自己的那个氧气面罩再给别人戴。 这样的思想在互联网刚刚繁荣没有多久就体现 在了几个新型的应用上。《连线》(Wired)杂志 2006年发明了一个专业术语——众包(crowdsourcing),用来描述这个组织形式,即在互联网上把 工作分配出去、发现创意或解决技术问题。相比之 下,众包的定义更多的是从商业角度来描述,而我 宁愿用群智计算来概括这些应用,事实上这些应用 的出现也远远早于众包这个词的发明。 利用互联网实现群智计算有两个非常著名 的例子。一个是足不出户寻找外星人(S E T I@ home)——通过互联网利用家用个人计算机处理 天文数据共同搜寻地外文明。从1999年到2004年, 繁复的科学计算任务被分解为千百万个小的工作单 元,由客户电脑在计算资源闲置时(即屏幕保护运 行时)对数据进行处理。任何电脑用户只要能上网 就能参与这个项目,奉献计算资源的同时又不影响 自己使用。一旦发现有价值的信号,SETI@home将 按照国际天文学联合会的电报发表公告,这是天文 学界取得重大发现时公之于众的一种标准方式。而 用其屏幕保护程序找到该信号的人将被赋予“合作 发现者”的称号。2005年关闭之前,SETI@home吸 引了543万个用户,这些用户的电脑累积工作了243 万年,分析了大量积压数据。当然结果稍稍有点不 爽,没有发现外星文明的直接证据。 另一个就更有创意了。《纽约时报》古老的报 纸存档打算数字化,但是由于时间久远且字迹不清 楚,其中有很大的比例不是计算机AI能认识的,而 人却能非常轻松地凭着模糊直觉和望文生义,识别 其中的绝大多数。于是就有了reCAPTCHA这个新一 代验证码系统,在验证的确是正常用户而不是机器 在后台操纵的同时,用户对于污染、扭曲文字的识 刘云浩 清华大学 群智感知计算 关键词:群智感知计算 1 寿县:寿县位于安徽省中部、淮河中游南岸,依八公山,傍淮、淠河,与安徽省省会合肥市接壤,与淮南市毗 邻。全县总面积2986平方公里,辖25个乡镇。总人口134万。寿县历史悠久。古称寿春、寿阳、寿州,屡为州、 府、道、郡等治所。它古属淮夷部落,夏为扬州域,商周为州来国地,春秋属楚。三国是为魏地,已是十余万 人的重镇。自晋以后到唐、宋,寿县继续以繁华著称于世,所谓“扬(州)寿(州)皆为重镇。” 特邀专栏作家
中调计年栽学拿通讽第8卷第10期2012年10月 别能力被用来数字化古籍中不能被计算机自动识别需要拥有专业技能的人士。与此相反,大量草根用 的文字。reCAPTCHA被超过10万家网站使用,每天户可以成为中坚力量,通过合理的协作来完成他们 数字化超过4千万个单词,结果《纽约时报》所存单独不可能或者说根本想不到要完成的任务。例如 的130年的资料,本来需要巨大的时间和人力资源 我们想知道某一时刻城市道路的拥堵情况,我们可 的工程,在几个月之内就由网友们完成了,而且是以依赖于走在路上或者开车的人通过发短信汇报当 在网友们事前无知、事后惊讶中完成的。 时当地的道路交通状态,广播电台交通频道用的就 物联网发展到今天,对透彻感知的需求越来越 是这种让用户有意识参与的智群感知的工作模式。 强烈,而随着无线通信和传感器技术以及无线移动 如果利用手机中的传感器自动地监测人群、车辆的 终端设备的爆炸式普及,市场上的手机和平板电脑移动情况并进行汇报,那就是用户无意识参与。用 等设备集成了越来越多的传感器,拥有越来越强大 户无意识合作的好处是不可估量的,尤其是相比特 的计算和感知能力。在这样的背景下,群智感知计 意部署的智能交通设备来说,我们无需为完成感知 算走上移动计算的核心舞台是水到渠成。在大力发 任务付出巨大的成本和高昂的维护代价。 展了十几年如何利用特定的有意识部署的传感器提 群智感知的理念可以体现在很多应用上,最近 供感知服务之后,物联网下一个成功的关键在于如我们在定位研究方面就做了一些尝试。现在大家 何把无意识的提供用“做好事”的模式融合进来。 已经越来越习惯使用GPS,但是由于城市中高楼大 细心的人在近两年无线网络与移动计算有关的 厦鳞次栉比,宏大的建筑规模以及复杂的室内环境 几个著名学术会议中(例如MobiCom、MobiSys、 使得以GPS为代表的室外定位技术不能满足人们在 NFOCOM等),应该发现有不少论文都或多或少室内定位的需求:至少卫星信号没法直接使用。为 采纳了群智感知的思想。MobiSys2011专门开辟一 解决这个问题,研究者提出了基于信号指纹(fin- 个会议单元收录众包的相关论文,MobiCom2012中 gerprinting)的定位方法,即利用室内现有的环境 至少有4篇论文与群智感知有关。普通用户的移动 特征(如无线信号、声音、光线等)作为指纹进行 设备(手机、平板电脑等)作为基本感知单元,通定位。人们事先在大楼内对环境信息(通常是无线 过移动互联网进行有意识或无意识的协作,实现感信号)进行勘测,并建立一个样本数据库以标记每 知任务分发与感知数据收集,完成大规模的、复杂 一条指纹数据对应的实际位置,通过指纹的匹配来 的社会感知任务。简而言之,群智感知发挥“人多实现位置估计。这个方法目前是最先进的,它所面 力量大”的特点,将大量草根用户拧成一股绳,形 临的最大难题是工作量庞大的室内环境勘测。建筑 成随时随地、无孔不入、与人们生活密切相关的感 物内部结构复杂而且每个都不一样,对每个位置进 知系统。 行勘测需要用专业的设备由专门的人员进行,人力 在计算机科学领域,与群智感知相关的概念包物力代价高昂不说,耗时还巨大。室内环境是多变 括群体计算(crowd computing)、参与式感知(par- 的,指纹数据库要定期更新,人工勘测需要反复执 ticipatory sensing)、社群感知(social sensing)、众行,从而局限了指纹定位方法的通用性。 包等等,它们都以大量用户参与作为基础,在理念 2009年,美国杜克大学的研究者成功地尝试让 上是一致的,都是要把大家的智慧(collective intel-智能手机持有者通过主动提交的方式实现信号指纹 1 igence)用起来。对比群智感知,群体计算包含的范采集,这就突破了专业设备的壁垒,但还是需要有人 围更广一些,众包多指任务分发的机制,而参与式 把这个感知当作额外的任务来做。群智感知的理念就 感知和社群感知与群智感知在理念上更近,但分别 是要无意识协作,如果能让用户在不知情的情况下完 强调的是不同的方面。 成感知任务,就突破了专门人员参与这个壁垒。实际 在群智感知中,完成复杂感知任务的参与者不 上这也是可以做到的,根据日常的工作和生活需要, 39
第 8 卷 第10 期 2012 年 10 月 39 别能力被用来数字化古籍中不能被计算机自动识别 的文字。reCAPTCHA被超过10万家网站使用,每天 数字化超过4千万个单词,结果《纽约时报》所存 的130年的资料,本来需要巨大的时间和人力资源 的工程,在几个月之内就由网友们完成了,而且是 在网友们事前无知、事后惊讶中完成的。 物联网发展到今天,对透彻感知的需求越来越 强烈,而随着无线通信和传感器技术以及无线移动 终端设备的爆炸式普及,市场上的手机和平板电脑 等设备集成了越来越多的传感器,拥有越来越强大 的计算和感知能力。在这样的背景下,群智感知计 算走上移动计算的核心舞台是水到渠成。在大力发 展了十几年如何利用特定的有意识部署的传感器提 供感知服务之后,物联网下一个成功的关键在于如 何把无意识的提供用“做好事”的模式融合进来。 细心的人在近两年无线网络与移动计算有关的 几个著名学术会议中(例如MobiCom、MobiSys、 INFOCOM等),应该发现有不少论文都或多或少 采纳了群智感知的思想。MobiSys 2011专门开辟一 个会议单元收录众包的相关论文,MobiCom 2012中 至少有4篇论文与群智感知有关。普通用户的移动 设备(手机、平板电脑等)作为基本感知单元,通 过移动互联网进行有意识或无意识的协作,实现感 知任务分发与感知数据收集,完成大规模的、复杂 的社会感知任务。简而言之,群智感知发挥“人多 力量大”的特点,将大量草根用户拧成一股绳,形 成随时随地、无孔不入、与人们生活密切相关的感 知系统。 在计算机科学领域,与群智感知相关的概念包 括群体计算(crowd computing)、参与式感知(participatory sensing)、社群感知(social sensing)、众 包等等,它们都以大量用户参与作为基础,在理念 上是一致的,都是要把大家的智慧(collective intelligence)用起来。对比群智感知,群体计算包含的范 围更广一些,众包多指任务分发的机制,而参与式 感知和社群感知与群智感知在理念上更近,但分别 强调的是不同的方面。 在群智感知中,完成复杂感知任务的参与者不 需要拥有专业技能的人士。与此相反,大量草根用 户可以成为中坚力量,通过合理的协作来完成他们 单独不可能或者说根本想不到要完成的任务。例如 我们想知道某一时刻城市道路的拥堵情况,我们可 以依赖于走在路上或者开车的人通过发短信汇报当 时当地的道路交通状态,广播电台交通频道用的就 是这种让用户有意识参与的智群感知的工作模式。 如果利用手机中的传感器自动地监测人群、车辆的 移动情况并进行汇报,那就是用户无意识参与。用 户无意识合作的好处是不可估量的,尤其是相比特 意部署的智能交通设备来说,我们无需为完成感知 任务付出巨大的成本和高昂的维护代价。 群智感知的理念可以体现在很多应用上,最近 我们在 定位研究方面就做了一些尝试。现在大家 已经越来越习惯使用GPS,但是由于城市中高楼大 厦鳞次栉比,宏大的建筑规模以及复杂的室内环境 使得以GPS为代表的室外定位技术不能满足人们在 室内定位的需求:至少卫星信号没法直接使用。为 解决这个问题,研究者提出了基于信号指纹(fingerprinting)的定位方法,即利用室内现有的环境 特征(如无线信号、声音、光线等)作为指纹进行 定位。人们事先在大楼内对环境信息(通常是无线 信号)进行勘测,并建立一个样本数据库以标记每 一条指纹数据对应的实际位置,通过指纹的匹配来 实现位置估计。这个方法目前是最先进的,它所面 临的最大难题是工作量庞大的室内环境勘测。建筑 物内部结构复杂而且每个都不一样,对每个位置进 行勘测需要用专业的设备由专门的人员进行,人力 物力代价高昂不说,耗时还巨大。室内环境是多变 的,指纹数据库要定期更新,人工勘测需要反复执 行,从而局限了指纹定位方法的通用性。 2009年,美国杜克大学的研究者成功地尝试让 智能手机持有者通过主动提交的方式实现信号指纹 采集,这就突破了专业设备的壁垒,但还是需要有人 把这个感知当作额外的任务来做。群智感知的理念就 是要无意识协作,如果能让用户在不知情的情况下完 成感知任务,就突破了专门人员参与这个壁垒。实际 上这也是可以做到的,根据日常的工作和生活需要
专栏中喝计年将学个通沁第8卷第10期2012年10月 手机用户经常会在各种建筑物内走动,每走到一个位好用手摸。有人摸到了大象的牙齿认为大象就是一 置,手机都可以不用用户操作而自动记录下当前位置个又粗又大的萝卜,有人摸到了大象的耳朵认为大 的信号指纹,这样收集就变得简单而几乎没有成本象就是一把蒲扇,有人摸到了大象的腿认为大象是 了。当然这样做还有一一个难点,就是如何把信号指纹 根大柱子,还有人摸到了大象的尾巴认为大象并不 与其相对应的物理位置联系起来,从而建立“指纹一大,不过是根草绳。如果我们换一个角度去考虑, 位置”关系数据库。MobiCom2012收录了两篇用群 盲人就是感知大象这个任务中的基本感知单元,其实 智理念研究室内定位的论文:一篇来自我们科研组的他们都正确感知到了事物,并如实地进行了汇报。我 杨铮和吴陈沭,根据信号指纹间的时空特性建立指纹 们说盲人摸象是失败的范例,原因并不在于“盲”, 与位置的对应关系;另一篇来自微软研究院,根据用也不在于感知数据稀缺或者角度片面,而在于数据没 户路径与室内地图的匹配情况建立对应关系。两个工有充分收集和有效利用。将每个盲人的信息进行正确 作都采用了用户无意识合作的思想,智能手机“暗 的汇总,那么大象应该是两牙如萝卜、两耳如蒲扇、 中”记录的用户移动信息经过汇总成为关联指纹和位 四条腿如柱子、一条尾巴如草绳的复杂组合体,这样 置的关键依据。 离事实就非常近了。但是如何才能做到这个看起来非 室内定位面临的另一个挑战在于,无论何种 常简单的“收集和利用”呢 室内定位技术,最终都离不开数字化的室内地图, 首先,感知数据必须要高效地收回来。我们不 否则就如同没有地图的GPS信息一样无用,空有精 能也不必要求传输的实时性和整体性,这就和传统 准的经纬度却徒叹奈何!这里“数字化”的含义不的网络追求的很不一样了。为了降低开销,移动设 仅是室内地图的电子图片,而是包含了室内的结构备可以采取一种“弱”联网的方式。从联网时间 信息,诸如走廊、楼梯、房间甚至房间的逻辑功能来看,由于网络覆盖条件、应用程序、或者用户的 等。若想单纯靠人工来绘制全球范围的数字化室内限制,移动设备不能保证实时在线,感知数据从产 地图,不啻于愚公移山。因此我们组刘峻良等同学 生到传输至目的地可能要经历很大的延迟,从几秒 的一个尝试是利用内置于智能手机中的种类繁多功钟到几天都有可能,形成容迟网络(delay-tolerant 能先进的传感器(例如:磁场强度传感器、加速度network)。从网络接入形式来看,也可以由直接变 传感器、陀螺仪、数字指南针等),随时随地记录为间接,在没有无线网络基础设施的情况下,移动 用户的行为、路径。用户的行走路径最真实地呈现设备形成局部无线网络,实现设备与设备之间的直 了建筑物内部的结构:凡是可活动区域,用户的足接或者多跳数据传输,以高度动态的无线自组织网 迹都可能出现;凡是阻隔区域例如墙体等,用户路 络(ad-hoc network)进行小范围内的数据融合。另 径均不可能到达或穿过。因此,大量的用户移动路外,联网通讯手段由单一变为多样,移动设备可以 径交织在一起,真实地刻画建筑物内部的空间结包含多套无线数据通信接口,例如GSM、Wi-Fi、 构。未来,人类的记忆或许也能融合在一起:每一蓝牙等,研究人员在设计数据传输协议时除了考虑 个个体的“到此一游”般的匆匆印象,将通过移动可靠性、带宽、延迟等传统因素,还必须考虑计 计算和云端共享汇聚成为一幅详实的地图。 费、流量、能耗,在多套通信手段间进行选择、切 群智感知计算仍处在刚刚开始的阶段,这是移换,或者并行利用等新情况。 动智能设备的发展水平和普及度,以及我们对这个 其次,群智感知需要大数据(big data)处理技 新生事物的理解所决定的,而其真正的发展,必须术。多大的数据算是大数据?TB已经不能满足胃 突破感知数据的“收集和利用”这个关键。我们口,PB正当年,EB、ZB也不是终点,或者换个角 都熟悉“盲人摸象”的故事,《涅槃经》里说,四度来描述,大数据就是现有数据处理技术难以有效 个盲人想知道大象是什么样子,可他们看不见,只处理的规模。群智感知作为物联网的新组织形式, 40
专栏 第 8 卷 第 10 期 2012 年 10 月 40 手机用户经常会在各种建筑物内走动,每走到一个位 置,手机都可以不用用户操作而自动记录下当前位置 的信号指纹,这样收集就变得简单而几乎没有成本 了。当然这样做还有一个难点,就是如何把信号指纹 与其相对应的物理位置联系起来,从而建立“指纹— 位置”关系数据库。MobiCom 2012收录了两篇用群 智理念研究室内定位的论文:一篇来自我们科研组的 杨铮和吴陈沭,根据信号指纹间的时空特性建立指纹 与位置的对应关系;另一篇来自微软研究院,根据用 户路径与室内地图的匹配情况建立对应关系。两个工 作都采用了用户无意识合作的思想,智能手机“暗 中”记录的用户移动信息经过汇总成为关联指纹和位 置的关键依据。 室内定位面临的另一个挑战在于,无论何种 室内定位技术,最终都离不开数字化的室内地图, 否则就如同没有地图的GPS信息一样无用,空有精 准的经纬度却徒叹奈何!这里“数字化”的含义不 仅是室内地图的电子图片,而是包含了室内的结构 信息,诸如走廊、楼梯、房间甚至房间的逻辑功能 等。若想单纯靠人工来绘制全球范围的数字化室内 地图,不啻于愚公移山。因此我们组刘峻良等同学 的一个尝试是利用内置于智能手机中的种类繁多功 能先进的传感器(例如:磁场强度传感器、加速度 传感器、陀螺仪、数字指南针等),随时随地记录 用户的行为、路径。用户的行走路径最真实地呈现 了建筑物内部的结构:凡是可活动区域,用户的足 迹都可能出现;凡是阻隔区域例如墙体等,用户路 径均不可能到达或穿过。因此,大量的用户移动路 径交织在一起,真实地刻画建筑物内部的空间结 构。未来,人类的记忆或许也能融合在一起:每一 个个体的“到此一游”般的匆匆印象,将通过移动 计算和云端共享汇聚成为一幅详实的地图。 群智感知计算仍处在刚刚开始的阶段,这是移 动智能设备的发展水平和普及度,以及我们对这个 新生事物的理解所决定的,而其真正的发展,必须 突破感知数据的“ 收集和利用”这个关键。我们 都熟悉“盲人摸象”的故事,《涅槃经》里说,四 个盲人想知道大象是什么样子,可他们看不见,只 好用手摸。有人摸到了大象的牙齿认为大象就是一 个又粗又大的萝卜,有人摸到了大象的耳朵认为大 象就是一把蒲扇,有人摸到了大象的腿认为大象是 根大柱子,还有人摸到了大象的尾巴认为大象并不 大,不过是根草绳。如果我们换一个角度去考虑, 盲人就是感知大象这个任务中的基本感知单元,其实 他们都正确感知到了事物,并如实地进行了汇报。我 们说盲人摸象是失败的范例,原因并不在于“盲”, 也不在于感知数据稀缺或者角度片面,而在于数据没 有充分收集和有效利用。将每个盲人的信息进行正确 的汇总,那么大象应该是两牙如萝卜、两耳如蒲扇、 四条腿如柱子、一条尾巴如草绳的复杂组合体,这样 离事实就非常近了。但是如何才能做到这个看起来非 常简单的“收集和利用”呢? 首先,感知数据必须要高效地收回来。我们不 能也不必要求传输的实时性和整体性,这就和传统 的网络追求的很不一样了。为了降低开销,移动设 备可以采取一种“弱”联网的方式。从联网时间 来看,由于网络覆盖条件、应用程序、或者用户的 限制,移动设备不能保证实时在线,感知数据从产 生到传输至目的地可能要经历很大的延迟,从几秒 钟到几天都有可能,形成容迟网络(delay-tolerant network)。从网络接入形式来看,也可以由直接变 为间接,在没有无线网络基础设施的情况下,移动 设备形成局部无线网络,实现设备与设备之间的直 接或者多跳数据传输,以高度动态的无线自组织网 络(ad-hoc network)进行小范围内的数据融合。另 外,联网通讯手段由单一变为多样,移动设备可以 包含多套无线数据通信接口,例如GSM、Wi-Fi、 蓝牙等,研究人员在设计数据传输协议时除了考虑 可靠性、带宽、延迟等传统因素,还必须考虑计 费、流量、能耗,在多套通信手段间进行选择、切 换,或者并行利用等新情况。 其次,群智感知需要大数据(big data)处理技 术。多大的数据算是大数据?TB已经不能满足胃 口,PB正当年,EB、ZB也不是终点,或者换个角 度来描述,大数据就是现有数据处理技术难以有效 处理的规模。群智感知作为物联网的新组织形式
中调计年栽学拿通讽第8卷第10期2012年10月 很快将成为大数据的重要来源。截止到2012年9月 mining)就是针对不同模态信息关联性以及不同模 全国手机用户早已突破10亿,一个人每天拍一张照 态挖掘结果整合等传统单模态环境下所忽视的内容 片上传到微博,用语音聊天10分钟,开车时用GPS 开展研究。例如用户在灾难发生时用手机照相,记 导航20分钟,打电话半小时,上网浏览1小时,这 录下从各自角度看灾难发生的基本情况。大量这样 10亿手机用户就产生超过PB量级的数据了。如果的照片结合照相时其他传感器的信息例如地点、方 这些手机再做一些并非用户本身需求的感知工作,向、焦距、声音、运动信息等可以作为判断灾难事 而这些数据中有些具有用户标注,有些没有,有些件或者重现灾难场景的第一手资料。另外,通过传 是结构化的(比如数值、符号)有些是非结构化的 感器数据来分析用户的行为(行动坐卧走)或者用 (比如图片、声音),有些时效性强有些时效性 户所处的环境(办公室/会议室、室内室外等)已 弱,有些价值密度高有些价值密度低,这都是将给成为行为识别(activity recognition)和体域传感网 大数据处理技术带来关注的新焦点。 (body-area sensor network)的研究热点,催生出新 同时,数据质量管理也成为群智感知应用成败 型的模式识别方法。 的关键。大量未经训练的用户作为基本感知单元会 如果眼光更开阔一些,群智感知为研究人类的 更凸显感知数据不精确、不完整、不一致、不及时社会行为提供了新的途径。手机随时随地陪伴使用 等质量问题。用户感知方式的随意性以及不同用户者的特性为记录人们的社会活动提供了可能。比如 的使用习惯都会影响感知数据的正确表达和解释。 邻近手机的发现(手机发现周围的手机)可以记录 对感知数据去粗取精、去伪存真,不被低质量的数人们的社交活动,某年某月某日和某人接触:大量 据所蒙敲,让精炼后的数据可以高精度地反映物理这样的数据在匿名化之后可以作为社会学研究的基 世界,将成为提升群智感知质量的重要一环。W-F1本资料。挖掘感知数据的社会学意义有助于观察、 定位服务商Skyhooki通过全球大量的移动设备收集发现、解释和利用大规模用户的行为习惯。因此, Wi-Fi网络信息并建立了规模庞大的Wi-F指纹数据 群智感知数据除了能完成特定应用的功能外,还具 库。Skyhook曾将我们科研组一个同学临时搭建的有广泛的社会学意义。这就有更深刻的意思了。想 W-F网络信息收集到其数据库中,而当他在另一地想本来要治疗冠心病的辉瑞没留神做出了畅销全球 点建立同样的网络后,却被错误的定位到之前的地的蓝色小药丸“Viagra”,弗莱明因为忘记给盛有 点,这说明Skyhook对由于经常移动而造成在定位葡萄球菌培植盘盖上盖子发现了青霉素,斯彭塞做 方面质量低下的无线网络没有进行有效的处理。在雷达实验时发现随手放在口袋里的巧克力变得一塌 群智感知中,数据质量管理变得更加不可或缺,需 糊涂而做出了微波炉,“有意识瞄准,无意识击 要根据感知数据的质量设计利用方法,不同质量的 发”,谁知道这些数据将来能干出什么呢!■ 感知数据都能尽量用到又不致误读。 群智感知数据来自不同的传感器、不同的用 户,必须智能地利用才能有效地发挥价值,形成 从数据到信息再到知识的飞跃。智能手机上的传 刘云浩 感器包括加速度计、陀螺仪、指南针、GPS、麦克 CCF理事、国际合作部主任。ACM中 风、摄像头以及各种无线信号如GSM、Wi-Fi和蓝 国副主席。清华大学教授、博士生导 牙等。原始感知数据在不同维度上刻画被感知的对 师。yunhao(@greenorbs.com 象,即使原本针对同一个对象其结果也是千姿百态 的,需要经过不同层次的加工和精炼才能展现出人 们感兴趣的内容。多模态数据发掘(multimodal data 41
第 8 卷 第10 期 2012 年 10 月 41 很快将成为大数据的重要来源。截止到2012年9月 全国手机用户早已突破10亿,一个人每天拍一张照 片上传到微博,用语音聊天10分钟,开车时用GPS 导航20分钟,打电话半小时,上网浏览1小时,这 10亿手机用户就产生超过PB量级的数据了。如果 这些手机再做一些并非用户本身需求的感知工作, 而这些数据中有些具有用户标注,有些没有,有些 是结构化的(比如数值、符号)有些是非结构化的 (比如图片、声音),有些时效性强有些时效性 弱,有些价值密度高有些价值密度低,这都是将给 大数据处理技术带来关注的新焦点。 同时,数据质量管理也成为群智感知应用成败 的关键。大量未经训练的用户作为基本感知单元会 更凸显感知数据不精确、不完整、不一致、不及时 等质量问题。用户感知方式的随意性以及不同用户 的使用习惯都会影响感知数据的正确表达和解释。 对感知数据去粗取精、去伪存真,不被低质量的数 据所蒙蔽,让精炼后的数据可以高精度地反映物理 世界,将成为提升群智感知质量的重要一环。Wi-Fi 定位服务商Skyhook通过全球大量的移动设备收集 Wi-Fi网络信息并建立了规模庞大的Wi-Fi指纹数据 库。Skyhook曾将我们科研组一个同学临时搭建的 Wi-Fi网络信息收集到其数据库中,而当他在另一地 点建立同样的网络后,却被错误的定位到之前的地 点,这说明Skyhook对由于经常移动而造成在定位 方面质量低下的无线网络没有进行有效的处理。在 群智感知中,数据质量管理变得更加不可或缺,需 要根据感知数据的质量设计利用方法,不同质量的 感知数据都能尽量用到又不致误读。 群智感知数据来自不同的传感器、不同的用 户,必须智能地利用才能有效地发挥价值,形成 从数据到信息再到知识的飞跃。智能手机上的传 感器包括加速度计、陀螺仪、指南针、GPS、麦克 风、摄像头以及各种无线信号如GSM、Wi-Fi和蓝 牙等。原始感知数据在不同维度上刻画被感知的对 象,即使原本针对同一个对象其结果也是千姿百态 的,需要经过不同层次的加工和精炼才能展现出人 们感兴趣的内容。多模态数据发掘(multimodal data mining)就是针对不同模态信息关联性以及不同模 态挖掘结果整合等传统单模态环境下所忽视的内容 开展研究。例如用户在灾难发生时用手机照相,记 录下从各自角度看灾难发生的基本情况。大量这样 的照片结合照相时其他传感器的信息例如地点、方 向、焦距、声音、运动信息等可以作为判断灾难事 件或者重现灾难场景的第一手资料。另外,通过传 感器数据来分析用户的行为(行动坐卧走)或者用 户所处的环境(办公室/会议室、室内/室外等)已 成为行为识别(activity recognition)和体域传感网 (body-area sensor network)的研究热点,催生出新 型的模式识别方法。 如果眼光更开阔一些,群智感知为研究人类的 社会行为提供了新的途径。手机随时随地陪伴使用 者的特性为记录人们的社会活动提供了可能。比如 邻近手机的发现(手机发现周围的手机)可以记录 人们的社交活动,某年某月某日和某人接触;大量 这样的数据在匿名化之后可以作为社会学研究的基 本资料。挖掘感知数据的社会学意义有助于观察、 发现、解释和利用大规模用户的行为习惯。因此, 群智感知数据除了能完成特定应用的功能外,还具 有广泛的社会学意义。这就有更深刻的意思了。想 想本来要治疗冠心病的辉瑞没留神做出了畅销全球 的蓝色小药丸“Viagra”,弗莱明因为忘记给盛有 葡萄球菌培植盘盖上盖子发现了青霉素,斯彭塞做 雷达实验时发现随手放在口袋里的巧克力变得一塌 糊涂而做出了微波炉,“有意识瞄准,无意识击 发”,谁知道这些数据将来能干出什么呢!■ 刘云浩 CCF理事、国际合作部主任。ACM中 国副主席。清华大学教授、博士生导 师。yunhao@greenorbs.com