流数据管理 夏英 (xiayingacqupt. edu. cn) 重庆邮电大学计算机学院
1 流数据管理 夏英 (xiaying@cqupt.edu.cn) 重庆邮电大学计算机学院
概述 流数据具有动态、时效、连续、多源、无限等特性,数据流 处理对数据库、系统、算法、网络和其他计算机科学领域的 技术提出挑战,成为数据库界一个活跃的研究领域。 如物联网,通过安装传感设备,将所有的实体与网络连接在 起,方便识别和管理。感知数据以流的形式获取和存储。 ■流数据管理关键技术包括流存储、流操作、SQL扩展、查 询优化、操作调度、与静态数据的集成处理、模式挖掘等。 ■流数据管理系统,如斯坦福大学 stream、加州大学伯克力 分校 TelegraphCQ。 大数据流式计算架构, storn、 Yahoo s4等
2 概述 流数据具有动态、时效、连续、多源、无限等特性,数据流 处理对数据库、系统、算法、网络和其他计算机科学领域的 技术提出挑战,成为数据库界一个活跃的研究领域。 如物联网,通过安装传感设备,将所有的实体与网络连接在 一起,方便识别和管理。感知数据以流的形式获取和存储。 流数据管理关键技术包括流存储、流操作、SQL 扩展、查 询优化、操作调度、与静态数据的集成处理、模式挖掘等。 流数据管理系统,如斯坦福大学Stream、加州大学伯克力 分校TelegraphCQ。 大数据流式计算架构,Storm、Yahoo S4等
流数据应用领域 ■实时日志处理,实时统计系统,实时风控系统, 实时推荐系统 比如: 如对网络流量数据进行实时统计和攻击检测 对GPS,RFID等交通数据进行进行实时统计和诱导 ■对信用卡使用数据进行实时分析,防止信用卡欺诈 网页点击数据实时分析,广告点击及时响应(计费、 推荐、)
3 流数据应用领域 实时日志处理 ,实时统计系统 ,实时风控系统 , 实时推荐系统 , … 比如 : 如对网络流量数据进行实时统计和攻击检测 对GPS, RFID等交通数据进行进行实时统计和诱导 对信用卡使用数据进行实时分析,防止信用卡欺诈 网页点击数据实时分析,广告点击及时响应 (计费 、 推荐 、 … )
流数据管理系统简介 ■DBMs(数据库管理系统) 固定的关系结构 长时间,静态的数据 DsMs(流数据管理系统) 半结构化、非结构化数据 随时间变化(数据,概念,)
4 流数据管理系统简介 DBMS(数据库管理系统 ) 固定的关系结构 长时间,静态的数据 DSMS(流数据管理系统 ) 半结构化 、非结构化数据 随时间变化 (数据,概念,… )
DBMs与DSMS的不同 稳定的关系 临时数据流,稳定的关系 一次性查询 连续查询 随机访问 顺序访问 根据数据库物理设计和查询■难以预料的数据特征和到 处理优化机制形成查询计划达模式
5 DBMS与DSMS的不同 稳定的关系 一次性查询 随机访问 根据数据库物理设计和查询 处理优化机制形成查询计划 临时数据流,稳定的关系 连续查询 顺序访问 难以预料的数据特征和到 达模式
流数据应用架构 Streamed Stored Register Result Result Query 二二二 DSMS Input streams Archive Scratch Store Stored Relations
6 DSMS Scratch Store 流数据应用架构 Input streams Register Query Streamed Result Stored Result Archive Stored Relations
实例:网络流量分析及异常检测 Packet Capture GEO Stream server Firewall Input Adapter ADL Library( Packet GEOSENSOR ADL P CCTV SENSOR TXT SQL…) Analyzing Monitor Realime monitor Knowle Audit data Historical base User-Define CQ Predefined CQ
7 实例:网络流量分析及异常检测
流量类型 TrafficRanking ○ Total Traffi ⊙ In Traffic OOut Traffic 3:9 SMTP 0 丰与 TPK查询 i入要查询的工P个粪 hongk y 匚查询 基于流数据处理的实时网络监控系统
8 基于流数据处理的实时网络监控系统
DSMS主要研究内容 数据流的存储(满足实时和近似查询要求 数据流的操作(选择、投影、连接、聚集等 数据流查询语言扩展(新的谓词或语法) 数据流查询处理技术 基于流速的查询优化(目的是获得最大的查询数据流速 操作调度 高性能数据流处理框架 模糊匹配技术 高效规则匹配技术 高效资源管理数据 数据流建模(数据模型)
9 DSMS主要研究内容 数据流的存储(满足实时和近似查询要求) 数据流的操作(选择、投影、连接、聚集等) 数据流查询语言扩展(新的谓词或语法) 数据流查询处理技术 基于流速的查询优化(目的是获得最大的查询数据流速) 操作调度 高性能数据流处理框架 模糊匹配技术 高效规则匹配技术 高效资源管理数据 数据流建模(数据模型)
DSMs研究方法 部分研究者致力于将数据流融入DBMs 部分研究者致力于普遍适用的DSMS fnSTREAM Telegraph, Aurora, Storm 部分研究者致力于特定类型数据流(如传感、GPS 、视频等)的专用DSMs fn Giga Scope: High Performance Network Monitoring with an SQL Interface
10 DSMS研究方法 部分研究者致力于将数据流融入DBMS 部分研究者致力于普遍适用的DSMS 如STREAM, Telegraph, Aurora, Storm 部分研究者致力于特定类型数据流(如传感、GPS 、视频等)的专用DSMS 如GigaScope: High Performance Network Monitoring with an SQL Interface