数据挖掘实用案例分析 指福第6章基于逻辑回归模型的高危 实用案例分析 人员分析 复旦大学赵卫东博士 0ta间g wdzhao@fudan.edu.cn dicta
数据挖掘实用案例分析 第6章 基于逻辑回归模型的高危 人员分析 复旦大学 赵卫东 博士 wdzhao@fudan.edu.cn
章节介绍 高危人员管理就是充分运用现有的实有人口基础数据和能够反映违法犯罪 人员活动规律、行为特点的系统资源,通过建立风险评分模型,实现对人 群的比对和分析,排查出具有违法犯罪可疑或可能的高危人员,为派出所 民警排査高危人员提供有效的方法和便捷的途径,实现从人到案的打击破 案模式,寻找打击破案的增长点,进一步提升人口管理水平和效率,切实 做到人口管理更好地为公安实战服务 对于目前实有人口数量大、社会问题复杂的情况,高危人员探知和对其风 险管理手段非常不足。目前,公安部门已经汇集了人口及公安业务多条线 的数据,利用这些数据寻找高危人群管控的工作路径成为工作的要点。基 于国内外的成功经验,针对现状,整合公安人员轨迹动态数据,进行有效 的预处理,形成特征变量后进行归集抽取,并选择逻辑回归模型来构建高 危人员评分模型,以此为核心建立高危人员管理系统,通过应用模型逐步 满足业务需求
章节介绍 • 高危人员管理就是充分运用现有的实有人口基础数据和能够反映违法犯罪 人员活动规律、行为特点的系统资源,通过建立风险评分模型,实现对人 群的比对和分析,排查出具有违法犯罪可疑或可能的高危人员,为派出所 民警排查高危人员提供有效的方法和便捷的途径,实现从人到案的打击破 案模式,寻找打击破案的增长点,进一步提升人口管理水平和效率,切实 做到人口管理更好地为公安实战服务 • 对于目前实有人口数量大、社会问题复杂的情况,高危人员探知和对其风 险管理手段非常不足。目前,公安部门已经汇集了人口及公安业务多条线 的数据,利用这些数据寻找高危人群管控的工作路径成为工作的要点。基 于国内外的成功经验,针对现状,整合公安人员轨迹动态数据,进行有效 的预处理,形成特征变量后进行归集抽取,并选择逻辑回归模型来构建高 危人员评分模型,以此为核心建立高危人员管理系统,通过应用模型逐步 满足业务需求
章节结构 高危人员分析需求 高危人群的相关数据收集与预处理 建立模型
章节结构 • 高危人员分析需求 • 高危人群的相关数据收集与预处理 • 建立模型
高危人员分析需求 高危人员是指在实有人口中有危害国家安全、危害公共安全或其他违法犯 罪嫌疑的,须由公安机关进行调査控制,发现、甄别、证实其违法犯罪行 为,并依法进行打击处理的人口该类人员多年来主要靠公安民警和属地政 府社会管理人员人工排摸,情况收集,手工上报等方式进行管理。对于高 危人员的高危程度,主要依靠办案人员的经验来判定,哪些是高危度较高 的,哪些又是关注度较低的。这种方式的操作往往效率和准确性都较低, 缺乏科学性和规律性。因此,在公安管理过程中,需要建立一套符合高危 人员管理实际的评估体系,综合人员的基本情况、居住情况、就业情况、 消费情况、活动场所、社交情况等数据,对人员进行科学合理的高危评估 并对该类人员进行分类和管理。按照人员高危程度采取不同的管控措施 ,通过细致的分类管理,加强公安对高危人员的管控力度,提高预防等级
高危人员分析需求 • 高危人员是指在实有人口中有危害国家安全、危害公共安全或其他违法犯 罪嫌疑的,须由公安机关进行调查控制,发现、甄别、证实其违法犯罪行 为,并依法进行打击处理的人口该类人员多年来主要靠公安民警和属地政 府社会管理人员人工排摸,情况收集,手工上报等方式进行管理。对于高 危人员的高危程度,主要依靠办案人员的经验来判定,哪些是高危度较高 的,哪些又是关注度较低的。这种方式的操作往往效率和准确性都较低, 缺乏科学性和规律性。因此,在公安管理过程中,需要建立一套符合高危 人员管理实际的评估体系,综合人员的基本情况、居住情况、就业情况、 消费情况、活动场所、社交情况等数据,对人员进行科学合理的高危评估 ,并对该类人员进行分类和管理。按照人员高危程度采取不同的管控措施 ,通过细致的分类管理,加强公安对高危人员的管控力度,提高预防等级
高危人员分析需求 高危人员管理主要解决的问题是,目前高危人员管控缺少手段,预防和排 摸都缺少目标性,需要充分挖掘和利用管理方已积累的大量业务数据,以 全面分析人员行为和未来发生犯罪之间的关系,将人员高危程度量化,从 而科学化地缩小人员管控范围,提高犯罪打击准确率 嫌疑犯的确定上不能简单依靠经验判断,主观臆断更不可取。因此,基于 目前人口规模大、重复犯罪率较髙、线索往往不足的现状,一套可以将嫌 疑人员的嫌疑度直观的量化,并能给予办案人员该量化分值构成及解释的 方法,对嫌疑人员范围进行科学的缩小,以此辅助工作开展,就显得极有 意义和价值了
高危人员分析需求 • 高危人员管理主要解决的问题是,目前高危人员管控缺少手段,预防和排 摸都缺少目标性,需要充分挖掘和利用管理方已积累的大量业务数据,以 全面分析人员行为和未来发生犯罪之间的关系,将人员高危程度量化,从 而科学化地缩小人员管控范围,提高犯罪打击准确率 • 嫌疑犯的确定上不能简单依靠经验判断,主观臆断更不可取。因此,基于 目前人口规模大、重复犯罪率较高、线索往往不足的现状,一套可以将嫌 疑人员的嫌疑度直观的量化,并能给予办案人员该量化分值构成及解释的 方法,对嫌疑人员范围进行科学的缩小,以此辅助工作开展,就显得极有 意义和价值了
高危人群的相关数据收集与预处理 ·所有数据划分为以下几个步骤:原始类型转换、清理、整合、拆分、终止 。所有表在数据清理阶段(第一阶段),判断数据是否重复,如果数据重复, 则直接将数据步骤置为终止状态记录终止原因,所有终止状态数据不参与 后面的步骤 数据清理完成后,根据业务要求将数据整合为人口动态轨迹数据库,并在 数据库中根据不同的主题分类抽取数据变量,通过数据导入功能将数据存 入数据中心库中。以此完成数据的准备工作,为后续的数据模型的生成建 立了基础
高危人群的相关数据收集与预处理 • 所有数据划分为以下几个步骤:原始类型转换、清理、整合、拆分、终止 。所有表在数据清理阶段(第一阶段),判断数据是否重复,如果数据重复, 则直接将数据步骤置为终止状态记录终止原因,所有终止状态数据不参与 后面的步骤 • 数据清理完成后,根据业务要求将数据整合为人口动态轨迹数据库,并在 数据库中根据不同的主题分类抽取数据变量,通过数据导入功能将数据存 入数据中心库中。以此完成数据的准备工作,为后续的数据模型的生成建 立了基础
高危人群的相关数据收集与预处理 人员轨迹信息同构整合用于将异构的数据源全部同构化到髙危人员分析系 统数据库中。异构的数据源包括:网吧上网人员的数据、宾(旅)馆、浴场住 宿人员数据、违法犯罪人员数据库、吸毒人员数据库、执法办案过程中采 集的人员信息、违法犯罪人员手机号码采集系统、看守所释放人员数据、 分局47008査询人员数据、工作对象综合信息系统数据、案事件信息管理系 统、服务行业从业人员C卡数据库、实有人口库基础数据等
高危人群的相关数据收集与预处理 • 人员轨迹信息同构整合用于将异构的数据源全部同构化到高危人员分析系 统数据库中。异构的数据源包括:网吧上网人员的数据、宾(旅)馆、浴场住 宿人员数据、违法犯罪人员数据库、吸毒人员数据库、执法办案过程中采 集的人员信息、违法犯罪人员手机号码采集系统、看守所释放人员数据、 分局47008查询人员数据、工作对象综合信息系统数据、案事件信息管理系 统、服务行业从业人员IC卡数据库、实有人口库基础数据等
高危人群的相关数据收集与预处理 外部数据表 散据类型 吧上网人员的数据 人员信息、上网时问、下网时间、网吧名称、网吧地址 所属派出所、经营性质 宾《旅)馆、浴场住宿人员数人员信息、入住时向、退房时间、场所名称、场所地址 属派出所、企业名称、营业范围 人员信息、案件类型、定罪时问、定罪名称、处理结果 违法犯罪人员数据库 关押时间 人员信息、涉毒类型、是否戒毒所、入所时间、出所时 吸毒人员数据厍 执法办案过程中采集的人员信人员信息、采集地点,采集事由、处置结果 全市进看守所人员数据、全市进治安拘留所人员数据 看守所拘留所入所数据 全市刑释解教人员数据、刑释强戒人员数据、全市吸毒 人员数据、各业务管理确定的工作对象信息 违法犯罪人员手机号码采集系 人员信息、案件类型、定罪时间、手机号码信息 分局47008查询人员数据 人员信息、排查时问、查询事由、人员标签 工作对象综合信息系统数据 人员信息、工作对象类型、嫌疑事由、采集时间、处置 案事件信息管理系统数据 案件类型、案件时间、地点、涉及人员、案件处置结果 服务行业从业人员C卡数据库人员信息、所属单位、管控类别、涉罪情况 姓名、身份证、性别、年龄、户籍地、居住地、职业 实有人口库基础数据
高危人群的相关数据收集与预处理 • 外部数据表 序 号 数据类型 数据内容 1 网吧上网人员的数据 人员信息、上网时间、下网时间、网吧名称、网吧地址、 所属派出所、经营性质 2 宾(旅)馆、浴场住宿人员数 据 人员信息、入住时间、退房时间、场所名称、场所地址、 所属派出所、企业名称、营业范围 3 违法犯罪人员数据库 人员信息、案件类型、定罪时间、定罪名称、处理结果、 关押时间 4 吸毒人员数据库 人员信息、涉毒类型、是否戒毒所、入所时间、出所时 间 5 执法办案过程中采集的人员信 息 人员信息、采集地点、采集事由、处置结果 6 看守所拘留所入所数据 全市进看守所人员数据、全市进治安拘留所人员数据、 全市刑释解教人员数据、刑释强戒人员数据、全市吸毒 人员数据、各业务管理确定的工作对象信息 7 违法犯罪人员手机号码采集系 统 人员信息、案件类型、定罪时间、手机号码信息 8 分局47008查询人员数据 人员信息、排查时间、查询事由、人员标签 9 工作对象综合信息系统数据 人员信息、工作对象类型、嫌疑事由、采集时间、处置 结果 10 案事件信息管理系统数据 案件类型、案件时间、地点、涉及人员、案件处置结果 11 服务行业从业人员IC卡数据库 人员信息、所属单位、管控类别、涉罪情况 12 实有人口库基础数据 姓名、身份证、性别、年龄、户籍地、居住地、职业、 学历
高危人群的相关数据收集与预处理 导入过程是将数据原样全部以字符串类型导入到数据库,表结构与源文件 结构基本样,增加数据源和导入时间两个字段。导入完成后记录日志,并 将源文件从文件缓冲区移动到文件备份区。导入如果失败,则记录错误日 志,并向接入监控模块发送警报,将源文件从文件缓冲区移动到文件备份 区。全部执行完毕,则开始导入下一个文件,直到文件缓冲区没有文件为 止 首先进行数据格式转换,将数据准备库中的原始数据转换成对应的数据类 型,并存储在缓冲库中,在数据准备库中根据数据类型分为数值型或日期 型,其他数据类型均设置为 NVARCHARZ2(2000)。例如,对“宾旅馆入住时间 ”等日期型字段统一进行日期格式化处理,统一处理为“YYY- MM-Cdhh: mm:ss"形式。缓冲区数据库的字段类型根据数据含义已经设定成了相应 的数据类型
高危人群的相关数据收集与预处理 • 导入过程是将数据原样全部以字符串类型导入到数据库,表结构与源文件 结构基本样,增加数据源和导入时间两个字段。导入完成后记录日志,并 将源文件从文件缓冲区移动到文件备份区。导入如果失败,则记录错误日 志,并向接入监控模块发送警报,将源文件从文件缓冲区移动到文件备份 区。全部执行完毕,则开始导入下一个文件,直到文件缓冲区没有文件为 止 • 首先进行数据格式转换,将数据准备库中的原始数据转换成对应的数据类 型,并存储在缓冲库中,在数据准备库中根据数据类型分为数值型或日期 型,其他数据类型均设置为NVARCHAR2(2000)。例如,对“宾旅馆入住时间 ”等日期型字段统一进行日期格式化处理,统一处理为“YYYY-MM-ddhh: mm:ss.ff”形式。缓冲区数据库的字段类型根据数据含义已经设定成了相应 的数据类型
高危人群的相关数据收集与预处理 ·先对缓冲库中的数据表进行扫描,如果有数据,则循环处理每行数据,获 取到行数据后,将每个字段的值取出逐个转换,如果全部没有错误,则将 该行数据插入到主题库中,并记录操作日志和将原始数据移动到备份表中 如果有错误,则记录错误日志和将原始数据移动到错误表中 对于数据质量较差的字段或进行清洗,或直接抛弃 对数据噪声的处理,主要采用平滑处理的方式 在重复数据处理方面,由于外部数据源存在相同业务含义数据重叠的情况 ,如违法犯罪库与工作对象综合信息系统数据库中关于案情描述数据岀现 记录或属性重复的情况,原因是两种库之间存在继承关系,针对该类情况 制订清理规则,明确了重复数据情况下以违法犯罪库为优先,保留该库数 据并删除其他相同数据记录
高危人群的相关数据收集与预处理 • 先对缓冲库中的数据表进行扫描,如果有数据,则循环处理每行数据,获 取到行数据后,将每个字段的值取出逐个转换,如果全部没有错误,则将 该行数据插入到主题库中,并记录操作日志和将原始数据移动到备份表中 ;如果有错误,则记录错误日志和将原始数据移动到错误表中 • 对于数据质量较差的字段或进行清洗,或直接抛弃 • 对数据噪声的处理,主要采用平滑处理的方式 • 在重复数据处理方面,由于外部数据源存在相同业务含义数据重叠的情况 ,如违法犯罪库与工作对象综合信息系统数据库中关于案情描述数据出现 记录或属性重复的情况,原因是两种库之间存在继承关系,针对该类情况 制订清理规则,明确了重复数据情况下以违法犯罪库为优先,保留该库数 据并删除其他相同数据记录