(2019春季1 课程编号:011184) 曾凡平 209信安导论 信息安全导论 第13章内容安全枝术 中国科学技术大学曾凡平 billzeng@ustc.edu.cn
信息安全导论 第13章 内容安全技术 中国科学技术大学 曾凡平 billzeng@ustc.edu.cn (2019春季 课程编号:011184)
第13章内容安全技术 13.1内容安全的概念 13.2文本过滤 ·13.2.1不良文本过滤主要方法 。13.2.2中文分词 13.3话题发现和跟踪 13.4内容安全分级监管 13.5多媒体内容安全技术简介 信息安全导论13
第13章 内容安全技术 13.1 内容安全的概念 • 13.2.1 不良文本过滤主要方法 • 13.2.2 中文分词 13.2 文本过滤 13.3话题发现和跟踪 13.4 内容安全分级监管 13.5 多媒体内容安全技术简介 信息安全导论13 3
13.1内容安全的概念 在信息科技中,“信息”和“内容(content)”的概念是等价 的,它们均指与具体表达形式、编码无关的知识、事物、 数据等含义,相同的信息或内容分别可以有多表达形式 或编码。 。 信息和内容的概念也在一些特别的场合略有区别。一般 认为,内容更具轮廓性”和“主观性”,即在细节上有些 不同的信息可以被认为是相同的内容,人们在主观上没 有感觉到这些细节的不同对理解或识别内容有多大的影 响。而信息具有自信息、熵、互信息等概念,可以用比 特(bit)、奈特(nat)或哈特(hart)等单位衡量它们数量的多 少,因此一般认为信息更具“细节性”和“客观性”。在细 节并不重要的场合下,内容往往更能反映信息的含义, 也可以认为内容是人们可感知的信息或较高层次的信息, 因此多个信息可以对应一个内容。 信息安全导论13
13.1 内容安全的概念 • 在信息科技中, “信息”和“内容(content)”的概念是等价 的,它们均指与具体表达形式、编码无关的知识、事物、 数据等含义,相同的信息或内容分别可以有多表达形式 或编码。 • 信息和内容的概念也在一些特别的场合略有区别。一般 认为,内容更具“轮廓性”和“主观性” ,即在细节上有些 不同的信息可以被认为是相同的内容,人们在主观上没 有感觉到这些细节的不同对理解或识别内容有多大的影 响。而信息具有自信息、熵、互信息等概念,可以用比 特(bit)、奈特(nat)或哈特(hart)等单位衡量它们数量的多 少,因此一般认为信息更具“细节性”和“客观性” 。在细 节并不重要的场合下,内容往往更能反映信息的含义, 也可以认为内容是人们可感知的信息或较高层次的信息, 因此多个信息可以对应一个内容。 信息安全导论13 4
原始图像和压缩图像:内容相同 例如图像压缩编码中的信息与内容,可以通过压 缩编码减小一个数字图像的存储尺寸。当前常用 的图像压缩编码方式是PEG压缩,产生的图像 文件为PG文件。大量的图像压缩工具可以将其 他格式的图像压缩为JPG文件,JPG格式的图像 也可以进一步压缩。设原图像编码文件为A.TIF, 它被压缩为B.JPG,由于JPEG压缩是有损压缩 为了节省存储空间,压缩后的编码省去了一些高 频信息,因此A.TIF和B.JPG表达的信息是不同 的。但如果压缩程度不是太高,可以认为它们 表达的内容是相同的。在现实中,人们会认为 照片上的内容相同,只不过一个尺寸大些、一个 尺寸小些。 信息安全导论13 5
原始图像和压缩图像:内容相同 • 例如图像压缩编码中的信息与内容,可以通过压 缩编码减小一个数字图像的存储尺寸。当前常用 的图像压缩编码方式是JPEG压缩,产生的图像 文件为JPG文件。大量的图像压缩工具可以将其 他格式的图像压缩为JPG文件,JPG格式的图像 也可以进一步压缩。设原图像编码文件为A.TIF, 它被压缩为B.JPG,由于JPEG压缩是有损压缩, 为了节省存储空间,压缩后的编码省去了一些高 频信息,因此A.TIF和B.JPG表达的信息是不同 的。但如果压缩程度不是太高,可以认为它们 表达的内容是相同的。在现实中,人们会认为 照片上的内容相同,只不过一个尺寸大些、一个 尺寸小些。 信息安全导论13 5
内容安全 内容的复制和流动变得更加容易,这在一些情况下是人 们需要的,但在另一些情况下内容的肆意复制、传播和 流动危害了一些组织和个人的利益,因此人们希望实施 一定的控制和监管,获得可控性。显然,实施这类控制 的依据是何种内容或信息在被复制、传播或流动,因此, 内容或信息本身的含义直接与安全策略关联在一起,这 也要求信息安全策略的执行需要预先识别内容或信息 内容安全就是指内容的复制、传播和流动得到人们预期 的控制和监测。这里“内容”的定义主要基于以下3个方面。 ·()前述内容与信息的细微差别。 (2)当前国际上将数字视频、音频和电子出版物等称为数 字内容。 ·(3)一些文献中的“内容”专指应用层或应用中的数据和消 息。 信息安全导论13 6
内容安全 • 内容的复制和流动变得更加容易,这在一些情况下是人 们需要的,但在另一些情况下内容的肆意复制、传播和 流动危害了一些组织和个人的利益,因此人们希望实施 一定的控制和监管,获得可控性。显然,实施这类控制 的依据是何种内容或信息在被复制、传播或流动,因此, 内容或信息本身的含义直接与安全策略关联在一起,这 也要求信息安全策略的执行需要预先识别内容或信息。 内容安全就是指内容的复制、传播和流动得到人们预期 的控制和监测。这里“内容”的定义主要基于以下3个方面。 • (1)前述内容与信息的细微差别。 • (2)当前国际上将数字视频、音频和电子出版物等称为数 字内容。 • (3)一些文献中的“内容”专指应用层或应用中的数据和消 息。 信息安全导论13 6
对内容安全的需求 1)数字版权侵权及其控制 数字内容产业主要指影视和音乐的数字化制作和 发行行业,包括VCD、DVD、网络视频和MP3 音乐的制作、发行企业等,涉及现代社会中的几 乎每一个人。 但是,数字视频和音频的盗版和非授权散布沉重 打击了数字内容产业,也迟滞了网络技术在这一 行业中的应用。 ·人们逐渐发现,对数字版权的侵权仅仅依靠手段 是不够的,数字内容制作企业、内容制作者及管 理部门也迫切需要有遏制版权侵权的技术手段。 信息安全导论13 7
对内容安全的需求 1)数字版权侵权及其控制 • 数字内容产业主要指影视和音乐的数字化制作和 发行行业,包括VCD、DVD、网络视频和MP3 音乐的制作、发行企业等,涉及现代社会中的几 乎每一个人。 • 但是,数字视频和音频的盗版和非授权散布沉重 打击了数字内容产业,也迟滞了网络技术在这一 行业中的应用。 • 人们逐渐发现,对数字版权的侵权仅仅依靠手段 是不够的,数字内容制作企业、内容制作者及管 理部门也迫切需要有遏制版权侵权的技术手段。 信息安全导论13 7
2)不良内容传播及其控制 ·不良内容的肆意传播是另外一个与内容相关的安全问题 。 在互联网上,任何拥有合法网络地址的团体或个人都可 以发布内容,任何知道电子邮件接收地址的人均可以向 该地址发送电子邮件。在各种动机的驱动下,造成了不 良内容大量传播、垃圾邮件泛滥的情况。显然,政府、 学校和邮件服务管理者希望阻止这些内容的传播或监控 其发展。 3)敏感内容泄露及其控制 ·大多数工作环境在安全通信管理方面是松散的。例如, 由于工作需要,政府、企业和科研单位允许工作人员对 外收发电子邮件、上网并传输文件,这不免存在敏感信 息泄露的问题。其中,敏感信息主要包括保密文件和与 知识产权相关的资料等。为了制约这类现象,信息安全 的管理者希望根据工作人员对外传输或接收的内容对网 络通信进行控制。 信息安全导论13 8
2)不良内容传播及其控制 • 不良内容的肆意传播是另外一个与内容相关的安全问题。 在互联网上,任何拥有合法网络地址的团体或个人都可 以发布内容,任何知道电子邮件接收地址的人均可以向 该地址发送电子邮件。在各种动机的驱动下,造成了不 良内容大量传播、垃圾邮件泛滥的情况。显然,政府、 学校和邮件服务管理者希望阻止这些内容的传播或监控 其发展。 3)敏感内容泄露及其控制 • 大多数工作环境在安全通信管理方面是松散的。例如, 由于工作需要,政府、企业和科研单位允许工作人员对 外收发电子邮件、上网并传输文件,这不免存在敏感信 息泄露的问题。其中,敏感信息主要包括保密文件和与 知识产权相关的资料等。为了制约这类现象,信息安全 的管理者希望根据工作人员对外传输或接收的内容对网 络通信进行控制。 信息安全导论13 8
4)内容伪造及其控制 。 随着数字多媒体技术的发展,出现了大量的数字 媒体内容制作、加工和编辑工具。 ·一方面,数字内容的制作者(尤其是影视行业) 用这些工具提高了数字内容的质量;另一方面 这些工具也为数字内容造假提供了可能,使得逼 真的假造内容屡次出现,不但对公众起到误导作 用,也往往使得普通数字内容作为法律证据的效 力遭到质疑。 0 显然,人们需要能够核实数字内容的真伪,并且 这种核实也能针对普通数字内容进行(即进行所 谓的内容盲取证),而不依赖于这个内容曾经被 数字签名过。 信息安全导论13 9
4)内容伪造及其控制 • 随着数字多媒体技术的发展,出现了大量的数字 媒体内容制作、加工和编辑工具。 • 一方面,数字内容的制作者(尤其是影视行业) 用这些工具提高了数字内容的质量;另一方面, 这些工具也为数字内容造假提供了可能,使得逼 真的假造内容屡次出现,不但对公众起到误导作 用,也往往使得普通数字内容作为法律证据的效 力遭到质疑。 • 显然,人们需要能够核实数字内容的真伪,并且 这种核实也能针对普通数字内容进行(即进行所 谓的内容盲取证),而不依赖于这个内容曾经被 数字签名过。 信息安全导论13 9
被动与主动的内容安全技术 主动内容安全技术对被监管的内容先进行预处理, 在内容中添加验证信息,在以后的监管中,它通过 安全预处理 分析所获得内容中添加的验证信息来判断内容的性 质,并实施相应的控制 内容服务 普通内容 识别、验证 内容接收者 含验证信息 内容发布者 的内容 内容服务 公共网络 内容接收者 普通内容 内容服务 分级标志、 水印检测 图13-1被动与主动内容安全技术实施环境 信息安全导论13 10
被动与主动的内容安全技术 信息安全导论13 10 图13-1 被动与主动内容安全技术实施环境 主动内容安全技术对被监管的内容先进行预处理, 在内容中添加验证信息,在以后的监管中,它通过 分析所获得内容中添加的验证信息来判断内容的性 质,并实施相应的控制
广义的内容和狭义的内容安全技术 从国内外出版的文献看,内容安全技术也可以分 为广义的内容和狭义的内容安全技术两类。 ·广义内容安全技术指与内容及其应用特性相关 的所有信息安全技术,包括数字版权保护、数 字水印、多媒体加密、内容取证、内容过滤和监 控、垃圾邮件防范、网络敏感内容搜索、舆情分 析与控制、信息泄露防范等。 狭义的内容安全技术主要包括广义内容安全技 术中涉及内容搜索、过滤和监控的部分,如网 络多媒体内容的非授权散布监控、内容过滤和监 控、垃圾邮件防范、网络敏感内容搜索、舆情分 。 析与监测等 信息安全导论13 11
广义的内容和狭义的内容安全技术 • 从国内外出版的文献看,内容安全技术也可以分 为广义的内容和狭义的内容安全技术两类。 • 广义内容安全技术指与内容及其应用特性相关 的所有信息安全技术,包括数字版权保护、数 字水印、多媒体加密、内容取证、内容过滤和监 控、垃圾邮件防范、网络敏感内容搜索、舆情分 析与控制、信息泄露防范等。 • 狭义的内容安全技术主要包括广义内容安全技 术中涉及内容搜索、过滤和监控的部分,如网 络多媒体内容的非授权散布监控、内容过滤和监 控、垃圾邮件防范、网络敏感内容搜索、舆情分 析与监测等。 信息安全导论13 11