°SClgen生成文献的检测方案 刘昌灵 中国人民大学2012级本科 多媒体计算实验室
SCIgen生成文献的检测方案 刘昌灵 中国人民大学 2012级本科 多媒体计算实验室
简单的发现 SClgen是一个使用生成式生成文本的上 下文无关文法(巴科斯范式、巴科斯 诺尔范式、Backus-Naur Form) ●SClgen使用的生成式存在于scirules.in文 件中 ●对于子生成式的展开,SClgen的策略相 对简单,不会自递归(乔姆斯基范式、 Chomsky Normal Form)
简单的发现 SCIgen是一个使用生成式生成文本的上 下文无关文法(巴科斯范式、巴科斯- 诺尔范式、 Backus-Naur Form) SCIgen使用的生成式存在于scirules.in文 件中 对于子生成式的展开,SCIgen的策略相 对简单,不会自递归(乔姆斯基范式、 Chomsky Normal Form)
通用的解决方案 ·提取特征,观察其分布 。词频、词距等 。Sklearn提供了一部分文本特征 。使用Word2Vec准备意义空间的分析 ●SVMW多层SVM ·神经网络/循环冗余神经网络
通用的解决方案 提取特征,观察其分布 ◦ 词频、词距等 ◦ Sklearn提供了一部分文本特征 ◦ 使用Word2Vec准备意义空间的分析 SVM/多层SVM 神经网络/循环冗余神经网络
SVM/神经网络 。选择SVM的原因是特征空间(至少词频 空间)对于正反样本较为可分(高斯核, 甚至线性核都可以得到不错的效果) 。选择RNN(Recurrent Neural Network) 的原因为其每一次的运算都具有后效性, 可以在优秀的上下文环境中分析语义空 间。而语义空间是期望具有显著差别的
SVM/神经网络 选择SVM的原因是特征空间(至少词频 空间)对于正反样本较为可分(高斯核, 甚至线性核都可以得到不错的效果) 选择RNN(Recurrent Neural Network) 的原因为其每一次的运算都具有后效性, 可以在优秀的上下文环境中分析语义空 间。而语义空间是期望具有显著差别的
SVM/NN总结 。优点: 。能够快速适应SClgen做出的改动(更换/添 加特征向量) 解决办法通用,主要的训练学习任务交给 01 机器自己完成,较为智能 。易于分析意义空间 ·缺点: 。训练可能需要较长的时间,运行也有较高 的复杂度。通常需要GPU支持。 需要寻找大量的训练数据 需要局限于SVM/NN的模型
SVM/NN总结 优点: ◦ 能够快速适应SCIgen做出的改动(更换/添 加特征向量) ◦ 解决办法通用,主要的训练学习任务交给 机器自己完成,较为智能 ◦ 易于分析意义空间 缺点: ◦ 训练可能需要较长的时间,运行也有较高 的复杂度。通常需要GPU支持。 ◦ 需要寻找大量的训练数据 ◦ 需要局限于SVM/NN的模型
里应外合 。从内部攻破敌人 。学习SClgen的组合方式(RNN-RBM?) 。除去可能为固定生成的词语 。分析可能为随机生成的部分 ·从外部强硬打击 。除去同义词千扰 (可能的)除去句式干扰 (可能的)联网操作 ·查重 ·查参考文献 ·对于意义空间的操作
里应外合 从内部攻破敌人 ◦ 学习SCIgen的组合方式(RNN-RBM?) ◦ 除去可能为固定生成的词语 ◦ 分析可能为随机生成的部分 从外部强硬打击 ◦ 除去同义词干扰 (可能的)除去句式干扰 ◦ (可能的)联网操作 查重 查参考文献 对于意义空间的操作
小点子 ·在能够分析词性的条件下 。名词与动词是主要影响意义空间的部分 ·猜想:名词与动词的意义可以组合成一个向量 。形容词与副词影响强度、与上组合影响 极性 ·猜想:是否能将强度叠加于名词与动词 ·词向量的叠加是一个非常复杂的过程,通常需要神经网 络进行分析,这里仅作为一个方向导出
小点子 在能够分析词性的条件下 ◦ 名词与动词是主要影响意义空间的部分 猜想I:名词与动词的意义可以组合成一个向量 ◦ 形容词与副词影响强度、与上组合影响 极性 猜想II:是否能将强度叠加于名词与动词 词向量的叠加是一个非常复杂的过程,通常需要神经网 络进行分析,这里仅作为一个方向导出
小点子 ·关于联网操作 。部分网站对于教育网提供查重API ·较高资费、且对于SClgen不是很具有指导意义 。查参考文献 ·知网、谷歌学术可以简单的实现 。对于意义空间的操作 ·除去句式影响后可以根据关键字获取类似的文献 ·比较意义向量的距离
小点子 关于联网操作 ◦ 部分网站对于教育网提供查重API 较高资费、且对于SCIgen不是很具有指导意义 ◦ 查参考文献 知网、谷歌学术可以简单的实现 ◦ 对于意义空间的操作 除去句式影响后可以根据关键字获取类似的文献 比较意义向量的距离
海阔天空 ·小点子中很多点其实是神经网络的优化方向 (适用于RNN) ·比起SClgen Cracker,成果更像是一个基于意 义空间的相似文章查找器 ·比起查SClgen更适合查论文的重复发明 。代码量巨大(即使使用Theano、cafe等高级 封装),且中间有收费项目、可能会遇到验 证码的项目 。 若有兴趣,我校多媒体计算实验室拥有一定 的成果可以参考
海阔天空 小点子中很多点其实是神经网络的优化方向 (适用于RNN) 比起SCIgen Cracker,成果更像是一个基于意 义空间的相似文章查找器 比起查SCIgen更适合查论文的重复发明 代码量巨大(即使使用Theano、caffe等高级 封装),且中间有收费项目、可能会遇到验 证码的项目 若有兴趣,我校多媒体计算实验室拥有一定 的成果可以参考
其他的办法 ·想要Crack SClgen其实没有那么复杂 。回顾“简单的发现” Think in simple way,not lazy way 顾客要一块石头,我们尝试卖给他一粒 钻石
其他的办法 想要Crack SCIgen其实没有那么复杂 ◦ 回顾“简单的发现” Think in simple way, not lazy way. 顾客要一块石头,我们尝试卖给他一粒 钻石