中国人民大学：《人工智能》课程教学资源（作业摘选）SCIgen生成文献的检测方案

团购合买资源类别：文库，文档格式：PDF，文档页数：18，文件大小：695.96KB

°SClgen生成文献的检测方案刘昌灵中国人民大学2012级本科多媒体计算实验室

SCIgen生成文献的检测方案刘昌灵中国人民大学 2012级本科多媒体计算实验室

简单的发现 SClgen是一个使用生成式生成文本的上下文无关文法（巴科斯范式、巴科斯诺尔范式、Backus-Naur Form) ●SClgen使用的生成式存在于scirules.in文件中 ●对于子生成式的展开，SClgen的策略相对简单，不会自递归（乔姆斯基范式、 Chomsky Normal Form)

简单的发现  SCIgen是一个使用生成式生成文本的上下文无关文法（巴科斯范式、巴科斯- 诺尔范式、 Backus-Naur Form）  SCIgen使用的生成式存在于scirules.in文件中  对于子生成式的展开，SCIgen的策略相对简单，不会自递归（乔姆斯基范式、 Chomsky Normal Form）

通用的解决方案 ·提取特征，观察其分布。词频、词距等。Sklearn提供了一部分文本特征。使用Word2Vec准备意义空间的分析 ●SVMW多层SVM ·神经网络/循环冗余神经网络

通用的解决方案  提取特征，观察其分布 ◦ 词频、词距等 ◦ Sklearn提供了一部分文本特征 ◦ 使用Word2Vec准备意义空间的分析  SVM/多层SVM  神经网络/循环冗余神经网络

SVM/神经网络。选择SVM的原因是特征空间（至少词频空间)对于正反样本较为可分（高斯核，甚至线性核都可以得到不错的效果) 。选择RNN(Recurrent Neural Network) 的原因为其每一次的运算都具有后效性，可以在优秀的上下文环境中分析语义空间。而语义空间是期望具有显著差别的

SVM/神经网络  选择SVM的原因是特征空间（至少词频空间）对于正反样本较为可分（高斯核，甚至线性核都可以得到不错的效果）  选择RNN（Recurrent Neural Network）的原因为其每一次的运算都具有后效性，可以在优秀的上下文环境中分析语义空间。而语义空间是期望具有显著差别的

SVM/NN总结。优点：。能够快速适应SClgen做出的改动（更换/添加特征向量) 解决办法通用，主要的训练学习任务交给 01 机器自己完成，较为智能。易于分析意义空间 ·缺点：。训练可能需要较长的时间，运行也有较高的复杂度。通常需要GPU支持。需要寻找大量的训练数据需要局限于SVM/NN的模型

SVM/NN总结  优点： ◦ 能够快速适应SCIgen做出的改动（更换/添加特征向量） ◦ 解决办法通用，主要的训练学习任务交给机器自己完成，较为智能 ◦ 易于分析意义空间  缺点： ◦ 训练可能需要较长的时间，运行也有较高的复杂度。通常需要GPU支持。 ◦ 需要寻找大量的训练数据 ◦ 需要局限于SVM/NN的模型

里应外合。从内部攻破敌人。学习SClgen的组合方式(RNN-RBM?) 。除去可能为固定生成的词语。分析可能为随机生成的部分 ·从外部强硬打击。除去同义词千扰 (可能的)除去句式干扰 (可能的)联网操作 ·查重 ·查参考文献 ·对于意义空间的操作

里应外合  从内部攻破敌人 ◦ 学习SCIgen的组合方式（RNN-RBM?） ◦ 除去可能为固定生成的词语 ◦ 分析可能为随机生成的部分  从外部强硬打击 ◦ 除去同义词干扰  （可能的）除去句式干扰 ◦ （可能的）联网操作  查重  查参考文献  对于意义空间的操作

小点子 ·在能够分析词性的条件下。名词与动词是主要影响意义空间的部分 ·猜想：名词与动词的意义可以组合成一个向量。形容词与副词影响强度、与上组合影响极性 ·猜想：是否能将强度叠加于名词与动词 ·词向量的叠加是一个非常复杂的过程，通常需要神经网络进行分析，这里仅作为一个方向导出

小点子  在能够分析词性的条件下 ◦ 名词与动词是主要影响意义空间的部分  猜想I：名词与动词的意义可以组合成一个向量 ◦ 形容词与副词影响强度、与上组合影响极性  猜想II：是否能将强度叠加于名词与动词  词向量的叠加是一个非常复杂的过程，通常需要神经网络进行分析，这里仅作为一个方向导出

小点子 ·关于联网操作。部分网站对于教育网提供查重API ·较高资费、且对于SClgen不是很具有指导意义。查参考文献 ·知网、谷歌学术可以简单的实现。对于意义空间的操作 ·除去句式影响后可以根据关键字获取类似的文献 ·比较意义向量的距离

小点子  关于联网操作 ◦ 部分网站对于教育网提供查重API  较高资费、且对于SCIgen不是很具有指导意义 ◦ 查参考文献  知网、谷歌学术可以简单的实现 ◦ 对于意义空间的操作  除去句式影响后可以根据关键字获取类似的文献  比较意义向量的距离

海阔天空 ·小点子中很多点其实是神经网络的优化方向 (适用于RNN) ·比起SClgen Cracker,成果更像是一个基于意义空间的相似文章查找器 ·比起查SClgen更适合查论文的重复发明。代码量巨大（即使使用Theano、cafe等高级封装)，且中间有收费项目、可能会遇到验证码的项目。若有兴趣，我校多媒体计算实验室拥有一定的成果可以参考

海阔天空  小点子中很多点其实是神经网络的优化方向（适用于RNN）  比起SCIgen Cracker，成果更像是一个基于意义空间的相似文章查找器  比起查SCIgen更适合查论文的重复发明  代码量巨大（即使使用Theano、caffe等高级封装），且中间有收费项目、可能会遇到验证码的项目  若有兴趣，我校多媒体计算实验室拥有一定的成果可以参考

其他的办法 ·想要Crack SClgen其实没有那么复杂。回顾“简单的发现” Think in simple way,not lazy way 顾客要一块石头，我们尝试卖给他一粒钻石

其他的办法  想要Crack SCIgen其实没有那么复杂 ◦ 回顾“简单的发现”  Think in simple way, not lazy way.  顾客要一块石头，我们尝试卖给他一粒钻石

点击进入文档下载页（PDF格式）

共18页，试读已结束，阅读完整版请下载

点击下载（PDF格式）

浏览记录