点击切换搜索课件文库搜索结果(15)
文档格式:PDF 文档大小:809.81KB 文档页数:10
基于语义角色分析,提出了一种三元组涉恐事件实体属性抽取方法,为网络空间涉恐活动的监测及预警提供技术支持。首先,基于西北政法大学“反恐怖主义信息网”文本语料数据进行数据采集和清洗等预处理工作,采用朴素贝叶斯文本分类算法识别涉恐事件文本,并采用关键词提取算法TF-IDF(Term frequency-inverse document frequency,词频-逆文档频率)构建涉恐专有词库,结合自然语言处理技术构建带词性的涉恐专有词库。然后通过语义角色分析、句法依存分析,提取了主语谓语宾语关系、定语后置动宾关系、人名//地名//机构和介宾关系主谓动补4类涉恐三元组结构。最后,利用正则表达式及带词性的涉恐专有名词分析,在4类三元组短文本中提取出恐怖事件发生时间、发生地点、伤亡情况、攻击方式、武器类型和恐怖组织6类实体属性。对采集的4221篇文章数据进行实验分析,6类实体属性抽取的测评结果F1值均超过80%,对网络空间的涉恐事件监测及预警,维护社会公共安全具有重要现实意义
文档格式:PDF 文档大小:729.77KB 文档页数:8
医疗实体识别是电子病历文本信息抽取的基本任务。针对中文电子病历文本复合实体较多、实体长度较长、句子成分缺失严重、实体边界不清的语言特点以及标注语料难以获取的现状,提出了一种基于领域词典和条件随机场(CRF)的双层标注模型。该模型通过对外部资源的统计分析构建医疗领域词典,再结合条件随机场,进行了两次不同粒度的标注,将领域词典识别的准确性和机器学习的自动性融为一体,从中文电子病历文本中识别出疾病、症状、药品、操作四类医疗实体。该模型在测试数据中的宏精确率为96.7%、宏召回率为97.7%、宏F1值为97.2%。同时对比分析了采用注意力机制的深度神经网络的识别效果,因受到领域数据集大小的限制,在该测试数据集中后者表现不佳。实验结果表明了该双层标注模型对中文医疗实体识别的高效性
文档格式:PDF 文档大小:926.77KB 文档页数:8
为了给数控机床故障的精准诊断提供保障,延长数控机床使用周期,以数控机床历史维修记录为研究对象,对数控机床设备故障领域的命名实体识别进行了研究。在分析历史维修记录中的故障描述特点后,提出了一种基于双向长短期记忆网络(Bidirectional long short-term memory, BLSTM)与具有回路的条件随机场(Conditional random field with loop, L-CRF)相结合的命名实体识别方法。首先,对输入语句进行分词和标注,使用Word2vec中的Skip-gram模型对标注语料进行预训练,将其生成的字向量通过词嵌入层转化为字向量序列;然后,将字向量序列输入BLSTM学习长期依赖信息;最后将句子表达输入L-CRF获取全局最优序列。实验结果表明,该方法明显优于其他命名实体识别方法,为数控机床设备的智能检修与实时诊断任务打下了坚实的基础
文档格式:PDF 文档大小:8.97MB 文档页数:586
本书是用现代语言学方法编写的上海市区的方言志。学者们多年大量的调、记录,使这部书可靠、翔实,举凡上海市区方言的语音、词汇、语法、语料,搜集均较完备。重点是词汇部分,列举上海市区方独特的词和熟语八余条,分类安排,查检方便。此书不但可给语言文字工作者提供丰富的研究资料,也是上海人和关心上海的人的有益的工具书,对地方文学、戏曲的创作者和爱好者来说,也很有参考价值
文档格式:DOC 文档大小:89.5KB 文档页数:16
第一节 调查的前期准备 一、基本知识 二、调查对象的选取 第二节 调查表的设计 一、《方言调查字表》 二、连读变调表的设计 三、词汇调查表的设计 四、语法调查表的设计 五、长篇语料的调查资料 六、其他调查表的设计 第三节 调查法和调查程序 一、调查法 二、调查的程序 三、要注意的问题 第四节 调查报告的写作
上页12
热门关键字
搜索一下,找到相关课件或文库资源 15 个  
©2008-现在 cucdc.com 高等教育资讯网 版权所有