正在加载图片...
·510. 智能系统学报 第11卷 否包含在实体列表中。 经济、政治等网页,包含大量的命名实体和维基 7实验与分析 百科抽取得到;通过爬取获得的文本语料,对文 本语料进行预处理;经过越南语专家人工标记命 7.1实验数据 名实体语料,形成140392词级规模的命名实体 实验数据语料来源于中越交流圈中越南新闻、 语料。 2。 ” m。 -TP 8: ark 0 2 thi 0 8 40 DT N 0020 。 600 图2最大熵模型训练文件 Fig.2 Maximum entropy training file 7.2实验的评测标准 文方法的影响.本文在开放和封闭语料上进行测试 为了评估本文方法识别命名实体的效果,实验 实验结果如图4所示。 将采用统一的评价标准:正确率、召回率、F值作 为本文评价标准,衡量本文提出的方法的性能。 96.5 P=. 正确识别的实体个数 95.5 识别出来的实体个数 94.5 93.5 R=- 正确识别的实体个数 所有的实体个数 92.5 91.5 2PR Fold,Fold,Fold,Fold,Fold. F=- P+R 图35倍交叉验证 7.3实验建立 Fig.3 5-fold cross-validation 本文为了验证融入实体库中实体特点和越南语 言特点的混合方法的性能,主要以下面3组实验进 开放与封闭测试 行验证本文方法的有效性。 96.0% 94.0% 实验1为了评估本文方法的性能,我们将 140392个词级语料分为5份,其中一份做测试语 88.0% 料,另外4份作为训练语料,做5倍交叉验证实验, 82.0% 然后求平均准确率,作为本文方法的测评结果。实 80.0% 78.0% 验结果如图3所示。 正确率 召回率 F值 ■开放测试封闭测试 从图3中可以看到,Fold5正确率达到局部最 图4开放测试与封闭测试 高为96.14%,为了更准确评估本文方法的可信度和 Fig.4 Open and close testing 准确性,用平均准确率来评价本文方法,平均准确 从图4中可以看到,本文的方法进行了开放测 率为94.53%。 试和封闭测试,实验表明封闭测试正确率比开放测 实验2为了验证开放测试和封闭测试对于本 试正确率高0.66%.封闭测试F值比开放测试高·510· 智 能 系 统 学 报 第 11 卷 否包含在实体列表中。 7 实验与分析 7.1 实验数据 实验数据语料来源于中越交流圈中越南新闻、 经济、政治等网页,包含大量的命名实体和维基 百科抽取得到;通过爬取获得的文本语料,对文 本语料进行预处理;经过越南语专家人工标记命 名实体语料,形成 140 392 词级规模的命名实体 语料。 图 2 最大熵模型训练文件 Fig.2 Maximum entropy training file 7.2 实验的评测标准 为了评估本文方法识别命名实体的效果,实验 将采用统一的评价标准:正确率、召回率、F 值作 为本文评价标准,衡量本文提出的方法的性能。 识别出来的实体个数 正确识别的实体个数 P  所有的实体个数 正确识别的实体个数 R  P R PR F   2 7.3 实验建立 本文为了验证融入实体库中实体特点和越南语 言特点的混合方法的性能,主要以下面 3 组实验进 行验证本文方法的有效性。 实验 1 为了评估本文方法的性能,我们将 140 392 个词级语料分为 5 份,其中一份做测试语 料,另外 4 份作为训练语料,做 5 倍交叉验证实验, 然后求平均准确率,作为本文方法的测评结果。实 验结果如图 3 所示。 从图 3 中可以看到,Fold5 正确率达到局部最 高为 96.14%,为了更准确评估本文方法的可信度和 准确性,用平均准确率来评价本文方法,平均准确 率为 94.53%。 实验 2 为了验证开放测试和封闭测试对于本 文方法的影响,本文在开放和封闭语料上进行测试, 实验结果如图 4 所示。 图 3 5 倍交叉验证 Fig.3 5-fold cross-validation 图 4 开放测试与封闭测试 Fig. 4 Open and close testing 从图 4 中可以看到,本文的方法进行了开放测 试和封闭测试,实验表明封闭测试正确率比开放测 试正确率高 0.66%,封闭测试 F 值比开放测试高
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有