正在加载图片...
1184 工程科学学报,第43卷,第9期 言处理技术的重要研究方向.这些预训练模型是 输入层将症状文本进行预处理后输入模型中 以庞大的语料库作为基础训练的,因此相较于 预训练层将输入的文本通过ALBERT预训练 onehot、.Word2Vec)、Glovel1s]等文本表征方式,预 语言模型获得文本的向量表征 训练模型具有更好的表征能力,可以更好地适用 Bi-GRU层接收经过ALBERT预训练模型后的 于不同场景下的自然语言处理任务.为了更多地 向量序列,通过Bi-GRU进一步编码获取高层语义 保留句子中词与词之间的内在联系,Google提出 输出层通过以Sigmoid为激活函数的全连接 Transformer编码器模型u咧,在此基础上Google提出 层将各标签对应输出值压缩至0~1之间,并将输 了BERT模型2(Bidirectional encoder representations 出值大于等于设定阈值的所有病位标签输出作为 from transformers),利用了随机遮盖语言模型 最终脏腑定位结果 (Masked LM和预测下一句(Next sentence prediction, 2.2 ALBERT预训练模型 NSP)2种方法分别捕捉词语和句子级别的表示.在 自BERT的成功以来,预训练模型都采用了很 BERT出现后,又相继出现了很多在BERT基础上 大的参数量以取得更好的模型表现.但是模型参 进一步改进和提升的模型,如XLNet!2,RoBERTal2、 数量越来越大也带来了很多问题,比如对算力要求 DistilBERT2]等. 越来越高、模型体积越来越大、模型训练时间越 雷景生和钱叶在公开数据集上进行了实 来越长等.为了解决目前预训练模型参数量过大的 验,验证了使用ERNIE预训练模型进行文本分 问题,Lan等2提出了ALBERT模型,相比于BERT, 类的有效性.本文使用的A lite BERT模型 ALBERT使用了2种能够大幅减少预训练模型参 (ALBERT)2是Google在BERT之后提出一种轻 数量的方法,并提出用语句顺序预测(Sentence 量级BERT,相比于BERT,ALBERT模型采用解绑 order prediction,SOP)任务代替BERT中的NSP任 输入的词向量大小和隐藏层大小关系的方式降低 务.ALBERT是一种轻量级的基于Transformer的 了模型参数量,并实现了模型跨层的参数共享,在 双向编码器表示模型(A lite bidirectional encoder 不损失模型效果的前提下有效缩小了模型大小. representations from transformers).通过对部分语义 2模型及算法描述 单元的随机掩码,使得模型能够学习到完整的语 义表示.ALBERT模型结构如图2所示,其中 2.1模型说明 [E1,E2,…,Em-l,En]为原始文本向量,trm为Transfor-- 本文提出的基于ALBERT和双向门控循环单 mer模型g 元(Bidirectional gated recurrent unit,.Bi-GRU)的多 标签文本分类模型整体结果如图1所示,整个模 型可以分为4个部分:输入层,预训练层,Bi-GRU层 和输出层 trm Heart Kidney Lung trm trm trm trm Sigmoid E E E-1 E GR GRU GRU 图2 ALBERT模型结构 Fig.2 ALBERT model structure GRU -GRU 由图2可以看出,模型的输出包含文本上下文 信息的向量表示,且每个向量[T1,T2,…,Tm-1,Tn都 ALBERT 包含了整个序列的文本信息 在ALBERT中,提出了2种可以减少BERT参 Chest Stuffiness Palpitate 数量的方法:(I)解绑WordPiece词向量大小E和 图1脏腑定位模型结构 隐层大小H,减小参数量:(2)层之间参数共享,即 Fig.1 Zang-fu localization model structure 在模型多个层之间使用相同的参数.第一种方法言处理技术的重要研究方向. 这些预训练模型是 以庞大的语料库作为基础训练的 ,因此相较于 onehot、Word2Vec[17]、Glove[18] 等文本表征方式,预 训练模型具有更好的表征能力,可以更好地适用 于不同场景下的自然语言处理任务. 为了更多地 保留句子中词与词之间的内在联系,Google 提出 Transformer 编码器模型[19] ,在此基础上 Google 提出 了 BERT 模型[20] (Bidirectional encoder representations from  transformers) , 利 用 了 随 机 遮 盖 语 言 模 型 (Masked LM) 和预测下一句 (Next sentence prediction, NSP) 2 种方法分别捕捉词语和句子级别的表示. 在 BERT 出现后,又相继出现了很多在 BERT 基础上 进一步改进和提升的模型,如 XLNet[21] ,RoBERTa[22]、 DistilBERT[23] 等. 雷景生和钱叶[24] 在公开数据集上进行了实 验,验证了使用 ERNIE 预训练模型进行文本分 类 的 有 效 性 . 本 文 使 用 的 A  lite  BERT 模 型 (ALBERT) [25] 是 Google 在 BERT 之后提出一种轻 量级 BERT,相比于 BERT,ALBERT 模型采用解绑 输入的词向量大小和隐藏层大小关系的方式降低 了模型参数量,并实现了模型跨层的参数共享,在 不损失模型效果的前提下有效缩小了模型大小. 2    模型及算法描述 2.1    模型说明 本文提出的基于 ALBERT 和双向门控循环单 元 (Bidirectional gated recurrent unit, Bi-GRU)的多 标签文本分类模型整体结果如图 1 所示,整个模 型可以分为 4 个部分:输入层,预训练层,Bi-GRU 层 和输出层. Heart Kidney Lung Sigmoid GRU GRU GRU GRU Chest Stuffiness Palpitate GRU ALBERT GRU ······ ······ 图 1    脏腑定位模型结构 Fig.1    Zang-fu localization model structure 输入层将症状文本进行预处理后输入模型中. 预训练层将输入的文本通过 ALBERT 预训练 语言模型获得文本的向量表征. Bi-GRU 层接收经过 ALBERT 预训练模型后的 向量序列,通过 Bi-GRU 进一步编码获取高层语义. 输出层通过以 Sigmoid 为激活函数的全连接 层将各标签对应输出值压缩至 0~1 之间,并将输 出值大于等于设定阈值的所有病位标签输出作为 最终脏腑定位结果. 2.2    ALBERT 预训练模型 [E1,E2,··· ,En−1,En ] 自 BERT 的成功以来,预训练模型都采用了很 大的参数量以取得更好的模型表现. 但是模型参 数量越来越大也带来了很多问题,比如对算力要求 越来越高、模型体积越来越大、模型训练时间越 来越长等. 为了解决目前预训练模型参数量过大的 问题,Lan 等[25] 提出了 ALBERT 模型,相比于 BERT, ALBERT 使用了 2 种能够大幅减少预训练模型参 数量的方法 ,并提出用语句顺序预测 ( Sentence order prediction, SOP)任务代替 BERT 中的 NSP 任 务. ALBERT 是一种轻量级的基于 Transformer 的 双向编码器表示模型( A lite bidirectional encoder representations from transformers). 通过对部分语义 单元的随机掩码,使得模型能够学习到完整的语 义表示 . ALBERT 模型结构如 图 2 所示 ,其中 为原始文本向量,trm 为 Transfor￾mer 模型[19] . T1 T2 trm trm E1 E2 trm trm Tn En trm trm Tn−1 En−1 trm trm 图 2    ALBERT 模型结构 Fig.2    ALBERT model structure [T1,T2,··· ,Tn−1,Tn ] 由图 2 可以看出,模型的输出包含文本上下文 信息的向量表示,且每个向量 都 包含了整个序列的文本信息. 在 ALBERT 中,提出了 2 种可以减少 BERT 参 数量的方法:(1)解绑 WordPiece 词向量大小 E 和 隐层大小 H,减小参数量;(2)层之间参数共享,即 在模型多个层之间使用相同的参数. 第一种方法 · 1184 · 工程科学学报,第 43 卷,第 9 期
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有