新闻 产经 产业 财经 智库 访谈 专题 数据 法规 文化 品牌
网站首页-> 专稿->

研究人员建议使用稀有词词典来加强无监督语言模型训练

来源: 发布时间:2022-01-27 21:57:56 搜集整理:中国产业网

在预印本研究中,微软,北京大学和南开大学的研究人员表示,他们已经开发出一种方法-记录飞行笔记(TNF)-通过注意稀有词来帮助模型理解模型何时(和发生在哪里。他们声称实验结果表明,TNF“显着”支持了GoogleBERT的预训练,同时改善了模型的性能,从而使训练时间减少了60%。

无监督预训练的优点之一是它不需要带注释的数据集。取而代之的是,模型从网络上训练大量的语料库,从而提高了各种自然语言任务的性能,但计算量往往很大。使用16个Nvidia Tesla V100图形卡在Wikipedia数据上训练基于BERT的模型需要五天以上的时间;即使是像ELECTRA这样的小型型号,一张卡也要花费四天以上的时间。

研究人员的工作旨在通过更好的数据利用来提高效率,这是因为在训练语料库中,很多单词出现的次数很少(根据团队的说法,大约占句子的20%)。这些词的嵌入(即模型从中学习的数字表示)通常没有得到很好的优化,研究人员认为这些词可能会减慢其他模型参数的训练过程,因为它们没有携带足够的语义信息来建立模型了解他们的意思。

TNF受人类如何掌握信息的启发。记笔记是一项有用的技能,可以帮助您回忆起否则会丢失的花絮。如果人们在遇到未知的稀有单词后做笔记,那么下次出现该稀有单词时,他们可以参考笔记以更好地理解句子。同样,TNF会保留注释词典,并在稀有单词出现时保存稀有单词的上下文信息。如果在训练中再次出现相同的稀有单词,则TNF将使用注释信息来增强当前句子的语义。

研究人员说,由于注释字典是动态更新的,因此TNF在预训练时几乎没有计算开销。而且,他们断言它仅用于提高模型的训练效率,而不是模型的一部分。预训练完成后,便笺字典将被丢弃。

为了评估TNF的功效,合著者将Wikipedia语料库和开源BookCorpus合并为一个16GB数据集,然后对其进行了预处理,分割和标准化。他们使用它来预训练几个基于BERT的模型,然后在流行的通用语言理解评估(GLUE)基准上对其进行了微调。

研究人员报告说,TNF在整个预训练过程中加速了基于BERT的模型。在大多数预训练中,平均GLUE得分均高于基线,其中一种模型在两天内达到了BERT的性能,而采用无TNF的BERT模型则在近六天内达到了性能。基于BERT的TNF模型在GLUE上的大部分子任务(总共八个任务)的基线模型的表现均优于“基线”模型。

共同作者写道:“ TNF通过在预训练期间对稀有词进行临时记录来减轻繁重的词分配问题,”合著者写道。“如果接受相同数量的更新训练,则在下游任务中,TNF的性能将大大优于原始的BERT预训练。通过这种方式,当稀有单词再次出现时,我们可以利用保存在其注释中的交叉句子信号来增强语义,以帮助进行预训练。”

更多

扩展阅读

我来说两句( 0)
    用户名:
    [Ctrl+Enter]
争先创优活动