研究人员建议使用稀有词词典来加强无监督语言模型训练

来源：发布时间：2022-01-27 21:57:56 搜集整理：中国产业网

在预印本研究中，微软，北京大学和南开大学的研究人员表示，他们已经开发出一种方法-记录飞行笔记(TNF)-通过注意稀有词来帮助模型理解模型何时(和发生在哪里。他们声称实验结果表明，TNF“显着”支持了GoogleBERT的预训练，同时改善了模型的性能，从而使训练时间减少了60%。

无监督预训练的优点之一是它不需要带注释的数据集。取而代之的是，模型从网络上训练大量的语料库，从而提高了各种自然语言任务的性能，但计算量往往很大。使用16个Nvidia Tesla V100图形卡在Wikipedia数据上训练基于BERT的模型需要五天以上的时间;即使是像ELECTRA这样的小型型号，一张卡也要花费四天以上的时间。

研究人员的工作旨在通过更好的数据利用来提高效率，这是因为在训练语料库中，很多单词出现的次数很少(根据团队的说法，大约占句子的20%)。这些词的嵌入(即模型从中学习的数字表示)通常没有得到很好的优化，研究人员认为这些词可能会减慢其他模型参数的训练过程，因为它们没有携带足够的语义信息来建立模型了解他们的意思。

TNF受人类如何掌握信息的启发。记笔记是一项有用的技能，可以帮助您回忆起否则会丢失的花絮。如果人们在遇到未知的稀有单词后做笔记，那么下次出现该稀有单词时，他们可以参考笔记以更好地理解句子。同样，TNF会保留注释词典，并在稀有单词出现时保存稀有单词的上下文信息。如果在训练中再次出现相同的稀有单词，则TNF将使用注释信息来增强当前句子的语义。

研究人员说，由于注释字典是动态更新的，因此TNF在预训练时几乎没有计算开销。而且，他们断言它仅用于提高模型的训练效率，而不是模型的一部分。预训练完成后，便笺字典将被丢弃。

为了评估TNF的功效，合著者将Wikipedia语料库和开源BookCorpus合并为一个16GB数据集，然后对其进行了预处理，分割和标准化。他们使用它来预训练几个基于BERT的模型，然后在流行的通用语言理解评估(GLUE)基准上对其进行了微调。

研究人员报告说，TNF在整个预训练过程中加速了基于BERT的模型。在大多数预训练中，平均GLUE得分均高于基线，其中一种模型在两天内达到了BERT的性能，而采用无TNF的BERT模型则在近六天内达到了性能。基于BERT的TNF模型在GLUE上的大部分子任务(总共八个任务)的基线模型的表现均优于“基线”模型。

共同作者写道：“ TNF通过在预训练期间对稀有词进行临时记录来减轻繁重的词分配问题，”合著者写道。“如果接受相同数量的更新训练，则在下游任务中，TNF的性能将大大优于原始的BERT预训练。通过这种方式，当稀有单词再次出现时，我们可以利用保存在其注释中的交叉句子信号来增强语义，以帮助进行预训练。”

扩展阅读

国内计算及控制类芯片产品，电磁加热芯片市场规模持续增长 2024-02-25 17:47:57
集中式发电站：引领未来电力行业的核心力量 2024-01-11 16:06:17
超低温露点技术，超洁空调领域的"隐形杀手” 2024-02-25 14:52:46
"富渝集创医疗平台”赋能基层医疗、护航人民健康 2024-05-13 14:51:08
光电识别分选，助力高效垃圾分选 2024-02-25 14:48:37
QD-Mini LED背光新型显示模组市场分析 2024-02-25 14:42:39

我来说两句( 0)

新闻排行榜

京ICP备18033145号-1 京公网安备110108002769号

法律顾问：李家祥李素影

分享到

研究人员建议使用稀有词词典来加强无监督语言模型训练

扩展阅读