数据依旧是王者，BERT 正在惊艳改变 NLP？

与非网 9 月 12 日讯，去年是 NLP 的收获大年，模型预训练技术终于被批量成功应用于多项 NLP 任务。之前搞 NLP 的人一直羡慕搞 CV 的人，在 ImageNet 上训练好的模型，居然拿到各种任务里用都非常有效。现在情形有点逆转了。搞 CV 的人开始羡慕搞 NLP 的人了。

而就在 BERT 发布之后，点燃了 NLP 各界的欢腾，各路神仙开始加班加点各显神通，很多相关工作被发表出来。目前，BERT 使计算机能够更准确地理解语音，并实时智能地响应，使聊天机器人大大提高智能化。

首先，我们先简单回顾一下 NLP 的历史。在上世纪 80 年代之前，大多数 NLP 系统以规则为基础，根源于美国语言学家 Noam Chomsky 的工作，他认为语法规则可用于理解语义关系，因而引导机器理解语音。然而到了 80 年代后期，机器学习算法变得越来越流行，开始从规则向统计模型转变。随着 Word2vec、GloVe 和 FastText 等单词嵌入的推出，2013 年迎来了 NLP 的下一大飞跃。

在读取大量文本并分析每个单词在数据集中的不同上下文中如何出现后，单词嵌入试图将单词的“含义”封装在向量中。其想法是，含义相似的单词会有相似的向量。这第一代单词嵌入的最大缺点是，每个单词只有一个向量，实际上它可能有多个含义（比如 Mercury 有行星、金属、汽车或罗马神等意思）。这些缺点归咎于这一事实：由于效率原因，早期的单词嵌入模型用小型神经网络来训练（浅训练）。然而谷歌发布 BERT 后，我们确实处于拐点。

BERT 如此惊艳的原因。BERT 是一种上下文模型，这意味着基于句子中所用单词的上下文生成单词嵌入，因此一个单词可以有多个嵌入。BERT 支持迁移学习（transfer learning）。这被称为“NLP 的 ImageNet 时刻。”BERT 可以针对一小组特定领域数据低成本、快速度地加以微调，可以获得比从头开始用同样这些特定领域数据集来训练更准确的结果。

摩尔定律依然适用。帮助取得 BERT 等进步，需要计算机的速度和性能不断提高，尤其是英伟达的 GPU 和谷歌的 TPU。

由于计算的现状和成本，早期的单词嵌入模型不得不很高效，BERT 效率低得多，但计算能力完全赶了上来。

英伟达刚宣布它支持 BERT，现在声称其 AI 平台拥有最出色的 BERT 训练功能。此外，英伟达声称可以获得很快速的响应，实时聊天应用中需要快速响响应。并且，该公司已制定了初创加速计划，帮助对话式 AI 初创公司。

与非网整理自网络！