七夕是什么?
对于中国人来说,七夕绝不仅仅是一个关于爱情和浪漫的节日记忆。它是对美好的诗性眷恋,对想象的包容,对不可能的挣脱,对星辰大海与人间烟火的归一。
而今人与古人最大的区别在于,今天我们有了科学的工具。在古人只能想象牛郎织女的故事时,在同样的七夕,今人可以自己动手去变不可能为可能。
英国诗人塞缪尔·约翰逊说,语言是科学的唯一工具。古时候,人类很早就有了巴别塔的传说,希望让不同国家、族群的人享受无界限的语言;而在今天,各行各业都需要语音、语义、知识相关的自然语言技术,来提高产业智能化水准,升级工作间的沟通与交流效率;面向未来,人类还希望通过自然语言与机器对话,与万物交互,让语言跨过人机交互的界限。
这些希望,就像这个时代关于牵牛织女的梦境,但区别在于,这个七夕有人正在努力让梦境变成现实。并且为了这个目标,他们已经奔跑了整整十年。
用技术破解语言的谜题的实现方式,就是 AI 的重要分支 NLP 技术。而国内最著名的 NLP 技术团队与产业旗帜,就是百度 NLP。
8 月 25 日七夕这天,以“掌握知识、理解语言、拥有智能”为主题的百度大脑语言与知识技术峰会在线上开启。百度 CTO 王海峰发表主旨演讲,解读百度语言与知识技术的发展历程与最新成果,与产学研各界分享技术及产业发展趋势和展望。
百度集团副总裁吴甜和百度技术委员会主席吴华分别发布百度语言与知识技术系列产品和数据集共建计划,推出 3 大新品和 6 项升级,全面加速 NLP 技术大规模产业应用。
成立十年以来,百度 NLP 团队始终都是中国 NLP 在学术探索与产业落地方面的双向引领者。王海峰认为,“在百度语言与知识技术的布局和发展中,我们始终在注意把握两个趋势,即技术发展趋势和产业发展趋势,并力争引领趋势。”
从研究方法、研究对象、研究方向、产业应用等各个层面来看,百度 NLP 都是今天中国布局最完整,与产业接轨最成熟,技术前沿性最丰富的产业力量。十年来,百度在 NLP 领域获得包括国家科技进步奖在内的 20 多个奖项,30 多项国际竞赛冠军,发表学术论文超过 300 篇,申请专利 2000 多项。同时也积极推动 NLP 技术产业落地,与行业发展紧密结合,将 NLP 技术优势平台化开放给广大开发者,引领智能语言技术与千行万业结合。
如果说,古人想象的最大界限,就是牛郎织女间的银河,那么全球化的今天,人与人、人与机器间的最大界限,就是语言的界限。神话的鹊桥横穿银河两端,今天百度 NLP 所做的事情,就是为智能时代搭建一座新的语言鹊桥。解析这场峰会,我们可以读懂:
过去十年,百度打造了怎样的 NLP 蓝图?
此刻的产业机遇期,百度如何为千行万业提供 NLP 的动力与加速度?
面向未来,人类的新巴别塔上,还有哪些待解之谜?
一座语言的鹊桥,在此刻的烟火尘世与未来的智能时代间凝结——以百度 NLP 之名。
往昔的耕耘:十年蕴育百度 NLP 蓝图
十年发展的百度 NLP,确实已经积累了太多技术、应用与产业案例。但百度今天的 NLP 实力,又是牢牢建立在过往十年的产业发展底座上。所以在百度大脑语言与知识技术峰会中,王海峰首先全面分享了百度在语言与知识技术领域的完整布局和最新成果。为我们展示了一张历时十年,耕耘而出的百度 NLP 全景图:
在堪称 NLP 底座的知识领域,百度打造了世界上最大规模知识图谱,拥有超过 50 亿实体和 5500 亿事实,并在不断演进和更新。百度知识图谱应用于各行各业,每天的调用次数超过 400 亿次。
在此基础上,百度不断强化堪称 NLP 核心的语义理解技术能力。2019 年 3 月,百度提出知识增强的语义理解框架 ERNIE,在深度学习的基础上融入知识,具备人类一样的学习能力,曾一举登顶全球权威数据集 GLUE 榜单,首次突破 90 分大关。基于知识图谱和语义表示,实现了阅读理解、对话理解以及跨模态深度语义理解。
为了让人机交互自然流畅,语言生成技术是 NLP 体验的关键。基于预训练技术的成功经验,百度提出基于多流机制的语言生成预训练技术,兼顾词、短语等不同粒度的语义信息,显著提升生成效果。百度也探索了多文档摘要生成,通过图结构语义表示引入篇章知识,在单文档和多文档摘要生成效果都有提升。
这些技术蓝图流入产业谱系,就构成了百度 NLP 技术在应用层面的深耕与实践。在对话系统领域,百度提出了知识图谱驱动的对话控制技术,以及首个基于隐空间的大规模开放域对话模型 PLATO 等,并推出智能对话定制和服务平台 UNIT,可帮助开发者高效构建智能对话系统,实现规模化应用。
在另一个重要的 NLP 应用机器翻译领域,百度翻译目前能够支持 200 多种语言,每日响应超过千亿字符的翻译请求,支持超过 40 多万家第三方应用,技术上,提出了多智能体联合学习、基于语义单元的同传模型、稀缺语种分组混合训练算法等。
百度大脑语言与知识技术的探索,同时还以平台化的方式输出,赋能千行万业,提升社会生产的普遍智能化水准。
从这张根据公开数据整理的全球 NLP 巨头产业布局对比图中,我们可以发现百度 NLP 在核心技术、产品应用布局,以及研发力量储备上,都已经具备了国际一流水准,可以与谷歌、微软两大 AI 巨头一教高下。百度 NLP 的产业成绩,已经客观达成了国内最强、世界顶级,开启了代表中国 NLP 产业向未来航行的领军者态势。
十年蕴育成了百度 NLP 蓝图,同时也蕴育了百度在语言与知识领域的不断突破与创新能力。今天,百度 NLP 并没有停下脚步,而是为千行万业与广大 AI 开发者带来了最浪漫的七夕礼物。
此刻的浪漫:5 款新产品、2 大计划,推动 NLP 邂逅产业
推动 NLP 技术走向产业,融入智能化进程,是以深度学习为代表的 AI 第四次兴起周期中最重要的产业议题之一。而这一目标,是建立在大量可规模化复用、能够支撑工业级应用的 NLP 技术与产品基础上的。为此,百度在七夕这天带来了重磅的 NLP 礼物——百度集团副总裁吴甜接续发布文心(ERNIE)、TextMind、AI 同传会议解决方案、智能创作平台、智能对话定制与服务平台 UNIT 等 5 款新产品:
百度推出的语义理解技术与平台文心(ERNIE),基于深度学习平台飞桨打造,提供一站式 NLP 开发与服务,将减少开发者 90%数据标注量、90%算力投入、85%模型开发时长,进而全面降低 NLP 定制开发的成本,让开发者更简单、高效地定制企业级 NLP 模型。
全新发布 TextMind 智能文档分析平台,基于 OCR、NLP 技术,以文档解析为核心能力,支持文档对比与文档审核,具备“多快好省”的核心优势,促进企业办公智能升级。
全新发布 AI 同传会议解决方案,覆盖会议全场景、全流程,旨在打造用户随身的“会议同传专家”。在邀测期间,百度 AI 同传会议解决方案已经支持了上百场会议,覆盖数十个领域,包括线上远程会议、线下会议。
百度大脑智能创作平台针对媒体应用场景再升级,全新推出智能策划、智能采编、智能审校三大媒体场景方案,进一步助力媒体效率,加强采编能力。
智能对话定制与服务平台 UNIT 升级 3 大特性:更智能的任务式对话理解、极致便捷的表格问答和融合通用的新引擎。截至目前,UNIT 平台已有 2.7 万开发者,10 万应用,累计交互 4200 亿,并积累知识 2.4 亿。此次 UNIT 全新推出的三大能力,将进一步降低任务式对话、智能问答的定制成本,并融合通用对话能力,提升交互体验。
在 NLP 产业化落地中,另一个长期挑战是数据匮乏、算力不足。为应对挑战,百度联合中国计算机学会、中国中文信息学会发起全球首个中文自然语言处理数据共建计划——千言,解决数据稀缺问题。
千言一期由来自国内 11 家高校和企业的数据资源研发者共同建设,已涵盖开放域对话、阅读理解等 7 大任务,20 余个中文开源数据集。百度技术委员会主席吴华表示,百度计划在未来 3 年,面向 20 余个任务,收集和建设不少于 100 个中文自然语言处理数据集,覆盖语言与知识技术全部领域。
吴华还发布了百度语言与知识技术算力共享计划,通过百度 AI STUDIO 平台提供算力支持,让广大开发者破除算力桎梏,专注于技术创新。
全新的技术、产品与产业合作计划,构成了百度 NLP 与千行万业智能升级进一步“相知相恋”的契机。在这个七夕里,最好的礼物是美好的未来,而这也是百度 NLP 的长久努力方向。
未来的银河:从 NLP 到智能时代
十年坚守,是为未来。
在 AI 技术推动第四次工业革命到来的关键契机中,NLP 技术构成了变局的核心。从技术特征上看,NLP 最大的潜力在于其探索深度是近乎无限的,并且将始终激发新的需求、新的产业逻辑与落地场景。
无论是从百度过往布局的技术蓝图,还是今天推动的新技术、新产品,百度 NLP 始终在指向宏伟的未来,也就是百度 NLP 在部门成立时提出的“掌握知识、理解语言、拥有智能”。为了不断走近 NLP 指向的智能时代,百度 NLP 始终坚持人才为本,不断在发展过程中培养、吸引全球顶尖人才,为长期发展探索做出坚实准备。在峰会上,百度推出以王海峰为代表的百度 NLP“十年十人”,也正是他们的十年坚守,不忘初心,才让 NLP 技术从科幻作品中走到现实,变成通往未来的康庄大道。
今天的 NLP 技术发展,还远远没有走到尽头。虽然百度 NLP 成果辉煌,但我们眼前更多的是未知与挑战。峰会上,王海峰也提到了语言与知识技术发展面临的难题。他表示,复杂知识表示和快速构建技术,知识与深度学习进一步融合,深度融合感知和认知的跨模态语义理解技术,模型可解释性和鲁棒性等等,仍有很多技术难题需要持续研究和解决。
而正是始终有未知,始终在探索,才让未来的银河绚烂于今夜的七夕。百度 NLP 的技术蓝图、新品发布,更远处指向着智能时代的洪流,指向着解开语言之谜的可能与执着。
关于百度 NLP 的未来发展,王海峰提出:“我们致力于更好的与学术界、产业界携手,推动语言与知识技术发展,进而推动人工智能技术持续进步,为产业持续升级、社会经济高质量发展贡献力量。我们对未来充满信心,坚持掌握知识、理解语言、拥有智能,继续突破和创新,为技术和社会进步做出更大贡献。”
当自然语言的奥秘,邂逅千行万业的智能化升级——金风玉露一相逢,便胜却人间无数。