随着科技的飞速发展,人工智能已经成为当今世界最为炙手可热的话题。尽管如今人工智能、大模型的发展频频陷入“抄袭”泥潭,但不可否认的是,这些技术正切实地为各个行业的发展“添砖加瓦”。
近日,中国电信宣布将自研的星辰大模型全面开源,同时开放1T高质量清洗数据集,正式成为央企中首个完成LLM开源的“选手”。去年12月,阿里云正式发布并开源“业界最强开源大模型”通义千问720亿参数模型Qwen-72B。今年1月17日,商汤科技与上海AI实验室联合香港中文大学和复旦大学发布的新一代大语言模型书⽣·浦语2.0也宣布开源。随着国内外越来越多的大模型官宣开源,大模型赛道正式迎来“开源热”。
01、开源正在改变大模型的发展路径
长久以来,开源都是互联网时代的主流模式之一。2017年,中国发布的《新一代人工智能发展规划》将开源、开放作为基本原则写入了规划。2023年,科技部副部长吴朝晖也表示,中国坚持开源协作,加强大模型技术持续创新,协同解决透明性、稳定性等共性问题,进一步推动算力资源和数字资源开放共享,加快形成大模型的产业生态。
2023年4月,由复旦大学自然语言处理实验室开发的新版MOSS模型正式上线,成为国内首个插件增强的开源对话语言模型,MOSS的成功开源成为我国人工智能领域的重要突破之一。大模型开源可促进大模型的研究和开发,有助于提高模型的应用价值,推动人工智能技术的普及,增强模型的可靠性和安全性。
据了解,目前我国国内开源大模型包括大语言模型、多模态大模型、向量大模型、编程大模型和AI Agent框架/模型等5类;开源的参数规模分为五类:7B、13B、34B、65B、100B。目前国产开源大模型的最高参数规模为浪潮信息的“源2.0”大模型,最大参数规模为102B,达到千亿级。
来源:天翼智库
不仅仅是国内大模型,不少国外知名大模型也进行了开源,如Meta的LLama、OPT,谷歌的T5、MT5、FLAN-T5以及UU2,BigScience的BLOOM、T0、BLOOMZ等等。Meta 首席 AI 科学家、图灵奖获得者 Yann LeCun 就曾表示,开源人工智能模型正走在超越专有模型的路上。
02、“向阳而生”的开源大模型
随着开源技术占据各大新兴领域的技术路线,其不断丰富人工智能领域的应用场景。开源大模型可以促进技术的共享和交流,加速人工智能的发展,但也存在数据隐私安全风险、许可协议尚未形成共识、产业生态不健全、商业模式不清晰等问题。中国信通院云计算开源产业联盟发布的《可信开源人工智能大模型案例汇编》中指出,模型框架、模型代码、模型参数、训练数据四个方面是衡量其开源成熟度的重要评定等级。
训练大模型需极大的算力,开发成本高昂,而开源大模型虽然节省了企业训练阶段的算力消耗,但据统计达到一定用户量级的应用,推理阶段的算力消耗为训练阶段的5-10倍。大模型开源以及其背后的开放生态,将带来广泛渗透的多场景大模型应用以及更大的算力消耗,为算力产业培育“模型越强、应用越多、用户越广、算力越大”的市场飞轮。技术本身不断迭代演进,第三方参与者汇聚成洪流,未来才可能成为大模型时代的技术底座。
作为我国首个开源的运营商大模型,星辰系列大模型由中国电信完全自主研发的,从2022年12月份开始投入研发,不到1年时间实现了多项技术的创新突破。在模型结构方面,通过引入Embedding LayerNorm等创新方法,强化模型稳定性,提高模型训练速度20%;通过创新位置编码的方式,提升模型上下文推理长度至96k,推理长度还在持续增加;在产业应用方面,为了增强模型的商用性,千亿级星辰语义大模型在业界首次提出缓解多轮幻觉的解决方案,通过关键信息注意力增强技术、多轮知识记忆和强化技术等手段,幻觉率下降了40%;在模型加速方面,通过3D模型训练的方式配合量化技术,实现训练显存降低50%,推理提速4.5倍。
目前在我国,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景。作为运营商,中国电信的优势不仅在于目标客户群体的储备体量惊人,更在于能够为他们提供广泛服务。而模型开源将推动实现大模型产业发展的供给侧、需求侧双向发力,对大模型基础设施运营、技术迭代创新、开放生态建设带来积极影响,将加速推动大模型产业化应用,助力产业升级。
在国际技术和算力封锁的双重压力下,高质量的数据、高水平的技术人才,以及大模型的算法创新都是AI行业发展的短板。持续开源基础大模型,广泛地赋能更多的用户场景加速应用落地,联合各类合作伙伴打造大模型信创产业体系,不管2024年是开源大模型的爆发之年,还是开源大模型不断超越专有模型的一年,相信我国大模型发展都将在全球大模型发展的绘卷上留下了浓墨重彩的一笔。
作者:王鹤迦
责编/版式:王禹蓉
审校:王 涛 梅雅鑫
监制:刘启诚