张通社 zhangtongshe.com
近日,月之暗面最近完成了一轮超过10亿美金(折合人民币约71.9亿元)的融资,投资方包括红杉中国、小红书、美团和阿里。
这一轮融资使月之暗面的估值达到了约25亿美金(折合人民币约179.9亿元),成为国内大模型领域的头部企业之一。这是自从ChatGPT引发全球热潮以来国内AI大模型公司获得的单轮最大金额融资。
月之暗面是一家聚焦AGI(artificial general intelligence,通用人工智能)的AI初创大模型供应商,分别在北京、上海、海南等多地注册有公司。其中,2023年8月,在临港新片区环湖西二路注册成立上海月之暗面科技有限公司,注册资本为5850万美元,法定代表人为杨植麟。
据悉,月之暗面成立不足一年,但深受资本青睐:早在2023年6月,月之暗面已完成3亿美元天使轮融资,投资方为真格基金、红杉中国。
一家如此年轻的创始团队,为何被资本和业界一致寄予厚望?
90后清华大牛组团创业,出道即巅峰!
在百模大战当下,谁会是中国的OpenAI?2023年6月,科技媒体The Information盘点了中国AI初创企业Top5,分别为MiniMax、澜舟科技、智谱AI、光年之外(已被美团收购)以及月之暗面。
月之暗面团队创始人杨植麟——唯一一位以个人名字入榜的选手,本科毕业于清华大学计算机科学与技术系,博士就读于全美自然语言处理排名第一的卡内基梅隆大学语言技术研究所(LTI),师从苹果AI研究负责人Ruslan Salakhutdinov、谷歌首席科学家William Cohen。
在博士期间,杨植麟用4年时间完成了一般6年才能完成的博士课程,并连续作为第一作者发表了两项关键研究成果——Transformer-XL和XLNet。Transformer-XL成为首个全面超越RNN的注意力语言模型,相关论文是NeurIPS 2019与ACL 2019的最高引论文之一;XLNet则在20项任务上超越谷歌BERT模型。截至目前,杨植麟本人学术引用量自2019年起已超2万余次。
读博的过程中,杨植麟也创立了第一家AI公司“循环智能”。7年之后他再度出发,与两位清华校友周昕宇、吴育昕共同创立了月之暗面。
周昕宇是月之暗面的算法团队负责人,清华大学2011级本科生,和杨植麟韬同为计算机系的学生。周昕宇在毕业后选择加入旷视,工作内容是算法量产。就职期间,他和旷视研究院基础科研负责人、ResNet作者之一张祥雨合作研究移动端模型,以共同一作的身份撰写ShuffleNet论文,被CVPR接受。这项工作后来影响了包括苹果3D人脸解锁在内的各种手机毫秒级人脸解锁技术。
值得一提的是,在清华时,周昕宇就和杨植麟共同创建了乐队,并创作了一首歌,有关“做了一个创业成功一夜暴富的白日梦”,而月之暗面这个公司名,就来源于杨植麟最喜欢的专辑《The Dark Side of The Moon》。
吴育昕和杨植麟一样,先后毕业于清华和CMU,研究方向为计算机视觉中的检测和识别问题。毕业后他先是在Meta的FAIR工作,曾和AI大神何恺明共同提出组归一化(GN)的方法。期间,他还创建了detectron2,这是Meta最受欢迎的AI项目之一。在Google Scholarship上,吴育昕的被引次数超过了19000次。
杨植麟认为,公司最主要的一个特色其实是人才密度。“我们希望通过这种很高的人才密度以及组织力量,能够打造一个很快迭代的组织机器,让人才能够快速基于我们现有和未来发展出的技术,开发出比较好的产品。”
目前,月之暗面团队成员人数在100人至200人之间。团队现已汇聚了来自CMU LTI、Google、Meta、Amazon等全球顶级机构人才。
一位行业内人士指出,市场上大模型相关的人才非常稀缺,真正有相关经验、有计划、有认知、愿意创业且在合适年龄的人其实并没有那么多,在算法创新方面的人才稀缺程度则比之更甚。这也是月之暗面被资本热捧的重要原因。
首创20万字超长输入,千亿大模型进入“长文本”时代
2022年,Chat GPT横空出世,成为史上最快传播的应用。作为人工智能实验室Open AI开发的聊天机器人模型,它正在科技领域引领一个新潮流。面对强大的Chat GPT,月之暗面团队创始人杨植麟表示:“Chat GPT刚发的时候,我非常激动,我好奇这个世界到底能做什么样的AI,我能多大程度去复制、甚至做得比人脑更好。同时,我也陷入到非常沮丧的状态——我会开始想在这个浪潮里我还能贡献什么,又开始兴奋起来:现在是非常好的timing,不管发生什么,一定要做。”
在公司成立之初,杨植麟便推出千亿参数级大模型moonshot,以及搭载该模型的智能助手Kimi Chat。除了联网搜索、知识查询、文本生成、翻译、图片识别等基础功能,Kimi Chat进行文本搜索所得出的内容是深入研究、挖掘更全面的信息。
大模型应用效果通常取决于两个核心指标,一是模型参数量,决定了大模型的“计算”能力;二是能够接收多少文本输入,即长文本技术,决定了大模型的“内存”能力。月之暗面在千亿参数模型的基础上,重点突破了长文本技术的挑战。
Kimi Chat最多支持20万汉字的超长文本输入,是目前全球市场上能够产品化使用的大模型服务中所能支持的最长上下文输入长度。作为对比,Anthropic的Claude-100k模型支持约8万字,而OpenAI的GPT-4-32k只支持约2.5万字。
同时,杨植麟强调,Kimi Chat通过创新的网络结构和工程优化,在千亿参数下实现了无损的长程注意力机制,但不依赖于滑动窗口、降采样、小模型等常见的对性能损害较大的“捷径”方案。
月之暗面将长文本技术称之为大模型“登月计划”的第一步。支持更长的上下文意味着大模型拥有更大的“内存”,使大模型的应用更加深入和广泛。比如通过多篇财报进行市场分析、处理超长的法务合同、快速梳理多篇文章或多个网页的关键信息、基于长篇小说设定进行角色扮演等等。
杨植麟认为,简单的捷径无法达到理想的产品化效果。因此,月之暗面的技术路线,就是不走捷径,踏实地解决算法与工程的双重挑战,在算力、存储、带宽等技术层面做了极致的优化。
从LLM(大语言模型)到LLLM(长文本大语言模型),Kimi Chat只是Moonshot的第一步。不过,如今的Moonshot已经寄托着杨植麟对未来的一些很“黑镜”的预想:在未来,如果机器能够掌握一个人一生的信息,人们就会拥有自己的AI分身,这个AI分身共享了你的所有记忆,无异于另一个你。
10亿美元新融资,能否成为AI时代的Super App?
从商业模式的角度来看,大模型产品分为to B与to C两大阵营。以Chat GPT和Character.ai为例,这两个产品已经积累了大量的数据和用户反馈,有大量的迹象证明已经通过这种的产品产生了新的入口,新一代AI在“有用”和“有趣”两个方向上,都会有巨大潜力。尽管在商业落地的探索中,月之暗面保持着开放的心态,但其核心定位放在to C上。
杨植麟认为,AI Native的产品会在to C领域产生新的流量入口,成为AI时代的Super App,这是一个非常大的机会。而要想做Super App,就必须用自研模型,因为“只有自研模型才能在用户体验上产生差异化”。
但开源模型无法构建产品壁垒。比如,在海外有几百个基于开源扩散模型Stable Diffusion的应用出现,但最后其实没有任何一个跑出来。其次,无法在开源技术的基础上通过数据的虹吸效应让模型持续地优化,因为开源模型本身是分布式部署,没有一个集中的地方接收数据。因此,杨植麟坚定地表示,不管是从底层逻辑还是当前的现象,都需要通过闭源模型构建产品壁垒。
目前,在视觉领域,团队成员发明了MoCo,引爆了基于对比学习的视觉预训练范式,也是过去三年CVPR引用量最高的工作;发明了ShuffleNet,最高效的视觉网络结构之一;主导开发了detectron2,一个被广泛使用的视觉开源项目并被集成到Meta全线VR/AR产品中。
在强化学习方面,团队成员作为一作提出了基于关系学习的少样本方法,得到斯坦福大学、谷歌、MIT、亚马逊等团队的使用和扩展,并获得过OpenAI RL联创及负责人John Schulman亲自邀请加盟。
所以,对于当下而言,相比于商业模式,他认为现阶段的核心议题是产品创新。做到产品创新的关键,在于公司的人才和组织能力。“大模型有点类似登月计划,本身需要自顶向下的规划和统筹,但同时,我们需要鼓励自下而上的创新,保持一定程度的开放性和组织的扁平化,这样创新就更容易发生。
2023年7月6日,杨植麟出席在上海举办的第六届世界人工智能大会(WAIC 2023),与业内众多专业人士探讨了包括“大模型核心理论研究突破、多模态对大模型的优化、算法安全及算法的发展路线选择”等诸多前沿话题,引发广泛思考。
2024年1月30日-31日,上海期智研究院2023年-2024年度科研项目进展工作会议在期智研究院举行。人工智能、交叉智能、现代密码学、高性能计算、量智能方向的23位课题负责人就各自研究成果进行了分享交流,并对本领域的发展趋势及PI的分享了各自的见解。杨植麟在现场展示了长文本大语言模型Long-Context LLMs。
大模型领域的竞争已然掀起狂澜,群雄并起。而在未来,希望月之暗面通过AI快速叠代模型底座和产品,实现大模型技术落地,普惠大众,并成长为AI时代的Super App。
文字:李杨琳
编辑:吴晓晴
校对:任甄妮