作者 | 方文三
AI的飞速发展离不开数据的支撑,而在数据被用于训练之前,其必须经过严谨的处理和精细的标注。
在人工智能发展的三大支柱——算力、数据和算法中,Scale AI深谙数据之道,尤其是在这一领域尚显空白的背景下,其成功更显难能可贵。
而与之形成鲜明对比的是,当前绝大多数AI创业公司仍处于巨额亏损的困境之中,而Scale AI却已接近盈亏平衡的状态,这无疑为其在竞争激烈的市场中赢得了宝贵的优势。
Scale AI融资10亿后,市值飙升至138亿
在旧金山的Showplace广场,一座曾归属Airbnb的商业建筑近期易主。
在当前多数科技公司普遍缩减业务的背景下,Scale AI——一家由95后华人创办的人工智能数据标注企业,毅然承租了旧金山市中心约18万平方英尺的办公空间。
近年来,Scale AI展现出强劲的发展势头。至2021年,其企业估值已攀升至约73亿美元;
而在2024年5月完成的新一轮10亿美元融资后,其估值更是飙升至惊人的138亿美元。
本轮F轮融资由硅谷知名投资机构Accel领投,除YC、英伟达等既有投资者外,还吸引了包括亚马逊、Meta、AMD、高通、思科、英特尔等在内的众多新投资者加入,参与机构总数高达22家。
近日,Scale AI已达成接近10亿美元的年度收入,与去年同期相比,实现了高达四倍的增长。
而反观OpenAI,其在去年底的年度收入仅为16亿美元,预计今年方能突破35亿美元大关。
AI市场何其大,Scale AI只取一瓢
在AI领域的广阔版图中,数据、算法与算力被视为三大基石。
将英伟达喻为算力领域的[卖铲人],则Scale AI等专注于数据标注的公司无疑是数据领域的[卖铲者]。
大模型的研发深度依赖于英伟达提供的强大算力,而AI模型的持续进步则离不开高质量、精心标注的数据支持。
曾有一时,[数据是新的石油]之喻颇为流行。然而,Alexander Wang对此持有独到见解。
他认为,石油作为稀缺资源,其价值显而易见;而数据则更为丰富多元,且数据之间并非等价。
真正有价值的,是那些经过深思熟虑、精心拼接的高质量、差异化数据。
这一理念,成为了Scale AI发展的核心理念。
Alexander Wang自豪地表示:[在生成式AI的淘金热中,Scale AI扮演着镐子与铲子的角色。]
当众多企业竞相挖掘AI领域的金矿时,Scale AI独辟蹊径,以其专业的数据标注服务在这场激烈的竞争中占据了独特而重要的位置。
在生成式AI的蓬勃发展时期,大模型的三大基石——数据、算法、算力,均步入了全新的发展阶段。
随着基于Transformer的算法不断演进,以及算力的大幅提升,数据成为了限制大模型进一步发展的关键因素。
当前,大模型已近乎耗尽了互联网上所有易于获取的数据资源。若缺乏高质量数据的持续供给,大模型或将陷入性能停滞的困境。
因此,在AI的新纪元中,数据资产被视为亟待挖掘的宝贵金矿,而围绕数据展开的[工具提供者](即[卖铲人])将迎来前所未有的发展机遇。
巨头执着大模型训练,Alexander Wang退学创业
Alexandr Wang,出生于1997年1月19日,籍贯为新墨西哥州的洛斯阿拉莫斯。
其父母均为中国移民,且均在洛斯阿拉莫斯国家实验室担任物理学家之职。
Wang自高中时代便展露出卓越的编程才能,并于年仅18岁时成功考入麻省理工学院,专攻机器学习领域。
然而,在MIT的学术光环与广阔前景中,他毅然做出了一个极具挑战性的决定——辍学创业。
2016年,Wang携手Lucy Guo共同创立了ScaleAI,旨在攻克人工智能领域中的一项关键难题——数据标注。
Wang深谙数据之于AI模型成功的重要性,他坚信随着模型规模的不断扩大,对数据的需求也将呈现指数级增长。
因此,他创办ScaleAI的初衷正是为了从根本上解决人工智能领域的数据难题。
彼时,Scale AI的愿景似乎与业界的主流趋势背道而驰,当众人皆致力于以人工智能替代人力之时,Scale AI却反其道而行之,专注于利用大量人力去完成那些人工智能尚难以胜任的任务。
尽管数据标注业务表面上似乎门槛较低,但在2016年左右的[AI沉寂期]期间,该领域几乎处于市场空白的状态,仅有谷歌、亚马逊等少数大型公司拥有自己的数据标注部门。
然而,这正是Scale AI的独特优势所在。在人工智能公司收集的海量原始数据中,这些数据在输入模型之前,亟需通过标签进行注释。
然而,这一繁重而复杂的工作,大多数公司只能依靠手动完成。
Scale AI的出现,则为这些公司提供了全新的解决方案。
尤为值得一提的是,Alexander Wang还敏锐地把握住了自动驾驶兴起的契机。
他带领团队为自动驾驶汽车所依赖的雷达和传感器生成的三维图像进行精准的数据标注。
这些经过标注的高质量数据,无疑将极大地提升自动驾驶系统的性能,为自动驾驶技术的发展贡献了一份力量。
从外包转型,专注于提供大规模数据标注
Scale AI在其早期发展阶段,核心业务聚焦于为自动驾驶行业的企业提供数据标注的外包服务。
2018年,Scale AI明确提出了公司的战略目标,即[构建一个可靠、经济高效且可扩展的基础架构,以简化并加速令人瞩目的应用程序的构建过程]。
这一转变标志着Scale AI不再满足于作为传统数据标注服务提供商的角色,而是致力于发展成为以数据标注为核心竞争力的应用开发平台。
然而,自2022年以来,随着Scaling Law理论的推动,大型模型的参数规模迅速扩大,且对训练数据的需求急剧增加。
在这一背景下,Scale AI积极调整战略方向,与OpenAI等领先企业建立合作关系,逐渐转型为专注于提供大规模数据标注的专业服务提供商。
在此过程中,Scale AI构建起了强大的数据标注与治理能力,成为连接第三方大模型与客户应用场景的桥梁。
他们虽不直接提供大模型产品,但擅长于运用客户私有数据对主流大模型进行适配与优化,确保其在特定场景下的精准应用。
此外,Scale AI还积极拓展G端市场,业务迅速向政府部门渗透。
特别是与美国国防部等政府机构的成功合作,不仅为公司带来了可观的经济收益(如2022年单笔2.5亿美元的合同),更验证了公司在国家安全与军事领域的应用价值。
敏锐识市场机遇,把握了AI多个重要转折点
①在Scale AI成立后的初期阶段,公司敏锐地洞察到该领域对大规模且严格的数据标注需求。
自动驾驶技术的推进高度依赖于海量高精度的标注数据,涵盖道路场景、行人及多种物体的图像资料。汽车制造商亟需数万小时的视频数据以进行标注,进而训练并验证其算法。
纵观整个自动驾驶行业,彼时超过九成的数据标注工作仍以人工操作为主导。
Scale AI凭借高效的数据标注平台,以及创新的模型辅助标注与数据预处理技术,有效加速了数据处理流程,显著降低了标注的成本与时间消耗;
从而吸引了包括Waymo、Cruise等当时备受瞩目的企业成为其客户,并在自动驾驶数据标注领域稳固了市场地位。
②在自动驾驶领域取得初步成功后,Scale AI进一步将业务版图扩展至AIaaS(AI即服务)市场。
公司从单一的数据标注服务出发,逐步构建起涵盖数据标记与管理、模型训练与评估,以及AI应用开发与部署的全链条解决方案。
③面对部分行业数据稀缺的难题,Scale AI还积极向下游拓展,涉足合成数据生成领域。
通过利用现有数据资源创造全新的数据集,公司有效助力了模型训练过程。
在接下来的几年里,Scale AI在数据领域实现了迅速崛起,其客户群体也拓展至医疗、国防、电商、政府服务等多个领域。
在公司成立两年多的时间里,其营收已接近五千万美元大关。
④Scale AI还精准捕捉到了生成式AI崛起的契机。
早在GPT-2时代,公司便与OpenAI携手开展了首次融入人类反馈的强化学习合作实验,并随后将这些先进技术拓展至InstructGPT及其他相关领域。
鉴于生成式AI模型对于海量训练数据的迫切需求,以提升其生成内容的精准度与多样性,大语言模型的蓬勃兴起极大地推动了行业对高质量标注数据的渴求。
Scale AI通过整合数据标注、数据合成等服务,为生成式AI的发展提供了坚实的数据支撑。
此外,公司还致力于为企业提供定制化API的快速生成服务,有效降低了企业自行训练模型的复杂性与成本。
针对生成式AI领域,Scale AI已推出了一整套平台服务,涵盖开发者工具平台Scale Spellbook、合成数据产品Scale Synthetic以及企业级GenAI平台等。
旨在确保企业在任何场景下都能获得充足的数据支持,以推动模型的训练与优化。
结尾:
尽管AI行业的蓬勃发展推动了Scale AI销售额的显著增长,但也加剧了行业内的激烈竞争。
在此背景下,Alexander Wang对公司在吸引和保留关键人才方面可能面临的劣势表示关切。
值得注意的是,Scale AI在Glassdoor等职场评价平台上的评分(3.5分)相较于OpenAI(4.3分)和Figma(4.4分)等业界同行处于较低水平,这无疑对公司的品牌形象构成了挑战。
部分资料参考:创业邦:《给AI公司[打杂],95后华人把估值做到138亿美元》,AI科技评论:《Alexander Wang 如何用 24 万数字游民打造数据标注王国》,九合创投:《Scale AI 启示录》,智能超参数:《硅谷投资人对话Scale AI创始人:模型竞争进入第三阶段,纯模型租赁不是好生意》,中信证券研究:《Scale AI:从数据标注,到AI应用落地》,新智元:《27岁华裔天才少年再获融资,数据标注会是下一个风口?》, AAIA亚太人工智能学会 AIGC:《用8年将Scale AI估值从0推至138亿,未来会怎样?》