加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • 原力FORCE与全栈云产品线探索
    • 不做大模型,做大模型企业的算力“底座”
    • 字节投入云服务的决心以及战略目标
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

成立3年,云服务厂商火山引擎全景扫描

2023/05/02
2061
阅读需 24 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

采访、撰文|宇婷

多云、多模型,将会成为To B企业级客户的终局选择。

根据麦肯锡的报告,到2025年,依然会有42%的企业保留私有云。在负载分布层面,边缘云占比在逐步上升。根据IDC报告,2025年超过30%的数据需要边缘实时处理。造成这些现象背后的原因是复杂的,既有业务形态和成本管控的原因,也有数据安全和监管要求的原因。对于企业来说,必须要有能力解决好这一分布式多云体系带来的挑战。2022年,火山引擎对超过4000家云消耗大于100万的企业进行调研,其中,使用多云架构的企业占比88%,达到历史新高。

在鲜明的需求下,三年前进入中国公有云服务市场的火山引擎,其特点和路径越发鲜明。

4月18日,火山引擎总裁谭待在2023春季FORCE原动力大会中的一些观点和数据非常值得注意:

1、在当下大模型企业中,10家大模型企业,有7家选择了火山引擎的服务。

2、对中台的反思,本质是因为数据需要流动而非僵固的状态。

3、火山引擎宣布了与字节跳动的国内业务进行大规模并池,最高程度降低企业级客户云服务成本的80%。

本篇文章分析了火山引擎发布的多款产品背后的战略逻辑,解析了谭待和火山引擎对中国公有云服务市场的最新思考。

图注:火山引擎总裁谭待

原力FORCE与全栈云产品线探索

火山引擎选择“FORCE、原力”作为大会品牌,寓意:助力企业客户云上增长。谭待在演讲中提到:“火山引擎的定位是敏捷迭代、数据驱动和体验创新——云上增长的三个核心要素,也是企业增长需要构建的三个核心能力。”火山引擎发布的所有产品,也是围绕这三个要素出发的。

1、敏捷迭代

大模型时代,训练和托管大模型都会带来大量的成本开销,继而带来巨大的价值不确定性。选择上云,是这个问题的最优解。其次,要根据企业自身特点设计好对应的分布式云架构。企业级客户“用好云”的核心是做好多云策略,平衡好中心云和边缘云的负载。谭待从火山引擎客户这里得到的反馈是,对云厂商来说,最重要的就是要给客户适合的方案,并且在价格方面有优势。

火山引擎在这一点上做到了三方面:

一是资源复用。目前,字节的国内业务拥有过亿核CPU资源池、数十EB的企业存储。以此为基础,火山通过充分和字节进行并池和混布,分钟级可调度十万级核CPU,实现更极致的弹性和性价比;

二是全面云原生化。字节内部计算体系已经实现超过95%的容器化,并且基于云原生实现了超大规模的存储池化。这些技术能帮助客户通过云原生进一步用好云的弹性,并且通过业务混布提升资源利用率。

三是坚持全栈自研。包括自研服务器、自研OS、自研虚拟网络、自研mGPU技术等,将部署密度提升超过500%,为上层应用带来更高的资源利用率。

新品发布包括:

(1)火山引擎全栈自研的一个新核心组件——火山引擎DPU,采取从硬件软件的全栈自主研发理念,并基于DPU实现了新一代RDMA网络,以及软硬一体的Hypervisor层,使得整体网络性能升级到5000万pps转发能力,20us延迟。在内部已经实现上万台DPU的部署,并且将持续提升渗透率。

(2)DPU+Intel 全新一代SPR CPU平台、DPU+AMD全新一代Genoa CPU平台、DPU+Nvidia A800 裸金属实例三款产品,使得火山引擎将全面基于DPU构造大规模算力中心,形成DPU+CPU+GPU的混合算力体系。并在整机性能、单核性能、小规格实例方面提升效能。

(3)火山引擎SPOT实例可以实现常规云计算竞价实例的特性,并且能够通过与字节潮汐资源的混布,进一步降低运营成本,价格最高减少80%。

(4)在多云使用场景下,企业做好分布式云,需要解决好三个问题:一是从单一公共云架构向多公共云架构升级,降本增效。二是从传统私有云架构向混合云架构升级,既能保障数据安全也能享受云的弹性。三是基于“算力靠近数据”的理念,形成覆盖1-40ms不同延时的架构方案,包括现场边缘、近场边缘和云边缘的体系化架构。

谭待认为,“火山引擎的优势在于最懂多云和分布式云架构。这是因为,字节跳动成立11年以来,内部使用过全球每一朵公有云服务和边缘云服务,形成了一整套完整的分布式云管理体系和架构实践。”

这一部分,火山引擎发布了四款产品:

首先是分布式云原生平台。该平台通过火山引擎自研的大规模集群联邦系统——KubeAdmiral,提供面向多云/混合云/边缘云场景的云原生管理能力,可以连接并管理用户任何地域、任何基础设施上的Kubernetes集群。不论企业的应用是构建在火山引擎云上、第三方云上、IDC 私有云上,还是边缘云上,都可以实现集群资源与权限的统一管理,实施应用跨集群分发和故障迁移,达到跨云一致体验。

其次是多云CDN管理平台。该平台是基于字节数百Tbps带宽,十多家CDN厂商实操经验构建而成的;为企业客户在多云场景下提供CDN智能容灾、质量优化、成本管理、运维优化等综合管控能力,帮助企业用好多云CDN。当前,火山引擎已经为行业内多家客户提供了相关服务,邀测结果表明,该平台能有效降低运维管理投入的50%,并进一步降低CDN支出成本的10%。

第三是全栈多云安全平台。该平台为企业提供SaaS化的多云安全管理服务,本身具备轻量化、跨云支持和利旧兼容等特性。同时,它还能够在多云环境下统一管理资产、服务、告警、身份四要素,帮助企业高效、统一的实现多云安全运营,多云安全运维和多云数据共享。并一站式解决护网、合规、数据防泄露等问题。

第四是混合云平台veStack。该平台面向公有云和私有云长期并存的场景,实现更高的资源利用率、敏捷性,以及通过与火山公有云的同源设计,实现云上云下能力统一、体验统一、管理统一。

此外,veStack也支持多种异构存储协议,兼容一云多芯,支持海光、鲲鹏等国产芯片服务器,符合金融、政企客户等行业要求。

(5)面对多云多模型,火山引擎推出面向推荐场景的高速训练引擎等产品。

(6)火山引擎支撑了其在智能驾驶AI制药和大模型领域客户需求的机器学习平台。

此处5、6产品,我将在第二个小标题中详细分析,拆解火山引擎目前在AI、大模型领域的思考。

2、数据驱动

《基业长青》的作者吉姆·柯林斯:企业的永续经营依赖于公司飞轮的持续转动。

谭待在这次公开演讲中也提到了最近比较火热的话题——数据中台。

“最近这段时间,经常能看到有文章批评数据中台的无用,也能听到一些公司建设数据中台的失败案例。”

“我们认为,这里面最大的问题,就是只有活的数据,只有用起来的数据才是有价值的数据;而数据中台只是数据建设的一部分,并不能解决这个问题。”谭待认为。

去年,结合对字节数据驱动成功经验的总结,火山引擎提出了数据飞轮这个更完整的模式。“数据飞轮”包含三个环节:数据生产、数据应用、数据消费。数据消费是数据飞轮建设的核心,通过数据消费可以驱动业务应用,打造数据应用的闭环;通过数据消费驱动数据建设,才能有的放矢地建立数据平台。要将数据生产、数据应用、数据消费这些环节连接起来,相互促进才会越转越顺。

围绕数据飞轮,火山引擎已经推出一系列产品。数据应用方面包括:火山A/B测试、增长分析、CDP、智能数据洞察等。这一类产品能够帮助企业在用户营销、私域运营等应用场景更好地发挥数据价值。在数据建设和引擎层面,通过EMR、ByteHouse、DataLeap等产品帮助企业构建数据底座,降本增效。

字节跳动副总裁杨震原也在演讲中强调:“火山引擎要做的,就是把平台的工作做好。大家可以看到,数据处理的整个过程、模型训练、评估到上线,再到A/B测试,全平台有统一的集成。算法工程师不需要反反复复去沟通各种环节,串联各种业务,他可以更聚焦在自己的工作上。”

数据驱动方面,火山引擎推新升级的新品包括:

(1)云原生湖仓产品LAS。LAS直接基于云原生容器构建,支持Hudi存储引擎和统一元数据管理,并提供兼容SQL和Spark的全面计算引擎,以建数据基础设施。火山引擎LAS有三个核心优势:极致性能、Serverless 全托管、降本增效。

(2)Serverless版本Flink计算服务。该服务属于实时计算方面,完全基于云原生构建:脱胎于抖音内部超大规模实践,日常峰值 QPS 达100亿,稳定性提升51%;通过Serverless,实现弹性扩缩容和在离线业务混部,资源利用率提升40%;并且能够统一调度,满足流批一体等多种计算模态。通过LAS和Serverless Flink,企业可以更加高效、经济的建设自身的数据底座。

(3)管理驾驶舱Plus。其实现了从“看数”到“辅助决策”的增强进化,管理者对战略目标、数据实时观测、交互,进行全面移动化。

3、体验创新

为提升用户视频化体验,火山引擎发布和升级了6款产品及解决方案:火山引擎云游戏产品、创意互动Vlog、AR互动营销方案,WebRTC 传输网络、数字人产品以及音视频云端一体解决方案veVOS。这六款产品,其实是火山引擎音视频技术能力的冰山一角。

同时,为企业提供一站式 IT 管理与办公安全平台——飞连,飞连的三块核心内容是:身份,网络,终端一站式管理,让员工随时随地安全接入办公网络;云,网,端融合,帮助企业构建安全无缝的统一办公网;以及整合全套办公安全能力,解决混合办公中各种安全隐患。火山引擎官方数据,飞连已覆盖100万台终端设备,小米为其客户。

小米在现场的用户视频中反馈:“希望 IT 基建在解决管理复杂性难题的同时,真正帮助数字化业务发展。依托飞连,我们提升了网络接入与办公终端安全性,从 IT 基建的层面,打造了一个更能支撑小米业务发展的安全办公空间。”

在小米原有能力的基础上,小米引入飞连,围绕身份、网络、终端的办公网三大核心体系打造了All in One产品架构与解决方案,用一体化管理平台实现数据打通与综合研判,很大程度上提升了安全响应准确度,同时又提供了客户端自动化 IT 工具与应用,让 IT 服务突破线下地理空间限制,来保障全体员工的办公体验。

我非常赞同小米的发言人在视频中的一句表达:智能化运营、外部协同,这都表现数字办公正在与业务加速融合,对业务的支撑能力也在不断加强。而这种能力建设不再是单点、分散的,而应该是一场与IT基建一起的底层能力升级。

不做大模型,做大模型企业的算力“底座”

大模型也是此次火山引擎大会上媒体关注的重点。对于7成大模型厂商都在使用火山引擎云服务,官方也给出了明确的统计方法:根据市面上的调研报告,把其中做大模型的公司作为分母,把其客户作为分子,得出7成的数据结论。

在产业趋势上,谭待提到了他看到的两个非常显著的现象:

第一,多模态基础大模型的风起云涌。随着ChatGPT 、GPT4的推出,国内的大模型创新公司也在奋力追赶。在这方面,火山引擎支持了Minimax、智谱、昆仑万维等大模型服务商,在模型训练和应用领域的快速发展。事实上,国内绝大部分大模型创业公司,也都在深度的使用火山引擎;

第二,大模型在垂直行业的加速应用。在智能驾驶领域,与智能驾驶服务商、造车新势力和主机厂进行了广泛合作,同时基于公共云进行了超大规模的自动驾驶算法训练。在生物科技领域,与行业客户进行了生信PaaS的联合共创,推动生信科研加速发展。在金融领域,与不同类型的金融机构进行FinOps、智能风控、个性化推荐等云上AI创新。

针对多模时代,火山引擎推出两款升级产品:

第一是面向推荐场景的高速训练引擎。个性化推荐是移动互联网最重要的交互方式。但随着数据沉淀,越来越多的企业面临大规模稀疏模型的训练性能问题,导致模型更新缓慢,影响线上效果。这也是火山引擎推出高速训练引擎要解决的问题,高速训练引擎具备以下优势:

首先,采取软硬一体优化设计,支持100GB-10TB+超大模型的高效训练;

其次,实现高可用PS-Worker架构,支持 PS、Chief、Worker 全方位容错;

第三,数据安全:企业只需要传输高度脱敏后的训练样本,保障数据安全;

最后,高性价比:支持多种模型瘦身技术、多种GPU模式,训练加速比10倍以上,综合成本可降低25%~67%。

第二是在机器学习产品方面。去年7月,火山引擎正式发布机器学习平台,达到0碎片的极致性能和优秀的开发体验,至今已经服务了诸多智能驾驶、AI制药和大模型客户。今天也正式带来三个重要升级点:

第一,全新的实验管理-模型效果对比功能:仅需极少的代码改动,用户就可以通过该功能实时跟踪和对比训练效果,观察趋势,加速模型迭代;

第二,全新支持了弹性实例:实现灵活资源调度,随用随取,成本节省达70%;

第三,针对大模型训练场景进行了全面优化(这也是最重要的):目前,平台可以支持万卡级别大模型训练场景,微秒级超低延时网络,让大模型训练更稳更快。

谭待在媒体群访时表达:“火山引擎在面对AI和大模型时代的思路是,首先服务好国内大模型创业的公司,比如MiniMax,等他们把大模型做好之后,会和他一起共同开展对外的服务。”

谭待强调:“火山引擎自己是不做大模型的。”

大模型的背后是大算力,以及工程能力解决好千卡、万卡并行计算和网络能力。这些依赖于机器学习支撑。

谭待认为,火山机器学习平台一个很大的优势在于其“内外同款”。

“比如在内部抖音,因为它在推荐广告上也有很大规模的训练场景,所以我们在这些场景里面做了非常多的打磨,再加上我们对外不只是大模型,在生物制药,在自动驾驶,其实规模都很大。这种情况下我们积累在一起以后,我们这些实战的经验是非常重要的,你这个平台好不好,关键是你有没有在真实的这么大的规模中去做过打磨。”

谭待也回答To B新势力,是不是大模型企业一定要绑定公有云:“从概率上来说一定是越大的算力公有云的优势越明显,因为首先公有云的好处是按照你的需求去使用,按时间、按负载。而你的算力需求越大的时候,你的启动门槛越高,你通过公有云的这个商业模式,实际上能让你的启动成本非常低,启动成本低了之后你就不用冒太多风险。”

字节投入云服务的决心以及战略目标

企业服务、To B服务跟To C服务很不一样,在这一点上火山引擎和字节跳动是有横向体感的。

“To B服务是要一个漫长的实践过程,但它积累起来以后会有很强的连续性。所以在短期考虑的还是怎么面向客户创造更多的价值,把组织能力、产品能力做好,在中短期这是我们最关心的事情。”

“长期来看,要回归商业本质,云计算要成为一个盈利的业务,但这个也不是特别担心,因为我们去看全球领先的云计算公司他们的盈利性非常好,所以这其实是一个很好的赛道。”谭待也针对关于火山引擎ROI和持续投入的提问,如是回答。

本次发布会发布了十余款技术和产品,我也向谭待请教了“如何看待整体产品矩阵发布背后的统一逻辑”的问题。

谭待回答To B新势力:火山引擎slogan叫云上增长行动力,我们对外的产品理念一直围绕着云上增长的三个核心要素。

第一个是敏捷迭代。敏捷迭代包括了刚才说的云IaaS、PaaS的能力,特别是多云、分布式云,怎么样管理好在多云上的负载。在中心云、分布云上,今天发布了一系列多云分布式管理的平台,所以这是跟敏捷迭代相关的,以及最关键的通过机器学习平台做好云上的智能创新。

第二个是数据驱动。数据驱动我们讲了数据飞轮,数据飞轮核心是数据消费,数据消费一方面是构建数据应用能力,这里面就是A/B测试、CDP、GMP这些事情。另一部分是构建数据平台的闭环,那就是大数据的组件,所以今天也发了这些相关的产品。

最后一个是体验创新。体验创新就是我们怎么通过更好的技术,去打造更清晰、更互动、更沉浸的视频体验,这有赖于视频云。为给用户带来视频体验创新,特别是这次发布的云游戏、WebRTC传输网络、音视频云端一体解决方案veVOS等6大产品。

体验创新既要关注外部对用户的创新,也要关注内部运营、内部员工的体验。所以我们推出飞连这个产品,因为未来的企业更多的会采用混合办公的模式,你怎么样构建好适合于混合办公的IT基础设施。

所以不管是今天还是未来,我们都会围绕着刚才说的敏捷迭代、数据驱动和体验创新这三个要素来去构建我们的产品服务体系。

在生态布局方面,火山引擎生态副总裁赵文婕在演讲中提到:“2023年,火山引擎会重点聚焦云+数据,和伙伴在金融、大消费和汽车等行业持续共建,争取尽可能多的解决客户实际的业务问题。”

在SaaS生态方面,目前,火山引擎已经和60多家精选伙伴构建了深度合作关系,在抖音电商、抖音生活服务、营销等场景共创,并且在半年多的时间内,服务了1000多家客户。

对于火山引擎未来一年的战略目标。谭待总结:

“每年战略目标都比较类似,首先是要把产品的竞争力不断往上做。你要对更多的行业有更深的了解,有标杆的case,更大规模的复制,你要给客户创造更大的价值。这些都做到了,结果可能就是你整体的业绩能持续的增长。所以大的方向是不变的,当然我们的价值理念刚才也说了,敏捷迭代、数据驱动、体验创新。所以战略一定是要看得更长期,只不过是不同阶段有不同的目标。”

目前,谭待认为,火山引擎成立三年,还处在早期阶段,需要用几十年的眼光来衡量这一赛道。

关于并池,此前我也通过视频号做了报道。

 

相关推荐

电子产业图谱