对话 | 盖世汽车CEO、盖世汽车资讯部总编 周晓莺
撰文 | 盖世汽车编辑 熊薇
2022年底ChatGPT火爆出圈,在全球范围内引发一轮通用人工智能(AGI)技术创新和产业化落地热潮。作为其中一个重要落地场景,汽车产业凭借智能化变革新机遇,与广泛市场需求,也站上了“大模型+”风口。
“对于汽车行业,我觉得AGI的影响主要有两个方面:第一,会大幅提升生产效率,比如基于大模型的端到端自动驾驶,将显著提升自动驾驶开发效率;第二,AGI会改变人机交互方式,得益于大模型加持,未来汽车有望变为一个超级智能体。”近日,商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚接受盖世汽车CEO周晓莺采访时表示。
尤其是今明两年,在王晓刚看来将是AGI重塑智能汽车非常关键的时间窗口。
因此,凭借在人工智能领域的丰富积累,以及在AGI软硬件基础设施上持续不断的投入,以商汤绝影作为核心载体,商汤正大力布局汽车业务,并构建了完整的“驾-舱-云”三位一体架构体系,多维度助推智能汽车加速驶入AGI时代。
在智能驾驶领域,商汤绝影早在2022年底就于业内率先发布了感知决策一体化自动驾驶通用模型UniAD。在此基础上,依托应用场景更广、性能更强的多模态大模型,商汤绝影又研发了新一代自动驾驶大模型 DriveAGI,开启自动驾驶迭代升级新范式。
在智能座舱领域,商汤绝影也发布了一系列基于多模态场景大脑的大模型产品,计划基于多模态大模型进一步打造AI智能体,更好地助力智能座舱。比如前段时间上市的小米SU7,就应用了商汤的大语言模型和多模态模型。
据王晓刚介绍,在智驾方面,目前商汤绝影已成功交付了广汽、合众、一汽等车企项目,智能座舱业务去年更是累计交付了40多个车型,量产规模大概有120多万辆,预计今年无论交付车型款数还是量产车数量将再创新高。
不过,尽管AGI在赋能各行各业转型升级方面已经取得了突破性进展,王晓刚认为,大模型要真正在千行百业产业化落地,既是短跑又是长跑。“因为我们处在市场和技术都高速发展的阶段,另一方面,通用人工智能的上限和天花板很高,现在远没达到上限,未来还有非常大的发展空间。”
那么,AGI重构汽车产业,“奇点”究竟何时来临?需要具备哪些条件?目前商汤绝影已经发展到了哪个阶段?后续还有何长远的规划以及目标?汽车行业“百模大战”还会持续多久?
以下为访谈实录 对话
“从智能汽车到机器人,大模型想象空间巨大”
Q:周晓莺:商汤怎么看待AGI对汽车产业带来的影响?
王晓刚:AGI和大模型给人们的社会生活,包括各行各业带来了非常深刻的变化。在人工智能1.0时代,我们需要针对每个任务训练一个模型,在过去几年里,商汤推出了超过4万个商业化模型,这里面投入的研发资源非常大,研发周期非常长。但今天有了通用人工智能,几个非常强的大模型就可以完成很多任务,而且是一些开放式的任务。
之前的人工智能比较擅长基于固定规则下的任务,比如下围棋AlphaGo做的很好,但如果把棋盘大小改变了,可能就要重新训练。今天有了通用人工智能,即便没有这些规则,也能完成很多开放式任务。
像自动驾驶进入复杂城区场景,很多依靠规则其实没法覆盖,这些开放式任务正是通用人工智能所擅长的,包括智能座舱里各种人机交互,也在不断提出新的需求,这些都可以通过通用人工智能去应对。
另外,以前做人工智能,比较多的是识别,包括物体识别、人脸识别等,今天的通用人工智能可以是生成式AI,能自主生成大量内容,包括文字、图像和视频,极大改变我们的文化、社会和生活。
具体到汽车行业,我觉得AGI的影响主要有两个方面:第一,会大幅提升生产效率。比如大家已经能够看到用Copilot做编程助手,汽车行业有大量软件开发,需要投入非常多的人力。未来在大模型驾驶领域,通过机器可以节省80%的工作量。
目前自动驾驶比较明显的发展趋势是基于大模型的端到端自动驾驶,以前基于规则的模式,进入复杂城区场景后,需要的代码量可能是原来高速场景的几十倍,因为每天要处理各种不同的Corner Case,需要很多工程师不断解决各种新问题。但是大模型出现以后,通过数据驱动自动驾驶发展成为可能,从感知、规控到决策,可以通过一个网络模型来实现,靠数据覆盖各种Corner Case,会在无形中大幅提升开发效率。
还有座舱里的DMS、OMS,过去根据疲劳监测、分心监测、打电话监测等功能,每个特定任务都要投入专人开展数月研发,现在有了多模态大模型,可以不断增加新任务,而模型本身无需改变,就能即时响应,效率提升十分明显。
第二,AGI会改变人机交互方式。以前座舱里只能通过简短固定语音指令完成特定任务,今天有了大模型加持,可以进行各种开放式多轮对话,就像跟机器人对话一样。包括现在座舱里面有很多APP,有时候要使用一个APP可能要找好久,现在AI智能体能自动完成这些事情。而且通过座舱里各种传感器,系统还可以观察驾乘人员的状态,并主动发起对话,变成一个超级智能体。所以说,汽车是实现大模型人机交互闭环一个非常好的场景。
对于智能终端,从最早AI 1.0时代的手机,到今天的汽车,再到将来的机器人,AI大模型给智能汽车带来了非常大的想象空间。我们正从智能汽车1.0时代,走向一个真正的超级AI智能体。
Q:周晓莺:感觉这个演变让人非常兴奋,会打开一个新天地,咱们预测过这个时间表吗,或者一些关键的时间节点?
王晓刚:我觉得今明两年是非常关键的时间窗口。一方面,自2022年底ChatGPT出圈,过去两年通用人工智能发展十分迅猛,出现了很多新模型和应用,给智能汽车带来了非常多的机会。
另一方面,从智能汽车发展来看,比如智能驾驶前几年还存在路线争议,现在已经收敛很多,行业对于未来的发展方向也比较明确。智能座舱有了大模型加持,意味着舱内一系列软硬件架构都会发生变化,今天比较多还是调用云端大模型,将来一定是端云结合。这里面谁能抓住先机,改变用户体验,给客户交付更有价值的产品,这一两年将是重要的窗口期。
周晓莺:所以这两年大家要加速往前冲。
王晓刚:有人说现在既是短跑又是长跑,因为我们处在市场和技术都高速发展的阶段,要能够抓住它。但另一方面,通用人工智能的上限和天花板很高,现在远没达到上限,未来还有非常大的发展空间。
Q:周晓莺:对于人工智能技术在各行各业的落地,商汤做了很多探索,这其中商汤绝影主要专注于智能汽车应用,您能否分享下商汤绝影具体的战略规划?
王晓刚:商汤是一个人工智能平台公司,无论发展还是创新,都需要由行业来牵引。早期互联网、手机和智慧城市,是牵引公司发展的主要动力,但今天智能汽车成了牵引人工智能发展创新最重要的动力,因为汽车行业规模非常大。
另外,智能汽车是一个非常好的人机交互场景,而通用人工智能大模型又可以改变未来人机交互。所以绝影的发展战略,是依托商汤的特长积累和战略,抓住通用人工智能和大模型给智能汽车带来的机遇。
这里面需要什么呢?第一,非常强的软硬件基础设施。我们从2018年开始研究大模型,那时还没有能支撑大模型研究的基础设施,所以我们建立了商汤大装置,到今天一共有45000块GPU,总算力突破了12000P,到今年年底将进一步达到16000P。作为对比,特斯拉目前有10万块GPU,而反观国内其他车企,在算力储备方面和特斯拉还有很大的差距。因此在这方面,商汤绝影可以给行业提供比较好的基础设施。
在此基础上,我们还有一系列原生态大模型,包括自然语言模型、多模态模型、文生图模型、文生视频模型以及3D大模型,积累了大量Know-How。我们并不是一味追随Open AI,而是有自己的创新点,比如我们2022年底发布了UniAD,这是业内第一个端到端自动驾驶大模型,到现在可以看到端到端大模型用于自动驾驶已经成为行业共识,我们的UniAD也有面向量产的方案,这体现了我们的原创性。
另外,去年5月我们还推出了用于机器人的具身智能模型。原来机器人比如AlphaGo所用的模型,只能解决已经定义好比较规则的特定任务,但具身智能模型可以解决很多开放式任务,比如《我的世界》(Minecraft)里面的200多个任务,都能去解锁。而OpenAI和DeepMind用传统的强化学习去做,只解锁了其中的78个。所以从智能汽车到机器人,大模型可以带来非常多的想象空间。
今年,大家对多模态模型落地有非常高的期待,但其实我们在2023年3月就开源了多模态模型,拥有30亿参数,是当时业内最强的多模态模型。可以看到,这些模型布局我们都走在行业前面。
针对汽车行业,我们对一系列大模型专门进行了优化,通过与大量智舱、驾驶数据相结合,构建专属于汽车行业的原生态大模型,因为这里面很多任务不是通用模型能解决的,由此衍生出了一系列面向自动驾驶和智能座舱的方案。比如端到端自动驾驶大模型正在推进当中,智能座舱领域,我们去年也发布了一系列基于大模型的产品,今年将进一步推出基于多模态大模型的AI智能体,更好助力智能座舱的体验升维。比如前段时间上市的小米SU7,就应用了我们的语言模型和多模态模型。另外从手机到其他各种智能终端,我们跟小爱同学都有比较好的合作。
所以商汤绝影整体的发展战略叫“驾-舱-云”三位一体,所谓“云”就是各种基础设施,可以助力整车厂和其他一些合作伙伴,进行智能驾驶和智能座舱相关开发。
“未来汽车将有很多智能体,各自擅长不同的能力”
Q:周晓莺:从财报数据来看,去年商汤绝影智能汽车业务整体营收增幅超过了30%,相对于整个行业来说是一个非常好的成绩,其中主要增长点来自哪些业务?
王晓刚:在智能驾驶方面,我们已经交付了广汽、合众、一汽等车企,但真正要带来收入增长,可能还需要一段时间。比较而言,智能座舱业务走的相对快一些,去年我们累计交付了40多个车型,量产规模大概有120多万辆。今年,无论交付车型款数还是量产车数量,都会翻一倍。这里面我觉得两个核心点在于,一个是智能汽车的渗透率在快速提升,另一个是汽车对新技术、新产品的追求给我们带来了比较好的机会。
周晓莺:恰恰是您讲的这两点,汽车智能化发展和对新技术的追求,现在都在快速上量。
王晓刚:所以我们也需要不断加大投入,提升效率。商汤在人工智能领域有比较好的储备和积累,同时我们也在不断强化工程体系、交付能力以及与车企的合作能力,更好地服务这个行业。
Q:周晓莺:您前面提到一系列大模型,包括在汽车领域的两条发展路径,能不能展开讲一下大模型上车与这些产品及应用之间的逻辑关系?商汤绝影大模型有哪些独特亮点?
王晓刚:有比较多的相关性,比如多模态大模型的基础是,首先你要有强大的语言模型、视觉模型,才能在这个基础上去形成更加强大的多模态模型。另外我们还有文生视频模型、文生图模型,积累了大量的Know-How。
具体到产品方面,我们已经有UniAD自动驾驶端到端大模型,在此基础上,依托多模态大模型,进一步拓展研发了新一代自动驾驶大模型 DriveAGI,其中的数据输入除了各种传感器,还有驾驶员的指令。因为现在的自动驾驶,基本上都是确定好目的地后车辆自主驾驶,在这个过程当中,其实有很多人机交互应用。比如每个人驾驶习惯不一样,或者在不同情况下对车辆驾驶行为需求不一样,比如有些人赶时间可能会频繁地换道超车,有些人希望能在车上安静地看书,这时可以跟系统做一些互动。
从输出角度,以前车辆就是一个“黑盒子”,但现在有了大模型以后,当车辆做出各种决策时,其实可以通过自然语言解释一下为什么要这么开,这是我们觉得多模态大模型能够给自动驾驶带来的一个延伸。
另外从产品角度,我们知道训练自动驾驶算法需要大量端到端数据,这些数据除了实际采集,还要大量的仿真数据,因为有些时候想得到特定场景的训练数据比较难,并且越到后面数据采集效率越低。在这种情况下,我们的文生视频模型就可以用来生成各种摄像头角度、各种车况或者交通场景下的视频,进行自动驾驶测试和算法训练。
除了自动驾驶,我们也在探索怎么跟座舱里的大模型结合,因为未来趋势是舱驾融合,在一颗芯片上同时部署智驾大模型和座舱大模型,实现各种传感器、车内车外数据的联通。
比如在驾驶过程中,我们看到车外的建筑物,或者靠近某个景点、交通路口时,会问各种问题,模型能给出智能化的回答,这要求延时非常低。但是现在我们舱内的一些模型还放在云端,有延迟,存在一些数据方面的问题。
将来通过端云结合,我们希望80%的这种问题能够通过端上的芯片完成,及时响应,同时成本比较低,从而实现比较好的用户体验。未来,我们判断越来越多的公司会使用MoE(Mixture of Experts)架构,也就是混合专家模型,就是很多模型在各种不同情况下,针对不同任务调用不同模型,这样会极大地降低算力。
Q周晓莺:感觉以后开车,在体验上会越来越丝滑,但实际上后面的系统也会越来越复杂。
王晓刚:对,有很多智能体,这些智能体有各自擅长的不同能力,甚至包括自动驾驶也不一定是一个模型,比如在高速场景和复杂路口,或者拥挤的路段、乡间小路,每个模型擅长的事情都不一样。
Q周晓莺:最好大模型供应商是一家企业,否则会不会打架?
王晓刚:所以将来研发模式也会发生变化,之前一个系统被切成很多模块,由不同供应商提供各个模块,现在因为有一个大模型整体协调,技术耦合度会更高。但另一方面,这又要求跟整车厂之间的合作更深入,因为会涉及软硬件架构的改变,而且每家车企还有自己定制化的内容、独特卖点和特征,这需要更加深度的耦合。
Q周晓莺:关于大模型到底怎么上车这件事情,是否方便分享一些跟车企合作的案例?因为这还是一个蛮新的领域,虽然大家谈了很多。
王晓刚:去年大模型刚刚开始应用时,跟车企的合作相对简单一些,就是提供模型给车企测一测,或者把几个模型比较一下,谁的能力强选谁。但后来慢慢发现,通用模型其实解决不了实际问题,很多执行指令以及可靠性满足不了车企需求,需要定制化开发。
另外原来的云端模型存在固有缺陷,光有一个云端模型还不行,而是需要若干个模型结合起来,这又会涉及到车内软件架构的改变,包括这些模型还需要跟整车生态联合,因为车内有很多APP,智能体要调用这些APP。在这个过程当中,我们和车企逐渐变成了深度耦合、密切合作的关系。我觉得这可能也是未来的一个趋势。因为在技术发生变革的时候,大家都希望能够参与其中,共同设计这些架构。
Q周晓莺:这不像传统汽车时代,只是简单地增加一个部件或者一个功能,而更像是两个大的生态在相互融合。
王晓刚:比如原来车企内部,会根据电子电气架构设置各个部门,但大模型出现后,会对过去的很多功能和模块进行重构,这将带来组织架构变化,也即是生产力变化带来生产关系变化,这也是为什么我觉得接下来像绝影这样的新供应商会有机会。所以在带来新技术的同时,我们还要对自身组织结构进行重整,以适应技术的发展变化,包括跟整车厂合作模式的变化,谁先把这些事情理顺,谁就能走得更快。
Q周晓莺:所以绝影的优势,我觉得像您讲的不管是对人工智能的理解和应用,还是组织架构、人才储备,其实都有比较长和比较深的积累。
王晓刚:我们在技术上有一定的积累,同时也认识到了技术对我们组织架构带来的新变化。所以我们现在是以一种开放的心态重新创业,打破原来的组织分工形态,我们跟车厂也保持非常开放的态度,共同探索新的模式。
“智能驾驶往后发展,降本将是重要趋势”
Q周晓莺:在智驾领域,绝影量产智驾方案已经上车哪吒S、广汽昊铂等车型,后续还有何新的量产落地规划?
王晓刚:接下来,我们还会持续更新系统功能,不断提升用户体验。在哪吒S上,我们已经率先在16 TOPS算力条件下实现了高速领航功能,接下来通过OTA升级,我们还会持续优化用户体验,同时也希望不断拓展新的车型、新的功能。
Q周晓莺:对于城市智驾,我们看过去两年“大算力芯片+激光雷达”几乎成为标配,您对此怎么看?
王晓刚:我觉得智能驾驶再往后发展,降本将是一个重要趋势,所以摆脱对激光雷达的依赖,主要依靠视觉的方案,也会是未来的一个发展趋势。当然到了L3,需要冗余备份的时候,还是需要激光雷达。但是对于L2.9的城区领航,我们其实也在做纯视觉方案,包括端到端的UniAD,就是基于视觉方案在做。
谈到算力,首先还是在不断地增长,但同时也在追求性价比,并希望在体验上有一些突破,因为毕竟有大模型加持,这方面我觉得还有探索空间。比如未来的舱驾融合,在一颗芯片上同时部署智驾和智舱,能够降低成本。另外我们也看到,芯片厂商仍在不断提升算力,这给大模型在端上落地提供了更大空间。
所以我觉得未来智驾大算力演进和降本会交替进行,并在体验上不断上探天花板。同时对一些比较成熟的功能,会通过降本提升性价比,实现更大量产规模。
Q周晓莺:所以绝影非常坚定地看好纯视觉路线,是因为刚才讲的成本?
王晓刚:也是本身的基因所在,视觉是商汤的专长,早在2016年本田来中国寻找合作伙伴的时候,就给我们出题用两颗摄像头怎么完成自动驾驶,随后2017年我们基于两颗摄像头完成了要求。
而除了成本优势,比较之下视觉方案提供的信息也更加丰富,天花板更高。尤其在复杂场景中,端到端方案通过视觉感知能提取更丰富的信息,获取有价值信息的能力会变得更强,这也是我们看好视觉的一个重要原因。
Q周晓莺:您觉得端到端方案是城市智驾的最优解吗?
王晓刚:我觉得是这样的,因为城市智驾覆盖的复杂场景非常多,包括各种Corner Case,并且大家对体验的要求也在不断提升。不过今天虽然都在谈端到端,实现的方式还不太一样,有些其实是两段式的,即感知和规控分两部分。
因为此前只有感知部分使用的是AI神经网络,规控部分使用的是规则。目前很多方案还是两段式的,只不过把其中的规控改为了用神经网络来实现,整体难度相对低一些。但也会带来一些新的问题,因为经过感知过滤以后,有些信息会丢失,如此一来规控提取的信息会相对有限。
而真正的端到端,像特斯拉做的,输入的是视频、图像,输出的是规控轨迹,这个难度高很多,因为前面的信息源非常复杂,但要输出的是非常精准的控制信息,这其中对技术和网络的要求都非常高,天花板也更高,因为中间没有人为分拆,不会损失信息。
Q周晓莺:就是虽然都叫端到端,中间还是有非常多的差异,回到大模型也一样,这两年特别火,包括汽车行业整车厂和技术公司也都在推自己的大模型,您怎么看待这个现象?
王晓刚:我觉得这是一个必然过程,大模型出现以后,大家都想去尝试。但未来一定会收敛,因为这对资源的投入要求非常高,并且需要不断追踪技术的发展。今天大模型的发展不是已经到了天花板,而是还处在一个快速发展的阶段,对投入要求非常高。
刚才提到算力,我们去年已经实现了1000P算力,等效于把3000块A100芯片连在一起进行大模型网络训练。今年我们的目标是实现3000P算力,等效于1万块A100连成一个集群用来训练网络,明年进一步达到10000P算力,整个基础设施是不断演进的。
但我们看今天很多做大模型的企业,可能只有100P或者几百P的算力,其实不具备这种原生态大模型能力,而是拿一些开源模型在上面做修改。这样一来,如果想做一些根本性的创新很难,而且这是一个持续投入的过程。
我们看过去十年人工智能的发展,2012年神经网络第一次在视觉里面取得比较大的突破,之后从AlexNet到AlphaGO,再到今天的GPT-4,算力需求已经增长了1000万倍,目前还在不断增长。在这种情况下,前面说既是短跑又是长跑,如果从长跑角度来看,不太可能每家车厂都构建自己的大模型,更多可能是找到这方面的合作伙伴,而且这个合作伙伴也需要在这条路上持续投入,持续创新,我觉得这恰恰是商汤绝影的机会。
在AGI领域,商汤本身就有很深的积累,同时我们也是非常坚定地持续往前走。未来,我相信整车厂能够意识到基础设施所带来的价值,到时候我们怎么能够更好地深入合作,什么是他们要做的,什么由我们来做,会慢慢清晰。
周晓莺:大家需要一个时间学习新东西,并且在定位上慢慢把边界区隔开,而不是什么都自己做。
王晓刚:尤其大模型发展很快,可能你上一代还没有100%达到别人的水平,别人下一个版本又出来了。
“整车厂迈向通用人工智能,商汤绝影希望成为核心供应商”
Q周晓莺:刚刚提到算力,原来燃油车时代是靠马力驱动,现在智能车时代靠算力驱动,咱们有预测过智能汽车变革对算力的需求上限吗?
王晓刚:今天还没有看到上限,我们知道人脑的神经元数量约为860亿个,如果把每个神经元的突触算上,相当于百万亿规模,今天还远远没有达到上限。所以可以看到,目前对算力的需求还在持续增加。
不过我觉得未来可能是“云端模型+离线模型+终端模型”的融合状态,汽车领域有望出现一个超级强的大模型,类似于今天的GPT-4,然后派生出若干个能部署在终端的小模型。在此过程中,随着算力提升,终端小模型的能力将逐渐增强。
Q周晓莺:商汤大装置现在算力是12000P,后面的算力规划能不能给我们讲讲?
王晓刚:今年底计划达到16000P,但这里面的规划其实滞后于需求。我们最早规划大装置的时候,算力是5000P,但实际需求很快就超过了当时的计划。所以说这个领域还是一个高速发展的状态,但有一点比较肯定,就是商汤作为人工智能平台性企业,在这些方面一定要抓住制高点。
Q周晓莺:过去两年我们也看到很多车企在组建智算中心,您觉得这个现象会持续吗?
王晓刚:组建智算中心投入非常大,还可能出现的一种情况是,智算中心刚建好发现规模不够用了。所以对算力的规划一定要留有冗余,用于弹性调度,这样的规模化才是最经济的。如果说每家公司都具备100P或者200P的算力,将来可能不仅不能解决自身问题,还会产生比较高的维护成本,从这个角度并不是一个经济的选择,可能选择合作更合适。
其实商汤原本也在各地组建了比较多小的算力中心,后来才统一汇聚到临港,实现像刚才说的万卡集群大算力,大家的任务可以充分调配我们的算力,达到一个最优使用情况。不然的话,想扩充算力规模的时候扩不出去,另外使用效率也不是很高。
周晓莺:它更像是一种新基建。
王晓刚:而且技术难度很高,当我们把10000块GPU连在一起的时候,中间只要一块GPU出现问题,或者硬件之间的连接出问题,都会对整个系统带来影响。现在商汤可以进行万卡互联的超大集群训练,且能够长时间稳定运行,一旦出现问题,异常检测速度已达到分钟级,能实现快速诊断并及时修复。这些都是我们这么多年训练AI大模型计算过程中积累的经验,如果每家公司自己去做的话,是不划算的。
Q周晓莺:人工智能某种程度属于科技非常顶端的技术,不仅研发投入大,回报周期也很长。而现在汽车行业竞争十分激烈,企业会面临很多选择,比如究竟要市场份额还是利润,对于商汤绝影来说,怎么看待在汽车产业商业闭环走的更久,能够更好盈利这件事情?
王晓刚:我们也还在探索当中,在汽车行业绝影非常年轻,还有很多东西需要学习。我们也从汽车行业引进了大量相关人才,一方面推进产品落地,加深跟客户的合作关系,另一方面对下一代技术提前布局。因为技术迭代非常快,可能这一代技术或产品抢到了市场份额,但又失去了下一代技术更新迭代的机会。所以我们看绝影的商业价值,也是放在商汤大背景下面,希望通过比较好的技术持续引领市场,而不是停留在某一个阶段。
Q周晓莺:从您的视野来看,现在中国智能汽车的发展和应用,包括大模型上车,您觉得在全球市场大概处于什么样的生态位?
王晓刚:发展肯定是非常快的,当然如果说美国的话,特斯拉肯定是行业标杆。除此之外我觉得国内过去几年的积累包括迭代速度,都体现出了比较强的竞争力。所以将来把我们这些智能化技术推向全球,也是很重要的一个点。
Q周晓莺:如果往后看三年,您对商汤绝影的发展有何期待?
王晓刚:从自身定位来说,面向未来AGI发展目标,我们希望能够助力整车厂和合作伙伴,去实现我们新的定位和价值。
本身绝影就是一匹千里马,需要能够跑的比较远,我觉得这是时代给了我们非常远大的目标,和充满想象力的空间。同时我们还要跟整车厂紧密合作,扎扎实实做好产品落地。今天市场竞争仍然非常激烈,我们希望能够做好产品交付,同时在行业里面持续引领创新。
希望三年以后绝影能够成为AGI时代整车厂走向通用人工智能非常重要的核心技术伙伴,非常核心的供应商。如果能够实现这点的话,我会非常高兴,我想商汤也非常高兴实现我们的目标。
周晓莺:我们也非常期待商汤绝影在接下来的发展中,像千里马一样跑得越来越快。
彩蛋
Q周晓莺:您小时候就是学霸,中科大的少年班,后来从学术到产业会有不适应吗?
王晓刚:各种调整吧,我刚来公司的时候,汤老师说你只要管好技术就行,不需要负责管理。但后来其实发现,如果不懂技术也管不了人,而不懂管理,也形成不了落地的结果,因为还是结果为导向。
我刚到商汤的时候并不管业务,后来需要负责一些具体业务,商务收入指标,各方面要求还比较高。但我觉得这也是商汤的选择,公司发展需要你变成一个什么样的人,能够随着发展快速做出调整。
另一方面,这个转变对我来说还是非常感恩,我非常珍惜这个转变。因为人工智能发展非常快,待在学校里很多事情做不了,要资源实现AI落地。十几年前我们做AI研究都是停留论文上,2004年我们发表了五篇CVPR,那时候中国很少有人能做到。但今天不一样,论文很多,甚至都用ChatGPT来写论文。
周晓莺:生产工具不一样。
王晓刚:但要形成影响力的话,在产业里面把AI落地是非常重要的点。从培养人才来说,以前我就带十几个博士生,每年有几个人毕业。但到了商汤,我们这几年培养了几千人。
对人才的培养,底层其实还是要实现技术突破,让技术产生社会价值,同时也能培养人,底层逻辑是一样的。但这里面实现的方式不一样,从原来的学术背景到今天的产业界,风格各方面都不一样。
但这里面我也能体会到自己的优势,比如说管理,他们之前给我上了很多管理课,最终我发现精髓就两个字:信任。这个和我以前做老师,背后的核心逻辑是相通的,可能表面看着有很多不一样,但做事、管理不可避免会带着原来的背景,也会做出不一样的事情。
其实不光是我,汤老师以前做这些事情,能够实现超出行业引领性的东西,因为他原来也不是一个企业家。有时候思考维度、追求的东西不一样,反而能够做出一些引领性的东西出来。
Q周晓莺:您觉得在自己的发展经历当中,什么对您影响特别大?
王晓刚:那肯定是汤老师对我影响最大,我2001年本科毕业,那时连CVPR是什么都不知道,国外那些高水平研究、论文都没见过。到后面他创立商汤,要做公司,我说我们做研究挺好的,为什么要做公司,他一步一步把我们的人生轨迹改变了。
周晓莺:遇到一个好的老师,人生的引路人很重要。
王晓刚:2001年的时候,相当于中国AI研究从中国走向世界,原来就是自己搞,都不知道高水平研究是什么。2014年就是AI落地了,从写论文到产业落地,也是一个划时代变化。再到2021年汤老师做国家实验室,AI变成了国家的一个战略选择,一个责任。所以说每一步都有深刻意义,也是在那个时代背景下发生的事。
Q周晓莺:您对现在年轻人有什么好的建议吗?
王晓刚:最早汤老师给我们的要求就是要坚持原创、坚持创新,做别人没有做过、不敢想的事情,这在今天可能特别缺少。为什么会出现“百模大战”?ChatGPT出现之前没有“百模大战”,因为之前大家不知道能不能做出来,所以就不投入。一旦做出来了,大家觉得是确定的东西,都开始做同样的事情,重复消耗了很多资源。所以能够跳出这些思维,勇于担当去做一些新东西,并且能够坚持。