加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • 01、Web Agent自动化解决方案
    • 02、北大Open Sora生成能力增强
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

AI技术前瞻:下一个AI风口在何处?

06/24 12:00
1087
阅读需 7 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

分享嘉宾|宁鲲鹏 元空AI技术联合创始人

在过去一年里,AI话题热度持续升温,在大模型百家争鸣的今天,涌现出分门别类的人工智能体,谁会是下一个风口?本文从“ Web Agent 自动化解决方案”和“北大Open Sora生成能力增强”为各位带来AI技术前瞻。

 

01、Web Agent自动化解决方案

我们希望让 AI 成为真正的生产力,利用 Agent 帮我们干活,幻想中最完美的画面,就是流程中有 Master Agent,发起任意需求,他会去帮你生成一系列工作流。比如投后诊断、小红书达人分析、电商精品分析,自动生成工作流,在云主机上进行实时执行,帮助相应工作的完成,同时将结果、分析结论、数据报表,实时同步,让使用者感受到自己真正拥有了 AI agent 团队。落实到实际营销场景中,我们完成了从品牌的用户洞察、舆情监控、内容制作、达人营销、账号矩阵自动化运营、智能客服等一整套全链路AI产品场景矩阵。

从技术层面来看,具体会涉及到LAM,该概念最早在 Rabbit 中提到。通过描述任务,比如:分析精致贵妇的生活KOL,LAM具备两个功能。1、自我规划能力2、自我反省能力。针对任务,做相应的思考与规划。去小红书蒲公英上搜索相应的关键词,找到相应博主,分析对应的帖子内容与文案,最后产生report,以邮件的方式反馈。一步步的流程形成工作流,只要描述内容,让多模态大模型生成工作流,后面只需要安排他干活就行了,发布指令就能完成系列工作。

举一个简单版的学术上的例子,我想在学术网页上查找学者的引用量,首先发起任务,“帮我查找 Hinton 的引用量是多少”。Agent会自动思考,模拟人的行为把学者名字输入到搜索框里,完成相应的点击操作。这个模式跟自动驾驶类似,人可以从中间介入,他会综合思考两个东西,人类给的提示与 Agent 自己的思考,得出结论。最终会形成对应的工作流沉淀下来,相当于已经训练好了一个员工,后续只需执行,他就会按照操作帮你完成接下来的工作。具体包含两个内容1、通过 task 驱动,只需要描述task,它可以自动完成且形成工作流,下一次也可以接着用。2、用户可随时介入,觉得回答不准或不达意,可实时沟通调整,修改相应的工作流。技术细节方面,我们发现 AI 能完全理解你的需求,也知道该如何执行。难点在于对于常人来说是一个非常简单的问题,直接把需求输入到搜索框里面就可以了,但 AI 怎么转换成对应的指令且准确地输入,这是比较困难的。

第一,首先有一个大屏幕做全局扫描,可理解成分割,把网页的 HTML 代码对应的叶子节点拿出来,搜索框、logo、图片都是叶子节点, html 是树形结构,我们只需要最下面一批就足够。第二,图像分割之后我们可以知道所有的东西。第三,剩下事情就变成了召回和 ranking 的过程,任务跟什么相关,只需要进行排序,再去输入指令就够了。

02、北大Open Sora生成能力增强

目前非常火的项目视频生成( open Sora )。Open AI很早发布了Sora,虽然没有对外开放,但效果非常炸裂惊艳。我们团队希望用开源的力量复现出Sora,成为视觉版LLaMA。因为算力有限,希望以开源的方式让更多的算力进来,让Sora能力越来越强,这是团队的初衷。

具体的实现方式包含三个部分。1、压缩和解压过程。2、 Diffusion 。3、Condition 线路。现在的 AI 技术,包括 GPT、视频生成、文生图。技术都是大道至简的感觉,对技术方案上较为统一。拼的更多是数据上的沉淀,细节训练、修改。

比较标准的方案具体有三部分,第一部分是视频的压缩和解压,形象点来说在电脑上把所有视频压缩成zip 包,然后再进行解压。中间部分可以理解成 zip 包,只不过由编码方式来进编码,VAE是经典的模型,把原始视频输进去,能达到一分钟 720P 的重建Demo,压缩率目前可达到 256 倍,个人也认为,只要把信息压缩得足够多,生成效果会越好。这并不是用文本生成视频,这是重构,意味着把原视频输进去,通过压缩再解压,是否能还原。

DiT 在图文生图领域很常见,包括 Midjourney 与其他的文生图都是通过这种该方法,Diffusion也是做视频生成的常用方案。它具体如上图所示,框架内训练了一个压缩器和解压器,可以理解成就把视频打包成zip,可将他看做向量,然后这个向量里面我们会给它不断地加随机噪声,直到变成完全随机噪声,这是整体输入的过程。Diffusion 可起到去噪的效果,能够还原之前的视频,同时把 Condition 加进去,按照这些条件进行生成,都是一样的道理。Condition 包括草图、深度、关键点,只按照规定的几个关键点去做相应的生成,但文本还是目前主流方式。最后提出一个问题供大家思考讨论:文生视频这个事情离商业化比较遥远,大家会不会愿意为一个“闲聊”的玩具买单?

以上就是本次分享,如需获取专家完整版视频实录和课件可扫码领取。

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
ATXMEGA128A3U-AUR 1 Microchip Technology Inc IC MCU 8BIT 128KB FLASH 64TQFP
$5.3 查看
MK64FN1M0VLL12R 1 NXP Semiconductors FLASH, 120MHz, RISC MICROCONTROLLER, PQFP100
暂无数据 查看
ATXMEGA32A4U-AU 1 Microchip Technology Inc IC MCU 8BIT 32KB FLASH 44TQFP

ECAD模型

下载ECAD模型
$3.78 查看

相关推荐

电子产业图谱

爱分析是一家专注数字化市场的研究咨询机构,成立于中国数字化兴起之时,致力于成为决策者最值得信任的数字化智囊。凭借对新兴技术和应用的系统研究,对行业和场景的深刻洞见,爱分析为数字化大潮中的企业用户、厂商和投资机构,提供专业、客观、可靠的第三方研究与咨询服务,助力决策者洞察数字化趋势,拥抱数字化机会,引领中国企业数字化转型升级。