加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

Meta Llama 3.1模型炸裂发布,英特尔端到端AI产品组合已实现优化!

07/25 14:24
2334
阅读需 7 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

继今年4月推出Llama 3之后,Meta昨日正式发布了功能更强大的AI大模型Llama 3.1。Llama 3.1涵盖多个不同规模及功能的全新模型,其中包括目前可获取的、最大的开放基础模型—— Llama 3.1 405B(4050亿参数)。

英特尔宣布其横跨数据中心、边缘以及客户端的AI产品组合已支持上述最新模型,并通过开放生态系统软件实现针对性优化,涵盖PyTorch及英特尔 PyTorch扩展包(Intel Extension for PyTorch)、DeepSpeed、Hugging Face Optimum库和vLLM等。此外,企业AI开放平台(OPEA)亦为这些模型提供支持,OPEA这一全新的开放平台项目是由LF AI & Data基金会发起,旨在聚合生态之力,推动创新,构建开放、多供应商的、强大且可组合的生成式AI解决方案。

Llama 3.1多语言大模型组合包含了80亿参数、700亿参数以及4050亿参数(文本输入/文本输出)预训练及指令调整的生成式AI模型。其每个模型均支持128k长文本和八种不同的语言。其中,4050亿参数的Llama 3.1模型在基本常识、可操作性、数学、工具使用和多语言翻译方面具有行业领先的能力。同时,该模型亦帮助开发者社区解锁诸如合成数据生成和模型蒸馏(Model Distillation)等全新功能。

为了推动“让AI无处不在”的愿景,英特尔在打造AI软件生态方面持续投入,并为行业内一系列全新AI模型提供针对英特尔AI硬件的软件优化。以下是英特尔部分AI产品组合运行Llama 3.1模型的初步性能结果,包括英特尔至强处理器、搭载英特尔酷睿 Ultra处理器和英特尔锐炫显卡的AI PC产品。

运行Llama 3.1时展现出卓越性能

作为通用计算的基石,英特尔至强处理器为全球用户提供强大算力,现已通过各大云服务商面市。英特尔至强处理器在其每个核心中均内置了英特尔高级矩阵扩展(AMX)AI引擎,可将AI性能提升至新水平。根据基准测试,在第五代英特尔至强平台上以1K token输入和128 token输出运行80亿参数的Llama 3.1模型,可以达到每秒176 token的吞吐量,同时保持下一个token延迟小于50毫秒。图1展示了运行支持128k长文本的80亿参数Llama 3.1模型时,下一个token延迟可低于100毫秒。

图1. 基于第五代英特尔至强可扩展处理器的Llama 3.1推理延迟

由英特尔酷睿Ultra处理器和英特尔锐炫显卡驱动的AI PC可为客户端和边缘提供卓越的设备端AI推理能力。凭借诸如英特尔酷睿平台上的NPU,以及锐炫显卡上英特尔Xe Matrix Extensions加速等专用的AI硬件,在AI PC上进行轻量级微调和应用定制比以往更加容易。对于本地研发,PyTorch及英特尔PyTorch扩展包等开放生态系统框架可帮助加速。而对于应用部署,用户则可使用英特尔OpenVINO工具包在AI PC上进行高效的模型部署和推理。AI工作负载可无缝部署于CPU、GPU以及NPU上,同时实现性能优化。

图2. 在配备内置英特尔锐炫显卡的英特尔酷睿Ultra 7 165H AI PC上,Llama 3.1推理的下一个token延迟

图3. 在使用英特尔锐炫A770 16GB限量版显卡的AI PC上,Llama 3.1推理的下一个token延迟

利用Llama 3.1和OPEA部署企业RAG解决方案

英特尔AI平台和解决方案能够有助于企业部署AI RAG。作为OPEA的发起成员之一,英特尔正帮助引领行业为企业AI打造开放的生态系统,同时,OPEA亦助力Llama 3.1模型实现性能优化。

基于可组合且可配置的多方合作组件,OPEA为企业提供开源、标准化、模块化以及异构的RAG流水线(pipeline)。此次测试中,微服务部署于OPEA蓝图的每一支细分领域中,包括防护(Guardrail)、嵌入(Embedding)、大模型、数据提取及检索。端到端RAG流水线通过Llama 3.1进行大模型的推理及防护,使用BAAI/bge-base-en-v1.5模型进行嵌入,基于Redis向量数据库,并通过Kubernetes(K8s)系统进行编排。

图4:基于Llama 3.1的端到端RAG流水线,由英特尔Gaudi 2加速器和至强处理器提供支持

目前,英特尔AI PC及数据中心AI产品组合和解决方案已面向全新Llama 3.1模型实现优化,OPEA亦在基于英特尔至强等产品上全面启用。未来,英特尔将持续投入软件优化,支持更多全新的模型与用例。

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
MBR0540-TP 1 Micro Commercial Components Rectifier Diode, Schottky, 1 Element, 0.5A, 40V V(RRM), Silicon, ROHS COMPLIANT, PLASTIC PACKAGE-2
$0.2 查看
MMBT3904,215 1 Nexperia MMBT3904 - 40 V, 200 mA NPN switching transistor@en-us TO-236 3-Pin

ECAD模型

下载ECAD模型
$0.11 查看
1054500101 1 Molex Telecom and Datacom Connector, 24 Contact(s), Female, Right Angle, Surface Mount Terminal, Receptacle,

ECAD模型

下载ECAD模型
$2.21 查看

相关推荐

电子产业图谱