Matt Shumer宣布推出Reflection 70B,并称其为世界顶级开源模型。它在MMLU、MATH、IFEval、GSM8K等测试中横扫全场,各项基准测试成绩均超过GPT-4o,还战胜了405B的Llama 3.1。PerfXCloud(澎峰云)大模型开发与服务平台第一时间支持并在平台完成上线,赶快来体验吧!
Reflection 70B
- 卓越的基准测试性能:Reflection 70B已在多个基准测试中经过严格测试,包括MMLU和HumanEval。
测试结果表明,Reflection 70B性能大幅超越Llama模型,并与当前顶尖LLM相抗衡。具体来说,Reflection 70B在与顶级闭源模型(Claude 3.5 Sonnet,GPT-4o)比较中,表现出色。在MMLU、MATH、IFEval、GSM8K中测试基准上,都击败了GPT-4o。
更值得一提的是,仅凭70B参数彻底击败405B的Llama 3.1,差距显而易见。
- 「错误识别」和「错误纠正」能力:Reflection 70B运用Reflection-Tuning的技术,使得模型能够在最终确定回复之前,先检测自身推理的错误并纠正。Reflection 70B引入了几个用于推理和纠错的特殊token,使用户能够以更结构化的方式与模型交互。在推理过程中,模型会在特殊标签内输出其推理,以便在检测到错误时进行实时纠正。
- 增强的CoT(思维链)效力:Reflection 70B将规划单独作为一个步骤,利用CoT缜密思考的过程,使得最终输出结果更加简洁明了。这使得该模型在执行高精确度要求的任务时表现出色,因为它将推理分成不同步骤以提高精确度。
PerfXCloud
PerfXCloud是澎峰科技为开发者和企业量身打造的AI开发和部署平台。它专注于满足大模型的微调和推理需求,为用户提供极致便捷的一键部署体验。
PerfXCloud为算力中心提供大模型AI科学与工程计算的整体运营解决方案,助力算力中心升级成为“AI超级工厂”。
模型广场图片
目前,PerfXCloud(澎峰云)已上线Reflection 70B、Yi-Coder 1.5B、Yi-Coder 9B、Stable-diffusion、ChatTTS以及面壁小钢炮MiniCPM系列等各主流大模型,并面向基石用户免费开放llama3.1 405B的API调用接口。赶快注册申请成为基石用户来体验吧!