重磅出炉！《Omdia 中国商用大模型竞争力排名报告》

要点中国是开发GenAI最为积极的市场。据 Omdia 估算，截至 2024 年 1 月，中国厂商开发的基础模型总数已超过 230 个。客户可供选择的模型种类繁多，能力属性各不相同。人工智能工程师和企业常常发现，要为自己的用例确定最佳基础模型是一项挑战。要全面的了解、比较和识别合适的基础模型变得非常困难，但是愈加无可避免。

因此，通过这份《中国商用大模型厂商竞争力排名报告》，Omdia旨在为中国商业基础模型基准测试提供一个全面客观的方法，帮助企业用户了解市场，选择理想的解决方案和厂商。本排名是最佳厂商之间的竞争，所列出的 12 家厂商都是中国最好的基础模型开发商。所有这些厂商都拥有强大的人工智能工程能力，是 GenAI 商业部署的坚实合作伙伴。

Omdia 主要用两个维度来评测厂商，即模型能力和执行能力。此次评测侧重于模型对一般知识和特定领域知识的语言处理能力。本排名中评估的产品是基础模型的语言能力水平和知识深度，以及基于这些基础模型的相应聊天机器人。

模型能力的评测主要借助来自主要研究和独立第三方基准的数据，重点关注基础模型以准确、可预测和安全的方式执行通用任务和特定领域任务的能力。

基础模型能力、一致性和安全性评估完全基于著名的学术研究论文和第三方评估。这种方法可确保评估过程不受参与者的偏见和影响：用任务执行能力：主要用CLiB、FoundaBench、Open LLM Leaderboard 2、OpenCompass 、SuperCLUE、LHMKE、AC-EVAL 、C3Bench和 Conceptmath的评测结果。同时也会考虑国际基准，如 MMLU、HellaSwag 和 LMSYS 等。对齐：主要用AlignBench的评测结果。

安全性：主要用CHiSafetyBench、CRiskEval、MLLMGuard 和 S-Eval。特定领域任务执行能力和可信度：主要用CFLUE、 SuperCLUE-Fin 、CMB 、CS-Bench 和NewsBench的评测结果，同时也会考虑国际基准，如 HumanEval 和 MBPP。多样性：指基础模型除上述评测外，还能覆盖多种能力。

执行力的评测主要基于Omdia自身定性的研究来评测以下七点：