当前,借助云服务商调用大模型,已成为众多开发者轻量开发的重要途径。然而,面对市场上众多的大模型服务供应商,开发者如何科学地挑选出符合自身需求的厂商?在日前举办的GOSIM2025大会上,清华大学携手中国软件评测中心联合发布了《2025大模型服务性能排行榜》。

模型即服务(MaaS,Model as a Service)凭借低成本、低门槛、易上手等优势,正快速普及。从企业开发者、个人开发者到科研人员乃至普通消费者,都能借助MaaS服务来提升业务效率、加速应用开发。

但随着供应商的大量涌现,用户在选择时却面临诸多难题:不同供应商在延迟、吞吐量、可靠性、价格、上下文长度以及最大可输出长度等关键性能指标上存在显著差异,这给用户的选择带来了困扰。例如,同样是部署DeepSeek,不同平台之间在价格和性能上就会有明显差别。

为了确保评测数据的全面性和真实性,本次评测涵盖了20余家大模型服务商提供的数百个模型服务,包括阿里云百炼、并行科技、硅基流动、火山方舟等平台,以及DeepSeek-R1-0528、DeepSeek-V3.1、Kimi-K2-Instruct、Qwen3-235B-A22B和Qwen3-32B等核心模型。评测团队进行了长周期、高频率、多时段的测试,最终形成了包含十个性能榜单和一个模型丰富度榜单的综合评测结果。

据悉,本次榜单的评测工具和数据展示平台是清华系人工智能企业清程极智打造的—AI Ping(aiping.cn)。AI Ping是一个面向大模型使用者的大模型服务评测与信息汇总平台,旨在为开发者提供大模型服务商的多维度数据参考,助力提升AI产品开发效率与服务质量。

目前,该平台已接入20多家厂商的230多项模型服务,覆盖主流厂商与模型。基于7×24小时持续监测,AI Ping能够洞察不同时段的性能波动,反映不同平台服务的长期可靠性。此外,平台还提供了全面聚合和指标齐全的服务,用户可根据自身需求,依据吞吐量、延迟、可靠性、价格、上下文长度、最大可输出长度等众多指标,筛选出符合自身需求的大模型服务。

据介绍,AI Ping平台下一步将持续拓展评测范围,涵盖更多模态模型,如图片、视频和语音等。同时,平台还将增加更多测试服务器地点,覆盖华东、华南和西南等地区,并引入更多评测指标,如服务可靠性、性能稳定性、波动率等。

免责声明:本站为个人博客,博客所发布的一切修改补丁、注册机和注册信息及软件的文章仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关,您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。 访问和下载本站内容,说明您已同意上述条款。本站为非盈利性站点,VIP功能仅仅作为用户喜欢本站捐赠打赏功能,本站不贩卖软件,所有内容不作为商业行为。