【实验室】真实测评第三弹!深度AI搜索评测,实用性到底几何? 人工智能事业部 中国软件评测中心 2025年03月07日 16:29 北京
发布时间:2025年03月07日 09:58 来源:

近期,搭载 RAG(Retrieval-Augmented Generation,检索增强生成)技术的人工智能搜索平台呈蓬勃发展之势,广泛渗透至大众生活之中。RAG 的核心在于系统性整合信息检索(Retrieval)与生成模型(Generation),通过检索模块与大模型生成能力的协同运作,显著提升了搜索结果的精准度实时性。同时,该技术有效减轻了传统大模型中频发的"幻觉"问题(模型生成表面合理但实质上与客观事实不符的信息)。为系统、全面地衡量新型 AI 搜索在实际应用场景中的效能表现,中国软件评测中心人工智能部针对当前主流的多个AI搜索平台开展测试。测试范畴涵盖核心性能指标用户体验性指标两大维度,旨在从多维度、深层次剖析新型 AI 搜索的应用价值与发展潜力。核心性能维度采用准确性、时效性、多跳推理、模糊搜索及多语言处理等指标衡量检索数据的精确性和全面性。用户体验性从响应速度及功能完备性分析用户体验感。

核心性能指标:检索数据的精确性与全面性

(一)准确性:测试搜索结果与用户意图的吻合度

基于 AI 平台在信息检索与生成能力协同作用,评估返回结果与用户需求的匹配精度。测试数据表明,各主流 AI 平台在准确性方面的表现较为均衡,从实际用户体验来看,实际用户体验中未发现显著不达标现象。在众多平台中,天工 AI(深度思考存在次数限制)、秘塔 AI以及MiniMax平台的准确性表现尤为突出,处于领先地位。在查全率维度,MiniMax通义千问以及Kimi表现良好,均实现了 100% 的查全率,充分展现了其全面获取相关信息的能力。

表1:准确率数据表(白星代表0.5颗星)

其中,腾讯元宝、百度AI搜索、秘塔AI、MiniMax、天工AI以及知乎直答已经确认接入了DeepSeek-R1的深度思考进行检索辅助。

(二)时效性:评估AI搜索平台的信息更新速度与实时响应能力

时效性的核心在于判断平台能否快速抓取并展示最新数据与信息,从而满足用户对于实时资讯的迫切需求。本次测试专门针对当日信息进行检索评估。测试结果表明,仅腾讯元宝、文言一心Kimi三家平台成功检索当日最新信息,且所获信息准确无误,时效性表现优异。相比之下,其他平台在此维度表现不佳,无法有效获取并反馈当日最新信息,难以满足用户实时资讯需求。

(三)多跳推理:剖析平台处理复杂问题的能力,评估其智能水平

多跳推理主要考察平台能否通过多步逻辑推理过程准确得出结论。在本次测试中,天工AI以及文言一心脱颖而出,表现最为亮眼,在多次对话场景下,这两款平台在信息准确率与信息完整度方面近乎完美,凭借出色表现综合排名位居榜首。Kimi、通义千问、MiniMax等平台信息准确度存在偏差,多跳推理能力有待提升,需进一步优化以应对复杂问题。百度AI搜索在分步骤跨年度搜索中,单独年度均有答案,但年度段合并搜索时出现单年份数据缺失现象。(注:DeepSeek平台在多轮测试的过程中多次出现服务器繁忙的现象,测试无法顺利进行)

表2:多跳推理数据表

(四)模糊搜索:评估平台处理模糊关键词的检索能力

在数据检索过程中,允许用户使用不精确或部分匹配的关键词来查找相关信息的技术手段,提高检索效率并优化用户体验。本次模糊搜索能力评测中,MiniMaxKimi表现欠佳,未能准确定位高度相关的答案,结果偏差显著,最终评分不理想。腾讯元宝、文心一言以及百度 AI 搜索在本轮评测中表现卓越,均斩获满分佳绩,展现出在模糊搜索领域的强大实力与精准度。

表3:模糊搜索数据表

(五)多语言处理:评估平台跨语言检索的支持程度与精确性

在本次测评中,针对准确性指标测评问题进行了英文问答,各平台的表现排名出现了明显变化(与表1 准确率数据表相比)。天工 AI、秘塔 AI 以及 MiniMax表现卓越。在英文问答环节,秘塔 AI延续了良好表现,同时文心一言知乎直答也展现出卓越的多语言处理能力,成绩突出。DeepSeek、百度 AI 搜索、通义千问在英文版问答与中文版问答之间存在显著差距,综合评分较低,这些平台在多语言处理的一致性和稳定性方面亟待提升,以更好地适应全球用户多样化的语言搜索需求。

表4:多语言处理数据表

用户体验性指标:响应效率与功能丰富度

(一)平台接收用户请求至响应完成的时间,为服务质量关键指标。快速响应能提升用户体验流畅性与满意度。

本次响应速度测评中,豆包与MiniMax表现突出,处理用户请求仅需十余秒,充分展示了其高效架构与强大计算能力。DeepSeek、知乎直答及百度AI搜索的响应时间为豆包和MiniMax的十余倍。这一显著差距反映了不同平台在服务器性能、算法优化及资源调度方面的巨大差异,表明部分平台亟需解决响应速度问题。

表5:响应速度排行榜(单位:秒)

(二)功能完备性:评估平台功能的丰富度与实用性,包括精准检索、个性化推荐、智能总结等,考察其满足用户多样化需求的能力

文档上传、图片上传为多数平台所具备的功能,本次测评中,豆包平台功能最为丰富,除具备基础功能外,还支持上传文档、截图问答、图片上传及语音输入,极大提升了用户交互的便捷性与信息获取效率。秘塔AI的文件导出功能亮眼,可以满足用户在特定场景下需求。Kimi可自主设置常用语,优化了用户交互流程,增强了使用体验。

相较而言,在联网搜索时,DeepSeek和腾讯元宝功能明显欠缺,仅提供基本问答窗口,缺少特色功能,难以满足用户多样需求,与领先平台差距明显。在当前数字环境中,功能完备性直接影响平台竞争力与用户留存率。

表6:功能完备性数据表

总结

本次评测旨在为用户提供科学、精确的参考依据,协助筛选最适合其需求的AI搜索平台。未来AI搜索平台将向更高层次智能化、精准化发展,缩短响应时间,提供更丰富准确的信息,革新用户体验,精准对接市场多元需求。

业务咨询

010-6738888/010-6738999