实测国产大模型讯飞星火V4.0：基座能力“打底”、个人空间“探高”

人阅读 2024-07-03 22:09:53讯飞星火

国产大模型的进步速度正在被刷新。

今年 1 月，讯飞星火 V3.5 发布时，整体水平已经十分接近 GPT-4 Turbo 且多方测评表现优秀，仅半年后，讯飞星火 V4.0 就完成了从接近到超越。

6 月 27 日，科大讯飞在北京发布讯飞星火大模型 V4.0 及相关落地应用，并宣布七大核心能力全面升级，整体超越 GPT-4 Turbo。《新立场》照例对其进行了从底座能力到产品应用的全方位测评。

先看决定了 AI 功能范围和应用深度的底座能力。我们参考了发布会公示的外部权威测试集测试结果。在国内外 12 项大模型主流测试集中，讯飞星火有 8 个测试集横向比较排名第一，超越 GPT-4 Turbo、Claude 3 Opus 等国际大模型，综合表现堪称国内最强。

以表现最突出的中文语言理解为例，我们从历年公务员考试行测题库中选取了一道“言语理解与表达”真题。

海军舰艇中的军辅船是大洋上的“粮草官”，虽不具备强大作战能力，却直接关系着远洋保障。但是，目前中国仅有四艘综合补给舰在海军服役，维持日益_____的远洋训练、护航和演习，显得有些______。

依次填入划横线部分最恰当的一项是：A.漫长；顾此失彼B.复杂；无能为力C.繁重；捉襟见肘D.艰苦；苦不堪言

参考答案是 “C”，讯飞星火给出了完整的分析逻辑和正确答案。底座能力够强，给产品设计提供了更大的发挥空间。

一组最新数据显示，自去年 9 月全面开放以来，讯飞星火 App 在安卓公开市场累计下载量达 1.31 亿次，在国内工具类通用大模型 App 中排名第一。今年 618 期间，星火大模型加持的智能硬件销量同比增长超 70%，月均使用次数超 4000 万。

这意味着作为 C 端门面的讯飞星火 App 已初步累积起了市场认可与用户心智，由此，再看本次发布会的重头戏——产品打磨的最新进度，《新立场》认为，“个性化”是理解讯飞星火本轮产品迭代的关键词。

围绕工作、学习和健康生活等用户所关注的具体场景，新上线的“个人空间”在千篇一律的同质化生成中，提炼出了个人数据的价值，消费者对大模型底座能力的感知因此更加具象化。

大模型的底座能力提升拔高上限、个人空间打造强化细节，进而能在办公、教育等应用落地中有更为进阶的表现，二者的逻辑关联是顺承且自然的。

01、从同质化生成中，提炼个性化价值

从市场表现来看，用户对 AIGC 的热情颇高。QuestMobile 数据显示，2024 年 1 月，TOP10 AIGC App 聚合活跃用户规模达 5376 万，同比增长 3725%，且 TOP10 App 去重用户规模同比增长 37 倍。

需求高涨的同时，同质化问题隐现。大厂都在押注大模型，Top 10 里面除了讯飞星火，百度的文心一言、抖音的豆包、昆仑万维的天工，都在过去一年里经历了月活迅速攀升，但其应用基本都聚焦在文本和图像信息模态生成。不夸张的说，打开不同的 App 交互页面，呈现出是“千模一面”的景象。

各家生成内容差不多、且不够实用的情况下，大模型 C 端应用在消费者侧有丧失辨识度的风险，解题方法是仍然回到 ToC 产品设计逻辑中，以“个人”用户的需求为出发点，从做通用助手到做个人助手。这也是为什么《新立场》认为，“个性化”是本次讯飞星火迭代的底层逻辑。

成为“个人助手” 的前提，是充分“了解”个人。如科大讯飞董事长刘庆峰在发布会上表示，AI 助手要能够基于用户画像进行个性化表达，基于使用历史进行记忆学习，基于个人资料进行增强学习。所以为用户数据“建库”，以个人数据训练个人模型，是 AI 助手工作的第一步，也是生成连贯和专属内容的前提。

改版后的讯飞星火 App 及桌面版中，用户可以在【个人空间】上传自己的工作、学习、生活、健康等各类资料，形成个人专属的知识库。同时在个人设置界面可以自行调适“AI 人设”，AI 也会根据过往对话和历史动态让生成内容与个人风格靠近，以此跳脱千篇一律的生成。

此外，App 及桌面版的【个人中心】入口则是为大模型提供的各项实用功能做一个总控台，从中可以触达人设标签、日程管理、信息订阅、创建发音人等各类个性化和趣味化的服务。此处需要特别提到【个人中心】可以直达的【智能体】功能，首批上线的 14 个的智能体，各自面向特定场景打造专属助手。

《新立场》编辑部尝试让不同的作者通过上传自己的文章，创建定制的智能体，星火所生成的内容各不相同，且可以看到表述和语言风格上各自的差异。当我们添加更多维度，上传更多个人录音、数据表和文稿，整个智能体变得越来越易用和个人化。

结合发布会信息，目前星火大模型的产品布局在往“纵深向”发展。广度上，全系讯飞 C 端软硬件产品生态已经打通，数百万智能硬件用户可一键拥有“星火全家桶”。像此前的明星产品如讯飞智能办公本、智能录音笔，用户数据都可以一键同步到星火个人空间，方便用户更快搭建个人空间。

深度上，有更强底座的加持，多款产品都更新了功能突破的进度，比如【星火语音大模型】，发布会上针对强干扰场景下的语音识别问题测试，堪称惊艳。三位讯飞研究院的研究员在现场噪音场景下，同时混叠着说话，人耳无法听清的声音，讯飞星火却实现了重叠语音分离、实时转写语录。

再加上提炼出了“个性化”这一关键词，强化底座能力调整、设计更多个性化功能，或将成为未来科大讯飞产品迭代的主旋律。

我们已经能在讯飞星火 App/Desk 上体验“个人助手”的魅力，一些更垂直的落地场景，比如急需依靠大模型提高生产力的工作环境，或是对智能化有需求的教育和日常生活，同样经历了类似的革新。

02、更“职业”的办公个性化助手

QuestMobile 数据显示，AIGC App 在工作日（周一至周五）期间的活跃度高于休息日（周六、周日），由此推测现阶段 AIGC App 与办公场景的适配性更强。这也符合高维技术到效率工具的自然转换。

但《新立场》想要测验的重点是，讯飞星火能否真正融入工作流，而不仅限于提供一个办公模板。由此，我们将测试分为三个方向，去检验讯飞星火是否考虑到实际工作流程中的细节。

其一看是否贴近工作实用。此处的实用是指在常见的大模型内容生成中，容易出现模版化的结果，即套用固定格式和叙述语调，生成一篇僵化的“八股文”，这样的内容完全无法作为工作结果交付。

所以我们选用了讯飞星火 Desk 中，“述职报告小能手”这一成品智能体，AI 给到的提示是“填写工作目标、策略和成果概述，小助手会给出供参考的述职报告。”

我们给出的提示语段包括，“我是一名销售经理，今年的工作目标是实现销售额 3000W，回款率达到 50%，并且组织 5 场以上客户活动，获取有效商机不少于 20 个。报告中要重点突出策略的部分。”

上图是讯飞星火反馈的结果（部分截选），一份带有个人工作内容的报告，格式与行文规范准确的同时，针对本年度工作目标，详细阐述了策略实施设计。我们又根据这个结果，调用了“讯飞智文”智能体，一键生成了一份完整的述职报告 PPT。

目前，讯飞星火的智能体中心有包含职场、创作、学习、编程等多个实用方向的成品智能体，且支持自由创建，在这一层面，其实用性可以说是独树一帜的。这些都是源于复杂指令理解、逻辑推理和内容生成等底座能力的提升，使交付内容更显“专业”。

而关于如何使交付内容更具连贯性，符合组织操作流程，结合前文对个人助手的开发，讯飞星火在“贴近个人习惯”，这一进阶方向有一些独特表现。

此处的个人习惯，一是指用语。在邮件、致辞、作文等日常向写作中，作者的职业身份、立场或口径都会影响到成文的笔调，而且这些笔调往往凝聚了该项目最关键的信息。二是指个人过往作品所累积起来的素材库，在工作中时常需要反复调用。这两点在前文对个人空间的测评中已有体现，都是版本更新后的讯飞星火，所擅长的领域。

最后再看我们在 App 上处理的工作内容，能否形成固定的周期与日程，最新版本的个人中心基本实现了这一功能。AI 会帮助我们管理代办日程，订阅指定新闻，如果你详细设置过你的 AI 人设、声音和智能体，以上所有测评到的定制化办公辅助功能，都可以通过个人中心一键调用。

办公场景很好地体现了在底座实力之上，对个人数据的极致利用如何让效率工具变得更实用、更易用。

《新立场》编辑部的日常工作中，有时也会使用各种 AI 工具辅助查找资料、数据等等，但受限于同质化的生成与分散的功能，一直没有找到一款能够连贯使用的办公助手。就本次实测来看，讯飞星火找到了职场“打工人”的痛点，而在更加“精深”的教育与医疗场景，底座能力个性化的公式同样适用。

03、教育功能进阶，从抓住场景“痛点”开始

作为人工智能“国家队”，科大讯飞在教育领域深耕多年、成绩颇丰，提出过精准教学、学情分析、个性化学习等超前的人工智能教育理念。

去年双十一期间，星火大模型加持下的科大讯飞 AI 学习机，首次碾压小度、步步高、希沃、作业帮等品牌，拿下京东&天猫学习机品类销售额桂冠。今年 6 月科大讯飞相关负责人表示，自 2023年 5 月首次升级大模型功能以来，科大讯飞 AI 学习机持续保持高速增长势头，今年 1-5 月份销量增长超过 150%。

今年高考结束后，新课标 I 卷作文题目关于人工智能的思考引发关注。《重庆日报》在相关报道中，使用了讯飞星火生成了一篇可圈可点的高考作文，可以看到，星火无论在文章逻辑还是语言措辞上，已经达到“高分作文”的水准。

（来源：《重庆日报》）

实际上，教育垂类产品 AI 学习机一直在随着大模型底座版本迭代，本次发布会也提到，最新版本的 AI 1对1 答疑辅导功能，既能进行多模态启发式讲解、自由问个性化解答，也可以进行互动探究式学习、超拟人引导式伴学等。

但结合多位学科教师的意见，我们更关注本次首发的星火智能批阅机，为集智能批改、精准学情、个性学习于一体；支持自由排版、多学科多题型智能批改、多维学情报告生成，可为老师作业讲评和面批辅导提供素材。

《新立场》认为，“减负”是近年来教育领域的高频词汇，但各类教育硬件以“为学生减负”为中心设计产品时，对“教学减负”的关注度可能有一些欠缺。而实际上，减负应该是双向的。

在我们与高中数学、语文、政治教师的交流中，“点拨”是最常出现的关键词。无论哪一个学科，日常教学里，学生都得经历一个由量到质的转变。堆量是必要的前提，老师在关键之处为学生解惑，针对不同学生进度“点拨”那几句话，就要依赖于教师多年积累的教学经验。

但在必要的堆量过程中，大量练习、测验需要人工批改，才能让学生在训练中查漏补缺，点滴进步。这类繁琐、重复、又需要一定教学经验的工作，恰好是 AI 最应该介入的环节。现场演示中，星火智能批阅机模拟了真人笔迹，在半分钟内完成了 15 份学生作业批改，并且提供了班级整体报告之外，每位学生的基础知识和学科能力掌握情况。

这便是基于学科教育多方需求的个性化改造。有 AI 的加持，这种双向减负一边解放了教师的“生产力”，让他们可以有更多时间投入到专项教学，掌握班级教学进度；一边减轻了学生获取针对性教学资源的难度，让他们能随时获得反馈，管理自己的学习进度。

不得不说，就星火智能批阅机中我们能看到的产品思路，科大讯飞对教育场景的理解，确实要领先行业平均水平一个身位。

04、写在最后

6 月 27 日的发布会，其实是一场大模型产品的“大点兵”，但科大讯飞的产品矩阵远不止于上述提到的内容。

C 端产品的精品化打磨体现在每一条产品线。如讯飞晓医 App 的升级，同样是有底座能力提升带来的各项服务的覆盖深度和广度升级；又有承接上文的“个性化”产品设计理念，上线“个人数字健康空间”功能。

最新版的讯飞晓医 App 能够根据电子病历、检查报告、体检报告等用户个性化资料，构建个人数字健康空间。在此基础上，AI 给出的病症原因剖析、用药禁忌、前后检查数据对比，更有针对性。

另一边，B 端产品同样有亮眼表现。大模型的行业运用相比消费端，更需要考虑供需搭配和性价比的问题。因此刘庆峰认为，企业首先要科学地认识大模型能力的边界，根据任务难度选择合适方案，并且用更少的算力、更高的效率，打造企业专属大模型。

基于这个逻辑，个人应用中提到过的智能体，在 B 端升级为星火企业智能体平台，主打调用底座能力、集成外部信源、打通内部 IT 系统，供企业即插即用。这是企业层面的定制与“个性化”。

无论 ToB 或 ToC，其实讯飞星火的每一次升级都在朝着更实用的方向进化，只是最新的发布会围绕底座能力和个人助手，揭示出了一条更为清晰的发展线索。《新立场》在实测中不止一次的感受到，“智能”因个人数据的参与更加具象化，过往相对抽象的“大模型能力”，在个人助手一次次的文稿生成、语音识别和智能体问答中靠近我们的工作与生活。

大模型已经到了热度消退，理性居上的时刻，能够让 AI 为人所用，才是当下发展的目标。

*题图及文中配图来源于网络。

原文标题 : 实测国产大模型讯飞星火V4.0：基座能力“打底”、个人空间“探高”