实测国产大模型讯飞星火V4.0:基座能力“打底”、个人空间“探高”
国产大模型的进步速度正在被刷新。
今年 1 月,讯飞星火 V3.5 发布时,整体水平已经十分接近 GPT-4 Turbo 且多方测评表现优秀,仅半年后,讯飞星火 V4.0 就完成了从接近到超越。
6 月 27 日,科大讯飞在北京发布讯飞星火大模型 V4.0 及相关落地应用,并宣布七大核心能力全面升级,整体超越 GPT-4 Turbo。《新立场》照例对其进行了从底座能力到产品应用的全方位测评。
先看决定了 AI 功能范围和应用深度的底座能力。我们参考了发布会公示的外部权威测试集测试结果。在国内外 12 项大模型主流测试集中,讯飞星火有 8 个 测试集横向比较排名第一,超越 GPT-4 Turbo、Claude 3 Opus 等国际大模型,综合表现堪称国内最强。
以表现最突出的中文语言理解为例,我们从历年公务员考试行测题库中选取了一道“言语理解与表达”真题。
海军舰艇中的军辅船是大洋上的“粮草官”,虽不具备强大作战能力,却直接关系着远洋保障。但是,目前中国仅有四艘综合补给舰在海军服役,维持日益_____的远洋训练、护航和演习,显得有些______。
依次填入划横线部分最恰当的一项是:A.漫长;顾此失彼B.复杂;无能为力C.繁重;捉襟见肘D.艰苦;苦不堪言
参考答案是 “C”,讯飞星火给出了完整的分析逻辑和正确答案。底座能力够强,给产品设计提供了更大的发挥空间。
一组最新数据显示,自去年 9 月全面开放以来,讯飞星火 App 在安卓公开市场累计下载量达 1.31 亿次,在国内工具类通用大模型 App 中排名第一。 今年 618 期间,星火大模型加持的智能硬件销量同比增长超 70%,月均使用次数超 4000 万。
这意味着作为 C 端门面的讯飞星火 App 已初步累积起了市场认可与用户心智,由此,再看本次发布会的重头戏——产品打磨的最新进度,《新立场》认为,“个性化”是理解讯飞星火本轮产品迭代的关键词。
围绕工作、学习和健康生活等用户所关注的具体场景,新上线的“个人空间”在千篇一律的同质化生成中,提炼出了个人数据的价值,消费者对大模型底座能力的感知因此更加具象化。
大模型的底座能力提升拔高上限、个人空间打造强化细节,进而能在办公、教育等应用落地中有更为进阶的表现,二者的逻辑关联是顺承且自然的。
01、从同质化生成中,提炼个性化价值
从市场表现来看,用户对 AIGC 的热情颇高。QuestMobile 数据显示,2024 年 1 月,TOP10 AIGC App 聚合活跃用户规模达 5376 万,同比增长 3725%,且 TOP10 App 去重用户规模同比增长 37 倍。
需求高涨的同时,同质化问题隐现。大厂都在押注大模型,Top 10 里面除了讯飞星火,百度的文心一言、抖音的豆包、昆仑万维的天工,都在过去一年里经历了月活迅速攀升,但其应用基本都聚焦在文本和图像信息模态生成。不夸张的说,打开不同的 App 交互页面,呈现出是“千模一面”的景象。
各家生成内容差不多、且不够实用的情况下,大模型 C 端应用在消费者侧有丧失辨识度的风险,解题方法是仍然回到 ToC 产品设计逻辑中,以“个人”用户的需求为出发点,从做通用助手到做个人助手。这也是为什么《新立场》认为,“个性化”是本次讯飞星火迭代的底层逻辑。
成为“个人助手” 的前提,是充分“了解”个人。如科大讯飞董事长刘庆峰在发布会上表示,AI 助手要能够基于用户画像进行个性化表达,基于使用历史进行记忆学习,基于个人资料进行增强学习。所以为用户数据“建库”,以个人数据训练个人模型,是 AI 助手工作的第一步,也是生成连贯和专属内容的前提。
改版后的讯飞星火 App 及桌面版中,用户可以在【个人空间】上传自己的工作、学习、生活、健康等各类资料,形成个人专属的知识库。同时在个人设置界面可以自行调适“AI 人设”,AI 也会根据过往对话和历史动态让生成内容与个人风格靠近,以此跳脱千篇一律的生成。
此外,App 及桌面版的【个人中心】入口则是为大模型提供的各项实用功能做一个总控台,从中可以触达人设标签、日程管理、信息订阅、创建发音人等各类个性化和趣味化的服务。此处需要特别提到【个人中心】可以直达的【智能体】功能,首批上线的 14 个的智能体,各自面向特定场景打造专属助手。
《新立场》编辑部尝试让不同的作者通过上传自己的文章,创建定制的智能体,星火所生成的内容各不相同,且可以看到表述和语言风格上各自的差异。当我们添加更多维度,上传更多个人录音、数据表和文稿,整个智能体变得越来越易用和个人化。
结合发布会信息,目前星火大模型的产品布局在往“纵深向”发展。广度上,全系讯飞 C 端软硬件产品生态已经打通,数百万智能硬件用户可一键拥有“星火全家桶”。像此前的明星产品如讯飞智能办公本、智能录音笔,用户数据都可以一键同步到星火个人空间,方便用户更快搭建个人空间。
深度上,有更强底座的加持,多款产品都更新了功能突破的进度,比如【星火语音大模型】,发布会上针对强干扰场景下的语音识别问题测试,堪称惊艳。三位讯飞研究院的研究员在现场噪音场景下,同时混叠着说话,人耳无法听清的声音,讯飞星火却实现了重叠语音分离、实时转写语录。
再加上提炼出了“个性化”这一关键词,强化底座能力 调整、设计更多个性化功能,或将成为未来科大讯飞产品迭代的主旋律。
我们已经能在讯飞星火 App/Desk 上体验“个人助手”的魅力,一些更垂直的落地场景,比如急需依靠大模型提高生产力的工作环境,或是对智能化有需求的教育和日常生活,同样经历了类似的革新。
02、更“职业”的办公个性化助手
QuestMobile 数据显示,AIGC App 在工作日(周一至周五)期间的活跃度高于休息日(周六、周日),由此推测现阶段 AIGC App 与办公场景的适配性更强。这也符合高维技术到效率工具的自然转换。
但《新立场》想要测验的重点是,讯飞星火能否真正融入工作流,而不仅限于提供一个办公模板。由此,我们将测试分为三个方向,去检验讯飞星火是否考虑到实际工作流程中的细节。
其一看是否贴近工作实用。此处的实用是指在常见的大模型内容生成中,容易出现模版化的结果,即套用固定格式和叙述语调,生成一篇僵化的“八股文”,这样的内容完全无法作为工作结果交付。
所以我们选用了讯飞星火 Desk 中,“述职报告小能手”这一成品智能体,AI 给到的提示是“填写工作目标、策略和成果概述,小助手会给出供参考的述职报告。”
我们给出的提示语段包括,“我是一名销售经理,今年的工作目标是实现销售额 3000W,回款率达到 50%,并且组织 5 场以上客户活动,获取有效商机不少于 20 个。报告中要重点突出策略的部分。”
上图是讯飞星火反馈的结果(部分截选),一份带有个人工作内容的报告,格式与行文规范准确的同时,针对本年度工作目标,详细阐述了策略实施设计。我们又根据这个结果,调用了“讯飞智文”智能体,一键生成了一份完整的述职报告 PPT。
目前,讯飞星火的智能体中心有包含职场、创作、学习、编程等多个实用方向的成品智能体,且支持自由创建,在这一层面,其实用性可以说是独树一帜的。这些都是源于复杂指令理解、逻辑推理和内容生成等底座能力的提升,使交付内容更显“专业”。
而关于如何使交付内容更具连贯性,符合组织操作流程,结合前文对个人助手的开发,讯飞星火在“贴近个人习惯”,这一进阶方向有一些独特表现。
此处的个人习惯,一是指用语。在邮件、致辞、作文等日常向写作中,作者的职业身份、立场或口径都会影响到成文的笔调,而且这些笔调往往凝聚了该项目最关键的信息。二是指个人过往作品所累积起来的素材库,在工作中时常需要反复调用。这两点在前文对个人空间的测评中已有体现,都是版本更新后的讯飞星火,所擅长的领域。
最后再看我们在 App 上处理的工作内容,能否形成固定的周期与日程,最新版本的个人中心基本实现了这一功能。AI 会帮助我们管理代办日程,订阅指定新闻,如果你详细设置过你的 AI 人设、声音和智能体,以上所有测评到的定制化办公辅助功能,都可以通过个人中心一键调用。
办公场景很好地体现了在底座实力之上,对个人数据的极致利用如何让效率工具变得更实用、更易用。
《新立场》编辑部的日常工作中,有时也会使用各种 AI 工具辅助查找资料、数据等等,但受限于同质化的生成与分散的功能,一直没有找到一款能够连贯使用的办公助手。就本次实测来看,讯飞星火找到了职场“打工人”的痛点,而在更加“精深”的教育与医疗场景,底座能力 个性化的公式同样适用。
03、教育功能进阶,从抓住场景“痛点”开始
作为人工智能“国家队”,科大讯飞在教育领域深耕多年、成绩颇丰,提出过精准教学、学情分析、个性化学习等超前的人工智能教育理念。
去年双十一期间,星火大模型加持下的科大讯飞 AI 学习机,首次碾压小度、步步高、希沃、作业帮等品牌,拿下京东&天猫学习机品类销售额桂冠。今年 6 月科大讯飞相关负责人表示,自 2023年 5 月首次升级大模型功能以来,科大讯飞 AI 学习机持续保持高速增长势头,今年 1-5 月份销量增长超过 150%。
今年高考结束后,新课标 I 卷作文题目关于人工智能的思考引发关注。《重庆日报》在相关报道中,使用了讯飞星火生成了一篇可圈可点的高考作文,可以看到,星火无论在文章逻辑还是语言措辞上,已经达到“高分作文”的水准。
(来源:《重庆日报》)
实际上,教育垂类产品 AI 学习机一直在随着大模型底座版本迭代,本次发布会也提到,最新版本的 AI 1对1 答疑辅导功能,既能进行多模态启发式讲解、自由问个性化解答,也可以进行互动探究式学习、超拟人引导式伴学等。
但结合多位学科教师的意见,我们更关注本次首发的星火智能批阅机,为集智能批改、精准学情、个性学习于一体;支持自由排版、多学科多题型智能批改、多维学情报告生成,可为老师作业讲评和面批辅导提供素材。
《新立场》认为,“减负”是近年来教育领域的高频词汇,但各类教育硬件以“为学生减负”为中心设计产品时,对“教学减负”的关注度可能有一些欠缺。而实际上,减负应该是双向的。
在我们与高中数学、语文、政治教师的交流中,“点拨”是最常出现的关键词。无论哪一个学科,日常教学里,学生都得经历一个由量到质的转变。堆量是必要的前提,老师在关键之处为学生解惑,针对不同学生进度“点拨”那几句话,就要依赖于教师多年积累的教学经验。
但在必要的堆量过程中,大量练习、测验需要人工批改,才能让学生在训练中查漏补缺,点滴进步。这类繁琐、重复、又需要一定教学经验的工作,恰好是 AI 最应该介入的环节。现场演示中,星火智能批阅机模拟了真人笔迹,在半分钟内完成了 15 份学生作业批改,并且提供了班级整体报告之外,每位学生的基础知识和学科能力掌握情况。
这便是基于学科教育多方需求的个性化改造。有 AI 的加持,这种双向减负一边解放了教师的“生产力”,让他们可以有更多时间投入到专项教学,掌握班级教学进度;一边减轻了学生获取针对性教学资源的难度,让他们能随时获得反馈,管理自己的学习进度。
不得不说,就星火智能批阅机中我们能看到的产品思路,科大讯飞对教育场景的理解,确实要领先行业平均水平一个身位。
04、写在最后
6 月 27 日的发布会,其实是一场大模型产品的“大点兵”,但科大讯飞的产品矩阵远不止于上述提到的内容。
C 端产品的精品化打磨体现在每一条产品线。如讯飞晓医 App 的升级,同样是有底座能力提升带来的各项服务的覆盖深度和广度升级;又有承接上文的“个性化”产品设计理念,上线“个人数字健康空间”功能。
最新版的讯飞晓医 App 能够根据电子病历、检查报告、体检报告等用户个性化资料,构建个人数字健康空间。在此基础上,AI 给出的病症原因剖析、用药禁忌、前后检查数据对比,更有针对性。
另一边,B 端产品同样有亮眼表现。大模型的行业运用相比消费端,更需要考虑供需搭配和性价比的问题。因此刘庆峰认为,企业首先要科学地认识大模型能力的边界,根据任务难度选择合适方案,并且用更少的算力、更高的效率,打造企业专属大模型。
基于这个逻辑,个人应用中提到过的智能体,在 B 端升级为星火企业智能体平台,主打调用底座能力、集成外部信源、打通内部 IT 系统,供企业即插即用。这是企业层面的定制与“个性化”。
无论 ToB 或 ToC,其实讯飞星火的每一次升级都在朝着更实用的方向进化,只是最新的发布会围绕底座能力和个人助手,揭示出了一条更为清晰的发展线索。《新立场》在实测中不止一次的感受到,“智能”因个人数据的参与更加具象化,过往相对抽象的“大模型能力”,在个人助手一次次的文稿生成、语音识别和智能体问答中靠近我们的工作与生活。
大模型已经到了热度消退,理性居上的时刻,能够让 AI 为人所用,才是当下发展的目标。
*题图及文中配图来源于网络。
原文标题 : 实测国产大模型讯飞星火V4.0:基座能力“打底”、个人空间“探高”