文 · 邢相烨

《国资报告》杂志2024年第6期

5月14日,OpenAI推出的新一代多模态通用大模型GPT-4o引起巨大反响。多数媒体赞赏有加,如腾讯新闻称“GPT-4o的发布,使得ChatGPT进入实时互动纪元”。也有一些唱衰声音,如马斯克等AI从业者认为其没有实质性飞跃。

通过研析发布会演示原貌、综合权威媒体解读、定向请教AI专家学者、搜集用户体验效果,个人研判,OpenAI新模型GPT-4o呈现“三优三劣”,即技术新突破、用户体验新突破、商业逻辑新突破;行业领先不明显、智能水平仍有薄弱之处、可能面临用户增长危机。

GPT-4o发布体现的深层趋势是人工智能头部企业正在加速产品商业化进程,“AI+”可能加快在部分产业率先落地、加快替代一部分工作岗位。我国企业特别是国有企业要保持定力、把握趋势,加快扩大场景开放,发力“软硬一体”,用好全球资源,在开放合作中持续追赶。


图片OpenAI新模型GPT-4o 呈现“三优三劣”

取得三大新突破

一是技术新突破。GPT-4o摒弃传统ChatGPT语音模式的三个独立模型结构,采用了单一神经网络处理所有输入和输出,消除了模型间信息传递的延迟;通过多模态数据端到端训练,支持文本、音频、图像任意组合的实时输入输出。

二是用户体验新突破。GPT-4o集成文字、语音、图片、视频且可用各种方式与人互动,响应速度最低达到232毫秒,接近人类自然对话节奏并可被随时打断,用户体验十分友好,人机协同前进了一大步。

三是商业逻辑新突破。与GPT-4 Turbo相比,GPT-4o速度提高2倍、价格降低一半、速率限制提高5倍,更加适合嵌入手机和电脑等消费终端。GPT-4o采用对所有用户免费开放、分级定价的策略,一方面,不注册可免费使用,容易获取更多用户、生产更多数据,从而扩大OpenAI自身数据训练范围,进一步提升模型精准度;另一方面,分级定价、免费版能力降级,形成不同的细分收费赛道,免费用户有积极性升级为付费用户。

仍然存在三大不足

一是行业领先不明显。发布会展示的跑分图表显示,GPT-4o评测得分1310分仅比第二名领先4.5%,远没有看起来的“遥遥领先”。GPT-4o文本能力提升也有限,显然达不到CEO阿尔特曼设想和公众期待的GPT-5水平。

二是智能水平仍有薄弱之处。发布会上演示了GPT-4o的解方程能力,但展示“3x+1=4”的解题步骤实质上是一个带有交流感的对话过程,暴露出其在数学能力上依然表现不佳。

三是可能面临用户增长危机。一个月前,OpenAI宣布,不注册登录的用户也可使用GPT-3.5;一周后,又给予免费用户一定的GPT-4使用额度;之后,再次把一直仅由付费用户使用的GPT商店向免费用户开放;此次GPT-4o也向免费用户开放。从运营角度,集中在1个月内频繁推出免费开放措施,很可能是因为OpenAI正在面临投资人对用户增长数据的质疑,需要不断地尝试吸引新用户。


图片人工智能头部企业正在加速产品商业化进程,“AI+”很可能在部分产业率先落地

多模态大模型作为产品落地应用

前有Sora,今有GPT-4o,能把一堆显而易见的技术打造成一个亮眼的产品,OpenAI的产品能力被显著低估。该产品背后的技术如DiT、ViT、VAE或端到端的文本、视觉、音频模型,在业内并不罕见,但仅有OpenAI做出了落地应用的产品。相比之下,谷歌5月15日发布的“AI全家桶”多数内容仍是“期货”状态。此次GPT-4o重点解决用户的易用性问题,体现的是显著的产品思维和产业化、商业化探索,使得普通人可以在更多日常场景下使用GPT-4o。

人工智能将加速与智能终端融合

GPT-4o语音模式平均时延320毫秒,较GPT-3.5(2.8秒)及GPT-4(5.4秒)的时延有大幅缩短,为大模型在手机、耳机等移动设备上的应用落地铺平了道路。近期GPT-4o可能会与手机助手、汽车助手、机器人、AR眼镜等其他智能终端融为一体,展现出丰富的Agent服务入口与交互能力。在OpenAI发布GPT-4o的24个小时后,谷歌召开了“I/O大会”,发布了类似GPT-4o的个人数字助理Pixie。北京时间5月22日凌晨召开的微软Build 2024开发者大会上,微软开发的AI小语言模型(SLMs)Phi-3系列也发布了一款新的多模态模型Phi-3-vision,并已可在Azure中使用。

人工智能将加速替代部分岗位

5月14日,国际货币基金组织总裁表示,未来两年,对于发达经济体而言,人工智能可能会影响60%的工作岗位;而对于全球所有国家而言,人工智能可能将冲击40%的工作岗位。从发布会上公布的5个应用场景看,GPT-4o短期可能替代的岗位,主要集中在数据处理和语言交互方面的客服、翻译、教育、内容审核和数据录入等工作。比如老师教学生的过程,需要在黑板上写字、用语言与学生交流以及双方对着板书内容不断讨论,当前GPT-4o已经能够把这些文字、音频、视频、场景互动统一综合起来。


图片相关建议

值得注意的是,OpenAI本次没有发布任何技术报告、论文,这意味着西方对我国闭源大模型的禁令正在到来。我们必须保持定力、把握趋势、优化生态,集合一切可调动力量,创造更有利条件,在持续发展中奋力赶超。

扩大场景开放,以供需对接吸引更多用户和促进生产应用

一是重新定位、重塑流程。我国企业特别是大型企业经营者、创业者、技术供给者应立刻行动起来,从GPT-4o的能力出发,重新思考自身工作任务、工作流程和岗位设计等,在各环节、各场景主动应用人工智能技术,促进工作节能增效提质。二是分级分类、定期更新场景需求。定期向产学研用各方主体征集场景需求,从需求重要性、产品供给能力、用户易用性等多维度对场景需求分级分类,从易到难、选好切口、依次推广。三是双向对接、持续发力。举办场景沙龙、对接会、场景创新大赛等主题活动,实现应用场景、新产品新技术的双向促进。分行业谋划若干重点场景,通过“揭榜挂帅”“联合体”“委托攻关”“场景竞赛”等方式推进新产品新技术测试验证、首试首用、示范应用。四是降低成本、算力支持。建设大型、普惠型算力中心,加快共建共享高质量公共训练数据集,降低供需两侧应用成本。

发力“软硬一体”,以协同提升用户体验效率和优化产业生态

一是完善国产“芯片-框架”软硬件协同生态体系。AI科技领军企业、专精特新企业、高校可联合开展“芯片-框架”软硬件协同等关键技术创新。运营商等企业应加快布局AI硬件终端,聚合软硬件一体化优势。二是推动智能硬件终端焕新。国产手机、PC等终端操作系统应快速整合大模型等人工智能新技术。可探索实施AI手机、AI PC、新能源智能汽车、智能家电等消费终端以旧换新。

用好全球资源,以产业合作提升人才密度和夯实底座

一是坚定不移深化国际交流合作。用好现有合作机制,创造更多交流机会,特别是加强国际人才、产业、标准等合作。国内有条件的企业应继续大力引进海外顶尖人才,有海外业务布局的企业应在海外设立更多研发机构,充分用好全球智力和创新资源。二是加快人才培养。可考虑以“核心+基地”的组织形式,建立AI头部企业、高校和应用端实体企业共同培养AI融合人才的机制。三是夯实数据基础。建立标准化数据要素管理平台,实现高效统一预处理、标注、使用。借鉴国外发展经验,共建共享针对典型场景的高质量公共训练数据集,形成覆盖数据要求流动和利用“收、存、治、用、易”全生命周期闭环。四是探索换道布局。存储芯片企业等应加大协同合作力度、调动全球顶尖创新资源,探索在“存算一体”新型人工智能芯片架构等领域率先实现实质性突破。

(作者单位为国务院国资委规划局,文章仅代表个人观点)


内容来源:国资报告