文 · 邢相烨

《国资报告》杂志2024年第6期

5月14日，OpenAI推出的新一代多模态通用大模型GPT-4o引起巨大反响。多数媒体赞赏有加，如腾讯新闻称“GPT-4o的发布，使得ChatGPT进入实时互动纪元”。也有一些唱衰声音，如马斯克等AI从业者认为其没有实质性飞跃。

通过研析发布会演示原貌、综合权威媒体解读、定向请教AI专家学者、搜集用户体验效果，个人研判，OpenAI新模型GPT-4o呈现“三优三劣”，即技术新突破、用户体验新突破、商业逻辑新突破；行业领先不明显、智能水平仍有薄弱之处、可能面临用户增长危机。

GPT-4o发布体现的深层趋势是人工智能头部企业正在加速产品商业化进程，“AI+”可能加快在部分产业率先落地、加快替代一部分工作岗位。我国企业特别是国有企业要保持定力、把握趋势，加快扩大场景开放，发力“软硬一体”，用好全球资源，在开放合作中持续追赶。

OpenAI新模型GPT-4o 呈现“三优三劣”

取得三大新突破

一是技术新突破。GPT-4o摒弃传统ChatGPT语音模式的三个独立模型结构，采用了单一神经网络处理所有输入和输出，消除了模型间信息传递的延迟；通过多模态数据端到端训练，支持文本、音频、图像任意组合的实时输入输出。

二是用户体验新突破。GPT-4o集成文字、语音、图片、视频且可用各种方式与人互动，响应速度最低达到232毫秒，接近人类自然对话节奏并可被随时打断，用户体验十分友好，人机协同前进了一大步。

三是商业逻辑新突破。与GPT-4 Turbo相比，GPT-4o速度提高2倍、价格降低一半、速率限制提高5倍，更加适合嵌入手机和电脑等消费终端。GPT-4o采用对所有用户免费开放、分级定价的策略，一方面，不注册可免费使用，容易获取更多用户、生产更多数据，从而扩大OpenAI自身数据训练范围，进一步提升模型精准度；另一方面，分级定价、免费版能力降级，形成不同的细分收费赛道，免费用户有积极性升级为付费用户。

仍然存在三大不足

一是行业领先不明显。发布会展示的跑分图表显示，GPT-4o评测得分1310分仅比第二名领先4.5%，远没有看起来的“遥遥领先”。GPT-4o文本能力提升也有限，显然达不到CEO阿尔特曼设想和公众期待的GPT-5水平。

二是智能水平仍有薄弱之处。发布会上演示了GPT-4o的解方程能力，但展示“3x+1=4”的解题步骤实质上是一个带有交流感的对话过程，暴露出其在数学能力上依然表现不佳。

三是可能面临用户增长危机。一个月前，OpenAI宣布，不注册登录的用户也可使用GPT-3.5；一周后，又给予免费用户一定的GPT-4使用额度；之后，再次把一直仅由付费用户使用的GPT商店向免费用户开放；此次GPT-4o也向免费用户开放。从运营角度，集中在1个月内频繁推出免费开放措施，很可能是因为OpenAI正在面临投资人对用户增长数据的质疑，需要不断地尝试吸引新用户。

人工智能头部企业正在加速产品商业化进程，“AI+”很可能在部分产业率先落地

多模态大模型作为产品落地应用

前有Sora，今有GPT-4o，能把一堆显而易见的技术打造成一个亮眼的产品，OpenAI的产品能力被显著低估。该产品背后的技术如DiT、ViT、VAE或端到端的文本、视觉、音频模型，在业内并不罕见，但仅有OpenAI做出了落地应用的产品。相比之下，谷歌5月15日发布的“AI全家桶”多数内容仍是“期货”状态。此次GPT-4o重点解决用户的易用性问题，体现的是显著的产品思维和产业化、商业化探索，使得普通人可以在更多日常场景下使用GPT-4o。

GPT-4o语音模式平均时延320毫秒，较GPT-3.5（2.8秒）及GPT-4（5.4秒）的时延有大幅缩短，为大模型在手机、耳机等移动设备上的应用落地铺平了道路。近期GPT-4o可能会与手机助手、汽车助手、机器人、AR眼镜等其他智能终端融为一体，展现出丰富的Agent服务入口与交互能力。在OpenAI发布GPT-4o的24个小时后，谷歌召开了“I/O大会”，发布了类似GPT-4o的个人数字助理Pixie。北京时间5月22日凌晨召开的微软Build 2024开发者大会上，微软开发的AI小语言模型（SLMs）Phi-3系列也发布了一款新的多模态模型Phi-3-vision，并已可在Azure中使用。

5月14日，国际货币基金组织总裁表示，未来两年，对于发达经济体而言，人工智能可能会影响60%的工作岗位；而对于全球所有国家而言，人工智能可能将冲击40%的工作岗位。从发布会上公布的5个应用场景看，GPT-4o短期可能替代的岗位，主要集中在数据处理和语言交互方面的客服、翻译、教育、内容审核和数据录入等工作。比如老师教学生的过程，需要在黑板上写字、用语言与学生交流以及双方对着板书内容不断讨论，当前GPT-4o已经能够把这些文字、音频、视频、场景互动统一综合起来。

相关建议

值得注意的是，OpenAI本次没有发布任何技术报告、论文，这意味着西方对我国闭源大模型的禁令正在到来。我们必须保持定力、把握趋势、优化生态，集合一切可调动力量，创造更有利条件，在持续发展中奋力赶超。

一是重新定位、重塑流程。我国企业特别是大型企业经营者、创业者、技术供给者应立刻行动起来，从GPT-4o的能力出发，重新思考自身工作任务、工作流程和岗位设计等，在各环节、各场景主动应用人工智能技术，促进工作节能增效提质。二是分级分类、定期更新场景需求。定期向产学研用各方主体征集场景需求，从需求重要性、产品供给能力、用户易用性等多维度对场景需求分级分类，从易到难、选好切口、依次推广。三是双向对接、持续发力。举办场景沙龙、对接会、场景创新大赛等主题活动，实现应用场景、新产品新技术的双向促进。分行业谋划若干重点场景，通过“揭榜挂帅”“联合体”“委托攻关”“场景竞赛”等方式推进新产品新技术测试验证、首试首用、示范应用。四是降低成本、算力支持。建设大型、普惠型算力中心，加快共建共享高质量公共训练数据集，降低供需两侧应用成本。

发力“软硬一体”，以协同提升用户体验效率和优化产业生态

一是完善国产“芯片－框架”软硬件协同生态体系。AI科技领军企业、专精特新企业、高校可联合开展“芯片－框架”软硬件协同等关键技术创新。运营商等企业应加快布局AI硬件终端，聚合软硬件一体化优势。二是推动智能硬件终端焕新。国产手机、PC等终端操作系统应快速整合大模型等人工智能新技术。可探索实施AI手机、AI PC、新能源智能汽车、智能家电等消费终端以旧换新。

一是坚定不移深化国际交流合作。用好现有合作机制，创造更多交流机会，特别是加强国际人才、产业、标准等合作。国内有条件的企业应继续大力引进海外顶尖人才，有海外业务布局的企业应在海外设立更多研发机构，充分用好全球智力和创新资源。二是加快人才培养。可考虑以“核心+基地”的组织形式，建立AI头部企业、高校和应用端实体企业共同培养AI融合人才的机制。三是夯实数据基础。建立标准化数据要素管理平台，实现高效统一预处理、标注、使用。借鉴国外发展经验，共建共享针对典型场景的高质量公共训练数据集，形成覆盖数据要求流动和利用“收、存、治、用、易”全生命周期闭环。四是探索换道布局。存储芯片企业等应加大协同合作力度、调动全球顶尖创新资源，探索在“存算一体”新型人工智能芯片架构等领域率先实现实质性突破。

内容来源：国资报告