GPT-4o原生生图的突破与影响

彩葫芦小二

北京时间3月26日，OpenAI推出GPT-4o原生图像生成功能，具备强大的图像生成与修改能力，如更好的文本集成、增强的上下文理解、改进的多对象绑定和多样化风格适应等。我们认为该功能的出现，使得图像生成的用户体验更流畅、生成效果更逼真，并且降低了用户使用门槛，意味着模型即产品的时代将加速来临。我们认为GPT-4o生图功能在影视、营销、电商和游戏等领域具有较大应用潜力，有望成为真正的生产力工具，为行业带来变革性影响。

GPT-4o生图能力全球领先，技术路径基于自回归模型

GPT-4o生图的特点在于能精准渲染图像内文字、精确执行复杂指令、上下文扩展确保多个交互之间的视觉一致性、支持各种艺术风格等，生图能力和质量目前来看全球领先。GPT-4o在图像生成技术上与过往DALL-E系列所采用的扩散模型不同，为基于自回归模型打造，从图像整体架构出发，逐步细化填充。这种技术路径的优势在于面对复杂场景的图像生成任务时，图像质量和逻辑性更有保障。此外，模型可充分理解多轮对话中的复杂指令，大幅提升图像生成的准确性与效率，为其在多领域的应用筑牢技术根基。

GPT-4o原生图像生成功能将推动构建全场景、多模态创意交互新生态

我们认为该功能的上线丰富了OpenAI的生态体系，生图能力全球领先，革新了创意交互模式。在个人端，ChatGPT各层级用户，无论付费与否，都能在对话中轻松利用GPT-4o大模型生成图像（之前为调用DALL-E模型），并依上下文动态调整，实现一站式创作。企业用户与教育机构后续也将获得专属优化版本，降低专业场景创作门槛。Sora平台作为OpenAI打造的创意协作空间，同步支持该功能，用户可实现文本到视觉内容的全流程创作，推动第三方应用集成GPT-4o图像生成能力，拓宽应用边界。未来，借助API接口，我们认为GPT-4o有望与更多工具、平台深度融合，构建庞大创作生态，推动图像创作向全民化、智能化、协同化发展，进一步释放其在各行业的应用潜力。

来源：华泰证券研究所