北京时间3月26日,OpenAI推出GPT-4o原生图像生成功能,具备强大的图像生成与修改能力,如更好的文本集成、增强的上下文理解、改进的多对象绑定和多样化风格适应等。我们认为该功能的出现,使得图像生成的用户体验更流畅、生成效果更逼真,并且降低了用户使用门槛,意味着模型即产品的时代将加速来临。我们认为GPT-4o生图功能在影视、营销、电商和游戏等领域具有较大应用潜力,有望成为真正的生产力工具,为行业带来变革性影响。
GPT-4o生图能力全球领先,技术路径基于自回归模型
GPT-4o生图的特点在于能精准渲染图像内文字、精确执行复杂指令、上下文扩展确保多个交互之间的视觉一致性、支持各种艺术风格等,生图能力和质量目前来看全球领先。GPT-4o在图像生成技术上与过往DALL-E系列所采用的扩散模型不同,为基于自回归模型打造,从图像整体架构出发,逐步细化填充。这种技术路径的优势在于面对复杂场景的图像生成任务时,图像质量和逻辑性更有保障。此外,模型可充分理解多轮对话中的复杂指令,大幅提升图像生成的准确性与效率,为其在多领域的应用筑牢技术根基。
GPT-4o原生图像生成功能将推动构建全场景、多模态创意交互新生态
我们认为该功能的上线丰富了OpenAI的生态体系,生图能力全球领先,革新了创意交互模式。在个人端,ChatGPT各层级用户,无论付费与否,都能在对话中轻松利用GPT-4o大模型生成图像(之前为调用DALL-E模型),并依上下文动态调整,实现一站式创作。企业用户与教育机构后续也将获得专属优化版本,降低专业场景创作门槛。Sora平台作为OpenAI打造的创意协作空间,同步支持该功能,用户可实现文本到视觉内容的全流程创作,推动第三方应用集成GPT-4o图像生成能力,拓宽应用边界。未来,借助API接口,我们认为GPT-4o有望与更多工具、平台深度融合,构建庞大创作生态,推动图像创作向全民化、智能化、协同化发展,进一步释放其在各行业的应用潜力。
来源:华泰证券研究所