近日,百度(BIDU)文心大模型正式推出并开源 ERNIE-Image 文生图模型,以远低于行业的 8B 参数规模,实现了多项国际基准测试 SOTA(行业最优效果)。同时,ERNIE-Image 在 24GB 显存的消费(883434)级显卡即可流畅运行,这意味着大幅降低了高精度文生图的技术与硬件门槛,为创作者与行业提供可触达的顶级图像生成能力。用户可在文心一言、百度(BIDU)千帆平台上测试使用。
在评测表现上,ERNIE-Image 在多项权威基准中取得领先成绩。其中,在 SuperCLUE 文生图榜单中,ERNIE-Image 综合排名位列国内第一、全球第四,仅次于 Nano Banana 2、Nano Banana Pro 和 GPT-Image-1.5,超过 Qwen-Image-2.0-Pro、Doubao-Seedream-5.0-lite(LITE) 等模型;同时,在图文一致性与汉字生成两项细分指标中均位列国内第一。
在国际公开评测中,ERNIE-Image 在 GenEval、OneIG(中英文)、LongText-Bench 等基准测试中综合表现领先同类开源模型,与 Nano Banana 等商业闭源模型处于同一梯队。其中,在复杂指令与文本渲染能力测试 LongText-Bench 中,ERNIE-Image 以 0.9733 的成绩位列全球开源模型第一。
据悉,ERNIE-Image 被业内称为“开源小钢炮”,采用单流 Diffusion Transformer(DiT)架构,仅约 80 亿参数规模,即可实现高水平图像生成能力。在复杂指令跟随、高密度文本渲染及结构化图像生成方面表现突出,支持中、英、日、韩等多语言生成,字形清晰、笔画精准,可稳定输出海(885840)报、漫画分镜及学术图表等高布局复杂度内容。模型风格覆盖写实摄影、动漫、电影感胶片、老照片等多种类型,在角色一致性与情绪表达方面表现优异,尤其在二次元漫画创作中,可实现单主体精准还原与多主体稳定生成,整体效果接近专业漫画稿水准。
目前,ERNIE-Image 已在 Hugging Face 开源模型权重及推理代码,遵循 Apache 2.0 协议,支持 ComfyUI 工作流,海外开发者测试后在社交媒体评价称:“对比 ERNIE-Image 和 Nano banana2,效果让人震惊”、“接触过最好的的开源(文生图)Turbo 模型”。
官方消息显示,ERNIE-Image 已经与同道大叔、电影网、凤凰网、蜻蜓 FM、瑛麒动漫、吐司 AI、RunningHub、Mulan AI 等 30 余家机构与 20 位设计师合作,完成实测验证,生成效果稳定图片精度和质量颇高。目前已有超 50 家创作平台、社区和知名企业完成接入。
业内观点认为,ERNIE-Image 以小参数实现高性能,打破高端文生图对专业算力的依赖,推动开源生成式 AI 走向普惠化,将为设计、动漫、传媒等行业带来高效低成本的创作升级,加速全民 AI 图像创作时代到来。
