PixArt-Σ:用于4K文本到图像生成的扩散转换器的弱到强训练

随着4K及更高分辨率媒体内容的普及,对高质量图像生成技术的需求日益增长。在此背景下,Huawei Noah’s Ark Lab等机构联合推出的PixArt-Σ模型,为4K文本到图像生成领域带来了革命性的突破。该模型不仅能够直接生成4K分辨率的图像,而且在图像质量、细节丰富度和文本提示对齐方面均有显著提升。

论文详细描述了模型的训练效率,利用PixArt-α的基础预训练并通过“弱到强训练”演变,通过整合更高质量的数据。主要进展包括高质量训练数据、在DiT框架内的有效令牌压缩以及提出的弱到强训练策略。模型使用0.6B参数,比其他文本到图像的扩散模型小,但实现了更优越的图像质量和用户提示遵循能力。它支持生成高分辨率图像,适用于如海报和壁纸等应用,特别有益于电影和游戏行业。

研究突出了在扩散转换器和高分辨率图像生成方面的相关工作,强调在提高图像分辨率的同时管理计算需求的挑战。框架部分讨论了数据分析,强调了更好的文本图像对齐和高质量评估数据集,以更全面地评估模型性能。

实验细节包括训练方面,模型在PixArt-α的预训练检查点上进行微调,以及评估指标侧重于审美和语义能力。论文比较了PixArt-Σ与开源模型以及商业文本到图像产品的性能,展示了其竞争优势。

附录提供了关于推理加速、PixArt-Σ的详细训练阶段、压缩设计的消融研究以及高质量评估数据集的额外信息。它还概述了文本到图像模型的局限性和潜在的负面社会影响。

该文档是理解文本到图像生成最新进展的绝佳资源,特别是直接从文本提示生成高分辨率图像的高效和高质量方法。

PixArt-Σ生成图片展示

以下是研究人员公布PixArt-Σ的生成图片案例,在质量、细节、语义还原等方面非常优秀。

一个华丽的珊瑚礁纸艺世界,充满了色彩缤纷的鱼类和海洋生物。

PixArt-Σ:用于4K文本到图像生成的扩散转换器的弱到强训练

模特特写照片,朦胧光影,激光金属发饰,柔和美丽,浅金色瞳孔,白色睫毛,低饱和度,真实皮肤细节,毛孔细纹清晰,光反射折射,超清,电影摄影、获奖作品。

PixArt-Σ:用于4K文本到图像生成的扩散转换器的弱到强训练

乐高模型,未来火箭站,复杂细节,高分辨率,虚幻引擎,超高清。

PixArt-Σ:用于4K文本到图像生成的扩散转换器的弱到强训练

论文标题:PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation(点击查看及下载原论文)

论文作者:Junsong ChenChongjian GeEnze XieYue WuLewei YaoXiaozhe RenZhongdao WangPing LuoHuchuan LuZhenguo Li

原创文章,作者:青秒观察,如若转载,请注明出处:https://muyun.qingqueai.com/archives/1261

(0)
上一篇 26/02/2024
下一篇 21/02/2024

相关推荐