PixArt-Σ：用于4K文本到图像生成的扩散转换器的弱到强训练

随着4K及更高分辨率媒体内容的普及，对高质量图像生成技术的需求日益增长。在此背景下，Huawei Noah’s Ark Lab等机构联合推出的PixArt-Σ模型，为4K文本到图像生成领域带来了革命性的突破。该模型不仅能够直接生成4K分辨率的图像，而且在图像质量、细节丰富度和文本提示对齐方面均有显著提升。

论文详细描述了模型的训练效率，利用PixArt-α的基础预训练并通过“弱到强训练”演变，通过整合更高质量的数据。主要进展包括高质量训练数据、在DiT框架内的有效令牌压缩以及提出的弱到强训练策略。模型使用0.6B参数，比其他文本到图像的扩散模型小，但实现了更优越的图像质量和用户提示遵循能力。它支持生成高分辨率图像，适用于如海报和壁纸等应用，特别有益于电影和游戏行业。

研究突出了在扩散转换器和高分辨率图像生成方面的相关工作，强调在提高图像分辨率的同时管理计算需求的挑战。框架部分讨论了数据分析，强调了更好的文本图像对齐和高质量评估数据集，以更全面地评估模型性能。

实验细节包括训练方面，模型在PixArt-α的预训练检查点上进行微调，以及评估指标侧重于审美和语义能力。论文比较了PixArt-Σ与开源模型以及商业文本到图像产品的性能，展示了其竞争优势。

附录提供了关于推理加速、PixArt-Σ的详细训练阶段、压缩设计的消融研究以及高质量评估数据集的额外信息。它还概述了文本到图像模型的局限性和潜在的负面社会影响。

该文档是理解文本到图像生成最新进展的绝佳资源，特别是直接从文本提示生成高分辨率图像的高效和高质量方法。

PixArt-Σ生成图片展示

以下是研究人员公布PixArt-Σ的生成图片案例，在质量、细节、语义还原等方面非常优秀。

一个华丽的珊瑚礁纸艺世界，充满了色彩缤纷的鱼类和海洋生物。