Imagen By Google
发现Imagen是Google Research的大脑团队的尖端文本对图像扩散模型。在生成的图像中体验“前所未有的光真实主义”程度,结合了“深度水平的语言理解” **,从而在现场设定了新的基准。
利用大型变压器语言模型(例如T5)和扩散模型的力量的能力,Imagen将文本描述转换为具有与给定文本的显着对齐的高保真图像。与其他需要在特定数据集上进行广泛培训的模型不同,在没有任何事先培训的情况下,在可可数据集中就具有最先进的FID得分令人惊讶。
这种创新不仅仅是一种叙述。它通过引入** drawbench **证实,这是一个全面的基准,将文本对图像模型列入了测试。 Imagen脱颖而出的是它具有纯粹有效性编码文本以综合图像综合的能力,因为图像中的语言模型的大小增加对生成图像的忠诚度和准确性产生了深远的影响。
加入我们在语言和视觉创造力与成像家族的交集中的这种变革性旅程,包括成像视频和成像编辑器。拥抱图像产生的未来,其中AI的潜力符合人类表达的复杂性。
主要功能:
理解的灵活性: 采用强大的转换器语言模型来对文本进行细致入微的理解。
图像生成方面的进步: 利用扩散模型生成高质量的逼真图像。
基准突破: 引入了 DrawBench,为评估文本到图像模型设定了新标准。
令人印象深刻的 FID 分数: 在 COCO 数据集上实现了新的最先进的 FID 分数,展示了出色的图像文本对齐。
**语言模型影响:**表明,与缩放图像扩散模型相比,扩大语言模型的大小可以显着增强图像合成。
定价:
免费试用和收费混合
标签:
Google Research
Brain Team
Text-to-Image Diffusion Model
Photorealism
DrawBench
Transformer Language Models
FID Score
Image Synthesis