首页 >> 帮助中心 >> 阿里云国际 > 文本生成图像

文本生成图像

2025-04-02 访问量：1212

通义万相-文生图模型支持通过一句话生成图像，分为V2版和V1版。全面升级的文生图V2版模型提升了语义理解能力，通过预置智能改写功能帮助您快速上手图像创作。此外，V2版支持任意分辨率，输出图像最高可达200万像素。推荐优先使用文生图V2版模型。

模型概览及对比

模型概览

文生图V2版

文生图V1版

您可以选择全面升级的通义万相-文生图V2系列模型进行文生图创作，请使用通义万相官网体验效果。

文生图2.1系列模型：wanx2.1-t2i-turbo、wanx2.1-t2i-plus。
文生图2.0系列模型：wanx2.0-t2i-turbo。

模型版本	模型名称	模型简介
通义万相文生图2.1 （文生图V2版）	wanx2.1-t2i-plus	全面升级版本。生成图像细节更丰富，速度稍慢。对应通义万相官网2.1专业模型。
通义万相文生图2.1 （文生图V2版）	wanx2.1-t2i-turbo	全面升级版本。生成速度快、效果全面、综合性价比高。对应通义万相官网2.1极速模型。
通义万相文生图2.0 （文生图V2版）	wanx2.0-t2i-turbo	擅长质感人像，速度中等、成本较低。对应通义万相官网2.0极速模型。
通义万相文生图1.0 （文生图V1版）	wanx-v1	基础文生图模型。对应通义万相官网1.0通用模型。

模型名称	计费单价	限流（主账号与RAM子账号共用）		免费额度
模型名称	计费单价	任务下发接口RPS限制	同时处理中任务数量	免费额度
wanx2.1-t2i-plus	0.20元/张	2	2	免费额度：500张有效期：百炼开通后180天内
wanx2.1-t2i-turbo	0.14元/张	2	2
wanx2.0-t2i-turbo	0.04元/张	2	2
wanx-v1	0.16元/张	2	1

模型效果对比

下表对比了文生图三个模型的生成效果，仅调整prompt，其他参数均使用API默认值。

模型建议：推荐优先选择文生图V2版模型。

若需要高质量图像，选择文生图2.1（wanx2.1-t2i-turbo或wanx2.1-t2i-plus），其中wanx2.1-t2i-turbo更具性价比。
若考虑成本，可选择文生图2.0（wanx2.0-t2i-turbo）。

文生图2.1（wanx2.1-t2i-turbo）	文生图2.0（wanx2.0-t2i-turbo）	文生图1.0（wanx- v1）
prompt = "生成一张新年祝福贺卡，背景有白雪，放鞭炮的小孩，蛇形成文案2025，并写上HAPPY NEW YEAR。" 效果对比：文生图2.1模型的文字生成能力更强，适合创意设计场景。

prompt = "一个用针毡制作的圣诞老人手持礼物，旁边站着一只白色的猫咪，背景中有许多五颜六色的礼物。整个场景应该是可爱、温暖和舒适的，并且背景中还有一些绿色植物。" 效果对比：文生图2.1模型的语义理解更加准确（如手持礼物），生成的图像质量更高。

prompt = "中国女孩，圆脸，看着镜头，优雅的民族服装，商业摄影，室外，电影级光照，半身特写，精致的淡妆，锐利的边缘。 " 效果对比：文生图2.0模型在质感人像生成方面表现出色，其成本仅为文生图2.1模型的三分之一，性价比高。

prompt = "高清摄影写真，一只布偶猫慵懒地躺在复古木质窗台上。它拥有一身柔软的银白色长毛，深蓝色宝石般的眼睛，粉嫩的小鼻头和肉垫。猫咪眼神温柔地望向镜头，嘴角似乎带着一抹满足的微笑。午后阳光透过半开的窗户洒在它身上，营造出温馨而宁静的氛围。背景是模糊的绿色植物和老式窗帘，增添了几分生活气息。近景特写，自然光影效果。" 效果对比：文生图2.1模型在动物图像的生成和理解方面更具优势，其他两个模型没有生成布偶猫，1.0模型生成的动物图像质量较差。

示例代码

前期准备

文生图V2和V1版模型API均支持通过HTTP和DashScope SDK进行调用。

在调用前，您需要开通模型服务并获取API Key，再配置API Key到环境变量。

如需通过SDK进行调用，请安装DashScope SDK。目前，该SDK已支持Python和Java。

下面展示文生图V2版和V1版的HTTP请求参数。

文生图V2版

文生图V1版

{
    "model": "", //必填项
    "input": {
        "prompt": "", //提示词，必填项
        "negative_prompt": "" //选填项
    },
    "parameters": {
        "size": "1024*1024", //默认值
        "n": 4, //默认值
        "prompt_extend": true, //默认值
        "watermark": false, //默认值
        "seed": 42 //示例值
    }}

提示词

文生图模型需要使用一段文字描述生成的图片。提示词（prompt）描述越完整、精确和丰富，生成的图像品质越高，越贴近期望生成的内容。

提示词撰写技巧请参见文生图Prompt使用指南。

关键能力-文生图V2版

通义万相-文生图V2版模型的升级要点如下所示。参数说明请参见文生图V2版API参考。

prompt智能改写：默认开启智能改写，对于较短的输入prompt生成效果提升明显。推荐使用默认值。
按任意分辨率生成图像：文生图V1版模型仅支持4种输出图像分辨率，V2版模型支持设置任意分辨率，最高可达200万像素。
添加水印：开放水印参数，可为输出图像添加水印。默认不添加水印。

prompt智能改写

通过prompt_extend控制是否开启prompt智能改写。默认开启智能改写，开启后会使用大模型（qwen模型）对输入prompt进行智能改写。对于较短的输入prompt生成效果提升明显，但会增加3-4秒耗时。

下面展示两个开启prompt智能改写的前后对比示例，模型使用wanx2.1-t2i-turbo。

// prompt示例1prompt = "火星上的城市，废土风格。"

不开启智能改写

开启智能改写

改写后的prompt

a898b904-47bc-413d-8d26-7c131dea093e-1

be4315ce-86d2-4a44-8112-4dd5a0b58ee8-1

废土风格的火星城市，画面中可以看到荒凉的红色沙地和破败的建筑。城市中散布着废弃的车辆和机械残骸，天空呈现出暗淡的橙黄色。远处有几座破损的高楼，表面覆盖着尘土和裂痕。近景处有一群穿着厚重防护服的探险者，他们手持武器，警惕地观察四周。整体色调偏暗，充满末日氛围。长焦镜头拍摄，细节丰富。

81d6072e-2079-4d4a-8eab-4c44ed5131e1-1

3e0404f4-c375-4300-9a6b-2b0109a83352-1

废土风格的火星城市，荒凉的红色地表上散布着废弃的建筑和残破的机械。城市的天际线被尘暴笼罩，远处可见几座破损的高塔。街道上散落着锈迹斑斑的车辆和碎片。画面整体色调偏暗，充满末日氛围。近景中有一辆破旧的越野车停在路边，驾驶舱内坐着一位穿着厚重防护服的探险者，他/她正凝视前方。长焦镜头，写实摄影风格。

示例代码：prompt智能改写

// prompt示例2prompt = "外景，香水瓶，产品照片，暖色调"

不开启智能改写

开启智能改写

改写后的prompt

debfb510-0b3c-4fd8-9b03-dc6fc112e5f0-1

83dd5c1c-1d1d-4697-bc98-db3e768c03b2-1

暖色调外景产品照片，一瓶精致的香水瓶置于画面中央。香水瓶身透明，内部液体呈淡金色，瓶盖为金色金属质感。背景是温暖的夕阳下，绿树成荫的小径和远处的建筑。光线柔和，营造出温馨舒适的氛围。高清写实摄影，近景特写构图。

77aaed4b-358b-4a5a-abf6-8e1c25901956-1

7ba0fa17-1f23-400f-a610-e3c0d75d0853-1

暖色调外景产品照片，一瓶精致的香水瓶置于画面中央。香水瓶身透明，内装淡粉色液体，瓶颈装饰有金色细节。背景是柔和的自然景观，可见蓝天、白云和远处的树木。光线温暖，营造出温馨浪漫的氛围。高清写实摄影，近景特写构图。

按任意分辨率生成图像

通过设置 size 参数来控制输出图像的分辨率。

升级版的文生图V2版模型支持自定义设置图像分辨率，图像宽高边长的像素范围为：[768, 1440]，默认值是1024*1024。

下面展示常见的输出图像分辨率尺寸，模型使用wanx2.1-t2i-plus。

size=768*1024(3:4）	size=1024*768(4:3）	size=1024*1024(1:1）

示例代码：设置图像分辨率

添加水印

通过watermark为输出图像添加水印标识，水印位于图片右下角，文案为“AI生成”。默认值为false，表示不添加水印。

下面展示添加水印的效果，模型使用wanx2.1-t2i-turbo。

watermark=false(不添加水印）	watermark=true(添加水印）

示例代码：添加水印

关键能力-文生图V1版

通义万相-文生图V1版模型支持：根据输入文本生成图像、根据输入文本和参考图像生成相似图。参数说明请参见文生图V1版API参考。

文生图V1版模关键能力包括：

使用反向提示词：支持使用反向提示词，来指定图像中不包含的元素。
基于参考图像生成相似图：ref_mode指定生成相似图的方式，repaint代表参考内容，默认值；refonly代表参考风格。

使用反向提示词

通过正向提示词描述期望的图像元素和风格，使用反向提示词来描述不希望在图像中看到的内容。例如，设置negative_prompt以限制输出图像中不要使用红色元素。

//正向提示词prompt = "近景镜头，18岁的中国女孩，古代服饰，圆脸，正面看着镜头，民族优雅的服装，商业摄影，室外，电影级光照，半身特写，精致的淡妆，锐利的边缘。"//反向提示词negative_prompt = "红色元素"

示例代码：使用反向提示词

基于参考图生成相似图

基于参考图生成图像涉及两个参数：ref_strength参数和ref_mode参数。

设置相似度

您可以使用ref_strength参数来控制输出图像与参考图的相似度。它的取值范围是[0.0, 1.0]，默认值为0.5。取值越大表示跟参考图像越相似。

示例代码：设置相似度

设置相似图的生成方式

您可以通过ref_mode参数来控制如何基于参考图像生成相似图。

ref_mode="repaint"：根据参考图像内容生成图像，默认值。
ref_mode="refonly"：根据参考图像风格生成图像。

示例代码：设置相似图的生成方式