阿里云国际-阿里云国际站和腾讯云国际站账号自助申请与充值-阿里云国际,腾讯云国际,阿里云国际账号,腾讯云国际账号

图像画面扩展

图像画面扩展模型可以对输入图像进行画面延展，可以通过指定输出宽高比、横向及纵向扩展比例、向上下左右各方向扩展像素数三种方式进行扩图，均支持先旋转再扩图，可用于创意娱乐、辅助作图、画面设计等场景。基本介绍使用场景创意设计与广告制作：在广告设计或创意海报制作中，设计师有时需要将一张焦点图像扩展到特定尺寸

2025-04-07 浏览:1000+

图像背景生成

通义万相-图像背景生成模型专为商品换背景而设计。您可以选择文本引导（通过输入中英文描述生成背景）、图像引导（使用现有图片作为背景参考），或同时结合这两种方式。此外，模型还支持使用边缘引导元素（即图像的增强边缘特征），可以指定前景和背景内容。借助边缘引导元素，前景和背景在生成时能更自然地与商品融合。该模

2025-04-02 浏览:1000+

人像风格重绘

通义万相-人像风格重绘可以将输入的人物图像进行多种风格化的重绘生成，使新生成的图像在兼顾原始人物相貌的同时，带来不同风格的绘画效果。基本介绍通义万相-人像风格当前支持预置重绘风格和客户上传风格参考图，预置重绘风格有复古漫画、3D童话、二次元、小清新、未来科技、国画古风、将军百战等。使用场景创意广告与市场

2025-04-02 浏览:1000+

通用图像编辑

只需一句话，实现多样化图像编辑。通义万相-通用图像编辑模型通过简单的文本指令，即可完成扩图、去水印、风格迁移、图像修复、图像美化等多种图像编辑任务，让创意触手可及。模型概览模型名称计费单价限流（主账号与RAM子账号共用）免费额度任务下发接口RPS限制同时处理中任务数量wanx2.1-imageedit0.14元/张22免费额度：5

2025-04-02 浏览:1000+

文本生成图像

通义万相-文生图模型支持通过一句话生成图像，分为V2版和V1版。全面升级的文生图V2版模型提升了语义理解能力，通过预置智能改写功能帮助您快速上手图像创作。此外，V2版支持任意分辨率，输出图像最高可达200万像素。推荐优先使用文生图V2版模型。模型概览及对比模型概览文生图V2版文生图V1版您可以选择全面升级的通义万相-文

2025-04-02 浏览:1000+

语音合成

语音合成，又称文本转语音（Text-to-Speech，TTS），是将文本转换为自然语音的技术。该技术基于机器学习算法，通过学习大量语音样本，掌握语言的韵律、语调和发音规则，从而在接收到文本输入时生成真人般自然的语音内容。示例场景和语音聊天数字人日常闲聊电话客服客服提醒直播带货推荐T恤有声阅读诗歌朗诵语音导航导航播报

2025-03-24 浏览:1000+

音频理解

通义千问Audio是阿里云研发的大规模音频语言模型，能够接受多种音频（包括说话人语音、自然声音、音乐、歌声）和文本作为输入，并输出文本。通义千问Audio不仅能对输入的音频进行转录，还具备更深层次的语义理解、情感分析、音频事件检测、语音聊天等能力。功能介绍识别多种音频识别人类语音：除了语音转文本，还能分析说话

2025-03-24 浏览:1000+

Qwen-Omni 模型

Qwen-Omni 系列模型支持输入多种模态的数据，包括视频、音频、图片、文本，并输出文本。支持的模型相比于Qwen-VL与Qwen-Audio模型，Qwen-Omni 模型可以：理解视频文件中的视觉与音频信息；理解多种模态的数据；在视觉理解、音频理解等能力上，Qwen-Omni 模型也表现出色。模型名称版本上下文长度最大

2025-03-24 浏览:1000+

文字提取（OCR）

通义千问OCR是文字提取专有模型，专注于文档、表格、试题、手写体文字等类型图像的文字提取能力。它能够识别多种文字，目前支持的语言有：汉语、英语、法语、日语、韩语、德语、俄语、意大利语、越南语、阿拉伯语。您可以在百炼平台进行在线体验通义千问OCR模型的功能。支持的模型通义千问VL模型按输入和输出的总Token数进行

2025-03-24 浏览:1000+

通义千问VL

通义千问VL模型可以根据您传入的图片来进行回答。访问视觉模型可以在线体验图片理解能力。应用场景图像问答：描述图像中的内容或者对其进行分类打标，如识别图像中的人物、地点、植物等，并给出对应的描述或标签。文字识别（OCR）：识别图像中的文字，如文档截图、日常图像等，并支持格式化输出文本内容。通义千问VL模型能识

2025-03-24 浏览:1000+