首页 >> 帮助中心 >> 阿里云国际 > Qwen-Omni 模型

Qwen-Omni 模型

2025-03-24 访问量：1034

Qwen-Omni 系列模型支持输入多种模态的数据，包括视频、音频、图片、文本，并输出文本。

支持的模型

相比于 Qwen-VL 与 Qwen-Audio 模型，Qwen-Omni 模型可以：

理解视频文件中的视觉与音频信息；
理解多种模态的数据；

在视觉理解、音频理解等能力上，Qwen-Omni 模型也表现出色。

模型名称	版本	上下文长度	最大输入	最大输出	免费额度（注）
		（Token数）
qwen-omni-turbo 当前等同qwen-omni-turbo-2025-01-19	稳定版	32,768	30,720	2,048	各100万Token（不区分模态）有效期：百炼开通后180天内
qwen-omni-turbo-latest 始终等同最新快照版	最新版
qwen-omni-turbo-2025-01-19 又称qwen-omni-turbo-0119	快照版

当免费额度用完后，输入与输出的计费规则如下：

其中，稳定版模型qwen-omni-turbo支持Batch调用，费用为以下价格的50%。注：Batch调用不支持抵扣免费额度。

输入计费项单价（每千 Token）输入：文本0.0004元输入：音频0.025元输入：图片/视频0.0015元	输出计费项单价（每千 Token）输出：文本0.0016元（输入仅包含文本时）0.0045元（输入包含图片/音频/视频时）
计费示例：某次请求输入了1000 Token 的文本和1000 Token 的图片，输出了1000 Token 的文本，则该请求花费：0.0004元（文本输入）+ 0.0015元（图片输入）+ 0.0045元（文本输出）= 0.0064元。在Batch调用模式下，该请求花费按50%计收，为0.0032元。

音频与图片转换为Token数的规则

使用方法

输入

支持的输入模态

支持以下输入组合：

无法在一个 User Message中输入多种非文本模态的数据。

输入多模态数据的方式

输入的图片、音频、视频文件支持 Base64 编码与公网 URL 进行传入。以下示例代码均以传入公网 URL 为例，如果需要传入 Base64 编码，请参见输入 Base64 编码的本地文件。

输出

当前仅支持以流式输出的形式调用 Qwen-Omni 模型。

支持的输出模态

重要

当前仅支持文本输出，后续会推出音频输出功能。

输出模态由modalities参数控制，当前仅支持设置为["text"]。

输出模态	`modalities`参数值
文本	["text"]（默认值）

输入 Base64 编码的本地文件

图片

音频

视频

以保存在本地的test.png为例。

Python

Node.js

import osfrom openai import OpenAIimport base64

client = OpenAI(    # 若没有配置环境变量，请用百炼API Key将下行替换为：api_key="sk-xxx",
    api_key=os.getenv("DASHSCOPE_API_KEY"),
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)#  Base64 编码格式def encode_image(image_path):    with open(image_path, "rb") as image_file:        return base64.b64encode(image_file.read()).decode("utf-8")


base64_image = encode_image("test.png")

completion = client.chat.completions.create(
    model="qwen-omni-turbo",
    messages=[
        {            "role": "system",            "content": [{"type": "text", "text": "You are a helpful assistant."}],
        },
        {            "role": "user",            "content": [
                {                    "type": "image_url",                    "image_url": {"url": f"data:image/png;base64,{base64_image}"},
                },
                {"type": "text", "text": "图中描绘的是什么景象？"},
            ],
        },
    ],    # 设置输出数据的模态，当前支持["text"]
    modalities=["text"],    # stream 必须设置为 True，否则会报错
    stream=True,
    stream_options={"include_usage": True},
)for chunk in completion:    if chunk.choices:        print(chunk.choices[0].delta)    else:        print(chunk.usage)

错误码

如果模型调用失败并返回报错信息，请参见错误信息进行解决。

上一篇：文字提取（OCR）

下一篇：音频理解

全部类型

更多>

阿里云国际腾讯云国际亚马逊云教程中心安全中心

Qwen-Omni 模型

支持的模型

使用方法

输入

支持的输入模态

输入多模态数据的方式

输出

支持的输出模态

开始使用

前提条件

文本输入

图片+文本输入

音频+文本输入

视频+文本输入

图片列表形式

视频文件形式（可理解视频中的音频）

多轮对话

输入 Base64 编码的本地文件

错误码