首页 >> 帮助中心 >> 阿里云国际 > 文字提取（OCR）

文字提取（OCR）

2025-03-24 访问量：1370

通义千问OCR是文字提取专有模型，专注于文档、表格、试题、手写体文字等类型图像的文字提取能力。它能够识别多种文字，目前支持的语言有：汉语、英语、法语、日语、韩语、德语、俄语、意大利语、越南语、阿拉伯语。

您可以在百炼平台进行在线体验通义千问OCR模型的功能。

支持的模型

通义千问VL模型按输入和输出的总Token数进行计费。

图像转换为Token的规则：512x512像素的图像约等于334个Token，其他分辨率图像按比例换算；最小单位是28x28像素，即每28x28像素对应一个Token，如果图像的长或宽不是28的整数倍，则向上取整至28的整数倍；一张图最少4个Token。

模型名称	版本	上下文长度	最大输入	最大输出	输入输出单价	免费额度（注）
		（Token数）			（每千Token）
qwen-vl-ocr 当前等同qwen-vl-ocr-2024-10-28	稳定版	34096	30000 单图最大30000	4096	0.005元	100万Token 有效期：百炼开通后180天内
qwen-vl-ocr-latest 始终等同最新快照版	最新版
qwen-vl-ocr-2024-10-28 又称qwen-vl-ocr-1028	快照版

前提条件

您需要已获取API Key并配置API Key到环境变量。如果通过OpenAI SDK或DashScope SDK进行调用，还需要安装SDK。

如何使用

为获取最佳识别率，需要遵循以下参数设置指南：

text：表示用户的输入文本。目前模型内部会统一以"Read all the text in the image."作为输入文本。您无需定义输入文本，直接选择该值传给text参数即可。
min_pixels、max_pixels：用于控制输入图像像素的最小值和最大值。

默认情况下，min_pixels为3136（即28*28*4），max_pixel为1003520（即28*28*1280）。
通义千问OCR模型的最大输入是按Token数进行计算的。图像转换为Token的规则：每28x28像素对应一个Token。
对于尺寸较大且包含丰富细节的图像，推荐适当增加 max_pixels 的值以提升识别质量，但注意不要超过最大值 (28*28*30000)，否则会报错。建议您多次调整并测试不同的max_pixels 的值，以找到最适合您应用场景的配置。至于 min_pixels，保持其默认设置通常能够满足大多数需求。

快速开始

OpenAI兼容

DashScope

您可以通过OpenAI SDK或HTTP方式实现文字提取。

Python

Node.js

curl

import osfrom openai import OpenAI

client = OpenAI(    # 若没有配置环境变量，请用百炼API Key将下行替换为：api_key="sk-xxx",
    api_key=os.getenv("DASHSCOPE_API_KEY"),
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)
completion = client.chat.completions.create(
    model="qwen-vl-ocr",
    messages=[
        {            "role": "user",            "content": [
                {                    "type": "image_url",                    "image_url": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20241108/ctdzex/biaozhun.jpg",                    "min_pixels": 28 * 28 * 4,                    "max_pixels": 28 * 28 * 1280
                },                # 为保证识别效果，目前模型内部会统一使用"Read all the text in the image."进行识别，用户输入的文本不会生效。
                {"type": "text", "text": "Read all the text in the image."},
            ]
        }
    ])print(completion.choices[0].message.content)

返回结果

读者对象 如果你是Linux环境下的系统管理员，那么学会编写shell脚本将让你受益匪浅。本书并未细述安装 Linux系统的每个步骤，但只要系统已安装好Linux并能运行起来，你就可以开始考虑如何让一些日常 的系统管理任务实现自动化。这时shell脚本编程就能发挥作用了，这也正是本书的作用所在。本书将 演示如何使用shell脚本来自动处理系统管理任务，包括从监测系统统计数据和数据文件到为你的老板 生成报表。 如果你是家用Linux爱好者，同样能从本书中获益。现今，用户很容易在诸多部件堆积而成的图形环境 中迷失。大多数桌面Linux发行版都尽量向一般用户隐藏系统的内部细节。但有时你确实需要知道内部 发生了什么。本书将告诉你如何启动Linux命令行以及接下来要做什么。通常，如果是执行一些简单任 务 (比如文件管理) ，在命令行下操作要比在华丽的图形界面下方便得多。在命令行下有大量的命令 可供使用，本书将会展示如何使用它们。

流式输出

大模型并不是一次性生成最终结果，而是逐步地生成中间结果，最终结果由中间结果拼接而成。使用非流式输出方式需要等待模型生成结束后再将生成的中间结果拼接后返回，而流式输出可以实时地将中间结果返回，您可以在模型进行输出的同时进行阅读，减少等待模型回复的时间。您可以根据调用方式来设置不同的参数以实现流式输出：

OpenAI SDK、OpenAI HTTP、DashScope Python SDK方式：设置stream参数为true。
DashScope Java SDK方式：需要通过streamCall接口调用。
DashScope HTTP方式：需要在Header中指定X-DashScope-SSE为enable。

OpenAI兼容

DashScope

您可以通过OpenAI SDK或HTTP方式实现流式输出。

Python

Node.js

curl

import osfrom openai import OpenAI

client = OpenAI(    # 若没有配置环境变量，请用百炼API Key将下行替换为：api_key="sk-xxx",
    api_key=os.getenv("DASHSCOPE_API_KEY"),
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)
completion = client.chat.completions.create(
    model="qwen-vl-ocr",
    messages=[
        {            "role": "user",            "content": [
                {                    "type": "image_url",                    "image_url": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20241108/ctdzex/biaozhun.jpg",                    "min_pixels": 28 * 28 * 4,                    "max_pixels": 28 * 28 * 1280
                },                # 为保证识别效果，目前模型内部会统一使用"Read all the text in the image."进行识别，用户输入的文本不会生效。
                {"type": "text", "text": "Read all the text in the image."},
            ]
        }
    ],
    stream=True)
full_content = ""print("流式输出内容为：")for chunk in completion:    if chunk.choices[0].delta.content is None:        continue
    full_content += chunk.choices[0].delta.content    print(chunk.choices[0].delta.content)print(f"完整内容为：{full_content}")

返回结果

流式输出内容为：

读者
对象
 如果
你是
Linux环境下的系统
......
行下有大量的命令
 可供使用
，本书将会展示
如何使用它们。
完整内容为：读者对象 如果你是Linux环境下的系统管理员，那么学会编写shell脚本将让你受益匪浅。本书并未细述安装 Linux系统的每个步骤，但只要系统已安装好Linux并能运行起来，你就可以开始考虑如何让一些日常 的系统管理任务实现自动化。这时shell脚本编程就能发挥作用了，这也正是本书的作用所在。本书将 演示如何使用shell脚本来自动处理系统管理任务，包括从监测系统统计数据和数据文件到为你的老板 生成报表。 如果你是家用Linux爱好者，同样能从本书中获益。现今，用户很容易在诸多部件堆积而成的图形环境 中迷失。大多数桌面Linux发行版都尽量向一般用户隐藏系统的内部细节。但有时你确实需要知道内部 发生了什么。本书将告诉你如何启动Linux命令行以及接下来要做什么。通常，如果是执行一些简单任 务(比如文件管理) ， 在命令行下操作要比在华丽的图形界面下方便得多。在命令行下有大量的命令 可供使用，本书将会展示如何使用它们。

使用本地文件

您可以参考以下示例代码，通过OpenAI或者DashScope的方式，调用通义千问OCR模型处理本地文件。以下代码使用的示例图片为：test.jpg

OpenAI兼容

DashScope

使用OpenAI SDK或OpenAI兼容的HTTP方式来处理本地图像文件的步骤如下：

编码图像文件：读取本地图像文件并编码为BASE64格式。
传递BASE64数据：将BASE64编码的图像数据传递给image_url参数。请使用以下格式进行传递：data:image/{format};base64,{base64_image}，其中：

image/{format}：本地图像的格式。请根据实际的图像格式，将image/{format}设置为与使用说明表格中Content Type对应的值。如：本地图像为jpg格式，则设置为image/jpeg。
base64_image：图像的BASE64数据。

调用模型：调用通义千问OCR模型，并处理返回的结果。

Python

Node.js

HTTP

from openai import OpenAIimport osimport base64#  读取本地文件，并编码为 BASE64 格式def encode_image(image_path):    with open(image_path, "rb") as image_file:        return base64.b64encode(image_file.read()).decode("utf-8")


base64_image = encode_image("test.jpg")
client = OpenAI(    # 若没有配置环境变量，请用百炼API Key将下行替换为：api_key="sk-xxx"
    api_key=os.getenv('DASHSCOPE_API_KEY'),
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)
completion = client.chat.completions.create(
    model="qwen-vl-ocr",
    messages=[
        {            "role": "user",            "content": [
                {                    "type": "image_url",                    # 需要注意，传入BASE64，图像格式（即image/{format}）需要与支持的图片列表中的Content Type保持一致。"f"是字符串格式化的方法。
                    # PNG图像：  f"data:image/png;base64,{base64_image}"
                    # JPEG图像： f"data:image/jpeg;base64,{base64_image}"
                    # WEBP图像： f"data:image/webp;base64,{base64_image}"
                    "image_url": {"url": f"data:image/jpeg;base64,{base64_image}"},                    "min_pixels": 28 * 28 * 4,                    "max_pixels": 28 * 28 * 1280
                },                # 为保证识别效果，目前模型内部会统一使用"Read all the text in the image."进行识别，用户输入的文本不会生效。
                {"type": "text", "text": "Read all the text in the image."},
            ],
        }
    ],
)print(completion.choices[0].message.content)

返回结果

读者对象 如果你是Linux环境下的系统管理员，那么学会编写shell脚本将让你受益匪浅。本书并未细述安装 Linux系统的每个步骤，但只要系统已安装好Linux并能运行起来，你就可以开始考虑如何让一些日常 的系统管理任务实现自动化。这时shell脚本编程就能发挥作用了，这也正是本书的作用所在。本书将 演示如何使用shell脚本来自动处理系统管理任务，包括从监测系统统计数据和数据文件到为你的老板 生成报表。 如果你是家用Linux爱好者，同样能从本书中获益。现今，用户很容易在诸多部件堆积而成的图形环境 中迷失。大多数桌面Linux发行版都尽量向一般用户隐藏系统的内部细节。但有时你确实需要知道内部 发生了什么。本书将告诉你如何启动Linux命令行以及接下来要做什么。通常，如果是执行一些简单任 务(比如文件管理) ， 在命令行下操作要比在华丽的图形界面下方便得多。在命令行下有大量的命令 可供使用，本书将会展示如何使用它们。

使用限制

图片限制

图片格式	Content Type	文件扩展名
BMP	image/bmp	.bmp
DIB	image/bmp	.dib
ICNS	image/icns	.icns
ICO	image/x-icon	.ico
JPEG	image/jpeg	.jfif, .jpe, .jpeg, .jpg
JPEG2000	image/jp2	.j2c, .j2k, .jp2, .jpc, .jpf, .jpx
PNG	image/png	.apng, .png
SGI	image/sgi	.bw, .rgb, .rgba, .sgi
TIFF	image/tiff	.tif, .tiff
WEBP	image/webp	.webp

输入的图片大小不超过10MB。
输入图片的长和宽必须都大于10，否则会报错。

模型限制

由于通义千问OCR模型是一个专用于文字提取的模型，只会对用户输入的图像进行文字提取，不会对用户输入的其他文本进行回答。
用户需要在image参数中传入图像的URL或者BASE64链接；如果请求中输入了多个图像，模型只会识别第一个图像，不支持对多图识别。
通义千问OCR模型目前不支持多轮对话能力，只会对用户最新的问题进行回答。

常见问题

通义千问OCR模型可以处理哪些文件？

通义千问OCR模型可以处理PDF、EXCEL、DOC等文本文件吗？
通义千问OCR模型属于视觉理解模型，只能处理图片格式的文件，不能处理文本文件。您可以使用Qwen-Long模型解析文档内容，详情请参见长上下文。

通义千问OCR模型是如何计费与限流的？

模型是如何限流的？
通义千问OCR模型的限流条件可以参见限流，阿里云主账号与其RAM子账号共享限流限制，如果您有增加并发量的需求，请前往扩容申请。
模型免费额度是多少？
从开通百炼或模型申请通过之日起计算有效期，有效期180天内，通义千问OCR模型提供100万Token的免费额度。
如何查询模型的剩余额度？
您可以访问阿里云百炼控制台的模型广场页面，找到通义千问OCR模型并点击查看详情，即可查看免费额度、剩余额度及到期时间。如果没有显示免费额度，说明账号下该模型的免费额度已到期。
模型是如何计费的？
通义千问OCR 为视觉理解模型，总费用 = 输入 Token 数 x 模型输入单价 + 模型输出 Token 数 x 模型输出单价。其中，图像转成Token的方法为每28x28像素对应一个Token，一张图最少4个Token。
如何查看账单？
您可以在阿里云控制台的费用与成本页面查看账单或进行充值。
更多计费问题请参见计费项说明。

API参考

关于通义千问OCR模型的输入输出参数，请参见文本生成-通义千问。

错误码

如果模型调用失败并返回报错信息，请参见错误码进行解决。

上一篇：通义千问VL

下一篇： Qwen-Omni 模型

全部类型

更多>

阿里云国际腾讯云国际亚马逊云教程中心安全中心