Qwen3.6-Max文本推理Qwen3.6 系列中最大且能力最强的 Max 模型现已推出预览版。目前,仅开放其纯文本功能特性供实验。与先前发布的 Qwen3-Max 和 Qwen3.6-Plus 相比,该模型具备更强的氛围感代码生成能力、更高效的编码代理执行能力,以及显著提升的前端开发技能。此外,其长尾知识记忆能力也进一步升配。
Qwen3.6-Plus视觉理解文本Qwen3.6 原生视觉语言 Plus 系列模型表现达到当前业界顶尖水平,相较 3.5 系列整体能力显著提升。在智能体编程、前端与 Vibe coding 等代码相关能力,以及多模态通用物体识别、OCR 与目标定位等方面均有明显增强。
Wan - Text to Image图像生成万相2.6文生图,在视觉质量、美学表现和指令遵循方面全面升级,可实现精准的风格控制、逼真的纵向人像、长文本理解以及广泛的历史与文化IP覆盖度,从而生成高质量、高表现力的视觉内容。
Qwen-Image-2.0-Pro图片生成功能全面的 Qwen-Image-2.0 系列模型集成了图像生成和图像处理能力,提供增强的文本呈现效果,支持长达1,000个分词的提示词、更加精细逼真的纹理、对照片级真实场景的细致描绘,以及更强的语义一致性。该全功能版本在2.0系列中实现了最强的文本呈现能力和最逼真的纹理效果。
CosyVoice文本语音CosyVoice-v3-plus 为 CosyVoice 系列最新大模型语音克隆方案,音质与克隆相似度出色,适合专业场景;仅需 5–20 秒参考音频即可快速生成高度相似且自然的定制音色。合成功能方面,CosyVoice-v3-plus 为 CosyVoice 系列最新大语音合成模型,音质与表现力增强,适合专业场景,并支持实时流式文本转语音合成。
Qwen3-ASR-Flash-Realtime实时语音识别Qwen3-ASR-Flash 实时版是一款基于大语言模型的高精度、智能化、鲁棒性强的多语言语音识别模型。依托强大的基础模型、海量文本与多模态数据,以及数千万小时的音频数据,Qwen3-ASR-Flash 实现了高精度的语音识别,可自动判断语种,并准确识别 11 种语言的语音,即使在复杂的音频环境中也能确保精准转录。