尊龙凯时 阿里Qwen上新多模态旗舰!11小时自动研发App,狂写10000+行代码1000+次调用

来源:尊龙凯时2026世界杯中国官网 作者: 发布: 浏览:125

带多模态的 Agent 模子,真就了不得。

一句话,十几分钟,仿写一个网页版 MacOS 界面。

每个阁下齐能点进去,结尾输入高唱还能复返恶果我是最肯定的。

这便是阿里上新的 Qwen-3.7 Plus,多模态交互式搀杂 Agent。

Qwen3.7-Plus 把视觉和说话才气放进并吞个底座,同期保留代码、器具使用。这些智能体才气。

它能感知践诺场景,读屏并操作 GUI,从视觉参考里写代码,端到端导航 App,还能联结网页学问回话视觉问题。

过去好多模子擅长单点才气,看图归看图,写代码归写代码,浏览网页归浏览网页。

Qwen3.7-Plus 想把它们放进并吞个轮回。

这亦然" Hybrid "(搀杂)的含义。

官方展示里,最卓越的是一个长程 App 研发任务。

团队基于 Qwen3.7 构建的 Hybrid-Agent 系统,一语气沉稳开动教育 11 小时,自动完成一个英语词汇学习 App 的无缺研发周期。

袒护需求文档生成、自动编码、装配部署、测试用例创建、GUI 自动化测试、多场景并行测试、居品文档更新,以及自主版块演进。

K8凯发中国官方网站

10000+ 行代码,1000+ 次 Agent 调用。

另一个桌面阁下建设案例是复刻了原生 macOS Stocks App。

智能体先和原生阁下交互,磋磨 UI 布局和功能细节,再生成 SwiftUI 源码,接入真扩充情 API,自动编译并启动复刻阁下。

它还作念了 10 项功能考证,包括及时行情加载、股票聘用和切换、多周期视图切换、搜索过滤、详备统计面板展示等。

这 10 项齐通过了。

Qwen3.7-Plus 的基准测试环境成就有详备长远:

Terminal Bench 2.0 使用 Harbor/Terminus-2 harness,尊龙凯时2026世界杯中国官网5 小时超时,12 核 CPU/24GB 内存,温度 1.0,最大 token 数 80K,高下文 256K,取 5 次开动均值,每轮来源预置一个 think token 让模子自行决定是否启动深度念念考;

Kernel Bench L3 每个测试样本在独处 Docker 容器中开动,配备一块 H100 80GB GPU,纵脱 500 次器具调用,一语气 100 轮无校正则提前住手,并使用 GPT-5.4 检测潜在的舞弊行径。

恶果怎样?

代码任务,各家模子确认如故荒谬接近,只须长程代码任务还能拉开少许差距。

通用智能体任务,Qwen 3.7 Plus 基本也在第一梯队。

到了多模态任务,便是 Qwen 3.7 Plus 的将强了。

Qwen3.7-Plus 提供 API 调用,解救文本和图像 / 视频搀杂输入,并提供" preserve_thinking "功能,

在多轮对话的音讯中保留每一轮的念念考本色,官方推选在智能体任务中开启此功能。

模子兼容 OpenAI 步调的 chat completions 和 responses API。

在跨框架泛化方面,Qwen3.7-Plus 在 Claude Code、OpenClaw、Qwen Code 等不同 Agent 框架中均能沉稳开动,无需为特定框架作念适配。

不外照旧有精深建设者但愿能赓续像 Qwen 之前的模子雷同敞开权重,在腹地部署。

—  谅解 AI 居品从业者共建  —

� �「AI 居品学问库」是量子位智库基于恒久居品库跟踪和用户行径数据推出的飞书学问库,旨在成为 AI 行业从业者、投资者、酌量者的中枢信息要津与决议解救平台。

一键关怀 � � 点亮星标

科技前沿进展逐日见尊龙凯时