您的需求
“我是律所 IT 负责人,300 名律师团队需要 AI 处理合同审阅和案例检索。合同都是电子版 Word/PDF,必须能理解法律术语,且推断过程要可解释。数据必须留在国内,月预算 1万元,走 API 调用。”
必须能理解法律术语数据不出境API 接入300 名用户¥10,000/月
2026/4/27 16:17:16 生成
需求画像
事实准确
4
推理深度
4
语言质量
4
长文处理
3
领域专业
3
创意灵活
1
视觉理解
3
错误后果
4
模型能力画像
各维度分 = 原始分 / 该 benchmark 的全池最高分(消除 GPQA/HLE 等天然难度差,100 = 该 benchmark 当前最强水平)。虚线 = 你的需求画像。
Qwen3.5 35B A3B (Reasoning)
事实准确
93
推理深度
55
语言质量
92
长文处理
90
领域专业
93
创意灵活
95
视觉理解
92
Qwen3.5 122B A10B (Reasoning)
事实准确
94
推理深度
65
语言质量
96
长文处理
96
领域专业
94
创意灵活
97
视觉理解
97
Qwen3.5 27B (Reasoning)
事实准确
94
推理深度
62
语言质量
96
长文处理
97
领域专业
94
创意灵活
95
视觉理解
98
根据你的条件,推荐以下方向
首选综合能力最强(能力分85分),在法律术语理解与推理的平衡性上表现最佳,适合作为300人团队的主力模型。
Qwen3.5 35B A3B (Reasoning)
Alibaba
8 项独立验证
约 ¥4,244/月
预算内
备选深度推理能力最优,IFBench得分75.70%且Humanity's Last Exam达23.40%,适合处理最复杂的合同纠纷分析。
Qwen3.5 122B A10B (Reasoning)
Alibaba
8 项独立验证
约 ¥6,791/月
预算内
备选单项推理得分最高(GPQA 85.80%),模型体量最小(27B),推理速度最快,适合高频案例检索场景。
Qwen3.5 27B (Reasoning)
Alibaba
8 项独立验证
约 ¥5,093/月
预算内
如何在选项之间选择
处理极度复杂的法律推理与风险分析→
Qwen3.5 122B A10B (Reasoning)在IFBench指令遵循测试中得分75.70%,能更好地处理复杂的法律逻辑链条与长文本推断。
预算极度紧张且追求高并发响应速度→
Qwen3.5 27B (Reasoning)GPQA得分85.80%且参数量仅27B,API调用成本最低、响应最快,适合高频次案例检索。
成本估算
平均输入: 3,500 tokens
平均输出: 1,200 tokens
来源: AI 估算
汇率: 1 USD = ¥7.2
假设:300 人 × 20 次/天
Qwen3.5 35B A3B (Reasoning)预算内
¥4,244/月
Qwen3.5 122B A10B (Reasoning)预算内
¥6,791/月
Qwen3.5 27B (Reasoning)预算内
¥5,093/月
API 单价(每百万 token)
Qwen3.5 35B A3B (Reasoning)|$0.25/$2
Qwen3.5 122B A10B (Reasoning)|$0.4/$3.2
Qwen3.5 27B (Reasoning)|$0.3/$2.4
我们如何筛选
4,981
全部模型
4,944
淘汰
37
参与评分
3
入围推荐
关键决策维度详情
优先级
需求维度
问题
Qwen3.5 35B A3B (Reasoning)
Qwen3.5 122B A10B (Reasoning)
Qwen3.5 27B (Reasoning)
高优先
事实准确
在审查一份股权转让合同时,模型引用了《公司法》的具体条款,请验证该条款是否真实存在且适用于当前场景。
在审查一份股权转让合同时,模型引用了《公司法》的具体条款,请验证该条款是否真实存在且适用于当前场景。
84.50%
专业知识ⓘ
85.70%
专业知识ⓘ
85.80%
专业知识ⓘ
高优先
推理深度
请分析一份合同中的'不可抗力'条款是否存在对委托人不利的风险点,并逐步说明判断依据。
请分析一份合同中的'不可抗力'条款是否存在对委托人不利的风险点,并逐步说明判断依据。
19.70%
高难度推理ⓘ
23.40%
高难度推理ⓘ
22.20%
高难度推理ⓘ
高优先
语言质量
请将一段口语化的合同修改需求转化为标准的法律修订条款文本。
请将一段口语化的合同修改需求转化为标准的法律修订条款文本。
72.50%
指令遵循ⓘ
75.70%
指令遵循ⓘ
75.60%
指令遵循ⓘ
中优先
长文处理
请总结一份 50 页的合同中关于'违约责任'的所有条款,并提取关键信息。
请总结一份 50 页的合同中关于'违约责任'的所有条款,并提取关键信息。
62.70%
长文理解ⓘ
66.70%
长文理解ⓘ
67.30%
长文理解ⓘ
中优先
领域专业
解释'善意取得'在合同法语境下的构成要件,并举例说明。
解释'善意取得'在合同法语境下的构成要件,并举例说明。
84.50%
专业知识ⓘ
85.70%
专业知识ⓘ
85.80%
专业知识ⓘ
低优先
创意灵活
根据提供的合同模板,生成一份标准化的风险审查清单,无需添加额外创意性建议。
根据提供的合同模板,生成一份标准化的风险审查清单,无需添加额外创意性建议。
1348
创意写作ⓘ
1377
创意写作ⓘ
1353
创意写作ⓘ
中优先
视觉理解
识别上传的 PDF 合同中的表格结构(如付款计划表),并将其转换为 Markdown 格式。
识别上传的 PDF 合同中的表格结构(如付款计划表),并将其转换为 Markdown 格式。
72.50%
指令遵循ⓘ
1223
视觉偏好ⓘ
1226
视觉偏好ⓘ
高优先
错误后果
如果模型在案例检索中推荐了一个已失效的指导性案例,这会对律师的工作产生什么影响?
如果模型在案例检索中推荐了一个已失效的指导性案例,这会对律师的工作产生什么影响?
89.50%
幻觉检测ⓘ
88.80%
幻觉检测ⓘ
87.90%
幻觉检测ⓘ
后续如何验证
① 快速验证1-2 天
基础能力测试
构建包含“陷阱条款”(如引用已废止法条)的测试集,验证模型能否准确识别并引用现行法律。
Qwen3.5 35B A3B (Reasoning)Qwen3.5 122B A10B (Reasoning)Qwen3.5 27B (Reasoning)
报价与 API 可用性确认
当前参考价:$0.25/Mtok 输入、$0.4/Mtok 输入、$0.3/Mtok 输入,建议上线前确认报价仍为最新
Qwen3.5 35B A3B (Reasoning)Qwen3.5 122B A10B (Reasoning)Qwen3.5 27B (Reasoning)
② 深度 PoC1-2 周
真实数据 PoC 测试
选取10份真实脱敏合同,让资深律师对模型生成的“风险审查清单”与“修订条款”进行盲测打分。
Qwen3.5 35B A3B (Reasoning)Qwen3.5 122B A10B (Reasoning)Qwen3.5 27B (Reasoning)
API 集成验证
测试API对PDF/Word文档中表格结构的解析准确率,确保能正确转换为Markdown格式且不丢失关键信息。
Qwen3.5 35B A3B (Reasoning)Qwen3.5 122B A10B (Reasoning)Qwen3.5 27B (Reasoning)
③ 上线前确认上线前
合规与数据安全审计
审查供应商的数据合规资质,签署协议确保所有法律文书数据在物理上存储于国内节点且不用于模型训练。
Qwen3.5 35B A3B (Reasoning)Qwen3.5 122B A10B (Reasoning)Qwen3.5 27B (Reasoning)
SLA 与容灾确认
确认服务等级协议(SLA)中关于并发限制的条款,确保能支撑300名律师在上午9-11点的业务高峰期访问。
Qwen3.5 35B A3B (Reasoning)Qwen3.5 122B A10B (Reasoning)Qwen3.5 27B (Reasoning)
伯乐