国内 AI 平台数据隐私政策调查报告

调查日期: 2026年5月7日
调查范围: DeepSeek、智谱AI、阿里云百炼、字节方舟(火山引擎)
核心问题: 用户数据是否会被用于模型训练


一、执行摘要

本次调查针对国内四家主流 AI 平台的用户协议、隐私政策、专用条款进行了逐条审阅。核心发现如下:

通用 API(直接调用模型接口)安全排序:

DeepSeek ≥ 字节方舟 ≥ 阿里百炼 > 智谱AI

四家通用 API 中,DeepSeek、字节方舟、阿里百炼均不在用户明确授权下使用数据训练模型。其中 DeepSeek 的开放平台服务协议完全没有训练许可授权条款,保护力度最强。智谱AI 保留了"匿名化后可训练"的宽泛通道,保护力度最弱。

Coding Plan(AI 编程订阅套餐)安全排序:

三家均不安全。其中字节方舟条款最为激进。

Coding Plan 是各家单独设立付费套餐产品,均配有独立的数据授权协议,且均明确收集用户输入和 AI 输出用于模型训练。字节方舟额外授权"学术研究及发表"用途,且声明数据"永久授权、技术上不可撤回"。


二、调查方法

本报告基于以下原始文件进行逐条分析:

平台文档来源
DeepSeek《DeepSeek开放平台服务协议》(2026年4月29日生效)https://cdn.deepseek.com/policies/zh-CN/deepseek-open-platform-terms-of-service.html
DeepSeek《DeepSeek用户协议》(2025年9月5日版)https://cdn.deepseek.com/policies/zh-CN/deepseek-terms-of-use.html
DeepSeek《DeepSeek隐私政策》(2026年2月10日版)https://cdn.deepseek.com/policies/zh-CN/deepseek-privacy-policy.html
智谱AI《用户协议》(2025年5月20日版)https://docs.bigmodel.cn/cn/terms/user-agreement
阿里百炼《阿里云百炼服务协议》(2026年4月11日版)https://terms.alicdn.com/legal-agreement/terms/common_platform_service/20230728213935489/20230728213935489.html
字节方舟《火山方舟大模型服务平台专用条款》(2026年4月17日更新)https://www.volcengine.com/docs/82379/1104498
字节方舟《火山引擎数据授权使用协议》(Coding Plan,2026年3月9日版)https://www.volcengine.com/docs/82379/1928265
字节方舟《产品和服务协议》(2024年6月21日版)https://www.volcengine.com/docs/6256/68938
字节方舟《火山引擎隐私政策》(2024年6月21日版)https://www.volcengine.com/docs/6256/64902
字节方舟《火山引擎服务条款》(2024年6月21日版)https://www.volcengine.com/docs/6256/64903

三、通用 API 数据政策分析

0. DeepSeek(开放平台 API)✅ 保护最强

适用协议: 《DeepSeek开放平台服务协议》(2026年4月29日生效)

核心特点: 开放平台协议是独立的专门协议,作为《DeepSeek用户协议》项下的具体协议。协议第4条(输入与输出)只规定了权利归属和责任,完全没有训练许可授权条款

第4.2条(权利归属):

“在符合法律规定和我们的条款的条件下,您对本服务的输入与输出享有以下权利:(1)您保留在提交的输入中拥有的任何权利、所有权和利益;(2)我们将本服务输出的内容的任何权利、所有权和利益归属于您。(3)您可将本服务的输入与输出应用于广泛的使用场景中。”

与网页版聊天的关键区别: DeepSeek 的网页/APP 聊天适用《DeepSeek用户协议》,其中第4.3条包含训练条款:

“我们可能会将服务所收集的输入及对应输出,用于模型训练和服务的优化……您同意授予深度求索在全球范围内一项免费的、非排他的许可使用权。”

但开放平台服务协议作为独立的专门协议,不包含此训练许可条款。换言之,通过 API 调用 DeepSeek,协议层面数据不会被用于模型训练。

补充说明: 网页版聊天用户可通过关闭“数据用于优化体验”退出训练,但 API 用户无需此操作,因为协议本身未授权训练。

评估: DeepSeek 在 API 数据保护方面做得最为规范。没有“先承诺保护、再开后门”的条款设计,协议文本干净直接——不提训练,就是不训练。在国内厂商中,这是目前最清晰的 API 数据保护承诺。


1. 字节方舟(火山引擎)✅ 保护最强

适用协议: 《火山方舟大模型服务平台专用条款》第 3.7.7 条

核心承诺:

“未经您的单独同意,火山引擎不会存储和使用您的数据来训练或优化模型。”

三个有限例外:

(1)法律合规审查:对用户输入和模型输出进行自动化过滤审核,建立和改进风险过滤机制、违法违规侵权内容特征库。

(2)排障服务:用户主动通过排障工具提交数据时,火山引擎会在合理时间内临时存储,仅依据用户委托处理。

(3)异常告警:触发模型异常调用告警时临时存储审查,解除告警后不再继续存储。

补充承诺:

“为了优化平台服务体验,火山引擎会对提供服务形成的聚合数据进行统计分析,这里不会存储和使用任何原始的您的数据。”

评估: 方舟通用 API 的保护措辞较为严谨。“单独同意"是明确的前置条件,三个例外场景均有合理边界,且额外明确"不存储和使用任何原始数据”。聚合数据统计分析与原始数据做了清晰切割。


2. 阿里云百炼 ✅ 保护较好

适用协议: 《阿里云百炼服务协议》第 6.2 条

核心承诺:

6.2.1:

“您通过我们提供的服务,上传、存储、加工、下载、分发以及通过其他方式处理的数据,均为您的业务数据(‘客户业务数据’),您对此拥有完全的控制权。”

6.2.4:

“除执行您的服务要求外,我们不会进行任何未获授权的使用及披露。”

6.2.5(关键条款):

“我们承诺仅在提供服务所必需的最短时间内保留您的对话数据。我们不会在未获您明确授权的情况下使用您的对话数据训练我们的模型。”

6.2.3(数据处理限制):

仅按用户指示处理数据,“不为其自身目的处理相关数据”。

评估: 百炼通用 API 的保护较为完善,承诺清晰直接。“不会在未获明确授权的情况下使用对话数据训练模型"是直接、无条件的承诺。数据保留时间也做了"最短必要"的限制。


3. 智谱AI ⚠️ 保护最弱,留有训练通道

适用协议: 《用户协议》第三条、第四条、第十条

表面保护(第三条第9款):

“就用户上传数据,大模型开放平台除执行您的服务要求外,不会进行任何未获授权的使用及披露。”

实际风险通道一(第四条第10款):

“我们可能会对收集的信息进行匿名化的研究、统计分析和预测,用于改善大模型开放平台的内容和布局……以及改进我们的产品和服务(包括使用匿名数据进行机器学习或模型算法训练),按照相关法律法规规定,此类数据已不属于个人信息范畴,因此此类处理后的数据的使用无需另行征得您的同意。”

实际风险通道二(第十条第3款):

“对于您提供、发布及在使用大模型开放平台服务中形成的除个人信息外的文字、图片、视频、音频等非个人信息……在法律允许的范围内,您免费授予智谱及其关联公司非排他的、无地域限制的、永久的、免费的许可使用(包括存储、使用、复制、修订、编辑、发布、展示、翻译、分发上述信息或制作派生作品)及可再许可第三方使用的权利。”

评估: 智谱的协议设计了一套"先承诺保护、再逐步授权"的结构:

  1. 先声明上传数据不用于训练
  2. 然后通过"匿名化"条款将数据转化为可训练素材
  3. 再通过"非个人信息永久授权"条款获得广泛使用权

这种设计使得智谱可以在法律合规的前提下将用户数据用于模型训练,且无需用户额外同意。四家中保护力度最弱。


通用 API 对比总结

对比项DeepSeek字节方舟阿里百炼智谱AI
是否承诺不训练模型✅ 协议无训练条款✅ 需单独同意✅ 需明确授权⚠️ 匿名化后可训练
数据保留期限未明确合理期限内删除最短必要时间未明确
措辞确定性弱,有后门条款
匿名化后训练未提及未提及未提及✅ 明确保留权利
非个人信息授权输出归用户客户数据归用户客户数据归用户永久免费授权给智谱
风险等级🟢 低🟢 低🟢 低🟡 中高

四、Coding Plan 数据政策分析

1. 字节方舟 Coding Plan 🔴 风险最高

适用协议: 《火山引擎数据授权使用协议》

数据定义:

“您在【Coding Plan 订阅包月套餐】额度内调用火山方舟指定模型服务期间因调用模型而输入和模型生成的内容”(“AI Coding 数据”)

授权目的(第 2.1 条):

“用于开发机器学习、人工智能相关技术和模型的优化、开发、使用、学术理论研究及发表等目的。”

授权范围(第 2.2 条):

授予火山引擎"非独家的、不可转让的、不可分许可的(但可分许可给火山引擎关联方以及为达成授权目的第三方外包服务商)、免费的"权利,允许"传输、存储、使用、复制、下载、修改或以其他方式处理 AI Coding 数据”。

授权期限(第 2.3 条):

“授权期限为永久。” 停止使用 Coding Plan 只能终止新数据的授权。“一旦数据已被使用,该部分数据在技术上无法撤回。”

匿名化处理(第 2.5 条):

“AI Coding 数据将在火山方舟平台进行严格加密,并通过安全方案进行匿名化后进行处理。”

评估: 字节方舟的 Coding Plan 条款最为激进:

  • 永久授权,且明确声明"技术上无法撤回"
  • 授权目的包含"学术研究及发表",意味着数据可能被用于论文甚至公开场景
  • 可分许可给"第三方外包服务商"
  • 虽然承诺匿名化处理,但授权范围极其广泛

2. 阿里云百炼 Coding Plan 🔴 风险高

适用协议: 《阿里云百炼服务协议》第 5.2 条

核心条款(5.2.2):

“您同意并授权我们和我们的关联公司存储并使用您使用 Coding Plan 期间因调用模型而输入以及模型生成的内容(‘Coding Plan 数据’)以用于服务改进与模型优化。若您希望终止对 Coding Plan 数据的授权,可通过停止使用 Coding Plan 服务终止授权,但终止授权的范围不涵盖您已授权我们使用的 Coding Plan 数据。”

评估:

  • 明确收集输入和输出内容,用于"服务改进与模型优化"
  • 终止授权不可追溯:已使用的数据不会删除
  • 授权范围比字节方舟窄,不含"学术发表"等用途
  • 没有提及匿名化处理

3. 智谱AI Coding Plan ⚠️ 无专项条款,走通用协议

智谱AI 目前未发现 Coding Plan 的独立数据授权协议。Coding Plan 场景适用通用《用户协议》,其中:

  • 匿名化后数据可用于训练(第四条第10款)
  • 非个人信息永久免费授权(第十条第3款)

评估: 由于没有独立的 Coding Plan 条款,智谱的 Coding Plan 实际上走的是通用协议中的"匿名化训练"通道。表面上看没有明确说"收集 Coding Plan 数据",但通用协议已经为训练留下了法律通道。

与阿里和字节不同的是,智谱没有对 Coding Plan 做专项豁免(覆盖通用 API 保护条款),因此从文本分析角度看,Coding Plan 和通用 API 共用同一套规则。


Coding Plan 对比总结

对比项字节方舟阿里百炼智谱AI
专项数据授权条款✅ 有✅ 有❌ 无,走通用
收集范围输入+输出输入+输出未明确区分
用于模型训练✅ 明确✅ 明确⚠️ 匿名化通道
授权期限永久,技术上不可撤回不可追溯删除永久免费授权
额外用途学术研究及发表制作派生作品
匿名化承诺✅ 有❌ 未提及✅ 有
可分许可第三方✅ 外包服务商关联公司✅ 可再许可
风险等级🔴 最高🔴 高🟡 中高

五、综合建议

5.1 如果你的代码涉及敏感信息

绝对不要在 Coding Plan 中输入:

  • 公司核心算法源代码
  • 包含密钥、密码、Token 的代码
  • 涉及商业机密的业务逻辑
  • 客户数据或个人信息

三家 Coding Plan 均会收集用户数据用于模型训练,无一例外(DeepSeek 无 Coding Plan,不在对比范围内)。

5.2 产品选择策略

使用场景推荐方案原因
通用代码辅助DeepSeek、阿里百炼或字节方舟 通用 API明确承诺/约定不用数据训练模型
敏感代码辅助本地部署开源模型(DeepSeek、Qwen 本地版等)数据不出本机,唯一绝对安全
Coding Plan 使用仅用于非敏感代码三家均会收集训练
企业级需求联系平台签DPA(数据处理协议)可获得更强的法律保护

5.3 合规建议

  1. 制定团队 AI 工具使用规范:明确哪些代码可以输入 AI 工具,哪些不可以
  2. 优先使用 API 模式:API 场景的数据保护远优于 Coding Plan
  3. 定期审查协议变更:各平台不定期更新条款,需关注变化
  4. 企业用户签 DPA:大型平台通常提供数据隔离的企业版方案
  5. 关注本地化方案:DeepSeek、Qwen 等开源模型支持本地部署,是敏感代码的最优解

六、特别说明

  1. 本报告基于 2026 年 5 月 7 日各平台公开可查的服务协议文本
  2. 各平台协议可能随时更新,请以最新版本为准
  3. 本报告不构成法律意见,如需法律层面的判断,请咨询专业律师
  4. 报告中的"安全排序"仅基于协议文本分析,不代表平台实际数据处理行为

报告生成日期:2026年5月7日