小度研究 ‖ AI 技术的法律风暴:强化学习与蒸馏技术的争议及合规简析——从DeepSeek 与 OpenAI 的争议出发
一、技术突破引发的法律边界争议
中国AI公司Deepseek(深度求索)通过创新使用强化学习技术,发布了一款出乎意料的高效且廉价的大型语言模型(LLM)并使用蒸馏技术(Distillation)使得蒸馏后的小模型(如Qwen、Llama系列)性能显著优于同类模型(如7B模型超越GPT-4o),震惊了全球,甚至导致美国顶级芯片制造商英伟达的股票暴跌。Deepseek也引发了前所未有的创新浪潮。例如,李飞飞团队综合运用了相同的技术,仅用16张H100训了26分钟,训出的模型就超越了o1-preview。但,近日,OpenAI公开表示他们注意到并正在审查DeepSeek可能不当地蒸馏他们模型或数据的迹象。然而,OpenAI自己也曾因不当获取未经授权的内容来构建ChatGPT而受到指控。
OpenAI与Deepseek的争议、OpenAI自身因数据问题受到的指控,引发了一个AI技术创新中非常尖锐的法律争议:基于强化学习或蒸馏技术,在现有法律框架下,如何界定模型生成数据和模型训练数据的知识产权边界?如何平衡技术创新的自由与数据使用的合法性?如何判断功能相似性的AI大模型构成法律意义上的“复制”?
对于此问题,我们将结合技术认知剖析:1、常见的强化学习和蒸馏技术涉及的数据流转原理,及2、相关行为的法律定性。
二、AI技术创新与法律合规是二难选择吗?
强化学习通过奖励和惩罚机制训练智能体(Agent),使其在复杂环境中不断优化决策,目标是最大化长期回报。蒸馏技术将大型复杂模型(教师模型)的知识迁移到计算资源更为高效的小模型(学生模型)中,从而降低计算成本并提高模型的执行效率。它既包括传统的软标签形式,也包括使用教师模型输出作为训练数据或辅助信号。这两种方法通常结合使用,共同提升学生模型的性能。
以Deepseek为例,DeepSeek-R1综合采用了强化学习和蒸馏技术等关键技术:
首先基于基座模型(Base Model) 直接应用强化学习(Reinforcement Learning,RL),形成 DeepSeek-R1-Zero,以探索模型在无监督微调(SFT)条件下自主进化推理能力的潜力。
然后,通过蒸馏(Distillation) 技术,将 DeepSeek-R1 的推理能力迁移至更轻量级的学生模型,使其在数学、编程和逻辑推理等任务上取得了显著进展。复刻ChatGPT o1的模型能力。

图1: 强化学习和蒸馏技术结合的训练简化示意图[1]
1. 中间态模型使用的法律定性
作为非最终商业产品的中间训练环节,将他人的模型作为reward model(奖励模型)或critic model(评论模型)用于辅助决策的行为或者使用他人模型生成的数据用于训练,其行为的法律性质存在合理使用和实质性复制等观点的争议。例如,在被指控复制或非法使用数据时,企业可能主张此类使用属于非商业性行为。在现行法律主要保护模型源代码与训练数据的框架下,若使用他人模型作为中间训练环节时,判断企业是否复制他人模型的“核心功能”,则从著作权法和反不正当竞争法的角度,需重点关注以下要素:
表格1: 中间态模型使用过程中的法律问题分析
2.数据标注的授权边界:
借用他人模型输出的生成数据进行标注与常规的数据标注方法的主要区别在于数据的来源和生成方式。常见的数据标注方法包括人工标注、半自动标注、众包标注、自监督学习和规则或模板标注等。若使用蒸馏技术,借用他人模型输出的生成数据进行标注,意味着依赖一个已有的模型(如教师模型)生成数据标签,这些标签并非直接来源于原始数据,而是通过模型的推理或输出产生的。这种区别引发了数据使用的知识产权边界问题,原因如下:
模型输出的知识产权:如果使用他人模型生成的数据进行标注,该数据实际上可能是基于他人模型的算法、架构和训练数据所产生的结果。虽然模型的输出不一定受版权保护,但其背后涉及的算法和训练方法可能受到版权保护或商业秘密保护。未经授权使用他人模型的输出,可能构成对其知识产权的侵害。
授权和使用范围:使用他人模型的输出时,需要确保使用行为在原始授权范围内。如果在未授权情况下或超出授权范围使用,可能侵犯模型提供者的版权或商业秘密。若输出数据涉及商业利益或竞争优势,可能还会引发不正当竞争等法律问题。
衍生性使用与复制问题:通过模型生成的数据进行标注,可能会被视为对原始模型的衍生性使用。如果这种使用在实质性上复制了模型的核心功能或获得了不正当的竞争优势,可能会面临法律的规制,特别是在反不正当竞争法框架下。
表格2:数据标注的授权边界
3.AI模型创新技术的合规
强化学习与蒸馏技术的“黑箱”特性及RL奖励机制的不透明性可能隐藏算法偏见,使得模型决策过程难以解释,增加责任追溯难度。具体原因如下:
算法复杂性:强化学习和蒸馏技术涉及复杂的数学模型和计算过程,这些过程往往难以直观理解和追溯。
数据依赖性:决策过程高度依赖于训练数据,数据的复杂性和多样性使得算法的行为更加难以解释。
动态性:强化学习中的决策过程是动态的,随着环境变化不断调整,这增加了对算法决策过程的解释难度。
表格3: 数据标注的合规性分析
三、AI企业应对模型训练过程中的法律风险的合规建议
为确保在技术创新和商业竞争中实现合法合规,企业在使用强化学习或蒸馏技术等训练或优化模型时,可采取以下措施:
1. 数据治理与隐私保护
严格数据处理措施:
企业应采用差分隐私、去标识化及匿名化技术,确保在强化学习与知识蒸馏过程中使用的数据的真实性、完整性、可追溯性。
跨境数据合规管理:
建立双轨合规体系——针对数据输出国和输入国的监管政策,同时进行合规准备,尤其要注意不同法域对于“数据出境”“数据过境”等行为的不同认识。
2. 知识产权管理与授权
针对教师模型的属性不同,企业应分别制定相应的管理措施:
闭源模型
签订技术使用协议,明确限定输出数据的用途、存储期限与禁止逆向工程条款(如微软Azure OpenAI服务协议明确禁止使用输出训练竞争模型),防范未经授权复制带来的知识产权风险。
开源模型
建立衍生模型功能相似度评估机制(如余弦相似度阈值管控),重点监控衍生模型功能与原模型的相似度(如基于Qwen架构开发时,需确保未违反Alibaba Cloud SLA条款)。
3. 反不正当竞争防范
企业在数据使用和知识转移中,应注意避免利用受限数据“搭便车”,以维护公平的市场竞争环境。
内部自律与外部监管
企业应制定并落实内部合规政策,避免直接复用闭源模型输出数据训练竞品模型;在开源场景下,确保衍生模型功能与原模型保持合理差异。
提升算法透明度
建立可审计的决策日志系统,定期发布模型能力边界声明(如DeepSeek技术报告披露模型训练数据来源)。同时,设立独立伦理审查机构,定期审计RL奖励机制及模型能力迁移过程,及时发现并纠正潜在偏见。
DeepSeek的成功表明,通过精准定位核心能力迁移(如推理能力优化)而非全盘复制,可实现技术创新与法律合规的平衡。在AI技术竞争中,企业在追求技术创新的同时,企业需建立技术层、法律层和伦理层三层防御体系,以确保数据隐私的保护、知识产权的合理归属,以及算法透明度的可审查性。只有将技术创新纳入法律与伦理框架,才能实现可持续发展。当前法律滞后于技术发展的现实,更要求企业采取主动合规策略,而非被动应对监管。
以下为本文提出的法律问题涉及的相关技术背景,供参考和阅读:
1.强化学习
强化学习(Reinforcement Learning, RL)是指基于智能体(Agent)通过与环境(Environment)交互,基于奖励(Reward)信号优化策略(Policy),以最大化长期回报。智能体通过感知环境并执行动作,环境根据动作反馈奖励或惩罚,智能体依此更新策略。

图2:强化学习流程示意图
强化学习的算法可以分为基于模型的强化学习(Model-based RL)和无模型的强化学习(Model-free RL),形成多层次的方法体系。无模型的强化学习又分为基于价值的强化学习(Value-based RL)和基于策略的强化学习(Policy-based RL)。

图3: 无模型的强化学习[2]
通过以上强化学习的技术分析可得,在RL训练过程中,涉及数据使用的主要环节在于创建偏好数据集(Preference Dataset)、奖励模型(Reward Model)和RL loop过程中优化策略。
2.模型能力迁移
在模型能力迁移实践中,通过教师模型生成数据指导学生模型训练(如监督微调/SFT)是当前主流技术路径之一。这类技术不仅限于传统软标签(Soft Labels)形式,还包括使用教师模型输出作为训练数据或辅助信号。教师模型可分为闭源与开源两类。
注释:
[1]本图基于IBM《什么是迁移学习》进行优化,参考链接为:https://www.ibm.com/cn-zh/topics/transfer-learning
[2]参考来源为:https://github.com/julycoding/ChatGPT_principle_fine-tuning_code_paper/blob/main/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E6%9E%81%E7%AE%80%E5%85%A5%E9%97%A8%E4%B8%8A%EF%BC%9A%E9%80%9A%E4%BF%97%E7%90%86%E8%A7%A3MDP%E3%80%81DP%20MC%20TC%E5%92%8CQ%E5%AD%A6%E4%B9%A0%E3%80%81%E7%AD%96%E7%95%A5%E6%A2%AF%E5%BA%A6%E3%80%81PPO.md
参考链接:
Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., Zhu, Q., Ma, S., Wang, P., Bi, X. and Zhang, X., 2025. Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. arXiv preprint,arXiv:2501.12948.
Zachary C. Lipton, The Mythos of Model Interpretability, arXiv:1606.03490 [cs.LG];
Hutchinson, B., Smart, A., Hanna, A., Denton, E., Greer, C., Kjartansson, O., Barnes, P. and Mitchell, M., 2021, March. Towards accountability for machine learning datasets: Practices from software engineering and infrastructure. In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (pp. 560-575).
Doshi-Velez, F. and Kim, B., 2017. Towards a rigorous science of interpretable machine learning. arXiv preprint arXiv:1702.08608.
Lipton, Z.C., 2018. The mythos of model interpretability: In machine learning, the concept of interpretability is both important and slippery. Queue, 16(3), pp.31-57.
《解读DeepSeek:蒸馏技术、伦理与国家安全》,https://news.umich.edu/zh-hans/%E8%A7%A3%E8%AF%BBdeepseek%EF%BC%9A%E8%92%B8%E9%A6%8F%E6%8A%80%E6%9C%AF%E3%80%81%E4%BC%A6%E7%90%86%E4%B8%8E%E5%9B%BD%E5%AE%B6%E5%AE%89%E5%85%A8/
Apache 2.0 License,https://www.apache.org/licenses/LICENSE-2.0
MIT License,https://opensource.org/licenses/MIT
欧盟《通用数据保护条例》(GDPR),https://gdpr-info.eu/
Sambasivan, N., Kapania, S., Highfill, H., Akrong, D., Paritosh, P. and Aroyo, L.M., 2021, May. “Everyone wants to do the model work, not the data work”: Data Cascades in High-Stakes AI. In proceedings of the 2021 CHI Conference on Human Factors in Computing Systems (pp. 1-15).
Hinton, G., 2015. Distilling the Knowledge in a Neural Network. arXiv preprint arXiv:1503.02531.
IBM《什么是迁移学习》, https://www.ibm.com/cn-zh/topics/transfer-learning.
小窗幽记机器学习,《推理模型专题|DeepSeek-R1如何用强化学习、冷启动和蒸馏,开启大模型训练新思路?》, https://developer.volcengine.com/articles/7468130725335105547
《欧盟人工智能法案》,https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX:32024R1689
《中华人民共和国民法典》, https://www.gov.cn/xinwen/2020-06/01/content_5516649.htm
《中华人民共和国反不正当竞争法》,http://www.npc.gov.cn/npc/c2/c30834/201906/t20190608_296509.html
《中华人民共和国著作权法》,https://www.gov.cn/guoqing/2021-10/29/content_5647633.htm
中伦律所,《以全球范围AIGC训练数据侵权诉讼为例梳理合理使用规则的适用》,https://www.zhonglun.com/research/articles/53915.html?utm_source=chatgpt.com
上下滑动以查看更多
本文作者:

卢叶婷
luyeting@shalldolaw.com
卢叶婷,曾任大模型公司法务经理,从事于互联网、人工智能等科技领域的法律服务,方向在公司治理、争议解决、投融资。拥有理工科和法律复合背景,具备技术与法律的敏感度,致力于帮助企业在AI时代长远发展。

王梓旭
wangzixu@shalldolaw.com
王梓旭律师主要从事科创及数据安全、争议解决、互联网科技、房地产与建设工程等法律业务。王旭律师密切关注中国科创产业政策的发展,也是科创行业法律服务的积极倡导者。

商哲峰
shangzhefeng@shalldolaw.com
商哲峰律师致力于企业合规、商事争议解决以及部分知识产权领域相关法律服务,目前为多家高新技术企业、专精特新企业提供持续的法律服务,积累了大量的商事争议解决方面的预防及解决经验,可以为企业提供切实有效的建议。

李佳怡
lijiayi@shalldolaw.com
李佳怡主要从事科创及知识产权等领域法律服务,协助完成版权、商标、专利的权利建设、线上维权及诉讼,为企业知识产权管理及保护提供服务。
特别声明
本微信公众号发布的文章仅为观点交流之目的,不代表上海小度律师事务所或其律师出具的任何形式之法律意见或建议,且不应被视作行为依据。
如需取得任何法律建议或者专业意见,请联系本所律师。如需转载或引用该等文章的任何内容,应私信本所沟通授权事宜,并于转载时在文章开头处注明来源于公众号“小度律师事务所”及作者姓名。未获本所同意,不得转载或使用文章中的任何内容。