全球热头条丨学而思被指“偷数据”训练AI，牵出大模型“隐秘的角落”

南方财经全媒体见习记者马嘉璐 21世纪经济报道记者尤一炜广州报道

近日，笔神作文指控昔日合作伙伴学而思“偷数据”训练自家AI产品，随后学而思对此公开予以否认。笔神作文称之为国内“AI大模型数据被盗第一案”。不过，有律师分析，从现有内容来看，该案应属于普通的数据侵权纠纷或协议纠纷，目前还不能判断学而思是否违法。

(资料图片仅供参考)

笔神作文与学而思的纠纷，牵引出大模型的一个“隐秘的角落”：用于训练AI大模型的数据，来源是否合法合规？事实上，关于大模型数据集的纷争已在海内外频频上演。

监管方面正在注意AI大模型训练数据集的合法合规。国家网信办于今年4月公布的《生成式人工智能服务管理办法（征求意见稿）》明确，预训练、优化训练数据应保证真实性、准确性、客观性、多样性，不含有侵犯知识产权的内容，包含个人信息的应符合“告知-同意”等原则。对外经济贸易大学数字经济与法律创新研究中心执行主任张欣认为，平衡安全和发展成为大模型数据集监管的重要挑战，数据安全审计制度等可以为此提供借鉴。

或为国内“AI大模型数据被盗第一案”

笔神作文与学而思关于是否“偷数据”在互联网公开“喊话”，已进行了一个半回合。

笔神作文将之称为“AI大模型数据被盗第一案”。6月13日下午，笔神作文通过自己的微信公众号、微博和第三方媒体发布消息，指控其合作伙伴学而思未经授权爬取了笔神作文的数据，用于训练大模型产品。同日17时，学而思官方公众号对此事作出回应，表示自己对笔神作文数据的使用属于双方合同约定的正常合作范围，笔神作文“主观揣测”“与事实严重不符”。

14日19时，笔神作文再次通过微信公众号列举更多“证据”，力图证明学而思在4月13日至17日，通过“爬虫”技术非法访问、缓存笔神作文App服务器数据258万次。

“笔神作文APP”微信公众号公布的双方合作API接口“每日数据调用量折线图”

面对笔神作文的再次“喊话”，学而思是否有新的回应？截至发稿前，学而思与笔神作文方面均未针对此事向南方财经全媒体记者给出相关回应。

在13日的声明中，学而思透露双方合作的内容：笔神作文为学而思提供“笔神作文范文素材服务接口”，用于学而思相关服务中，每月保底费用包含的调用次数为百万次量级。笔神作文则在14日发布的消息中称，双方合同明确“甲方（注：三体云联公司，为学而思关联公司）不得在未经乙方（注：一笔两划公司，“笔神作文”系该司旗下品牌）允许的情况下用于任何其他用途，包括缓存，存储，作为语料进行计算，训练等。”

笔神作文表示，将通过司法程序解决纠纷，要求“学而思”支付1元赔偿金，公开道歉，并删除已爬取的数据。

律师：现有内容难以判断学而思违法

“‘AI大模型数据被盗第一案’有些噱头的成分。”北京市竞天公诚律师事务所合伙人周杨认为，本案争议的焦点是用于训练AI大模型的数据，而并非AI大模型的算法，应属于普通的数据侵权纠纷或协议纠纷。

海问律师事务所合伙人杨建媛分析，该事件可以从知识产权保护和反不正当竞争两个角度来看。从知识产权保护角度，如果笔神作文对学而思获取的内容享有著作权，且学而思的行为不符合著作权法规定的“可以不经著作权人许可”的“例外”情况，则学而思的行为需经过笔神作文的许可。她还强调，如笔神作文所称为事实，学而思对笔神作文数据的使用可能超出了“合理使用”的范畴。

从反不正当竞争角度，学而思是否存在未经授权爬取笔神作文数据的情况、是否利用所获数据开发实质性替代笔神作文的产品或服务，是判断是否构成侵权的关键。杨建媛分析，从笔神作文的叙述来看，其可能并未对学而思设置反爬措施，但是在协议中约定了相关禁止行为。单纯的违约行为较难直接认定为违反了反不正当竞争法下的商业道德要求。另外，学而思将数据用于大模型训练，训练出来的产品与笔神作文的产品是否存在竞争关系，是否会对笔神作文造成不良后果，还存在争议。

周杨也表示，学而思是否违法，关键要看合同中对数据的获取、处理和使用是如何约定的，以及笔神作文是否对作品、数据库享有版权。根据现有双方披露的内容，“还不能判断”。

数据来源是否合规牵出“隐秘的角落”

笔神作文与学而思的纠纷，牵引出大模型的一个“隐秘的角落”：训练AI大模型通常需要海量的数据，而这些数据的来源是否合法合规？

事实上，随着ChatGPT带动生成式AI的爆火，关于AI大模型训练数据的纷争在海内外频频上演。

争议所涉及的数据可以大致分为两类：一类有着明确的知识产权，如原创的图片、音乐、视频、文章等；一类由用户在平台上的零散发言汇集而成，如百科、社区、贴吧等。

今年年初，Stability AI受到美国大型商业图库提供商Getty Images以及漫画家的分别起诉，原因是他们认为Stability AI用于训练AI图像生成模型Stable Diffusion的数据“非法复制和处理了受版权保护的图像”。

此外，推特、“美版贴吧”Reddit也在今年上半年相继宣布对API接口收费，且价格不菲。此前，这些平台的内容可以被谷歌、openAI等公司免费爬取，用作大语言模型的训练库。推特CEO马斯克称“他们（微软）非法利用推特的数据来训练，是时候起诉他们了。”Reddit则在其官网更新条款：“未经Reddit明确同意，您不得将Reddit上的内容用作任何模型训练的输入。未经明确批准，禁止将任何使用Reddit数据训练的模型用于商业用途。”

谷歌C4数据集支撑了多个AI模型的预训练。今年4月，《华盛顿邮报》与艾伦人工智能研究院合作调查发现，该数据集中存在只接受付费订阅的网站，以及近30个被美国政府认定为盗版和假冒产品市场的网站。

平衡安全与发展成监管挑战

监管方面正在注意AI大模型训练数据集的情况。

当地时间2023年6月14日，欧洲议会投票通过关于《人工智能法案》的谈判授权草案，意味着该法案将进入欧盟启动监管前的最后阶段。该法案要求OpenAI、谷歌和微软等基础模型的供应商需要公开，他们在训练模型过程中，是否使用了受版权保护的数据。

此前，国家网信办于今年4月公布的《生成式人工智能服务管理办法（征求意见稿）》也明确，用于生成式人工智能产品的预训练、优化训练数据，应符合网安法等法律法规的要求，不含有侵犯知识产权的内容，包含个人信息的应符合“告知-同意”原则等要求，还应保证数据的真实性、准确性、客观性、多样性。

“对大模型数据集的监管，如何能做到安全和发展的平衡，是一个重要挑战。”对外经济贸易大学数字经济与法律创新研究中心执行主任张欣表示，《生成式人工智能服务管理办法（征求意见稿）》已对AI训练数据集的合规要求搭建了清晰的框架，在运用著作权和知识产权方式之外，还可以探索使用多种法律手段去实现。

张欣分析，监管的落地，还存在事后难追溯等问题，尤其在算法复杂度日益攀升、出现“算法黑箱”等情况下，如果从事后去还原和追溯数据集是否合规，十分依赖大模型开发商提供数据处理记录和日志，很难从外部进行确认。此外，从技术上来说大模型很难精确删除某个用户的个人信息，这就限制了个人信息保护中“删除权”的行使。

欧盟《人工智能法案》草案设置了吹哨人制度，鼓励专业人士从内部进行监督，为监管提供了一种创新思路。张欣认为，大模型开发者应做好信息记录和披露的工作，提高数据集的透明度，在算法解释性遇到困难的时候，至少可以通过数据的透明和可解释来寻找答案。数据安全审计制度在国际上也有较为通行的经验，大模型数据监管也可以探索使用审计的方式，找到透明度与保护商业秘密之间的平衡。