“大模型数据被盗第一案”背后

转载
461 天前
6154
智能派

文章转载来源:智能派

文:朱凌

来源:财联社

图片来源:由无界 AI‌ 生成

在OpenAI面临“数据小偷”指控,深陷多场集体和作者个体诉讼时,中国“AI大模型数据被盗第一案”也一触即发,但最终以双方消除误会而和解,“误会”背后是否另有隐情?

近日,世纪天鸿投资的AI辅助写作产品笔神作文发布声明称,已于8月4日决定不再对学而思,针对相关数据调取事件发起诉讼。

笔神作文表示,经与学而思深入调查并坦诚沟通后,对双方有争议条款已达成一致,双方已消除误会,并将继续深化合作,共同推进AI技术在教育领域的探索。

《科创板日报》记者向笔神作文询问和解原因、误会来由,相关负责人表示,“事件已在声明中介绍清楚,其他不再作回应。”


一个半回合的“空中喊话”


回到两个月前,笔神作文在6月13日下午发布声明,指控合作伙伴学而思“盗取”作文库存数据,来训练即将上线的AI大模型产品。笔神作文表示,将通过司法程序解决纠纷,要求学而思支付1元赔偿金,公开道歉,删除已爬取的数据,并称之为国内“AI大模型数据被盗第一案”。

当晚,学而思火速回应称,对笔神作文数据的使用属于双方合同约定的正常合作范围,笔神作文“主观揣测”“与事实严重不符”。

6月14日,笔神作文拿出调用量和服务器日志截图反驳学而思回应,力图证明学而思在短短几天内通过“爬虫”技术非法访问、缓存笔神作文APP服务器数据258万次,是典型的“扒库”行为,严重侵犯了笔神作文的数据权益。

之后学而思并未再做公开回应,《科创板日报》记者致电学而思母公司好未来欲进行采访,但接线工作人员拒绝为记者转接相关部门。

6月20日,笔神作文所属北京一笔两划科技有限公司的二股东世纪天鸿在互动平台上表示,目前公司也在关注事件的进展。此前因在互动平台中提到笔神作文,世纪天鸿股价在4月24日起连续10个交易日累计涨幅超过100%。


500万篇作文素材从何而来


蓝媒汇早在2019年向笔神作文创始人宋嘉伟提出了一个问题:笔神后台积累的庞大资料性内容数据,版权问题怎样解决?

宋嘉伟当时坦言,正在和一些版权方沟通合作。此外,笔神团队尽量搜集公版作品的素材,比如诗词,名人名言。该篇报道作者预言,版权问题也许是笔神在未来长期的麻烦。

作为AI核心要素之一的数据,据笔神作文和世纪天鸿披露,笔神作文积累的作文素材已超过500万篇。

世纪天鸿此前在互动平台中表示,笔神作文的大数据来源于自身累积,算法模型为公司自研训练。

5月8日,深交所对世纪天鸿下发关注函,其中要求说明公司是否向一笔两划提供训练“笔神作文”AI模型所需的数据;如是,需要结合公司有关数据的获取方式及来源等,按照《数据安全法》等相关规定,说明获取、处理及使用有关数据的合法性;有关数据资产产权的权属是否清晰、是否存在潜在纠纷,相关方是否存在其他协议及利益安排。

世纪天鸿回复关注函时表示,经核实,一笔两划训练“笔神作文”AI模型所需数据,均为一笔两划在自身经营过程中积累。截至目前,公司未使用“笔神作文”向客户提供服务,也未向一笔两划提供“笔神作文”AI模型训练所需数据。后续,如一笔两划就“笔神作文”AI 模型训练有数据采买需求,公司将严格按照《数据安全法》等相关规定,在确保有关数据获取、处理及使用合法、数据资产产权权属清晰,无潜在纠纷的前提下,协商确定具体业务合作方式。

笔神作文向《科创板日报》记者表示:“用户在笔神作文APP使用我们服务的过程中,根据协议,我们会积累大量用户的原始的作文素材,成为我们的资产。这也是学而思与我们合作的原因,学而思如果从头积累数据,时间成本很高,短期没有办法积累相同数量级的数据。”

《科创板日报》记者注意到,根据笔神作文的用户服务协议,用户在笔神作文发表的内容,授予笔神作文免费且不可撤销的非独家使用许可。


究竟是谁抄了谁的作文?


刚从大学毕业的王浩轩向《科创板日报》记者表示,他大二在网上搜索自己名字时,竟发现自己初中时所写的一篇作文出现在笔神作文平台上。

王浩轩称,该篇作文曾被初中老师推荐发表在一本不公开发行的内部刊物上,他写作时花了很多精力。他对笔神作文未经其许可使用他的作文,感到气愤。

王浩轩认为,此侵犯了自己作品信息网络传播权。他曾与笔神作文工作人员交涉,但对方态度不好,仅删除了该篇作文,就不再回复消息。他委托律师向笔神作文发送的律师函也没有得到回复。

王浩轩决定起诉笔神作文,来捍卫自己权利,获法院立案。直到开庭前一周,笔神作文的律师才联系他,希望能够和解。律师称,该篇文章是别人发布到笔神作文网站上的,笔神作文只负责展示。

经法官调解,王浩轩和笔神作文最终达成了和解,王浩轩获得了赔偿。

不过,王浩轩推测,笔神作文侵权的文章可能远不止他这一篇,只是更多人不知道。并且笔神作文平台面向的群体是中小学生,他们就算知道自己的文章被侵权,也不一定有保护自己权利的意识。

《科创板日报》记者在笔神作文指控学而思时发现,笔神作文APP有大量作文与原创作文相比,未显示作者、发布时间等信息。记者对比发现,这些作文在笔神未成立前就已发布在小荷作文网等非商业性网站,部分文章还存在疑似爬虫痕迹。

左图为涉及侵权问题作文,右图为原创作文

就此,笔神作文当时回应《科创板日报》记者称,“会有作者一稿多投的情况,是正常现象。这些文章都是由用户上传的,用户对文章的版权和真实性负责。如果有他人对文章的版权提出异议并提出证据,我们经初步核实后会依法进行删除处理。该文章属于早期的文章,当时的展示还不完善。”

不过,小荷作文网向《科创板日报》记者表示,“所有其它网站上出现的作文,如果是小荷作文网首发的,那就是擅自抄袭。像神笔作文之类的很多网站一开始都是采集站,从抄小荷作文网的文章起步,但由于流程过于麻烦,没有维权。”

小荷作文网的版权说明页显示,“小荷作文网所发表的作文版权归作者所有,禁止任何网络媒体转载。其他纸媒转载必须经过本站同意,并向作者支付稿酬。严正警告少数网站和软件公司,立即停止复制本站内容。”

北京市京师律师事务所律师孟博向《科创板日报》记者表示,著作权法所称作品,是指文学、艺术和科学领域内具有独创性并能以某种有形形式复制的智力成果。根据《著作权法实施条例》第六条的规定,著作权自作品创作完成之日起产生。文学、艺术和科学作品作者的著作权,以及与著作权有关的权益受法律保护。根据《著作权法》第五十二条的规定,侵犯著作权以及与著作权有关的权利的行为,应当根据情况,承担停止侵害、消除影响、赔礼道歉、赔偿损失等民事责任。


数据"脱水"后作文大幅减少


《科创板日报》记者发现,前述涉及侵权问题作文目前在笔神作文APP搜索结果中已不见踪影,打开分享链接也显示“作文因非原创下架”。

不过,数据“脱水”后,笔神作文APP上的作文数量显著减少,《科创板日报》记者根据笔神作文此前展示的学而思访问日志截图中部分搜索词进行搜索,学而思此前访问了多页(笔神作文称每页会返回30篇作文结果)的高频搜索词,目前搜索结果中仅剩一两篇作文。

但笔神作文并未修改涉及作文数量的介绍,会员价格不降反涨。值得一提的是,笔神作文向会员提供的“秒变作文”尊享特权疑似可“一键洗稿”生成新作文。

笔神作文年度会员价格相比两个月前有所上涨

此外,笔神作文APP还曾在2020年9月因推送导向不良和低俗信息行为被国家网信办点名通报。据“网信中国”发布,当时笔神作文APP“家族广场”栏目中存在多个明星应援群组,且平台中存在大量“男女”“恋爱”等不利于未成年人身心健康的内容。记者注意到,笔神作文目前已无涉及群组或相关内容。

笔神作文在声明中也表示,将继续加强对数据使用规范与保护工作,确保用户、合作方以及公司的数据安全与合规使用。

野蛮生长后,高质量数据及合规建设,或是学习类APP与行业AI模型步入成熟期的必然选择。