Reddit的内容将如何影响谷歌AI网易的AI大模型叫什么的版权和用户服务?

生成式人工智能工具可以产生各种各样的新内容,包括代码、文本、音频、图像和视频。对于商业用户来说,对用户提示的快速输出速度可以带来改变游戏规则的商业效率。然而,生成式人工智能内容的吸引力需要与在业务中使用该内容的影响进行平衡。这涉及到几个方面,一个重要问题是用户能够拥有生成的输出的程度,这可能会带来有趣的潜在结果。表面上看,这似乎取决于特定生成式人工智能平台的服务条款和其管理条款中规定的权利分配。虽然这确实是问题的一部分,但用户还需要考虑根据适用法律,该输出是否甚至能够被任何人拥有。下面,我们根据这篇文章,来探讨这个问题在全球范围内的答案。美国:无所有权根据美国法律,创造性作品在实质媒介上固定后,版权立即归作者所有(17 USC §201)。然而,美国版权法一再被解释为要求人类作者才能拥有所有权,例如在Naruto v. Slater案件中,也被称为“猴子自拍”案件,美国第九巡回上诉法院于2018年裁定,猴子不拥有自拍的照片的版权。2023年,在Thaler v. Perlmutter案中,华盛顿特区地方法院重申,原告史蒂芬·塔勒开发的人工智能工具生成的作品没有所有权,尽管在这个事实模式中,塔勒有意限制了任何人类创造力,并强调了机器的作用。值得注意的是,美国版权办公室发布的一系列案例法和指导文件,目前是我们寻求使用生成式人工智能工具开发作品的版权归属的主要指导来源,根据目前的美国法律,任何人都不拥有人工智能生成的作品的所有权 - 不是人工智能工具的作者,也不是工具本身,也不是输入提示来生成作品的个人。因此,这些作品目前被视为属于公共领域,没有版权保护。美国版权办公室进一步发布了指导,解释称“包含AI生成材料的作品还将包含足够的人类创作,以支持版权主张”,例如,作者对AI生成作品进行了创造性的安排,或者对AI生成作品进行了实质性修改。然而,“在这些情况下,版权将仅保护作品中人类创作的部分,这些部分是与AI生成的材料独立的,并且不影响AI生成材料本身的版权状态。”因此,美国版权办公室要求在提交注册作品时识别AI生成的内容和人类生成的内容,以便保护将仅授予人类创作的内容。例如,在关于漫画《黎明的扎里娅》的注册决定中,美国版权办公室拒绝保护使用生成式人工智能艺术平台Midjourney创建的图像,但允许注册文本以及图像和文本的选择和安排,申请人克里斯·卡什托诺娃声明对这些元素负有唯一责任。在同一份指导文件中,美国版权办公室还重申,即使通过技术工具增强了,底层原创作品仍然享有保护。美国版权办公室在其指导文件中指出,将继续监测这项新技术,并可能在未来发布进一步的指导。因此,目前关于“足够的人类创作”的指导最终可能支持将来对AI生成的作品或其部分或变体进行版权保护的奖励。然而,目前在美国,对AI生成的作品没有保护的保证。欧盟:可能存在所有权欧盟版权法是由13项指令和两项法规组成的一组碎片化法律。然而,这些立法,包括即将出台的欧盟人工智能法案,都没有直接涉及人工智能生成作品的所有权,而在立法之外,在欧盟层面几乎没有相关的案例法。欧洲法院提供了一些有限的指导性指引,在Infopaq International A/S v Danske Dagblades Forening (Case C-5/08)案中,它裁定版权只有在来源于“作者自己的知识创造”时才存在。这被广泛解释为需要人类的重要形式输入。然而,将由各个欧盟成员国确定人工智能生成模型的输出是否符合这一要求。以德国版权法为例,要求作品具有作者的“独特知识创造”才能存在版权 - 并且人们认为机器或计算机程序都不能成为作者,因此假定“知识创造”必须由人类创造。同样,在法国,目前的假设是只有自然人才能被认为是作者,原创性要求作者的“个人触感或知识努力”,而“自动和约束性逻辑的实施”如果没有“真正的个人努力”将不合格。然而,类似于上述讨论,尚待观察的是,在人类的辅助下是否有足够的人类输入,以生成一部作品,从而人类可以主张对该作品的所有权。英国:可获得所有权英国的立场类似于欧盟的立场,要求版权作品必须是“作者自己的知识创造”,并展现出作者的“个人触感”。与其他司法管辖区一样,当人类作者使用工具(如文字处理软件或笔)创作作品时,版权将存在。然而,如果所有的“创造性”都发生在人工智能平台内部,就像其他国家一样,生成式人工智能的输出在英国可能不会受到保护。然而,值得注意的是,根据英国的版权立法 - 1988年《版权、设计和专利法》(CDPA),英国还将版权保护扩展到“计算机生成的作品”。尽管有理论家对非人类“计算机”能否生成体现创造性技能的可版权作品的想法提出了质疑,但CDPA的第9(3)条明确规定,对于生成的可版权作品,进行了“必要安排”的人是其作者。这一立场最近得到了英国政府以及英国知识产权局的认可 - 该局于2022年就第9(3)条在生成式人工智能应用上进行了公开磋商,并得出结论认为第9(3)条应继续有效。因此,虽然在实践中有一个关于谁是进行“必要安排”的人的问题,但在英国,生成式人工智能的输出享有版权。中国:可能存在所有权中国的一般规定与我们在本文中讨论的其他司法管辖区类似:根据中华人民共和国《著作权法》,符合版权保护资格的“作品”必须是原创的“知识成果”。尽管《著作权法》没有明确规定人工智能生成内容的版权可保护性,但两起最近的法院判决具有指导意义,可能为其他国家提供适用的概念框架。2019年,深圳市南山区法院裁定,生成式人工智能输出 - 或至少某些输出 - 可能符合版权保护的条件。在这个案例(深圳腾讯诉上海映迅案)中,法院确认使用腾讯的Dreamwriter写作人工智能软件生成的AI文本可以构成可保护的作品。法院认为,涉案的“作品”不是“纯粹由AI生成的”,在输出生成过程中存在“知识活动”,因为腾讯在数据输入和触发条件设置等方面的输入是生成输出的关键。尽管Dreamwriter没有“人格”,法院发现腾讯内部的多个团队参与了该作品的创作,因此腾讯拥有版权。在一起更近期的案件中,北京互联网法院裁定,由Stable Diffusion生成的图像符合“知识成果”和“原创性”标准,因为用户通过输入提示文本和设置参数进行了智力贡献,导致AI生成的图像反映了用户的个性化表达。在同一案件中,法院认定,AI生成的图像的版权所有者是用户,而不是平台开发者,因为开发者没有意图创建图像,也没有确定输入。这些裁决确实引发了一个问题,即“纯粹由AI生成”的作品是否可以被视为具有版权保护性,但是与“安排和选择”输入相关的一般推理可能为至少部分生成式人工智能工具用户提供了通向版权保护的途径。结论总的来说,人工智能生成作品的版权归属在不同的司法管辖区存在差异,有些情况下法律仍在制定中。如果对生成式人工智能工具的用户来说所有权和可保护性很重要,因此关键是考虑工具提供者提供的条款、协议的适用法律、用户寻求执行版权的司法管辖区以及其他司法管辖因素。
“我们可能会收集公开的在线信息或来自其他公共来源的信息,帮助训练Google的人工智能模型。”近日,谷歌更新隐私政策,表示将利用网络公开数据训练旗下的AI模型,相关条款已于7月1日生效。
谷歌的这一动作引发争议,单方面通知用户的行为是否合法合规?此举又是否有“囤数据”之嫌?
此前,Twitter和社交网站Reddit已经采取措施,限制第三方对其API的访问。国外科技公司的一系列举措背后,可能是大模型发展路上一个不可忽视的真相:训练数据的重要性愈发显现。随着大模型产业的快速发展,出于市场竞争的需要,模型规模将快速膨胀,但同时可用于训练的数据供给相对不足,且未来日趋稀缺。
未来,数据或将成为AI发展的“兵家必争之地”。
“囤数据”训练AI模型
近日,谷歌更新隐私政策,表示将利用网络公开数据训练旗下的AI模型。在隐私协议的“可公开获取的资源”一栏,谷歌提到:“我们可能会收集公开的在线信息或来自其他公共来源的信息,帮助训练Google的人工智能模型。”该大模型将会为谷歌翻译、谷歌旗下聊天机器人产品“Bard”及Cloud AI等产品和功能提供助力。
对比去年年底发布的上一版隐私政策,谷歌将“收集信息以帮助训练语言模型”的相关措辞更改为“训练人工智能模型”,并新增明确了自家AI产品对于数据的使用权利。这似乎意味着,谷歌在训练旗下聊天机器人及其他AI模型,或未来开发AI产品的过程中,有权使用人们在网上公开发布的任意内容。
南方财经全媒体记者在检索后发现,7月5日,谷歌中文版隐私政策也已经进行同步更新。
在竞天公诚律师事务所合伙人袁立志看来,此次谷歌隐私政策的更新从实践角度看不算重大变化。“无论在我国还是域外,对公开数据的正常收集和使用,在一般情况下不算违法。”不过他补充道,如果个人通过发送邮件等方式向信息处理者就相关使用表露明确拒绝,对其个人信息的收集和使用就应当停止。
北京大成律师事务所高级合伙人邓志松也表示,就目前可获得的信息而言,谷歌对收集与处理用户个人信息的范围和目的作出了详细说明,即使以欧盟GDPR项下更为严格的“告知-同意”规则为标准,谷歌的这一收集与处理行为至少在形式上具有合法性。至于其实施过程中可能涉及的实质合法性判断,及由此可能对AI等行业产生的影响,则尚待进一步观察。
虽然此次更新并未对个人信息保护带来影响,但暗藏背后的数据隐忧却逐渐被公众注意到。
“得数据者得天下”
数据是数字经济时代的“新石油”,处在时代中的人工智能技术亦受其影响。
以OpenAI的几代GPT模型为例,训练数据上,GPT-1预训练数据量仅有5GB;到了GPT-2,这个数据则增加至40GB;而在GPT3模型下,OpenAI用以训练模型的数据集数据量达到了惊人的45TB。
“大模型时代,得数据者得天下。”对外经济贸易大学数字经济与法律创新研究中心执行主任张欣指出,一方面,训练数据是大模型训练的基石和燃料,如果没有数据,大模型的训练就无法开展和持续;另一方面,当前技术领域的研究显示,各家大模型在算法层区别并不大,并且具有同质化的趋势。在此背景下,训练数据就成了真正区分且影响大模型性能的重要因素之一。
需求渐长,供给端却并未马上配合。目前,有多家处在“数据提供端”的公司对数据抓取、开源等做出了反应。比如Twitter限制了用户每天能查看的推文数量,几乎使数据提供服务无法使用。马斯克表示,这是对“数据抓取”和“系统操纵”的必要反应。
4月,Reddit官方宣布将对调用其API的公司收费,原因正是OpenAI、谷歌等公司利用该平台上的数据训练模型。此外,IT技术问答网站Stack Overflow也计划向AI大模型的开发者及公司收取数据访问费用。
科技公司的系列动作,一定程度反映了数据的重要性。
在7月2日全球数字经济大会人工智能高峰论坛上,昆仑万维科技股份有限公司CEO方汉表示,高质量数据对大模型发展至关重要。
“坦白地讲,最近三年的大模型训练积累的是对丰富的预训练数据深度加工的能力。OpenAI所有公开的论文和讲演,对训练过程和训练算法都是公开的,但其从不公开模型结构及数据处理。”方汉指出,目前全世界大模型预训练团队都试图重现OpenAI在模型架构的动作以及预训练数据的动作,任何一家企业的预训练数据加工能力都至关重要。
数据稀缺、分散难题何解?
数据的重要性不言而喻,高质量数据更是稀缺品。
早在去年,一项来自Epoch Al Research团队的研究结果表明,高质量的语言数据存量将在2026年耗尽,低质量的语言数据和图像数据的存量则分别在2030年至2050年、2030年至2060年枯竭。
百舸争流是市场竞争的常态,但过分竞争也有可能为行业带来灾难。限制数据抓取,很可能导致新一轮的数据大战,进而引发平台之间屏蔽、数据垄断等问题。
国际标准化组织TC/154技术专家王翔指出,大模型的蓬勃发展对训练数据提出了很高的数量和质量要求。在供给侧,人口增速、用网时间下降、制度性地理约束提高、高质量数据匮乏等都在制约大模型未来发展,SOP化和转发习惯也降低了供给能力;在需求侧,无论是主观治理思路还是客观基础设施条件,以及大型语言模型所有者应对市场的考量,都会持续强化数据垄断。
此外,大模型训练中,面对的高质量数据的稀缺、行业数据分散等问题应如何解决?
受访专家指出,未来健康的生态需要市场侧和监管侧等多方的共同建设维护。
“首先还是需要相信市场的力量”,袁立志指出,随着优质数据的需求逐渐显现,各个市场主体都会被“无形的手”推动向前。“数据资源的寻找、汇聚、清洗、标注等各个环节预计都会因竞争的活跃而不断改善,以满足市场需求。”他表示。
张欣则具体指出,目前行业内的开源数据集正在不断增多,未来应呼吁更多人工智能企业、从业者加入,建立更加良好的行业生态。“人工智能训练时的众包思路也非常重要。”
而监管侧,在张欣看来,从法律法规层面明确训练数据集的合法性获取路径是监管下一步应当关注的重点。“只有明确了合法获取的路径,大模型训练者才有更稳定的合规预期以开展工作。”
袁立志认为,监管侧数据要素市场的建设深入会为大模型领域的发展带来良性影响。“数据要素市场建设走深意味着数据流通利用全流程提速提效,自然也惠及大模型的训练数据收集。”
(作者:王俊,冯恋阁,实习生罗洛 编辑:张铭心,林虹)

我要回帖

更多关于 网易的AI大模型叫什么 的文章