EleutherAI 发布许可和开放领域文本的海量 AI 训练数据集
AI 研究机构 EleutherAI 发布了它声称是用于训练 AI 模型的最大许可和开放域文本集合之一。 该数据集称为 Common Pile v0.1,与 AI 初创公司 Poolside、Hugging Face 等以及几家学术机构合作,花了大约两年时间完成。 Common Pile v0.1 重达 8TB,用于训练 EleutherAI 的两个新 AI 模型,即 Comma v0.1-1T 和 Comma v0.1-2T,EleutherAI 声明的性能与使用未经许可、受版权保护的数据开发的模型相当。 包括 OpenAI 在内的 AI 公司因其 AI 训练实践而卷入诉讼,这些实践依赖于抓取网络(包括书籍和研究期刊等受版权保护的材料)来构建模型训练数据集。 虽然一些人工智能公司与某些内容提供商达成了许可协议,但大多数公司坚持认为美国 合理使用的法律原则保护他们免于承担责任在未经许可的情况下,他们接受了受版权保护的作品的培训。 EleutherAI 认为,这些诉讼“大大降低了”人工智能公司的透明度,该组织表示,这损害了更广泛的人工智能研究领域,使理解模型的工作原理及其可能存在的缺陷变得更加困难。 “[版权] 诉讼并没有有意义地改变 [模型] 训练中的数据来源做法,但它们大大降低了公司的透明度参与进来,“EleutherAI 的执行董事 Stella Biderman 周五早些时候在 Hugging Face 的一篇博客文章中写道。 “我们交谈过的一些公司的研究人员也特别提到了诉讼,这是他们无法发布他们在高度以数据为中心的领域所做的研究的原因。” The Common Pile v0.1 可从 Hugging Face 的 AI 开发平台和 GitHub 下载,是在咨询法律专家后创建的,它借鉴了包括 300,000 在内的来源由美国国会图书馆和 Internet Archive 数字化的公共领域书籍。 EleutherAI 还使用 OpenAI 的开源语音转文本模型 Whisper 来转录音频内容。 EleutherAI 声称 Comma v0.1-1T 和 Comma v0.1-2T 证明 Common Pile v0.1 经过精心策划,使开发人员能够构建与专有替代方案竞争的模型。 根据 EleutherAI 的说法,这两个模型的大小均为 70 亿个参数,并且仅在Common Pile v0.1 的一小部分,在编码、图像理解和数学基准测试中与 Meta 的第一个 Llama AI 模型等模型相媲美。 参数(有时称为权重)是 AI 模型的内部组件,用于指导其行为和答案。 “一般来说,我们认为未经许可的文本驱动性能的普遍想法是不合理的,”Biderman 在她的帖子中写道。 “随着可访问的开放许可和公共领域数据数量的增长,我们可以预期在公开许可内容上训练的模型质量有待提高。 The Common Pile v0.1 似乎在一定程度上是为了纠正 EleutherAI 的历史错误。 几年前,该公司发布了 The Pile,这是一个包含受版权保护材料的开放培训文本集合。 AI 公司因使用 The Pile 训练模型而受到抨击和法律压力。 EleutherAI 致力于与其研究和基础设施合作伙伴。 上午 9:48 更新 Pacific:Biderman在 X 上的一篇文章中澄清说,EleutherAI 为数据集和模型的发布做出了贡献,但它们的开发涉及许多合作伙伴,包括帮助领导研究的多伦多大学。