艾伦AI推出业界最大文本数据集,包含3万亿Tokens,超过Llama 2
本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。
编译 | 香草编辑 |李水青
(资料图)
智东西8月21日消息,艾伦AI研究所(AI2)于8月19日在其官方博客发布用于训练大型语言模型(LLM)的文本数据集Dolma,包含3万亿个Tokens(词例),是迄今为止最大的开放文本数据集。
▲按子集划分的Dolma数据属性概览
在AI竞争激烈的当下,大部分科技巨头都倾向于保守自家大模型开发的机密。AI2在博客中称,公司希望通过公开透明化其数据集及之后的大模型,帮助更多的研究者在此基础上进一步进行研究和开发等工作。
一、全透明构建700亿参数大模型,2024年推出
AI2由已故微软联合创始人兼慈善家保罗·艾伦(Paul Allen)于2014年成立,致力于开展高影响力的AI研究和工程,宗旨是“AI为人类共同利益服务”(AI for the common good)。2017年,AI2推出了孵化器项目AI2 Incubator,孵化出被百度全资收购的自然语言处理公司Kitt.ai和被苹果收购的AI图像识别公司Xnor.ai等。
自2023年3月以来,AI2一直在着手创建一个开放的生成语言模型AI2 OLMo(Open Language Model),旨在促进大规模自然语言处理(NLP)系统的研究。AI2称将发布在整个项目中遵循的人工制品和记录流程,以透明和开放的方式构建OLMo。
OLMo将拥有700亿级别的参数规模,预计于2024年初完成。此次公布的Dolma,便是用于OLMo的数据集,其名称来源于“Data to feedOLMo’sAppetite”——为OLMo的“胃口”提供数据。
AI2认为理想的数据集应该满足开放性、代表性、规模性、可复现性以及风险规避性这五个标准。
像GPT-4、Claude这样的语言模型功能强大且用途广泛,但其训练数据却是保密的。AI2认为需要扭转这一趋势,让数据集可以免费使用并接受监督,也让其他研究人员有机会在此基础上建立更好版本的数据集。为了提供可复现的条件,AI2将公开在准备数据集过程中使用到的所有开发工具。
▲AI2统计的常见大模型相关属性,其中“?”表示未公开,“~”表示部分公开
尽管OpenAI和Meta等公司公布了用于构建语言模型的数据集的部分重要统计数据,但其中很多信息都被视为专有信息。除了阻碍审查和改进等原因之外,还有人猜测,这种封闭的方式可能是由于数据的获取不道德或不合法。
在AI竞争激烈的背景下,大部分公司倾向于保守其模型训练过程的秘密。但对于其他研究人员来说,这使得这些数据集和模型更加不透明,难以研究或复现。
二、保证Dolma数据集质量,AI2采取四项原则
在训练语料库时,可选择的数据非常多,其数据量几乎是一个天文数字。对此,AI2使用了四项原则来协助选择数据,分别是遵循现有做法、合理运用评估套件、倾向于协助实现核心研究方向的决策以及采取基于危害的方法来缓解风险。这四项原则内容如下:
首先,通过匹配用于创建其他语言数据集的方法,使更广泛的研究界能够利用Dolma来间接研究现有的或是正在开发的LLM。
其次,在做出直接影响其中一项任务的数据相关决策时,选择能够提高指标的干预措施。例如,Dolma中加入了维基百科文本,因为它能提高K-12(学前及中小学教育)科学知识任务的性能。
再次,并非所有数据集决策都与基准性能有关,例如添加包含代码的文档会降低许多文本基准测试的性能。AI2倾向于为其主动或前瞻性研究加入更有用的决策。
最后,通过与法律道德专家的交谈,根据其反馈评估了数据设计决策从而规避可能的风险。
三、业界最大公开文本数据集,3万亿Tokens超Llama 2
与市面上已经公开的数据集相比,Dolma主要有两点不同。首先,它比其他开放数据集规模大很多。
▲Dolma与其他公开数据集的属性对比
由表可见,除Dolma外,目前公开数据集中数据量最大的是RedPajama,为1.2万亿Tokens,被用于Llama的训练。相比之下,Dolma的数据量是其两倍多。此外,Llama 2训练所使用的数据集为2万亿Tokens规模,但并未公开。GPT-3训练使用的数据集规模为0.4万亿。
其次,它遵循AI2为AI人工制品制定的许可证ImpACT,该许可证的名称来自于AI2的四个核心价值观:影响力(Impact)、责任(Accountability)、协作(Collaboration)和透明(Transparency)。它将人工制品划分为低、中、高三个级别的风险,并规定了如何使用、安装和创建衍生品。
根据许可,研究人员须遵守:1、提供联系信息,并说明Dolma的预期用途;2、公开基于Dolma创建的任何衍生产品;3、遵循ImpACT分发衍生产品;4、不将Dolma用于一系列被禁止的用途,如军事监控或生成虚假信息。
结语:开放与透明为研究者提供新的探索空间
AI2发布的Dolma数据集是迄今为止最大的开放文本数据集,为训练大型语言模型提供了巨大的资源。在遵循风险规避等准则的前提下,选取了尽量多来源和种类的数据,达到3万亿Tokens级别。
Dolma的公开透明化举措开创了大型数据集开源的先河,在竞争激烈的AI领域,鼓励其他研究人员在其数据集的基础上进行再研究和开发,有助于推动产业的开放性和合作性发展。
来源:艾伦AI研究所官方博客
关键词:
您可能也感兴趣:
为您推荐
双碳晚报 | 发改委:积极发挥碳减排支持工具作用 前7月中国对其他金砖国家锂电池出口成倍增长
今日dnf拳头暴君怎么获得(拳头暴君在哪直播)
海鸣威发文疑内涵好声音,称最黑的就是两姐妹,一个转身收几十万
排行
最近更新
- 艾伦AI推出业界最大文本数据集,包含3万亿Tokens,超过Llama 2
- 青海:严禁游客非法穿越无人区探险
- 中直股份最新公告:上半年净利润同比增长632.48%
- 杭州九批供地:保利、绿城23.28亿及25.07亿分食余杭云城地块
- 齐评︱数字山东如何点“数”成金
- 美联储货币政策有望逐步转向,机构建议提前布局黄金板块
- 2023漳州市区第二拍落槌!建发再落1子
- 报告:拉脱维亚人每月用 42GB 移动数据流量,全球第一
- 歼11b全国哪些地方有 实拍飞行学员驾歼-11B实弹打靶 基本情况讲解
- 太平洋给予峰岹科技买入评级
- 展翅高飞 追梦源城 团源城区委开展返家乡大学生参观企业学习活动
- 半年仅售652辆,卖一辆亏43万
- 东北三省心理学学术交流会在哈举行
- 智能玩具市场大有可为 智能玩具将成未来市场主流方向
- 融通农业发展(杭州)有限责任公司原党委副书记、总经理闫海...
- 一胖毁所有 这话是认真的
- 芯驰科技与上汽大众在上海成立联合创新中心
- A级保温材料价格(a级保温材料)
- 中渝置地(01224.HK)中期总收入为2.4亿港元 同比减少9.4%
- 楚天科技(300358.SZ):上半年净利降10.82%至2.67亿元
- 公司事件点评报告:利润增长超预期,期待市场开拓加速
- 商务部:60余家企业和机构将在服贸会上首发一批新产品、新技术
- 创新新材:计划在墨西哥开展汽车轻量化铝合金材料等项目
- 香港、澳门宣布:24日起禁止!
- 在机动车道上骑行小电动车 没看清路撞到了停在路上的电动三轮
- 铜梁:党建统领 激活商圈发展新动能
- “双万”城市半年报:沪杭等7城增速领跑全国 5座准“双万”...
- 瞄准扩大消费关键 释放科创活力 豫园股份上半年实现营收、...
- 韩国人为什么来咱东北“认祖归宗”?
- 人要待在没有天花板的地方!在通道龙底河漂流体会了玩水的快乐