关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

OpenAI推出“数据伙伴关系”,减偏向缺陷

2023.11.10

原文地址:http://news.sciencenet.cn/htmlnews/2023/11/512053.shtm

·OpenAI宣布了“数据伙伴关系”计划,旨在与第三方机构合作,建立用于人工智能模型训练的公共和私有数据集。

·OpenAI将收集“反映全人类社会”且目前不易在线访问的“大规模”数据集。该公司特别希望收集能“表达人类意图”的数据(如长篇写作或对话),这些数据将跨越不同的语言、主题和格式。

训练人工智能模型的数据集存在严重缺陷,这是一个公开的秘密。比如图像语料库往往以美国为首的西方国家为中心,部分原因在于在编制数据集时,这些地方的图像在互联网中占据主导地位。模型则以有害的方式放大了这些缺陷。

654e046ae4b03b5da6d02fdb.png

  ?

OpenAI在官网公布,它希望与外部机构合作创建新的数据集来消除这些缺陷。

当地时间11月9日,OpenAI在官网公布,它希望与外部机构合作创建新的数据集来消除这些缺陷。

OpenAI宣布了“数据伙伴关系”(Data Partnerships)计划,旨在与第三方机构合作,建立用于人工智能模型训练的公共和私有数据集。该公司在官网中表示,数据合作伙伴关系旨在“让更多组织能够帮助引导人工智能的未来”,并“从更有用的模型中获益”。

“为了最终使(人工智能)安全且有益于全人类,我们希望人工智能模型能够深入理解所有主题、行业、文化和语言,这就需要尽可能广泛的训练数据集。”OpenAI写道,“将你的数据纳入其中可以增加人工智能模型对你所在领域的理解,从而对你更有帮助。”

作为数据合作伙伴计划的一部分,OpenAI将收集“反映全人类社会”且目前不易在线访问的“大规模”数据集。该公司计划在包括图像、音频和视频在内的各种模式下开展工作,不过其特别希望收集能“表达人类意图”的数据(如长篇写作或对话),这些数据将跨越不同的语言、主题和格式。

OpenAI表示,如有必要,它将与组织合作,使用光学字符识别和自动语音识别工具对训练数据进行数字化处理,并在必要时删除敏感或个人信息。

一开始,OpenAI希望创建两种类型的数据集:一种是公开的开源数据集,任何人都可以在人工智能模型训练中使用;另一种是私有数据集,用于训练专有的人工智能模型。私有数据集的对象是那些希望数据保密,但又希望OpenAI的模型能够更好地理解其领域的组织。

到目前为止,OpenAI已经与冰岛政府和语言技术公司Mieeind ehf合作,提高了GPT-4的冰岛语能力,并与自由法律项目(一个在美国注册的非营利组织,为法律领域的学术研究提供访问和分析工具)合作,提高了模型对法律文件的理解能力。

“总之,我们正在寻求合作伙伴,帮助我们教会人工智能理解我们的世界,以便最大限度地帮助每个人。”OpenAI写道。

推荐
热点排行
一周推荐
关闭