OpenAI 数据合作伙伴关系：弥合 AI 训练数据的全球差距

OpenAI 的“数据合作伙伴关系”项目旨在通过创建多样化、全球性的数据集来减少人工智能中的西方中心主义偏见。
该计划侧重于纳入多样化的语言和文化数据，以解决人工智能模型中存在的偏见。
OpenAI 因可能在未经授权的情况下使用个人和创造性作品进行人工智能训练而面临批评和法律问题。

OpenAI 宣布了一项“数据合作伙伴关系”计划，旨在将人工智能训练数据的多样性扩展到西方中心主义规范之外。这一开创性项目旨在与各种组织合作，开发用于人工智能模型训练的全面公共和私有数据集。

OpenAI 数据合作伙伴关系 (https://openai.com/blog/data-partnerships)

应对人工智能中的数据偏见

该计划是对人工智能中普遍存在的数据偏见问题的回应。传统的人工智能模型显示出严重偏向西方国家数据，尤其是在图像数据库中。这种偏见归因于互联网上西方图像的代表性过高，导致人工智能模型无意中放大了这些偏见，可能带来有害后果。

OpenAI 的数据合作伙伴关系旨在通过收集更准确反映全球人类社会的广泛数据集来纠正这一问题。这些数据集将专注于通过多种格式（如跨多种语言和主题的广泛写作或对话）来捕捉人类意图。这种更广泛的数据集将帮助人工智能模型更深入地理解多样化的主题、行业、文化和语言。

另请阅读：OpenAI 推出 GPT Store，无需编码即可构建个人 AI 聊天机器人

公共和私有数据收集

该项目将涵盖多种模式，包括图像、音频和视频，优先考虑代表人类意图的数据，例如长篇写作或对话。为确保数据完整性，OpenAI 计划使用光学字符识别和自动语音识别等工具进行数字化，同时注意删除敏感或个人信息。OpenAI 计划开发两种类型的数据集。第一种是开源数据集，将免费用于人工智能训练。第二种是私有数据集，专为希望保持数据机密性同时让 OpenAI 模型更好地理解其特定领域的组织量身定制。

另请阅读：OpenAI 悄然更新其“核心价值观”，强调通用人工智能的发展

合作与争议

该公司已经着手建立合作伙伴关系，以增强其人工智能能力。与冰岛政府的合作和Miðeind ehf提高了 GPT-4 的冰岛语熟练程度。同样，与 Free Law Project 的合作增强了模型对法律文件的理解。尽管该倡议看似具有利他性质，但 OpenAI 因潜在的商业动机而受到批评。OpenAI 改进其模型的方法，可能以牺牲他人利益、且未提供公平补偿为代价，引发了争议。最近创作者和作者对 OpenAI 和微软提起的法律诉讼凸显了未经授权使用其作品进行人工智能模型训练的问题，引发了人们对人工智能行业道德数据使用和补偿的质疑。

OpenAI 数据合作伙伴关系旨在弥合全球人工智能训练数据集差距

应对人工智能中的数据偏见

公共和私有数据收集

合作与争议

信号简报

运营足迹

市场背景

关注事项

深度趋势背景

战略圈

领导联盟

战略圈简报

领导联盟简报