数据堂入选首批“北京市人工智能大模型高质量数据集”合作企业

7月2日，“2023全球数字经济大会人工智能高峰论坛”在京举办。本次论坛以“智能涌现，重塑未来”为主题，汇集10余位人工智能领域顶级专家学者和企业、机构代表围绕当下最具热度的大模型发展话题分享了深刻洞见和思考。

本次论坛发布了首批“北京市人工智能大模型高质量数据集”，共有10家单位的18个高质量训练数据集入选，包括数据堂多语言多模态视频文本对齐数据集、中文高质量大模型预训练文本数据集，以及人民日报语料数据集、国家法律法规语料数据集，两会参政议政建言数据集、“科情头条”全球科技动态数据集，中国科学引文数据库数据集、科技文献挖掘语义标注数据集等，涵盖经济、政治、文化、社会、生态等不同领域，总规模超过500T，将为通用大模型和行业大模型训练提供有力保障。

全国首个政务服务需求应用场景、北京市首批人工智能大模型高质量数据集、近百个场景案例发布，十个合作项目集中签约，展现出在推动通用人工智能产业发展和大模型创新应用成果方面的“北京力量”。

此次人工智能高峰论坛作为“2023全球数字经济大会”同期举办的六大高峰论坛之一，超高的热度吸引了近千名观众现场参与，也得到了政府及行业相关部门的高度重视。北京市经济和信息化局党组书记、局长姜广智出席活动并致辞。

数据堂大模型数据解决方案

数据堂通过丰富的项目实施和管理经验，人机结合的数据生产平台既可以提供无监督数据的获取、清洗，也可以为后续监督学习阶段提供定制化数据服务。

无监督学习数据

针对无监督学习需要的训练数据，数据堂可以提供文本、图像、语音、视频、点云等单一模态及跨模态融合的数据获取与清洗服务，数据质量更有保障。

中文高质量无监督文本数据集，可应用于大模型预训练，数据规模约1亿篇，涵盖语文、数学、地理、历史、化学、物理、生物、政治、计算机等各类学科领域的高质量文本，所有文本均经过标签分类、内容清洗和质量评估。

方言高质量无监督视频数据集，avi格式，数据规模达10万小时，100TB。涵盖全国各地方言10万小时的说话视频，每段视频都标注了具体的方言种类。

多语言平行语料文本数据集，涵盖50多个语种的平行互译语料，覆盖各类书面语和口语。所有文本均经过人工校对，句对准确率达到90%以上。

多模态安防领域图像描述数据集，涵盖各种场景图片、车辆图片、人脸图片、手势图片、人体图片等常见安防场景图片，对每张图片都进行了详细的内容描述。图文对准确率达到97%以上。

手势多模态数据

多模态多语言自然对话语音数据集，数量为3万小时，涵盖普通话、方言和少数民族语及60多个语种的对话音频。每段音频都人工标注了话题类型、说话人角色和说话内容。准确率达到95%以上。

多模态多语言视频标注数据，20TB，可应用于视频字幕识别。涵盖普通话、方言和少数民族语及30多个语种的说话视频。每段视频都人工标注了话题类型、说话人角色和说话内容。准确率达到95%以上。

另外，领域数据质量参差不齐，需要清洗后才可以投入使用。数据堂可以根据客户领域数据类型及特点，针对性的提供数据清洗方案及人员服务。

监督学习数据

针对监督学习需要的人工标注的高质量训练数据，数据堂可以提供文本、图片、音频、视频、点云等单一模态及跨模态的数据定制标注服务，包括问答对编写（SFT）、基于强化学习的人类反馈（RLHF）等。

监督微调（SFT）数据

数据堂可帮助客户通过对prompt编写/改写、output编写/改写等工序，生成高质量的SFT数据，用于模型微调。

敏感性Prompt编写/改写：

我们可以根据客户要求编写/改写敏感性Prompt，如暴力、政治、脏话、色情及其他等敏感内容，及带有诱导类的敏感内容。

常见output数据标注：

相关性：问题和答案之间要准确贴合，避免答非所问

真实性：输出准确无误的信息，不可以误导用户

连贯性：不可出现错别字、语法错误、语义不顺等。尽量口语化，避免使用过于书面或直接从网络摘抄下来的内容

有帮助的：遵循用户意图，并帮助用户解决他们的任务。答案简明扼要，避免冗长和信息重复

无害性：输出内容不应对人造成身体、心理或社会伤害；设备或财产的损坏或损失；对环境的破坏；或损害人类福祉所必需的机构或资源

基于人类反馈的强化学习（RLHF）

在这一阶段，数据堂可以针对SFT训练后模型生成的多个结果按照客户给定的规则进行人工排名，或者提供多因素打分。通过培训标注员对齐价值观，以及多人拟合的方式提升反馈的质量，以此提升大模型输出结果的质量，使之更加贴近人类价值观并有益。

常见RM数据人工排名标注：

对模型输出的内容从最好到最差进行人工排名，对于相同分数的输出内容进行排序。

常见RM数据多因素评分标注规范：

对模型输出的内容从最好（5分）到最坏（1分）进行打分，包括平分，如果输出质量接近，则分数相同。

数据堂入选首批“北京市人工智能大模型高质量数据集”合作企业

周鸿祎和二手车商聊天内容火药味十足周鸿祎很硬气

说好得的三次3800，结果做了一次不退钱想开溜，小伙不愿意了

崩盘!快船惨败2-3独行侠哈登12中2乔治13中4东契奇35+10

刘和平：美国欲构建“印太版”北约，“贪吃蛇”的胃口不小！

美媒：内塔尼亚胡执意攻打拉法他可能在赌

美众议院通过法案打击大学校园的反犹太主义行为

美国以涉俄为由将22家中国企业加入SDN名单

恨官、仇富、仇体制，背后真实目的是放大社会矛盾，制造社会分裂

广东11地市打破4月雨量历史记录：梅州平均雨量为常年3.5倍

碾压局！绿军4-1淘汰热火晋级布朗25+6怀特25分

990万拍下周鸿祎迈巴赫当事人：已完成支付

福建舰冒烟明显，看来是烧油的和核动力无关

大妈在火车上跳舞直播旁边有男子拿手机拍摄

五一假期首日，多地领导以“四不两直”方式检查城市安全

山西恒山景区落石砸伤游客，景区称落石已清理，正有序组织游客下山

特斯拉据悉退出下一代“一体化压铸”制造工艺

万亿城市常住人口变局：去年六城增加逾十万，合肥增量第一

广东两“70后”省委常委，进京履新

87岁王德民被称"最帅院士"爆红网络高考曾接近满分

博主苏州旅游遇“辣条刺客”85元一斤？官方通报

数据堂入选首批“北京市人工智能大模型高质量数据集”合作企业

周鸿祎和二手车商聊天内容火药味十足 周鸿祎很硬气

说好得的三次3800，结果做了一次不退钱想开溜，小伙不愿意了

崩盘!快船惨败2-3独行侠 哈登12中2乔治13中4东契奇35+10

刘和平：美国欲构建“印太版”北约，“贪吃蛇”的胃口不小！

美媒：内塔尼亚胡执意攻打拉法 他可能在赌

美众议院通过法案 打击大学校园的反犹太主义行为

美国以涉俄为由将22家中国企业加入SDN名单

恨官、仇富、仇体制，背后真实目的是放大社会矛盾，制造社会分裂

广东11地市打破4月雨量历史记录：梅州平均雨量为常年3.5倍

碾压局！绿军4-1淘汰热火晋级 布朗25+6怀特25分

990万拍下周鸿祎迈巴赫当事人：已完成支付

福建舰冒烟明显，看来是烧油的和核动力无关

大妈在火车上跳舞直播 旁边有男子拿手机拍摄

五一假期首日，多地领导以“四不两直”方式检查城市安全

山西恒山景区落石砸伤游客，景区称落石已清理，正有序组织游客下山

特斯拉据悉退出下一代“一体化压铸”制造工艺

万亿城市常住人口变局：去年六城增加逾十万，合肥增量第一

广东两“70后”省委常委，进京履新

87岁王德民被称"最帅院士"爆红网络 高考曾接近满分

博主苏州旅游遇“辣条刺客”85元一斤？官方通报

周鸿祎和二手车商聊天内容火药味十足周鸿祎很硬气

崩盘!快船惨败2-3独行侠哈登12中2乔治13中4东契奇35+10

美媒：内塔尼亚胡执意攻打拉法他可能在赌

美众议院通过法案打击大学校园的反犹太主义行为

碾压局！绿军4-1淘汰热火晋级布朗25+6怀特25分

大妈在火车上跳舞直播旁边有男子拿手机拍摄

87岁王德民被称"最帅院士"爆红网络高考曾接近满分