被大模型刷屏的2023年，数据标注发生了哪些变化？

斯坦福大学李飞飞等人在2022年8月发表的论文中指出，实现可信AI，数据的设计、改进和质量评估是关键。以数据为中心的人工智能将重点转移到训练数据的治理和增强，高质量的训练数据集、完备的数据应用策略将会更好的服务于模型的开发与应用。

大模型的热潮为人工智能开启了新的篇章，作为人工智能的重要生产要素，数据集的作用更加凸显。然而，飞速发展的大模型时代，训练数据供需两端也在发生转变，适配于大模型领域的数据处理工具应运而生。

01标注需求变化

从客观到主观

与以往的标注工序不同，以自动驾驶数据标注为例，主要是对图像或者点云数据拉框、标点、标线、标多边形等，需要严格按照客户给定的标注规范进行，标注要求也偏客观。而大模型数据的标注方式主要是回答质量评估，如排序、打分、修正等，还有多轮对话。大模型生成的多个结果哪个更接近满分答案，每个标注员的标准是不一样的，标准对齐较难，标注也更主观。

数据堂现有4个大型数据标注基地，通过专业化培训、针对性考试，不断提升大模型标注人员的专业理解力、逻辑思维、总结能力，现在500名稳定的大模型专业标注人员，全部通过内部考核。

02标注人员变化

从劳动密集转向知识密集

区别于传统的数据标注，大模型数据标注对标注人员的要求变得更高，要满足更高学历、更多专业领域、更具主观性等要求。从之前的标框、标点、转写等标注工序，转变为对大模型问答的编写、生成结果的打分排序或者修改。从单一领域或任务，转变为不同话题领域，如金融、医疗、科技、文学创作等。

数据堂拥有一支经验丰富的大模型数据标注团队，已经过多个项目的实战。本科及以上学历占比达95%，覆盖医疗、IT、金融、教育、设计美学等专业领域的过往从业人员，保障数据集的更高质量要求。

03价值观变化

负责任的大模型

价值对齐是AI安全的一个核心议题。需要确保大模型的能力和行为跟人类的价值、真实意图和伦理原则相一致，确保人类与人工智能协作过程中的安全与信任。不能输出带有歧视性的、有毒有害的、恶意引导性的内容。

数据堂的专业人员可以编写各种对抗攻击，如试探性的或者危险性的问题，以发现潜在问题并予以解决。通过红队测试，帮助客户发现其模型在不准确信息（幻觉）、有害内容、虚假信息、歧视、语言偏见等方面的问题。

04标注工具变化

更适配大模型数据处理需求

数据堂作为全球知名的AI训练数据服务企业，为了更好的推动大模型领域发展，帮助客户快速解决训练数据需求，结合多个大模型数据处理案例，开发了更适配于大模型数据的标注工具。

针对现有大语言模型的数据标注，主要分为两种类型。一种是对已有的问答数据进行评分评估，例如，客户给定了一个问题以及多个答案，也可以是一个问题，通过外部模型生成答案，然后对答案进行打分、排序、评估敏感信息等。

问答质量评估模板操作界面

另一种则是根据提示，自行编写多轮问答数据，适用于监督微调SFT，例如，客户只给定了一个指令，需要团队根据指令去编写问题与答案。

多轮问答模板操作界面

数据堂LLM文本模型标注平台针对答案、整体布局、API接口以及评分规则等多个部分进行自有配置，帮助标注人员匹配更适合自己的高效工作版式。

结语

The End

在大模型数据服务方面，数据堂拥有丰富的项目经验，可以提供高效率、高准确率的数据交付。我们始终采取高标准、完善的数据安全合规管理方案，全力保障客户权益。从而让客户放心无忧的使用我们的服务。

被大模型刷屏的2023年，数据标注发生了哪些变化？

崩盘!快船惨败2-3独行侠哈登12中2乔治13中4东契奇35+10

后续！周鸿祎和二手车商聊天内容曝光，火药味十足，周鸿祎很硬气

美众议院通过法案打击大学校园的反犹太主义行为

说好得的三次3800，结果做了一次不退钱想开溜，小伙不愿意了

碾压局！绿军4-1淘汰热火晋级布朗25+6怀特25分

990万拍下周鸿祎迈巴赫当事人：已完成支付

恨官、仇富、仇体制，背后真实目的是放大社会矛盾，制造社会分裂

五一假期首日，多地领导以“四不两直”方式检查城市安全

福建舰冒烟明显，看来是烧油的和核动力无关

大妈在火车上跳舞直播旁边有男子拿手机拍摄

87岁王德民被称"最帅院士"爆红网络高考曾接近满分

山西恒山景区落石砸伤游客，景区称落石已清理，正有序组织游客下山

万亿城市常住人口变局：去年六城增加逾十万，合肥增量第一

特斯拉据悉退出下一代“一体化压铸”制造工艺

广东两“70后”省委常委，进京履新

博主苏州旅游遇“辣条刺客”85元一斤？官方通报

5月2日下午上海南京路步行街依然人山人海

90后烧饼哥回应“投入3800元赚百万”争议：质疑合理，但我也有很多煎熬时刻

这是今天的灵隐景区早上五点半就排长队根本挤不进去

外籍女子双脚踩地铁椅子上打电话，旁边乘客站着也不坐

被大模型刷屏的2023年，数据标注发生了哪些变化？

崩盘!快船惨败2-3独行侠 哈登12中2乔治13中4东契奇35+10

后续！周鸿祎和二手车商聊天内容曝光，火药味十足，周鸿祎很硬气

美众议院通过法案 打击大学校园的反犹太主义行为

说好得的三次3800，结果做了一次不退钱想开溜，小伙不愿意了

碾压局！绿军4-1淘汰热火晋级 布朗25+6怀特25分

990万拍下周鸿祎迈巴赫当事人：已完成支付

恨官、仇富、仇体制，背后真实目的是放大社会矛盾，制造社会分裂

五一假期首日，多地领导以“四不两直”方式检查城市安全

福建舰冒烟明显，看来是烧油的和核动力无关

大妈在火车上跳舞直播 旁边有男子拿手机拍摄

87岁王德民被称"最帅院士"爆红网络 高考曾接近满分

山西恒山景区落石砸伤游客，景区称落石已清理，正有序组织游客下山

万亿城市常住人口变局：去年六城增加逾十万，合肥增量第一

特斯拉据悉退出下一代“一体化压铸”制造工艺

广东两“70后”省委常委，进京履新

博主苏州旅游遇“辣条刺客”85元一斤？官方通报

5月2日下午上海南京路步行街 依然人山人海

90后烧饼哥回应“投入3800元赚百万”争议：质疑合理，但我也有很多煎熬时刻

这是今天的灵隐景区 早上五点半就排长队根本挤不进去

外籍女子双脚踩地铁椅子上打电话，旁边乘客站着也不坐

崩盘!快船惨败2-3独行侠哈登12中2乔治13中4东契奇35+10

美众议院通过法案打击大学校园的反犹太主义行为

碾压局！绿军4-1淘汰热火晋级布朗25+6怀特25分

大妈在火车上跳舞直播旁边有男子拿手机拍摄

87岁王德民被称"最帅院士"爆红网络高考曾接近满分

5月2日下午上海南京路步行街依然人山人海

这是今天的灵隐景区早上五点半就排长队根本挤不进去