提起互联网行业工作,一般人能直接想到的就是码农、程序员和高薪。实际上,互联网行业还有一个更大的工种、藏在暗处的工作——不被大厂公关宣传提起也不被大众关注的工作——审核、数据标注。
当然,审核、数据标注这些业务一般都是大厂公司外包给第三方公司——业务没有技术含量,也不直接产生收益,还是劳动密集型业务,不值得大厂自己耗费精力去管理经营。各大厂基本只把技术、算法、数据分析……等重点岗位拿在手里。
像字节、抖音、百度、美团等在武汉、石家庄、西安等二线城市都有外包出去的审核业务、数据标注业务。
互联网平台,每一秒都有大量内容产出,等着审核完毕再推荐给用户,基本都采取AI模型机器审核+人工审核结合模型,既不是全部人工审核,也不是完全交给AI模型机器审核。
审核逻辑一般是,机器判断这个内容没有问题,就不必人工审;机器无法判断或怀疑内容有问题,再交给人工审核。
而机器模型如何判断内容质量有没有问题,又涉及到另外一个基础工作:数据标注——给各类数据打标签,训练AI模型。
没日没夜倒班,到手4000
审核工作根据审核对象可以细分成用户审核、投诉审核、视频审核、图文审核、商品审核、广告审核、评论审核、高展审核(审核平台高展示高数据的内容)、直播审核、社区审核等等。
在互联网的世界,每一秒钟都有无数内容产出,每一秒都有无数内容等着审核。人工审核岗位跟工厂流水线一样,通常实行倒班制,全年365天*24小时都有人在岗,上班时间一般三班倒,或多或少都有通宵班,比如,可能早班9:30-21:30,中班12:00-0:00,晚班21:30-9:30(通宵班业内俗称大夜班)。也有的公司相对温柔一点,一个班次9小时或者8小时轮班,通宵时间是23:00-8:00或者00:00-8:00,也有公司根据业务量设置成N班倒,根据一天的阶段送审量变化情况,调节每一个小时的在岗审核人力,将人力安排最大效率化。
曾有媒体称,审核这种工作类型类似于工厂流水线,源源不断产出的内容就像24小时不间断轰鸣的机器。审核这个工作线,没有办法停下来,停下来意味着“重大事故”,比如外包公司断电断网,导致审核中断,面临的就是潮水一样的内容积压。因此,许多审核员的生活中不存在“周末”,可能周三周四休息,周日周六上班,也不存在春节、国庆等假期,节假日也需要按照排班表工作。
审核工作作为新的工厂流水线,工作地点不是工厂,而是在各个城市名头鲜亮的“科技产业园”或者“商务写字楼”里,比如,武汉光谷世贸中心。武汉因为高校多,应届毕业大学生多,是很多大厂的外包公司驻扎地。
检索武汉的招聘,大部分审核员都要求大专及以上学历,薪资范畴在4k-6k,同时会注明是否倒班和调休。但大部分审核员都表示,倒班是必须的,但实际工资只有4000多,只有疯狂加班卷工作量才有高工资,也有个别二线城市的审核员表示自己到手工资就3000多,跟保安差不多,还要上通宵。
“三班倒,上通宵,真的受不了,”某已经离职的前审核员如是说,“就是血汗工厂,很多人干不到半年。同事之间也很少交流,就是不停干活。流动性非常大,能坚持干的人,真的不是一般人。”在排班制度下,可能今天早班明天晚班,有时又连续通宵班,审核员生物钟混乱,对很多审核员来说,休息的日子也没有实现“休息”,大家一般都用来补觉,没有精力出去玩出去放松。
审核员离职率高,要保持业务开展,很多大型外包公司基本每月每周每天都在招聘审核员。招聘一般都会靠“五险一金”“双休”“文职”“坐班”等优点来宣传审核这个岗位。“现在这个形势,审核也比较容易找到本科生,有工作总比没有好。”
有的公司招聘审核员会明确要求不超过32岁、甚至不能超过28岁,有审核员自嘲,只招年轻人,主要是每个月都有夜班,怕你年纪大了,熬夜猝死在电脑前面。
不要干审核,没前途
不同审核业务工作量要求不一,但普遍审核量大,低的业务线可能一天要求审核500条,高的业务线可能要求一天审核2000条。所有外包公司都对审核员有绩效考核要求,要组内比较,谁工作量垫底,谁质检正确率垫底,如果连续两个月或三个月绩效垫底,就会淘汰,无经济补偿。另一方面,审核的结果可能不会让“被审核”的用户满意,用户会认为审核员“乱审”“瞎审”“随心所欲”进行投诉,而投诉可能会影响审核员绩效。
在网上搜“某互联网公司名字+审核”都能找到“避雷帖”“劝退帖”“吐槽帖”,劝人不要来这家公司当外包审核。
“真心劝你不要干审核”,来自武汉的某大厂千外包审核小B表示,“干什么不好啊干审核。”据小A描述,他的工作是视频审核,审核就是不停看视频,看视频,看到眼瞎,看到麻木,看到下班后一点也不想点开任何视频APP。
审核视频看视频都是看视频抽帧,用4x、8x速度看,没有人能“慢慢看视频”。根本慢不下来,也不能慢下来。慢了,人效不过关,绩效低,到手工资就低。同时业务方又要求准确率,审核后台会展示这个视频的多张抽帧截图,方便审核员判断这个视频内容质量,但是你怎么能确定,机器没有抽到的这一帧,里面没有问题呢?但只要你审核通过的内容,出了问题,锅就是你的了。
“卷”,是另外一个审核员小B对审核工作的看法。比如,某个审核业务线原本每天要求审核800条/人,结果有人为了绩效,卷到2000条/天,“卷王”自己工资高了,但所有人全部被迫卷起来了,结果所有人都做到900-1000条/天。上面业务主管一看,原来每人1000条/天也能做,人效要求就直接改成1000条/天,就这么“降本增效”了。
学不到东西,是审核员对审核工作最普遍的看法。每个人审核员基本只了解自己接触业务的审核规则,比如图片有无违规、有无违禁内容,或者机器打的标签对不对、应该打什么标签。但至于更多更上层的逻辑、算法、流程,比如,机器怎么判断的某条内容的标签、自己打好标签的内容怎么推给用户的、具体的审核流程、推荐策略,一线审核员完全不了解不清楚,也无法通过本职工作学习。
互联网行业的世界,就像是郝景芳笔下的折叠世界,界限分明,底层业务永远就是底层业务。
在社交平台上,也能看到很多审核工作从业者劝大家不要做审核。这个工作,不需要你思考太多,不需要你深入学习,就是按照工作审核标准、工作要求,不停审核,不停审核,每个审核员就只是内容生产-审核-推荐流程上一个不起眼的螺丝钉,毫无成长性,可替代性极大。
训练AI,让AI淘汰我自己淘汰人工
不少人都会质疑,为什么在技术如此发达的今天,还需要如此大量的人工审核。答案也很简单,因为机器判断不了,而要提高机器判断能力就需要优化机器模型,这个工作又需要大量的人工来标注数据。
基本每个使用数据大模型的公司都有会个工作业务是“数据标注”,即标注数据,训练AI模型机器,帮助AI模型学习,提高AI模型的准确率和效率。数据标注员需要标注什么项目,每个项目标注多少量,由负责该AI模型的算法和产品决定。
“数据标注跟审核其实差不多,就是按照规则要求选出想要的内容,”来自某大厂外包的数据标注员小C表示,“类型非常多,视频,图片,文本,用户行为,都可以是标注数据。”比如,品类、时效、三俗程度,都可以由人工去标记大量数据,然后去AI模型根据这些数据去不断调整自己的判断:识别文本,识别图片,识别视频,识别情绪,识别物体、识别动作……
标注数据比审核工作好的一点是,不用三班倒,标注数据的工作对时间的要求没有审核强。但数据标注员也普遍都认为自己跟审核员一样,只是工具,是机器。一方面需要记很多规则,不同的项目需要标注不同的东西,另一方面是需要一直盯着屏幕,伤眼睛,不停重复操作,一天1000个工作量起步。比如文本标注,可能一毛钱一条几分钱一条。
比如辅助驾驶AI大模型业务,需要人工给大量实况交通内容数据标注,大部分时候给要求找到的东西“拉框”,比如交通警示柱、车、水马。标注员的工作,就是从早到晚坐在电脑前拉框,面对画不完的车、画不完的交通警示、画不完的水马……一般会按拉框个数和准确性计算工作量。比如一个月拉3万个框,可能能有3000多元4000元。
比如标注视频类的三俗模型,需要按照规则去标记,到底什么算三俗。需要标注员判断一个美女类视频是否三俗擦边,具体是什么问题,是衣着暴露吗?漏腰还是漏大腿了?还是女生表情偏迷惑人,还是动作具有诱导性?……通过大量的数据标注,告诉AI模型,到底什么是三俗,俗到什么程度需要审核下线,什么程度可以推送给部分特定人群但不能被大量曝光。
有的数据标注员表示,这个工作非常枯燥,实际就是给AI机器模型喂食物,告诉它这是车,这也是车,这个东西长得模糊但它也是车……而当AI机器模型成熟了,准确率高到一定程度,就可以替代人工了——我的工作,是为了淘汰自己,淘汰人工。
整体来看,审核和数据标注,基本是互联网行业最底层的工作,表现为时薪低、强度大、没有话语权。要审核什么,要标注什么,都是大厂业务方决定的。前些年就掀起过讨论,互联网行业已经变成劳动密集型产业了吗?实际上,在每一个大厂业绩的背后,都有成百上千的审核员、标注员自认为“在当廉价牛马”。
从全球来看,依然如此。据不完全统计,各大科技公司的内容审核员工都来自第三世界国家或是不发达地区。其中,在菲律宾的外包内容审查员人数超过了10万人。YouTube、Google和Facebook等科技巨头也是双重审核制度,一是通过人工智能和算法进行首层审核,接着是通过建立在东南亚的外包公司来进行人工过滤。作为一项庞大的劳动密集型产业,他们的工作直面互联网的黑暗角落:过滤暴力、色情、恐怖内容。