作者 | 樊雅婷邮箱 | fanyating@pingwest.com
早上九点,,小林戴上耳机,,翻开标注平台,,耳朵里传来一段带四川口音的通俗话。。。。。。
她要先逐字把这段语音转写出来,,再标出发音误差、语调异常和方言特征词,,最后判断 AI 的识别效果那里对了、那里跑偏。。。。。。听起来像在听播客,,旁人或许以为她在摸鱼,,可这就是她的事情。。。。。。
她的官方 title 叫"数据标注员",,但她更愿意说自己是"AI 训练师"——这样听起来酷一点。。。。。。事实在大大都人的认知里,,这份事情就是 AI 时代的流水线:面临电脑,,机械所在鼠标,,日复一日地画框、打标签,,手艺含量不高,,是典范的"人肉电池"。。。。。。
可一旦有人追问"详细做什么",,小林通常;;崮涣矫,,然后答:"就……教 AI 听人话。。。。。。"再多的,,她也说不上来了。。。。。。
也许下面这份从业者简历里的事情形貌,,大致能说明他们天天在做的事。。。。。。
关于越来越多想进入AI行业的年轻人,,数据标准正在成为他们会思量的入门事情,,这个工种因何而生,,整个行业是什么面目,,从业者又将走向何方——我们抓取了 Boss 直聘上"数据标注"要害词下、base 在北京的 302 个岗位,,逐一拆解其中 151 份完整 JD。。。。。。
统一份标注事情,,月薪能差出三十倍
ChatGPT 会写诗,,靠的是标注员逐条评价"这句好、那句差";;;自动驾驶能在路口认出红绿灯,,是由于有人对着数万张街景图、一个像素一个像素地描出界线。。。。。。你对 agent 说一句"播放周杰伦的歌",,它一秒就听懂并执行,,这背后是成千上万条带口音、带情形噪声、带吞音连读的语音指令被人工标好了。。。。。。
现在为了更自然的交互,,语音标注的重漂后还在指数级上升——不再只是把声音转成文字,,而是要标出情绪、意图、语用场景,,连方言里那点玄妙差别都要标,,模子才华真正学会"听人话"。。。。。。
每一处智能闪光,,都有一双人类的手在托底。。。。。。这双手的主人靠它挣几多、醒目多久,,是另一回事。。。。。。先看收入。。。。。。
151 份完整 JD 里,,北京数据标注岗位月薪中位数 10500 元,,最低 2K,,最高 65K——首尾相差三十多倍。。。。。。
低薪这头多是实习、兼职和众包。。。。。。日薪岗有 84 个,,中位 185 元/天,,招聘帖上写着"数据标注,,双休,,小白可做",,学历履历全不限,,月薪 4-5K。。。。。。光谱另一端,,百度给自动驾驶数据标注算法实习生开出 500-600 元/天,,要求硕士;;;阿里巴巴的 AI 训练师岗 20-35K、16 薪,,同样卡硕士。。。。。。
同为标注,,身价差出十倍。。。。。。差别来自事情内容早已分化:低薪端是执行,,按要求标、按 SOP 做;;;高薪端是界说,,定标注规则、管质量标准、买通算法和数据的闭环。。。。。。前者可替换,,后者难复制。。。。。。
一个在标注行业干了六年的老兵说得直白:2016 年,,标注员是手艺人,,熟手吃香;;;现在,,标注员是流水线工人,,谁都醒目,,你就是个账号。。。。。。
从"画框"到替 AI 拿主意
151 份 JD 能分出四种主要模态。。。。。。
文本标注占 16%,,做语料洗濯、对话质量评估、多语言翻译校对。。。。。。
大模子时代这类需求暴增——腾讯在招"大模子数据标注-代码偏向",,应聘者得看懂代码,,判断 AI 写的程序那里好、那里有 bug,,再用人的判断去纠正它。。。。。。
图像和视频标注占 17%,,包括框选、描点、支解、要害点标注,,自动驾驶是大户。。。。。。
某大型车企的"智驾数据标注算法工程师"岗,,要求处理 4D 点云和 LiDAR 数据,,输出时序一致的 BBox 真值,,月薪 40-70K、15 薪。。。。。。这早不是"画框",,而是要懂传感器原理和三维空间关系。。。。。。
语音和音频标注在招聘平台占比最低,,只有 1%,,要求却一点不低。。。。。。
今年 6 月初,,马斯克的 xAI 面向全球招中文 AI 导师,,训练 Grok 的中文语音能力,,要求母语级中文、熟悉方言和地区口音差别,,能做语音转写、发音纠错和音频标注,,美国境内时薪 35-45 美元。。。。。。统一时期,,京东科技在招法语、德语、荷兰语标注,,专八是门槛,,要能识别发音过失和语调误差——标准堪比语言学研究。。。。。。
多模态和综合标注占比最大,,达 36%,,一个岗位同时涉及图文音视频,,常见于大模子数据团队。。。。。。简单手艺的可替换性越来越高,,万能选手更吃香。。。。。。
把这 151 份 JD 按营业领域看,,漫衍高度集中:
大模子/AIGC 语料直接占 28%,,自动驾驶和医疗影像各占 7%。。。。。。近三成岗位在给大模子"喂饭"。。。。。。军备竞赛进入白热化,,GPU 数目不再是唯一筹码,,谁的数据更贴近真实人类,,谁就多一分胜算。。。。。。
门槛也随着被改写。。。。。。近九成岗位要求本科或大专,,外貌仍是低门槛工种。。。。。。但那 13 个卡硕士的岗位,,险些全扎在大模子评测、算法配套和外洋多语言偏向——盛大网络"专家级数据标注师"日薪 400-800 元,,要硕士、可远程;;;阿里训练师 20-35K、16 薪,,非硕士不招;;;尚有金融类标注专家,,时薪 150-200 元。。。。。。
专业壁垒也在往高了筑。。。。。。医疗标注明确要临床医学、影像学配景;;;代码偏向要盘算机专业,,能写能 debug;;;影视美学标注青睐戏剧影视文学、数字媒体艺术;;;金融标注要金融经济专业;;;具身智能标注则指向机械和自动化。。。。。。离数据价值链的上游越近,,越不但靠仔细和耐心,,而是实打实的领域知识。。。。。。
统一顶帽子底下,,众包日薪 100 与专家月薪 6.5 万并存,,中心地带正被一连挤压。。。。。。
换个角度,,一个岗位能同时容下学医的、写代码的、做设计的、搞金融的,,它也正在酿成险些所有专业的出口。。。。。。
大厂定规则,,外包拆包
再看招聘池里的公司,,大厂和外包商泾渭明确。。。。。。
302 个岗位中能认出的大厂有京东、腾讯、阿里、快手、小红书、百度,,但招人最多的不是它们,,而是标注外包公司和数据服务商——海天瑞声、云测数据、倍赛科技牢牢占有岗位数前线。。。。。。
行业逻辑很清晰:大厂定标注规则和评测标准,,外包公司拆成细碎 SOP 再层层分包。。。。。。
许多标注员以为事情机械、看不到全貌,,原因就在这里——他们站在流水线最后,,手里只有一个账号和一套指令。。。。。。
但焦点模子能力,,大厂从禁止易交出去。。。。。。
腾讯亲自招代码偏向的大模子标注,,快手直接为可灵 AI 招标注项目治理,,小红书招大模子数据标注实习生。。。。。。模子越要害,,数据质量越要握在自己手里。。。。。。
数据标注的已往,,现在和未来
数据标准已经成为AI希望背后的人类底座。。。。。。而要明确它怎样生长到今天,,未来会走向何方,,照旧要看一看它一整个历史。。。。。。
2006—2014,,是前标注时代。。。。。。
那时"数据标注"还不算一个职业。。。。。。李飞飞在普林斯顿启动 ImageNet 时,,最初以 10 美元时薪雇本科生逐张标图,,可学生很快受不了这种重复劳动,,按其时效率估算,,标完整个数据集要 19 年。。。。。。转机来自 Amazon Mechanical Turk:2008 到 2010 年,,来自 167 个国家的近 5 万名众包工人,,完成了凌驾 1400 万张图片的标注。。。。。。在学术圈,,做标注被当成"搬砖",,李飞飞的基金申请甚至被 NIH 评审批为"普林斯顿做这个是一种羞辱"。。。。。。
2012 年,,AlexNet 以 15.3% 的 top-5 过失率拿下 ILSVRC 冠军,,领先第二名凌驾 10 个百分点,,Yann LeCun 厥后称之为盘算机视觉史上无可争议的转折点。。。。。。整个行业由此意识到:算法差别可以追赶,,数据差别才是壁垒。。。。。。标注这件事,,第一次有了酿成一学生意的可能。。。。。。
2014—2017,,标注工厂时代。。。。。。
第一批数据标注公司建设,,这些公司选址往往在三线都会,,理由很现实:人力自制、租金自制、有津贴。。。。。。"我们就是在吃生齿盈利,,"一位标注公司老板曾绝不避忌地说,,"开在北京一个月 4000 招不到人,,开到县城 2000 就有人抢着干。。。。。。"
大宗农村青年、小镇宝妈、残障人士经培训成了标注员,,在工业匮乏的县城,,月入 3000-5000 已是体面收入。。。。。。但他们大多不知道自己在做什么:"天天就是拉框拉框拉框,,这些框拿去干嘛,,没人告诉我们。。。。。。"
2017—2020,,分化与升级。。。。。。
一些大厂最先建起更大规模的数据标注基地,,大厂入场带来标准化和分层。。。。。。标注师群体最先分化:底层仍是基础框选,,往上是质检员,,再往上是标注规则师——要懂 AI 基来源理,,收入翻好几倍。。。。。。2020年头,,人社部正式将"人工智能训练师"纳入国家职业分类目录,,顶级训练师年薪已凌驾30万。。。。。。
2020 至今,,AI 反噬。。。。。。
GPT-3 论文(《Language Models are Few-Shot Learners》,,NeurIPS 2020)证实晰大模子的少样本学习能力,,模子不再需要海量人工标注也能完成许多使命。。。。。。同时自动标注手艺成熟、合成数据崛起,,行业自动化率从三年前的约 30% 飙到 60% 以上。。。。。。
但 RLHF 又催生出一类全新需求:给模子输出做偏好排序、评估事实准确性、纠正推理链路——这些活不再叫标注,,而叫提醒词工程师或 AI 对齐训练师,,手艺门槛完全差别。。。。。。
这种替换已经写进了招聘启事。。。。。。百度的"自动驾驶数据标注模子算法实习生",,事情内容就是开发预标注模子,,让 AI 自己标数据。。。。。。"自动标注+人工复核"成了主流事情流:AI 先粗标一版,,人认真质检、纠错、补齐界线案例。。。。。。;;≈馗葱员曜⑷纷攀当煌淌,,可"这版标得好欠好""界线案例怎么处理""这段画面美感够不敷",,这类要主观判断和领域履历的环节,,仍得人来兜底。。。。。。
2024 年的行业数据泛起出一道明确的铰剪差:80% 的投资流向自动标注公司,,古板劳动麋集型标注企业拿到的融资不到 5%;;;基础标注用工在缩短,,懂医学、执法、金融的专家级标注师却一连紧缺。。。。。。
一位 AI 公司 HR 对我们说得更直接:"AI 训练师的薪资是标注员的 3-5 倍,,但我们险些不会从标注员里招训练师,,宁愿招刚结业的盘算机系学生重新带。。。。。。"
纯执行型标注员正在退场。。。。。。留下的,,要么有某个领域里难以替换的专业判断,,要么有质量治理和项目统筹的能力。。。。。。
回到开头我们提到的小林,,她对我们体现,,现在她不但做语音转写。。。。。。天天要开团队对齐会,,争论方言口音的标注界线该划在哪儿;;;要写质检报告,,剖析语音模子在哪几个声调上最容易翻车;;;无意被拉去和算法工程师开会,,凭听感给语料提刷新意见。。。。。。
这一行变得太快了。。。。。。去年还在标文本对话,,今年改口号音语调,,明年也许要标机械人的行动数据。。。。。。这似乎在给这个事情岗位带来更多的需求,,但同时AI的自动标注也在快速抢走这些新泛起的需求。。。。。。数据标注依然会是不可或缺的AI背后的人类底座,,只不过接下来它注定把会被替换的人和不会被替换的人分到越来越远的两头。。。。。。
点个“爱心”,,再走 吧
2.来访目的,,如反映问题、咨询营业、提供事情建议、个人诉求等;;;