数据标注师:“喂养”AI然后被AI替代?
创始人
2025-03-04 09:41:31
0

“嘀嘀嗒嗒……”在广东清远一间200平方米的办公室里,李阳(化名)将眼睛凑近屏幕,食指熟练地点击鼠标,将“电视机”“打开”“关闭”等一系列词汇,标注上“物品”“动作”属性。这样的操作,他每天要重复无数次。

在北京的一家科技公司里,江江(化名)正伏案修改大模型生成的新闻稿件,将自己过去积累的文学知识和写作经验,悉数传授给AI。

这两份工作看似不同,但都有一个共同的名字——数据标注师。数据标注师是一个在人工智能领域中至关重要的角色。他们通过对数据进行分类、注释、标记,将其转化为机器可识别信息,为AI训练提供“养料”。

DeepSeek技术突破,高质量数据需求激增,数据标注行业发展空间广阔,但像李阳这样的数据标注员,却可能被自己参与塑造的AI取代。让江江担忧的是,当把自己的知识、经验教给AI后,自己会不会失去工作?

“喂养”模型

数据标注是基础且关键一环

林宇(化名)几乎每天都在机械、重复地做着同一件事:对着人像照片,用鼠标圈画眼睛、鼻子、嘴巴、手脚……这是他与AI独特的交流方式。

AI无法天然识别人的五官和肢体,需要标注员先将这些部位圈画出来,帮它建立认知。林宇猜测,标注好后的数据,可能会用于自动化修图、人像识别等AI模型训练。

在人工智能领域流行着一句话:“有多少人工智能,就有多少人工。”说的是“喂养”一个AI模型需要成千上万甚至上亿个数据样本,这都要经过数据标注员的双手,最终流向算法研发方,服务AI产品。

在此过程中,标注员就像“数据车间”里的“数据工人”,对这些样本进行不同形式的加工,确保AI可以看懂,便于后续训练。

阅读语句、图片、视频,滑动鼠标、拉框勾选……这份工作上手容易,却也枯燥乏味。从9时到18时30分,除吃饭、上厕所,标注员一直在工位上重复鼠标操作,有时为了赶项目工期还得加班加点。

林宇记得,有一天,他标注了100多张人像图,其中不少是多人合照。晚上休息时,他闭上眼都能看到光标在人脸上闪烁,手指也不自觉跟着动。

他的工资由“几毛钱”累计。在招聘平台上,多数数据标注公司月薪在3000—5000元,兼职时薪多为20—30元。按林宇经验,如果是处理图片数据,计件算,每天完成2000个拉框标注,能赚120元;计时算,每天做够产量,工资能有100元。

虽然薪资不高,但林宇、李阳挺喜欢这份工作。

李阳干过摄影、当过销售,但都不适合他。高频率地与人接触,于他的性格而言很有挑战。“推销产品时,客户可能比我说的话都多。”当数据标注员几乎仅需面对数据,李阳数过,每天他与人面对面说话不超10句。

林宇此前在广州、深圳工作,但一直想回清远发展。在家附近就能有这样一份“坐办公室”的工作机会,这让他感到满意。更重要的是这份工作与前沿技术接轨,能与AI建立联系。

AI越来越火,李阳和林宇其实并不清楚,这些标注过的数据最终会流向何处,塑造了哪一款AI产品。但在他们的视角下,AI早已不是一个遥远的概念,而是由自己亲手参与垒起的一座“大厦”。

“高质量的标注有助于机器精准理解、快速学习和高效训练,提升模型的准确性和通用性。”华南理工大学计算机科学与工程学院副院长张通表示,在人工智能发展中,数据标注是基础且关键的一环。

随着大模型的发展,数据标注服务可应用于自动驾驶、互联网、智能安防、智慧金融、新零售、智慧家居等多种人工智能应用场景,创造了更多就业岗位。

转行机遇

产业向技术、知识密集型转变

江江成为北京某科技公司的员工时,触摸到了数据标注的另一重维度——工作内容也不那么机械单一。

作为科技公司数据部“数据专家”,江江每天要结合用户的提问,对大语言模型生成的答案文本进行修改。其中,可能涉及知识内容、逻辑、文风多方面的调整。

“这就像教一个学生写新闻稿,可能第一次教他写导语,第二次教他使用修辞手法,第三次教他正确使用标点符号……”江江比喻道。

同样被叫做“数据标注师”,标注员让AI睁眼看世界,数据专家则让AI有了“真本事”。数据专家标注后的文本喂给大模型,经长期大量学习,AI生成的新闻、文学作品将更专业。

江江所在的部门里,不少同事像她一样从传媒行业转行,还有人放弃了北京的事业编制。“数据专家”似乎成了大模型风口下可遇不可求的转行机遇。

“低门槛仅是数据标注行业初级阶段存在的现象,如今,垂直领域的大模型应用越来越多,数据标注的专业门槛也越来越高。医疗数据标注要有医学知识,多语种内容审核标注要有跨文化理解能力,法律文书标注要有条文理解能力……”在华南理工大学计算机科学与工程学院院长陈俊龙看来,这一重维度里的数据标注,其实是AI快速发展的阶段性产物。

而在“数据车间”里,“数据工人”们对于来自行业顶端的变化并非没有感受。

李阳明显感觉到,在做文字标注时,有越来越多“不那么直白”的表达,他要分析文本背后可能的情感、动机和意图,推测出可能需要AI做出的动作,再进行标注。最直观的感受是,以前只要标注“打开”“空调”这些关键字眼即可,现在同样场景下文本里却是“天气好热”“好冷”的表述。

一位数据服务行业的人士解释,这是因为AI能力越强,对数据规模、质量的要求就越高,相应地对标注员知识背景、逻辑思考能力要求也就越来越高。他记得,2016年至2018年,中专学历就能做数据标注,之后基本要大专以上学历,如今大模型的数据标注师几乎要求本科、研究生学历。

“大模型时代,数据标注产业正从劳动密集型向技术密集型和知识密集型转变。”他说。

未来,无法适应变化的标注员或将被行业淘汰。

保持学习

职业路径可向多元化拓展

2月底,华为一项自动数据标注相关技术申请专利引发关注。该技术方法能自动处理数据,减少对人工数据标注的依赖,提高标注效率和质量。

“这是一种以AI促AI发展设想的现实印证。”陈俊龙提到,当AI向实用化加速发展,标注服务也将向专业化、精细化方向发展,基础性、重复性的标注任务将被AI加速替代。

这意味着,大量底层“数据工人”亲手参与塑造的AI,将逐渐侵蚀他们自己的职业根基。

张通认为,自动化标注技术将主要替代那些重复性的标注环节,对于语义理解、价值判断这类涉及深度认知和决策的核心工作,仍然离不开人工的参与和主导。

然而,目前虽处于数字标注行业金字塔的顶端,江江也在思考。

“现在确实需要优质的人文社科人才为AI进行知识赋能,但谁也说不好这个职业的发展前景能维持几年。”在江江看来,这是一份“消耗型”工作,等到AI掌握了她所有的专业能力,能够“自己训练自己”,她也许就会失业。

张通则认为,数据标注行业的未来发展前景还是十分乐观的。

“数据标注产业目前处于飞速发展阶段,市场需求和规模不断扩大,据估计,2025年我国数据标注市场规模可超过百亿级。”他介绍,广东在清远启动了首个公共数据标注基地,吸引国内多家龙头企业入驻,产业集聚效应正逐渐形成。

对于数据标注师的职业发展,他认为,职业路径将从较为单一的执行层面,向策略规划、质量管控等多元化方向拓展。未来,优秀标注师需兼具领域知识、逻辑判断和AI工具应用能力。

在清远的一家数据标注公司里,工业风的水泥顶、清冷的白炽灯下,一个个磨砂玻璃隔开的工位上,键盘和鼠标的敲击声织成密网。李阳和他的同事继续为AI编织认知世界的经纬。

他干得很不错,被一家大厂的数据外包公司挖走,当上了小组长,工资涨了25%。

“工作总会遇到新难题,会继续保持学习,提高自身能力,和AI一起进步。”李阳说。

文/吴雅楠

(南方日报)

相关内容

热门资讯

vivo钱包遭用户投诉贷款利率... 文:WEMONEY研究室 随着移动互联网时代到来,智能手机已经成为了生活的必需品。目前,很多手机如...
iPhone 16系列手机网速... 在智能手机的世界里,网速往往是衡量一部手机性能的重要指标之一。 尤其是随着5G时代的到来,用户对于高...
原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
gta5加载慢怎么办 gta5... 许多玩家在GTA5游戏过程中都会遇到加载速度慢的问题,那么gta5加载慢怎么办?今天加游加速器就来告...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
小米怎么去除抖音水印保存?分享... 随着抖音的普及,越来越多的人喜欢在抖音上分享和观看短视频。当我们想要保存一些喜欢的视频时,往往会被视...
舒福德智能床S300 Pro面... 8月13日,以“一键入眠 世界领先”为主题的舒福德智能床新品发布会在浙江嘉兴举行。中国睡谷的首次对外...
邓宏魁、张涛、李亚栋、孙斌勇获... 出品 | 搜狐科技 作者 | 周锦童 8月16日上午10时,2024未来科学大奖新闻发布会在北京、香...
小米14T Pro海外定档9月... 【ITBEAR】9月23日消息,小米今日在X平台上宣布,旗下新款手机小米14T Pro定于9月26日...
如何规划小红书矩阵号内容并一键... 小红书矩阵号内容规划与抖音多账户同步攻略 在当前社交媒体时代,内容营销已成为品牌推广和个人IP打造的...