疫情当前,这个春节想必大家都只能在家中度过,电视剧估计也没少追。不知大家有没有发现,一些视频网站的进度条上,竟然还标注着情节的提示,可以帮助我们迅速地找到想看的明星,甚至是场景。这到底是怎么做到的呢?带着问题,我上网找了找资料,发现这确实是个有趣的问题,所以今天就给大家分享一下。
故事的主角是以下这位毕业于北京航空航天大学,计算机视觉专业的高材生,他叫吉恒杉。
毕业后,他在一家互联网公司做程序员,之后加入了阿里巴巴技术团队,成为优酷的一名人工智能数据标注师。什么是人工智能数据标注师?简单来说,就是训练计算机实现搜索和智能编辑一些网剧的场景。
而男女主角的“吻戏”传递出的美好和幸福,一般是剧情发展的高潮,因此成为剧集中最常见的标签。吉恒杉自然也是“吻戏鉴定师”的一员。
“吻戏鉴定师”是个技术活,需要根据机器的反应进行繁琐的后期调试。再者,电视剧里的“接吻”姿态千差万别,有的深情对视,有的若即若离。有时,吉恒杉的团队不得不打印出各种角度的接吻画面贴在墙上,一群人激烈讨论到底怎么才算“接吻”。
别以为每天上班看剧很轻松,要想实现智能搜索,就得从茫茫海洋中挑出螃蟹和海龟。像吉恒杉遮掩的数据标注员被称作“人工智能背后的人工”。因为只有数据是没用的,对于深度学习来讲,数据只有加上标签才有意义,才能用于机器的学习和进化。从数据的收集、清洗、标注到校验,每个步骤都离不开人工。
吉恒杉就是从这庞大的图片库和视频中,截出数千幅图片,从中标注出“接吻”的画面。这个过程叫做“数据标注”。 通常数据标注得越准确、数量越多,模型的效果就越好。自然,机器识别的效果就会更好。
这一天要标注上千张图片的工作量,想想都崩溃,盯着电脑屏幕看一天也是一件不容易的事情。吉恒杉和同事们只能在下班后去健身房,或者去公司的“太空舱”按摩,享受片刻的闲暇。
想要成为数据标注员也有一定的门槛。除了一般较为简单、可以通过培训掌握的标注,还有一些需要专业背景的标注,比如在医疗数据标注中,标注员需要做医疗图像的分割,把肿瘤区域标出来,类似工作就需要看得懂片子的医生完成。再比如地方方言或外国文字,需要的也是掌握那门语言的标注员。
不过,在社会对人工智能技术需求愈加旺盛的背景下,未来的“吻戏鉴定师”也许会更加常见。因为在算法快速发展、平台功能优化的背景下,挖掘用户兴趣,对网络内容进行视觉识别,帮助用户找到自己感兴趣的资源,已成为网络环境中普遍存在的服务方式之一。这类视觉识别技术可帮助提升内容分发精准性,以及识别虚假新闻、过滤暴力内容等,具有广泛的应用场景。
潮流追赶着技术的更新迭代,新多新兴职业随之诞生。时代在发展,人也要不断学习,优胜劣汰依旧是社会的永恒定律。
在家这些日子,除了追剧,其实还有很多事情可以做,你今天进步了吗?
处于职场迷茫期?
想通过副业赚钱?
想了解新职业发展动态?
关注我,定期分享