Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

爱奇艺“多模态人物识别竞赛”收官,多模态视频人物识别精准度提升至91.14%

此次拔得头筹的北京邮电大学自动化学院团队,在爱奇艺公布的4个模态特征的基础上,重新训练了对齐的人脸识别模型,利用数据增强和这5种模态信息训练完成多模态分类模型,在数据集难度提升的情况下,将多模态视频人物识别精准度由去年的88.65%提升到了91.14%,提升幅度达2.5pp,成为多模态视频人物识别竞赛中的全球最佳算法。

经过3个月的角逐,爱奇艺联合全球多媒体领域顶尖会议ACM International Conference on Multimedia(以下简称ACM MM)共同举办的多模态人物识别竞赛于近日正式落下帷幕。本次大赛,吸引了包括卡内基梅隆大学、伦敦大学学院、埃克塞特大学、清华大学、北京大学等国内外顶尖高校,以及百度、中兴、京东、美图、英伟达等知名企业在内的共255支团队同场竞技。其中,来自于北京邮电大学自动化学院、北京邮电大学网研院网络智能中心以及南京大学计算机科学与技术系的团队分别获得前三名。 获得第一名的北京邮电大学自动化学院团队将多模态视频人物识别精准度提升到了91.14%,爱奇艺携手顶尖参赛团队在多模态人物识别领域再次取得突破。此次竞赛的颁奖仪式将在10月21日至25日在法国尼斯举办的第27届ACM MM 大会上进行。

目前,全世界众多科技公司以及学术机构发布视频数据集,侧重解决视频识别各种难题。其中,牛津大学发布过VoxCeleb2数据集,其中包含6千多人,15万视频,侧重于解决说话人识别的问题;为了更好地检索识别对视频中的说话的人物,其中,牛津大学发布过VoxCeleb2数据集,其中包含6千多人,15万视频,侧重于解决说话人识别的问题;香港中文大学和商汤科技合作发布的包括1218人,12.7万视频CSM数据集,为了更好地检索识别视频中的说话的人物。以色列特拉维夫大学的Youtube Faces DB,拥有3425个视频片段与1595个人物,用以解决非约束环境下的人脸识别问题。

此次,爱奇艺发起的多模态人物识别挑战赛中,对参赛者公布了通过严格人工标注、更具有挑战性的多模态人物数据集(iQIYI-VID-2019),包含10000名明星人物、200小时、20万条影视剧与短视频数据集,更接近实际应用场景,其中包括脸部,头部,身体及声纹4个模态的特征,为学术界及工业界利用多模态特征去更全面解决场景复杂、人体动作多变、化妆等人物识别难题提供了便利条件。参赛团队无需使用自己的计算资源去提取特征,这样大大降低该竞赛对硬件资源的门槛,吸引了更多全球顶尖优秀的学术机构团队参与,加快提升人物识别技术不断向前演进。此次拔得头筹的北京邮电大学自动化学院团队,在爱奇艺公布的4个模态特征的基础上,重新训练了对齐的人脸识别模型,利用数据增强和这5种模态信息训练完成多模态分类模型,在数据集难度提升的情况下,将多模态视频人物识别精准度由去年的88.65%提升到了91.14%,提升幅度达2.5pp,成为多模态视频人物识别竞赛中的全球最佳算法。

多模态人物识别技术精准度进一步提升意味着,爱奇艺可以通过对复杂场景下精准识别为用户带来更优的视频消费体验,进一步提升娱乐系统的效率,例如,通过识别短视频、UGC内容中模糊、侧面、距离远等复杂场景中的人物,更好地为用户精准推荐内容,加强爱奇艺个性化内容分发能力;在AI雷达中,通过对视频人物的精准识别,通过只看TA的功能让用户享受到更为个性化的互动体验;可以使HomeAI智能语音交互平台提升用户的交互体验;以及让AIWorks视频智能创作对长视频进行更精准的拆条,以及进一步提升爱奇艺爱创媒资系统制作爆款剧的效率等。

爱奇艺首席技术官兼基础架构和智能内容分发事业群总裁刘文峰表示,多模态人物识别竞赛不断取得突破,除了对爱奇艺娱乐生态产生重要价值之外,对人物识别技术的研发,技术成果转化效率,相关人才培养都会产生深远的影响。未来,爱奇艺将不断与国内外学术机构、行业领先者合作,不断提升前沿技术的探索与实践。

爱奇艺技术产品团队
爱奇艺技术产品团队

爱奇艺做一家以科技创新为驱动的伟大娱乐公司,用大数据指导内容的制作、生产、运营、消费。并通过强大的云计算能力、带宽储备以及全球性的视频分发网络,为用户提供更好的视频服务。

产业多模态人物识别说话人识别
相关数据
商汤科技机构

作为人工智能软件公司,商汤科技以“坚持原创,让AI引领人类进步”为使命,“以人工智能实现物理世界和数字世界的连接,促进社会生产力可持续发展,并为人们带来更好的虚实结合生活体验”为愿景,旨在持续引领人工智能前沿研究,持续打造更具拓展性更普惠的人工智能软件平台,推动经济、社会和人类的发展,并持续吸引及培养顶尖人才,共同塑造未来。

http://www.sensetime.com
人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

说话人识别技术

说话人识别作为模式识别的一类,主要任务是通过待测试语音来判断对应的说话人身份。 从识别对象进行划分可以主要分为两个部分:说话人确认(speaker verification)和说话人辨认(speaker identification)。如果待测说话人的范围已知,需要通过语音段对待测说话人的身份进行判断,是否是属于某个说话人,则为说话人确认。说话人确认问题可以归结为是一种1:1的身份判别问题。若说话人的身份范围未知,需要从一定的范围内来对语音段对应的说话人身份进行辨别,这属于说话人辨认问题。说话人辨认问题可以归结为是1:N的问题。 从识别语音段的文本,可以讲说话人识别问题分为文本相关问题和文本无关问题。对于文本相关问题,待测试语音段的内容需要和系统中预先登记的内容相同。对于文本无关问题,待测试语音段的内容可以与系统中预先登记的内容不同,待测试说话人可以只说几个字来进行身份认证。

爱奇艺机构

2010年4月22日正式上线,推崇品质、青春、时尚的品牌内涵如今已深入人心,网罗了全球广大的年轻用户群体,积极推动产品、技术、内容、营销等全方位创新。企业愿景是做一家以科技创新为驱动的伟大娱乐公司。于2018年3月29日在纳斯达克上市。

http://iQIYI.COM
百度智能云机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://www.baidu.com
京东机构

京东(股票代码:JD),中国自营式电商企业,创始人刘强东担任京东集团董事局主席兼首席执行官。旗下设有京东零售、京东物流、京东科技子集团、印尼&泰国海外合资跨境电商等核心业务。2013年正式获得虚拟运营商牌照。2014年5月在美国纳斯达克证券交易所正式挂牌上市。 2016年6月与沃尔玛达成深度战略合作。

https://www.jd.com
相关技术
推荐文章
暂无评论
暂无评论~