2022年7月1日,美图影像研究院(MT Lab)联合北京航天航空大学、中国人民大学在ACM国际多媒体会议(ACM International Conference on Multimedia, ACM MM)上主办的第四届Person in Context(PIC)竞赛圆满收官。
此次PIC竞赛因其前沿性和实用性吸引了来自清华大学、北京大学、上海交通大学、香港大学、中国科学技术大学等知名高校,以及腾讯、京东、小米、bilibili等知名企业共58支队伍报名参赛,参赛人数再创新高。
竞赛共分设三个赛道,涵盖视频内容时序定位、视频描述生成,视频内容时空定位等跨模态任务。其中“美妆视频时域定位”和“美妆视频密集描述生成”双赛道冠军是来自南方科技大学、香港大学和腾讯ARC Lab的校企联合队伍,“视频中的人物时空定位”赛道冠军来自中山大学的团队。
其中,由南方科技大学、香港大学和腾讯ARC Lab组成的团队为“美妆视频时域定位”赛道和“美妆视频密集描述生成”赛道提出了一种统一的解决框架,同时斩获了两个赛道的冠军。该团队认为视频时域定位任务和视频密集描述生成任务本质上都是在挖掘视频中事件和文本句子之间的对齐关系,但是两个任务有不同的侧重点和优势。具体来说,时域定位任务能够提升模型对于视频内容的时序敏感性,而描述生成任务能够聚焦到视频中更多的语义信息。使用一个统一的框架同时训练两个任务,能够结合两个任务的优势,学习到既有时序敏感性,又有语义丰富度的视频事件级别的特征。
来自中山大学的团队为“视频中的人物时空定位”赛道提出了简单有效的STVGFormer,通过静态和动态分支结合对时空视觉语言依赖关系进行建模。静态分支在单帧图像中进行跨模态理解,根据表观等视觉线索对目标物体进行空间定位;而动态分支在多帧图像上进行跨模态理解,根据动态视觉信息(如运动)预测目标行为的开始和结束时间。通过进一步设计了一种新的静态-动态交互块,使静态和动态分支实现信息互补,进一步提升了效果。
本届PIC竞赛依托于ACM MM举办,这是计算机图形学与多媒体领域的国际顶级会议,也是中国计算机学会(CCF)推荐的A类会议之一,由全球最大、影响力最广的计算机领域专业性学术组织ACM (国际计算机协会,Association for Computing Machinery ) 发起,其所评选的图灵奖(A.M. Turing Award)是计算机领域的国际最高奖项。
ACM MM自举办以来,致力于为全世界多媒体研究领域的优秀学者提供相互交流的平台,吸引了包括卡内基梅隆大学、哥伦比亚大学、MIT Media Lab、谷歌、微软、IBM等在内的学术界与科技行业顶尖企业参与,共享最新研究成果并探讨前沿发展趋势,被誉为多媒体技术领域“奥运级别”的顶级盛会。
此次美图公司携手ACM MM举办PIC竞赛,关注以人为中心的视频内容理解,三个赛道的数据与赛题均贴近真实场景,聚焦于业务场景所面临的问题与挑战,其中两个赛道以备受关注的“美妆”场景为主题。
近年来,随着颜值经济崛起, 用户对美有了更高层次的追求,变美行业获得快速增长。作为一家以“美”为核心的科技公司,美图公司凭借深厚的技术积累,不断赋能变美赛道,致力于为用户提供更优质的变美体验。与此同时,实现学术研究成果与行业应用的结合是美图公司举办比赛的初心,也希望能够为来自中外高校与科技企业的杰出人才提供一个交流与竞技的平台,共同探索以AI为核心的前沿科学技术。
作为ACM MM 2022竞赛的主办方,美图公司始终坚持围绕影像科技驱动创新,持续加码研发投入,根据美图公司2021年财报显示,整体研发投入达人民币5.455亿元,同比2020年增长35%。秉持“科技让美更简单”的使命,美图公司于2010年成立了核心研发部门——美图影像研究院(MT Lab),致力于计算机视觉、深度学习、计算机图形学等人工智能(AI)相关领域的研发,对美图秀秀、美颜相机等美图旗下全系产品提供技术支持,同时面向影像行业内多个垂直赛道提供针对性SaaS业务,通过前沿技术推动美图的产品发展,在人脸技术、人体技术、图像识别、图像处理、图像生成、AR等等多个方向处于世界领先水平,被称为“美图技术中枢”。
凭借美图影像研究院(MT Lab)领先的影像技术,美图公司在精准把握用户需求的基础上,持续加快产品升级步伐,在影像产品功能创新迭代、影像产品个性化服务、SaaS业务等方面构建独特优势,能够满足不同用户群体的使用需求。
未来,美图公司仍将深耕变美赛道,致力于创新技术的研发与突破,积极联合学术、产业等多方优势,在人才培养、学术研究、技术研发等方面做出有益探索,助力科技成果加速转化,在引领影像行业不断创新发展的同时,让更多用户享受到“科技让美更简单”的乐趣,也将持续提升对美丽产业的赋能。