Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

腾讯版Sora来了!我们抢先实测:最懂镜头的AI,有《花样年华》那味了

AI好好用报道

编辑:杨文

腾讯混元生成的AI电影镜头,让我想到《天使爱美丽》、《花样年华》。

从上周六开始,AI 视频圈又炸锅了。

先是 Runway 三天上新两次,Luma 全力狙击;紧接着 Sora 意外泄露三小时,网友们疯狂整活。

国内的 AI 厂商也没闲着。

最让人惊喜的是,腾讯混元å也下场搞视频生成模型了。

图片

目前,该视频模型已经开启小范围内测。我们在第一时间拿到体验资格。

与其他视频生成模型类似,仅需输入一句提示词,腾讯混元就能生成一段 5 秒视频。

它支持中英文输入,还有 5 种画面尺寸可供选择。

先放几个视频给大家「尝尝鲜」:

繁华的巴黎,一个头戴棕色贝雷帽的男人正坐在咖啡馆里沉思。

一位年轻时髦的女人走向窗边,然后转身凝视旁边的男人,动作流畅自然。

两位小姐姐坐在街边相顾无言,镜头切换、人物神态简直和电影别无二致。

图片

接下来,我们就全方位测评一番。


-1-

画质

不得不说,混元视频模型生成的画面太有电影感了。

提示词:一个电影般的背后跟随镜头,拍摄一名女警背对着我们穿过夜晚的事故现场。

画质高清稳定,人物动作流畅。四处停放的警车,闪烁的警灯,勘查现场的警察…… 好莱坞元素拉满。

提示词:一个电影般的背后跟随镜头,拍摄消防员背对着我们穿过熊熊烈火。

生成三个镜头,每个镜头都很有故事性。

图片

图片

图片

混元很会控制景深。虚化的背景,让主体运动更加突出,火焰的光影在消防员身上舞动,形成一种强烈的视觉冲击。

再来个科幻风格的电影。

提示词:夜晚,一个机器人正行走在繁华的大街上,昏暗,近景镜头,科幻,生动,赛博朋克,高质量。

这个长得像擎天柱一样的机器人,漫步在人潮涌动的大街上,脑袋还时不时左右张望。

镜头随着机器人的移动而微微晃动,使得画面更具真实感。

提示词:一个男人坐在咖啡厅里喝咖啡,柔和,近景镜头,休闲,现代,电影风格,高质量。

视频中,男人从端起咖啡、抿了一口到缓缓放下杯子,整套动作一气呵成。

男人的眼神、表情也生成得很是逼真,手指也没出现明显的 bug。


-2-

镜头切换

混元最值得称道的,还是原生镜头切换效果。

它能够自动生成同一主体在不同视角下的镜头,并在视频中进行切换,以增强画面的叙事感。

要知道,在此之前,只有 Sora 具备这种镜头切换效果。

比如下面这个视频中,最初是个中景镜头,女人正手撑下巴思考,啪一下镜头转换成女人面部大特写,深邃眼眸、烈焰红唇,再接着,镜头又切换到城市街景。

(提示词:一个极端特写镜头,聚焦于一位时髦的美丽女性,她坐在咖啡馆里,深陷沉思,镜头切换到城市的街景,景深效果,电影般的 35 毫米胶片质感,光线非常具有电影感。)

再如,雨滴打在玻璃上缓缓滑落,下一秒镜头就转到窗外,男人撑着一把红色的伞站在大街上,整个画面很有氛围感。

(提示词:雨滴敲打着窗户,镜头切换到下雨的大街上,有个男人正撑着一把红色的伞,站在大街上 Overcast Somber Cinematic High-quality Modern Style)



-3-

运动效果

流畅的视频运动可以提供更加连贯和平滑的视觉体验,能够增强角色动作的真实感,因此,各家的视频生成模型均在画面运动上「做文章」,腾讯混元也不例外。

他们在运动一致性方面下了功夫,减少了物体变形和运动不连贯的问题。

提示词:日落时分,一只乌龟在黑色沙滩上爬行。

图片

虽然混元生成的画面运动幅度大,但海龟爬行的动作,以及沙滩场景变化自然真实,没有突兀的跳跃和不连贯。

我们又用 Sora 经典提示词试了下。

提示词:A litter of golden retriever puppies playing in the snow. Their heads pop out of the snow, covered in.


中文提示词:一窝金毛猎犬小狗在雪地里玩耍。它们的头从雪地里冒出来,浑身都是雪。

图片

两只小狗抬爪子、啃咬的动作很逼真,身上的雪花也随着打架的动作抖落。

此外,它还能生成包含多个连贯动作的视频。

提示词:男人走出卧室,关上门,看到一只可爱的毛茸茸的生物。

提示词:女人摘下墨镜,看着对面的男人笑了,光线柔和,愉快,现代,电影风格,高质量。



-4-

语义理解

混元视频生成能力对提示词撰写的精细度与准确度要求较高。用户可以进行细致的刻画,例如生成主体的细节,人物概念的组合等。

面对又长又复杂的文字描述,混元基本能 get 到信息并进行输出。

提示词:一支穿着厚重冬季装备的极地探险队,在呼啸的暴风雪中艰难前行,几乎无法透过雪花看清彼此,冰柱附着在他们的胡须和派克服上,他们的脸上显露出坚定的决心,摄像机捕捉到一个中景镜头,展示了他们周围风暴的强度,寒冷、柔和的光线增添了一种孤立和坚韧的感觉。

提示词:日出时分,色彩鲜艳的热气球飘过广阔的非洲大草原,成群的大象和瞪羚在下方的草原上移动。远处,乞力马扎罗山的影子映衬着粉红色和橙色的天空。

图片

经过多轮测评,总体来说混元视频生成模型还是有些本事傍身的,尤其是电影级画质和原生镜头切换,效果相当能打。

和其他视频生成模型一样,它也有不少小「毛病」。比如,每次生成内容具有不确定性,生成结果无法达到 100% 可控,同时输入多个实体,可能不会都生成出来,颜色和数量也未必匹配等。

不过混元大模型仍在升级和调试中,未来或许有更好的表现。

以后我们会带来更多好玩的AI应用,也欢迎大家进群交流。

文中视频链接:https://mp.weixin.qq.com/s/cwoCu1umcJrRxhGLZLHYOw

图片

产业AI测评腾讯腾讯混元大模型
相关数据
腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
视频生成技术

视频生成是指利用深度学习等技术生成视频的任务。

暂无评论
暂无评论~