Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

AIGC创业生态欣欣向荣,“技术+商业”双轮驱动

01.生成式AI火遍全网

今年以来,生成式AI掀起的热潮可谓一浪高过一浪。在美国科罗拉多州博览会的艺术比赛上,一幅名为《太空歌剧院》的作品经过评委层层挑选后,最终被确定为比赛的金奖作品。然而这幅作品并非出自人类之手,而是一位游戏设计师用AI作画工具Midjourney创作的。而这也引发艺术圈极大的争论。

近日,AIGC领域知名项目Stable Diffusion背后的公司Stability AI宣布获得了来自Coatue、光速资本以及O'Shaughnessy总计1.01亿美元的种子轮投资,资金将用来面向图像、语言、音频、视频以及3D领域的AI模型开发,投后估值达到10亿美元,成为名副其实的独角兽。

而在podcast.ai推出的第一集播客节目里,已故的乔布斯竟然“死而复生”成为首位嘉宾,与美国知名播客主持人Joe Rogan进行了一场长达20分钟的对话,讨论了关于乔布斯的大学、对计算机的看法、工作状态以及信仰等等。此次podcast.ai推出的AI播客,正是生成式AI在语音领域的一次新探索。

当下,影像逐渐成为主流叙事方式。几乎同一时期,Meta和谷歌先后发布了各自的新人工智能系统,可以将用户输入的文本语言转换为视频影片。Meta发布的人工智能模型Make-A-Video,只需几个单词或几行文字,就可以将静态的文字叙述创建为具有人物风景,且色彩生动的动态视频。除了文本语言,该系统还可以用用户的图片和视频素材来创建新视频。

不难发现,从文字、语音,到静态画面、再到动态影像,AIGC完成了对全内容形态的全面渗透。Gartner相关报告中明确指出,预计到2023年,将有20%的内容被生成式AI所创建。2025年,生成性AI所创造的数据将占到所有已生产数据的10%,当下该比例不足1%。

9月,红杉美国官网发表了最新一篇题为《生成式AI:一个创造性的新世界》的文章,认为AIGC会代表新一轮Paradigm shift(范式转移)的开始。

02.技术的演进和突破

AIGC这一概念并不是第一天诞生,之所以能够在当下能够迅速走红,是时也,也是运也。AIGC背后,是以人工智能技术为核心,多项关键技术如多模态交互技术、3D数字人建模、机器翻译、语音识别、自然语言理解等能力共同整合加持而成。

梳理近几年出现的文本生成图像模型主要基于三类基础算法:VQ-GAN,VQ-VAE以及扩散模型。扩散模型由于能够生成丰富多样且质量高的图形,已经成为文本生成图像领域的核心方法。当前最知名也最受欢迎的文本生成图像模型Stable Diffusion,Disco-Diffusion,Mid-Journey,DALL-E2等等,均基于扩散模型。

DALL-E2

DALL-E2是OpenAI最新AI生成图像模型,其最大的特色是模型具有惊人的理解力和创造力,其参数大约3.5B,相对于上一代版本,DALL-E2可以生成4倍分倍率的图片,且非常贴合语义信息。作者使用了人工评测方法,让志愿者看1000张图,71.7%的人认为其更加匹配文本描述,88.8%认为画的图相对于上一代版本更加好。

Imagen

Imagen是Google提出的一个新文本生成图像模型。Imagen的图像生成流程和DALL-E2非常像,首先将文本进行编码表征,之后使用扩散模型将表征映射成为完整图像,同时会通过两个扩散模型来进一步提高分辨率。与DALL-E2不同的是,Imagen使用了T5-XXL模型直接编码文本信息,然后使用条件扩散模型,直接用文本编码生成图像。因此,在Imagen中,无需学习先验模型。

Parti

在Imagen刚出来后没多久,Google又继续提出了新的文本生成图像模型Parti,其全称为Pathways Autoregressive Text-to-Image,直观来看,就是使用了Google最新提出的Pathway语言模型。Parti最大的特色就是20B的大模型,其参数量支持模型能够进行复杂语义理解。

Disco Diffusion

开源模型Disco Diffusion是最早出圈的AI绘图工具。发布时间比DALL·E 2稍晚,同样也是CLIP+Diffusion Model的结构,生成效果让许多插画师担心起了失业。尽管很多插画师和AI工具爱好者的推荐都认可了该工具的易用性和生成效果的出众,但其生成时间略长有待优化,可以认为是大家对图片生成大模型的初体验。

Midjourney

2022年7月,Midjourney项目进入公测阶段,这是该模型的第3版,第2版发布于今年4月。Midjourney是一个独立的研究实验室,创始人是原先Leap Motion的联创David Holz,而Disco Diffusion项目的原作者Somnai也在今年5月加入了Midjourney。

Stable Diffusion

Stable Diffusion是慕尼黑大学机器视觉与学习研究小组基于CVPR 2022的论文《[2112.10752]High-Resolution Image Synthesis with Latent Diffusion Models(arxiv.org))》,与Stability AI和Runway合作开发的一款开源扩散模型。由于其交互简单,生成速度快,极大的降低了使用门槛,而且同时还保持了令人惊讶的生成效果,从而掀起了一股AI创作热潮。

扩散模型的核心思想,就是把生成的过程拆成一个个简单的小步骤,而不是像其他模型一样「一步到位」,这样拟合起来相对容易,所以做出来效果很好,同时训练起来也更加稳定。2022年,扩散模型(Diffusion Model)凭借更出色的生成结果取代了对抗生成网络(GAN),成为图像生成领域更偏爱的算法。目前看来,扩散模型由于训练过程消耗资源大(每一个小步都需要训练),同时生成的速度也慢(一步一步生成)。正因为它存在缺点,在理论上还有很多研究可以做。

同时,3D和视频生成领域的大模型也在飞速突破的过程中,未来很可能会在游戏原画、影视特效、文物修复等领域发挥作用。

在三维领域,因为表达形式的复杂性,业界围绕不同表达形式也在各个方向进行探索。2020年,谷歌研究院的Pratul Srinivasan、Benjamin Mildenhall等提出的NeRF方法引爆了整个3D重建领域。

NeRF将场景表示为空间中任何点的volume densityσ(简单理解为不透明度)和颜色值c。有了以NeRF形式存在的场景表示后,就可以对该场景进行渲染,生成新视角的模拟图片。NeRF的输入为空间点的位置和方向,通过求解穿过场景的任何光线的颜色,从而渲染合成新的图像。

NeRF的简单描述(输入是空间位置信息,输出是透明度+颜色)

随着动捕技术发展、视频内容数据的丰富,动作数据的积累也变得更加简单。大量围绕动作驱动的AI工作也陆续被大家提出。2019年以后大量的工作基于RNN网络进行动作预测(Motion Prediction)、基于RL(Reinforcement Learning,增强学习)的动作控制算法(Motion Control)和Ginosar、Alexanderson等人提出的基于语音、文本甚至音乐的多模态动作驱动的CNN模型(Cross-modal motion synthesis)。

NLP技术是实现智能化交互的AI技术核心,也是NLP领域AI公司的多年发展瓶颈。

从深度神经网络(DNN)、递归神经网络(RNN、LSTM)发展到卷积神经网络(CNN),AI技术的变革深刻影响NLP的智能化落地进程。2017年,NLP领域Transformer大模型路线由谷歌提出,以BERT和GPT-3为代表的大模型基本能够实现理解、推理以及生成高拟人化文本,NLP为智能化注入核心动力。

NLP领域的技术变迁和商业化落地进程

其中,GPT-3是最出圈的语言模型。GPT-3通过增加参数规模和训练数据集规模,依托及其强大的资金和算力支持来获得更好的性能。该模型可通过生成具有商业价值的广告等文本、分析税务来节省税金、提供个性化学习材料、创作艺术作品等行为,来创造商业价值。不过,GPT-3并非真的“全能”,其在应用中仍存在挑战与风险。另外,微软10亿资助OpenAI,商业化运作的GPT-3将会被如何使用,对使用者来说也是未知数。

GPT全称Generative Pre-Training,意为通过生成式来进行预训练。2020年5月28日,OpenAI发布新模型GPT-3。GPT-3高达1750亿的参数规模,高达45TB的训练数据集,也让GPT-3的使用场景更加通用:机器翻译、闭卷问答、情感判断、文章生成、辅助编码等。对于GPT-3生成的新闻文章,评估员甚至无法区分其与人类撰写的新闻文章。

GPT-3也并非真的“全能”,其在应用中仍存在挑战与风险。成就GPT-3的,也将会束缚GPT-3。GPT-3使用了几乎所有来自互联网的可用数据进行训练,成就了其在各种NLP任务中的惊人性能,甚至获得SOTA。但面对如此巨大的数据集,人工去除不良内容几乎不可能。准确度也不是GPT-3的强项,GPT-3的输出结果常常会违背人类认知常识和逻辑。

另外,成本结构决定大模型市场的马太效应。大模型最直接的成本便是能源成本(energy cost),GPT-3发布时的训练成本在千万美元级别。难以在短期内衡量ROI,大科技公司才能训练大模型。在微软10亿资助OpenAI之后,商业化运作的GPT-3将会被如何使用,对使用者来说也是未知数。

03.未来的商业价值

技术终将服务于商业。作为下一个探索热点,AIGC激发了大量行业需求,正在创造越来越多的现实价值。

AI+营销

AI内容生成技术已经在各类显性的商业场景中落地。在人的层面,数字员工在降低劳动成本,提升工作效率,降低人员流动风险等方面有天然的优势。在货的层面,某些电商平台的内容展示更加立体,会从各个角度来呈现客户想要购买的商品。在场的层面,通过线上空间3D化,可以让参与者更加有沉浸感。

品牌可利用AI提升内容生产效率、降低生产成本,规模化生产将打开更广阔的增量市场。在文案、海报、短视频等多个场景,AIGC已经能够成熟运用。

比如,阿里妈妈曾发布“AI智能文案”产品,生产能力已达到1秒20000条,结合淘宝、天猫的海量优质内容与自然语言算法,可基于商品自动生成高品质文案。该产品可实现三项核心能力——高度模拟人写文案、自由定义字数、实时在线样本学习。运用该产品,品牌可以更高效地写出更符合其营销语境的文案,提升商家营销效率。

百度数字人度晓晓作为AIGC的典型形态之一,展现出了强大的听说读写、唱跳能力以及个性化的互动能力。此前,度晓晓就携手龚俊数字人开启元宇宙AI好物脱口秀——歪脖山(web3)开放“卖”,为百度元宇宙希壤中的土地、无人驾驶挖掘机等元宇宙好物直播带货。其中,作为此次直播的电商合作伙伴京东,也在此次直播中收获了破亿的曝光。

AI+传媒

人工智能与传媒业的融合发展不断升级。AIGC作为当前新型的内容生产方式,为媒体的内容生产全面赋能。写稿机器人、采访助手、视频字幕生成、语音播报、视频锦集、人工智能合成主播等相关应用不断涌现,并渗透到采集、编辑、传播等各个环节。

在采编环节,一是实现采访录音语音转写,提升传媒工作者的工作体验。二是实现智能新闻写作,提升新闻资讯的时效。三是实现智能视频剪辑,提升视频内容的价值。在传播环节,AIGC应用主要集中于以AI合成主播为核心的新闻播报等领域。

新闻撰写领域,最著名的是Automated Inights。他们的结构化数据新闻撰写工具叫做wordsmith,通过输入相应数据和优先级排序,能产出一篇基于数据的新闻报道。该工具已在为美联社每季度自动化产出300余篇财报相关报道,在雅虎体育新闻中也已经崭露头角。据分析师评价,由AI完成的新闻初稿已接近人类记者在30分钟内完成的报道水准。

Narrative Science是另一家新闻撰写生成公司,其创始人甚至曾预测,到2030年,90%以上的新闻将由机器人完成。

在国内,腾讯打造“梦幻写手”(Dreamwriter)的新闻写作系统,能够在规定的22种场景中进行写作,具有0.46秒的平均发稿速度。

文案创作领域竞争较为激烈,有copy.ai、Jasper、copysmith等公司。他们基于GPT-3的能力加入了文案领域的人工模板与结构,为商家和个人创作者提供了快速为自己的商品、内容进行宣传的能力。以copysmith为例:

AI+娱乐

AIGC与游戏叙事的联系较为紧密,不仅塑造更广义的互动叙事品类,而且带来了社交玩法和商业模式产生新的启发。

例如,《AI Dugeon》通过AI技术研发出应对多名的玩家的AI模型,能够对不同玩家的互动做出反馈。在商业模式上,《AI Dungeon》则将更高级的AI模型作为增值服务提供给玩家,如更智能的怪物AI模型。在传统的RPG游戏中,氪金获得的宠物是在数值上形成对免费玩家宠物的优势,而在《AI Dungeon》中则体现为智力更高,具有更强的互动性。

AI+艺术

在艺术领域,AI作画对于行业的变革力量已经显现。就在Midjourney走红不久后,多家国际知名的报纸、杂志已经开始使用其生成作品制作封面及插图。

放眼国内,百度也通过其“文心”平台,在今年人工智能大会上短时间创作出了多幅热门电视剧海报,其中数张作品让网友直呼,“专业画师可能都需要画上好几天。”初出茅庐的“AI画家”度晓晓创作的AI绘画数字藏品卖出了超过17万元的高价。而她售卖的四幅画作,平均只需数十秒就能完成。

AI+语音

除了AI绘画,近日国内游戏直接以AI生成语音替代真人配音,同样引发了市场对AIGC在声音领域应用的关注。此前,因配音演员无法继续参与语音收录工作,米哈游旗下《未定事件簿》和网易旗下《时空中的绘旅人》同时选择采用AI技术制作角色语音,替代真人配音。其中《未定事件簿》基于自研“逆熵AI”生成语音,《时空中的绘旅人》则与网易互娱AI Lab合作,表示提取角色原有配音声纹特征录制新语音。

AI配音技术并不新鲜,从Siri语音助手到智能音箱都是AI配音的应用。现今应用最普及的AI配音技术有两条路线:一是语音转换(Voice Conversion),在不改变输入配音音频内容的情况下,通过AI技术改变其音色、音调、语言等属性。二是TTS(Text To Speech)技术,即文字转语音技术,通常被称为语音合成。输入文字内容,就可以由AI生成对应音频。这也是目前多家科技公司和初创企业的主攻方向。

例如,目前正在被Spotify寻求收购的英国AI语音平台Sonantic,曾在2021年5月发布号称“世界上第一个会哭的AI”Faith,展示了一段由Faith配音的动画短片,被观众评价“配音能力令人惊叹”。2021年,Sonantic透露其AI配音技术已经运用在200家游戏公司的音频工程中。

今年2月,初创公司Deepdub完成2000万美元A轮融资,专注于将AI配音技术用于影视领域,曾用AI技术为电影《Every Time I Die》制作葡萄牙语和西班牙语版本。

Podcast.ai是一个完全由AI生成的播客通过乔布斯的传记和收集网络上关于他的所有录音,用Play.ht的语言模型大量训练,最终生成了这段“假Joe Rogan采访乔布斯”的播客音频内容。

Tom Gruber打造了能够实时动态编曲的自适应音乐平台LifeScore。用户向LifeScore输入一系列的音乐“原材料”之后,AI大师就会改变、提高并实时混音,带来音乐表演。

在国内,爱奇艺、米哈游、网易等涉及影视、游戏业务的公司也加大对AI配音的投入,并且已经在产品中落地。例如,爱奇艺基于AI语音转化和语音合成技术,自研IQDubbing配音平台。

04.AIGC百家争鸣,重点案例一览

国外重点案例:

Omniverse

Omniverse是英伟达与元宇宙连接的平台工具,是位于应用软件之下的技术底座和平台工具箱。平台于2020年首次推出,主要应用于仿真;2021年,Omniverse在多行业的“数字孪生”、模拟现实项目落地,背靠英伟达强大硬件实力,Omniverse将英伟达超二十年在图形、模拟仿真、计算和人工智能领域的前沿技术统一整合到一个平台中,标志着对跨行业平台型解决方案的路线布局。

2021年Omniverse Avatar(阿凡达平台)发布,英伟达引入更深层次的AI技术布局元宇宙。Omniverse Avatar将英伟达旗下语音AI、自然语言理解、推荐引擎、计算机视觉和面部动画等AI算法层技术加入数字人生态建设,从而实现结合英伟达基础图形、模拟和AI技术的复杂应用程序,人工智能助手在客户支持(Tokkio)、车辆智能服务(NVIDIA DRIVE Concierge)、视频会议(Maxine)等方向落地。

阿凡达平台是基于AI连接虚拟与现实的技术底座

OpenAI

在AIGC这场热潮中,OpenAI同样起到了关键性的作用,通过堆叠海量算力的大模型(Foundation Model)使AIGC进化。在2022年上半年,OpenAI旗下三个大模型GPT-3、GitHub Copilot和DALL·E2的注册人数均突破了100万人,其中GPT-3花了2年,GitHub Copilot花了半年,而DALL·E2只用了2个半月达到了这一里程碑,足见这一领域热度的提升。

OpenAI成立于2015年,由马斯克发起创立,当时发展定位为“非营利组织”,目标是以安全的方式实现通用人工智能,使全人类平等收益,而不是为公司的股东创造利润。后来,OpenAI违背其初衷,成为了一家营利性公司,微软对其注资10亿美元,附属条件是微软有权将OpenAI的部分技术商业化,比如GPT-3与Codex。

Stable Diffusion

Stable Diffusion由初创公司StabilityAI和慕尼黑大学机器视觉学习组和AI视频剪辑技术创业公司Runway合作开发,并得到了黑客组织EleutherAI和德国非盈利组织LAION的支持。

Stable Diffusion项目带来的主要革新是将模型的计算空间从原先的像素通过技术手段,在保留足够丰富的信息与细节状态下降为到一个更低的数量空间里,然后再通过一系列的训练和图像进行计算,而这个更低维的空间被称为潜空间(Latent Space)。

潜空间对产业界来说,相比其它模型大幅降低了内存和计算的要求,举个例子,原先512 x 512对图像一下子变成了64 x 64,需要的内存减少了98%!原先只有研究人员才能进行创作的条件一下子达到了消费级,所以该项目出圈是必然的。

自今年8月份发布以来,Stable Disffusion已经在全球范围吸引了20多万开发人员下载和使用,而面向大众的产品DreamStudio更是在50多个国家地区吸引了100多万的用户注册使用,目前为止已经累计创作了1.7亿张图像。

Genies

Genies是一家创立于2017年的虚拟化身技术公司,至今已经发展近5年,由Akash Nigam、Evan Rosenbaum、Jake Adams、Matt Geiger共同创立,目前拥有员工100余人。

Genies利用人工智能开发为用户提供自定义虚拟化身系统,用户可以利用该系统创作虚拟形象以及基于个性化的头像和装扮。Genies还具备一大特点就是会从数百个媒体追踪新闻线索,根据这些新闻和不同的节日每天生成10-15个表情模板。当用户在Genies上创建了自己的虚拟形象后,就可以调用所生成的表情在其他社交媒体上使用。

2020年10月,Genies还推出了自己的3D化身产品,随后便和很多欧美明星展开合作,比如Cardi b、Rhianna、JustinBieber等。明星团队可以在社交媒体上发布由虚拟形象参与的商业推广照片,而Genies也借助他们的影响力获得了巨大的关注。

更重要的是,基于Genies所创建的虚拟化身,创作者拥有完全所有权和商业化权利,可以选择以任何方式去使用它们。

自成立以来,Genies已完成了十多笔融资。近期,Genies完成了由Silver Lake领投,Bond、NEA、Tamarack Global参投的1.5亿美元C轮融资,估值达到10亿美元。

国内重点案例:

TIAMAT

作为国内第一批入局AI生成领域的技术团队,TIAMAT致力于通过自研的算法、底层引擎、平台为个人用户和企业客户提供创意生产、广告、数字藏品等场景形式下的服务,仅成立一年时间就积累了可观的社区用户和商业客户。

在TIAMAT图像生成平台,每一次生成的过程中,只需要动动手指输入“一段咒语”,提供给TIAMAT几个关键词、一句诗歌或是一小段天马行空的描述,它就能够根据文本生成完整的原创绘画作品。呈现文字景观表达之外,TIAMAT的多个管线模型还可以根据给出的提示,帮助你生成指定风格或更具个人风格的画作。而且AI采样算法使得即便再次使用相同的文本,TIAMAT也不会提供重复的结果。换而言之,这张图片就是基于你的描述所诞生的独一无二的作品。

作为一款国产优化自研系统,TIAMAT支持中文和各种复杂的描述风格,界面简洁,并且在手机上就可以使用。每一个不会画或是没有受过系统美术学习的使用者也能够通过TIAMAT打破这一面技术壁垒的高墙,以图像的方式呈现自己对于世界和心灵的双重解构。

影谱科技

影谱科技是中国最早的“自动化生成多模态内容元宇宙”参建者之一,其核心技术生成式AI现已成为多模态内容生产的关键技术力量。该技术通过将AI与内容结合,由AI自动生成新的编程、内容或商业活动,让文字、音乐、图像、语音、视频、商品、场景等都可由AI算法自动生成,可变革传统视觉内容生产流程,实现视觉内容生产批量化、自动化、智能化,被Gartner评为2022年重要战略技术趋势之一。

此外,影谱科技运用生成式AI技术从本质上降低了内容创作门槛。其通过生成式AI、XR和数字孪生等交互技术融合,提升AI内容的沉浸感;通过算法、算力提升,驱动渲染模式升级及内容互动的可触达性;同时,算法算力及AI建模技术的进步,又从事实上使多模态内容的生产效率及种类富态获得提升。这些构成了影谱科技助力产业打造元宇宙视觉内容生产线的AI工程技术底座。

目前,影谱科技生成式AI技术已广泛应用在AI内容生成、AI虚拟场景搭建以及数字商业等多个服务领域,位于行业前列,并通过多年实践构建起元宇宙在大消费领域的落地应用。

针对消费品生产企业、零售平台、商业服务等商业领域,影谱科技还推出数字孪生引擎(ADT,Automatic Digital Twin),其依托的数字孪生技术在国家级课题《数字经济新型基础设施研究》中被认为是商业经济跃迁至数字经济的必要新型基础设施。

腾讯AI Lab

腾讯AI Lab基于自己的多模态学习及生成能力在游戏领域进行了全流程的布局。“绝悟”AI通过强化学习的方法来模仿真实玩家,包括发育、运营、协作等指标类别,以及每分钟手速、技能释放频率、命中率、击杀数等具体参数,让AI更接近正式服玩家真实表现,将测试的总体准确性提升到95%。

腾讯“绝悟”在环境观测、图像信息处理、探索效率等方面的创新算法已经突破了可用英雄限制(英雄池数量从40增为100),让AI完全掌握所有英雄的所有技能并达到职业电竞水平,能应对高达10的15次方的英雄组合数变化。基于绝悟,王者荣耀的数值平衡性偏差已经从1.05%下降到0.68%,其所涉及的“多智能体”决策过程中,可以在高达10的20000次方种操作可能性的复杂环境中进行决策。

目前,腾讯AI Lab还与王者荣耀联合推出了AI开放研究平台“开悟”,并积极举办相关赛事。

小冰公司

小冰是全球领先的人工智能科技公司,旗下小冰框架是全球承载交互量最大的完备人工智能框架之一,在开放域对话、多模态交互、超级自然语音、神经网络渲染及内容生成领域居于全球领先。

作为“AI being”派虚拟人,小冰的产品始终是人+交互+内容,具体包括虚拟人、音频生成、视觉创造、文本创造、虚拟社交、Game AI等。

目前,小冰的商业客户已覆盖金融、智能车机、零售、体育、纺织、地产、文旅等十多个垂直领域,并提出了以“人力”的逻辑去进行商业报价的虚拟人商业模式。

诗云马良

200年多来,相机的定位和职能看似不断地被延伸甚至颠覆,但是它的定位不外乎是两点:Capture Experience(记录);Storytelling(故事表达)。

诗云马良内部有一条公式:visual storytelling=creativity+making诗云正在做的事情,从本质上来说,是在构建一个新的内容基础设施,用AI生成内容,把making的成本降低到趋近于零,最终实现visual storytelling=creativity。

内容基础设施的建设大致分为三个阶段——基于人脸的生成、基于人体的生成、以及基于环境的生成,每一个阶段都将围绕“内容生成”与“内容再生产”两个维度展开。其背后的思路是:从生成一个具有表达力的形象开始,到拓展这个角色的全貌,再将其放置于一个合适的上下文中以丰满内容表达层次,最终形成一个全面的内容基础设施。

目前,第一阶段的角色生成技术已经产品化落地。诗云马良产品现在可以按需高效生成不同虚拟人像引擎,并且实现批量AI换脸,帮助品牌建立自己的风格化模特IP,让品牌的视觉输出更适配各地区文化。

除此之外,诗云马良也可以使用语音或者文字去驱动已生成的虚拟角色进行精准嘴形适配的视频表达,同时也可以控制虚拟角色的表情。

盗梦师

9月,一个叫做“盗梦师”的微信小程序悄悄上线,却一鸣惊人,达成日增5万新用户的纪录,足以见得国内玩家对亲手玩到AI绘画渴待已久。盗梦师是一个能根据输入文本生成图片的AI平台,属于AIGC支,由西湖大学深度学习实验室和西湖心辰科技有限公司共同推出。

在用户发挥想象,输入文字描述后,盗梦师便可生成1:1、9:16和16:9三种比例的图片,还有24种绘画风格可以选择——除了基础的油画、水彩、素描等绘画种类,还包括赛博朋克、蒸汽波、像素艺术、吉卜力和CG渲染等特别风格。如果用户有明确想要生成的艺术家风格,还能在毕加索、梵高、莫奈等11位艺术家中进行选择。

9月24日,盗梦师上线了图生图的功能,这是在文生图基础上的进一步尝试。只要上传一张参考图,便可以生成与该图风格相近的图片,也可以在原画的基础上添加自己的创意,而盗梦师最为接地气的设定,还要属“图片版权由生成用户所有”。

(持续更新中)

产业
1
暂无评论
暂无评论~