Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

杜伟、泽南报道

内测了下阿里的AI画图,带来了点大厂的震撼

要问今年的 WAIC 世界人工智能大会,谁是主角?AI 大模型当之无愧。

大会一共三天,各家公司机构陆续要亮相 30 多个大模型。

这场大模型的盛宴中少不了语言大模型,当然也有屡屡带给人视觉感官震撼的绘画大模型。这不,在 AI 画图领域,又一个国内实力选手入场了。

继发布大语言模型通义千问三个月后,阿里的 AI 绘画创作大模型也来了,而且是基于自研的组合式生成模型 Composer。

7 月 7 日的 WAIC 大会上,阿里云通义大模型家族揭幕了旗下最新成员「通义万相」。

图片

WAIC 阿里云《MaaS:以模型为中心的 AI 开发新范式》主题论坛上,通义万相登场。

它的文本生成图像效果是这样的,生成速度很快。

图片

通义万相还可以为一张原图生成另一种指定风格的新图。

图片

更有一种套娃玩法,为一张原图生成一些相似的图片。

图片

阿里表示,通义万相拥有的文生图和图生图能力,可以辅助人类进行图片创作,大幅降低图片设计门槛。未来还可应用于艺术设计、游戏和文创等应用场景。

目前,该模型已开启定向邀测。

在 ChatGPT 火起来之前,AI 领域最出圈的话题就是 AI 画图。扩散模型把生成式 AI 向前带进了一大步,一时间业内出现大量输入文字、生成各种风格图像的 AI 模型。之后又出现了图像生成图像、图像指定风格转换的更多玩法,让人们眼花缭乱的同时感叹于生成式 AI 的神奇。

在 WAIC 这个大舞台上,阿里推出了这个既能文生图又能图生图的 AI 神器,可见对其生成效果非常有信心。

在拿到体验资格后,机器之心当然要先试上一把。

通义万相实测:玩法多样、一出手就是大作

这个通义家族的新模型究竟有没有给 AI 画图领域带来改变呢?我们用结果来说话。

目前,通义万相上线了文本生成图像、相似图像生成和图像风格迁移三大功能

图片

我们先从标准的文本生成图像测起。在文生图时,你可以在水彩、油画、中国画、扁平插画、二次元、素描、3D 卡通等多种风格中进行选择。在输入文字描述并选定风格后,AI 便可自动生成创作图片了。同时为了方便使用,输出图像的比例有现成的 1:1、16:9 和 9:16 三种可选。

我们先来点不那么复杂的,选取元曲四大家之一马致远《天净沙・秋思》中的一组文字描述「小桥、流水、人家」,风格则选择「中国画」。

结果出来,通义万相完全向我们展示了一幅幅古韵十足的画作,细节丰富,还添加了描述中没有的一些元素,比如远处的山、水里游的鸭子等。

图片

我们不妨再换两种风格,这次选择「素描」和「油画」。通义万相多种风格切换自如,生成的素描和油画图片同样惊艳。不夸张地说,这些图片完全是可以拿来直接用的水平。

图片

再来另一组文字描述「穿宇航服的猫咪、太空、遨游、星空」,这次风格上选择「二次元」和「3D 卡通」。效果一目了然,尤其是 3D 卡通风格这组,猫咪太可爱了。

图片

图上:二次元;图下:3D 卡通

这里突然想让通义万相与大名鼎鼎的 Stable Diffusion 较量一下。同样的文字描述翻译成英文「cat in a spacesuit, space, travel, starry sky」,然后再加上「style of 3D carton」,生成的图片是下面这样的。

这波没想到是通义万相赢了,Stable Diffusion 生成的猫咪要么太抽象,要么太写实了,没有表现出 3D 卡通风格。

图片

既然简单的文字描述难不倒通义万相,那就给它上上难度。

这次来段更长的「一位日系女孩、棕色直发、白皙肌肤、身穿连衣裙、蕾丝和蝴蝶结、挎着小提包、面带微笑」,风格选择「二次元」。想问一下喜欢二次元的小伙伴,这些生成的图片符合你们心目中的日系女孩吗?

图片

再来一组魔幻风格的描述「超现实主义、质感突出、4k 分辨率、赛博朋克、战舰、气势磅礴、硝烟、金属巨物、激光武器、辛烷渲染器」,风格选择「油画」。看着下面这些图片,瞬间升起了一种末日之战来袭的紧张氛围感。

图片

我们再次将相同的描述放进 Stable Diffusion。在细节丰富度上,Stable Diffusion 更胜一筹,但其画面风格看起来灰暗,给不了人强烈的色彩冲击感。而且更偏写实风格,与超现实主义略有出入。

图片

看起来,至少在文生图这个赛道,通义万相似乎完全拿捏住了。让人不由感叹,生成式 AI 在画图领域的能力一直在进化。

接下来讲通义万相的相似图生成功能,用户只要提供一张参考图像,就能够获得内容、风格相似的 AI 画作。这里要注意,上传的图像大小要在 10M 以下,格式则支持常见的 JPG、JPEG、PNG、BMP 等。

我们先放进去一张 AI 画图世界的常客马斯克,看看通义万相眼中的马斯克「分克」长什么样子。相较于马斯克真身,生成的图片偏老一些,但笑容同样开朗。

图片

再来一张风景图,生成效果非常不错。溪水潺潺流下,水中也点缀了更多落叶,跟原图比毫不逊色。

图片

在体验中,机器之心还发现,通义万相文本生成的图片可以直接生成相似图。这里选取上文 3D 卡通风格「穿宇航服的猫咪」的其中一张作为原图,结果一出来,生成的猫咪更呆萌了,背景元素也更加丰富。

图片

最后看风格迁移功能。你只要上传想要变换风格的原图和目标风格的示意图,就可以很快将原图处理为目标风格的创意图了。与相似图像生成一样,原图和风格图的大小不得超过 10M,格式相同。

我们首先选择一张偏写实的原图、一张印象派的风格图。结果来看,偏写实的原图完全变换了风格,成了一幅幅印象派画作。

图片

接着尝试一张 3D 卡通原图、一张素描风格图。从结果看得出来,两种风格之间的切换游刃有余。

图片

最后选择一张中国画风格的原图、一张水彩风格图。生成结果同样不错。

图片

一番体验下来,无论是文生图还是图生图,通义万相从语义相关性、画面完整性以及细节丰富度等方面来看,都给了我们很大的惊喜。尤其是风格迁移功能,不同风格的切换如此丝滑,生成的图片几乎没有拼接感和涂抹感,就像本就属于目标风格一样。

作为阿里云通义大模型家族的新成员,阿里表示,通义万相现有的能力只是牛刀小试,其能力仍在不断进化中。未来也会逐步向行业客户开放相关能力。

自研 Composer 模型:50 亿参数、登上顶会

此前很多公司的大模型都在立「多模态」的人设,带有 AI 画图能力。相比之下,阿里这个通义万相有多少技术含量呢?看起来它不是简单的模仿,而是有自己的独门能力。

据了解,通义万相基于阿里自研的组合式生成模型 Composer,它拥有 50 亿参数,并在数十亿个文本、图像对上进行训练。在业界都在考虑如何提升 AI 绘画模型的可控性这一点上,Composer 给出了它的创新性思路。

通过一个基于扩散模型的「组合式生成」框架,Composer 能够对配色、布局、风格等图像设计元素进行拆解和组合,实现了高度可控性和极大自由度的图像生成效果。

结果正如你我所见,仅需一个模型就能支持多类图像生成类任务能力。阿里云首席技术官周靖人了参与 Composer 的研究,相关成果已被国际 AI 顶会 ICML 2023 收录。

图片

  • 论文地址:https://arxiv.org/pdf/2302.09778v2.pdf
  • GitHub 地址:https://github.com/damo-vilab/composer

所谓拆解 - 组合,首先将图像分解为不同的设计元素,比如配色、草图、布局、风格、语义、材质等。然后使用 AI 模型将这些设计元素重新组合成新的图像。这里,拆解 - 组合过程中允许对用到的元素自由修改编辑,如此一来可控性大大增强。

图片

拆解 - 组合图像生成过程。

不仅如此,Composer 还可以通过「压榨」拆解 - 组合的潜力来实现更广阔的创作空间。假设有 100 张图片,每张拆成 8 种元素,则全部元素的组合方式有 100 的 8 次方种。这一指数级的数量增长被称为组合爆炸现象,无疑为 AI 模型创造了一个极大的生成空间。同时人类设计师在生成定制化图片时也被赋予了极大的自由度和定制化能力。

图片

图像重组合过程。

正是基于 Composer 框架,通义万相才能让我们体验到相似图生成和风格迁移这两种图生图功能。一边用图像理解模型将图像拆解为不同元素,一边用扩散模型将这些元素重新组合成新图像,双管齐下,图生图水到渠成。

其中对于相似图生成,保持图像语义内容不变,仅仅改变图像中的局部细节,就能生成相似图片。过程中既可以较好地保持原图主体一致性,还提升了生成图的多样性和质量。

对于风格迁移,一方面保留原图的基本形态、结构,另一方面将目标风格图片的风格、色彩、笔触等个性化信息,最终实现风格迁移。

以大模型为核心,打造生成式 AI 的统一底座

看起来,通义万相超出预期的效果,来自于阿里自己的核心技术。

其实在国内,阿里是较早开始探索生成式 AI 的大厂之一,其在 2018 年就启动了大模型技术的研发。2019 年,达摩院提出的大语言训练模型 StructBERT 超越了谷歌、微软和 Facebook 的研究,登顶了当时 NLP 权威基准测试榜单 GLUE。

2021 年,阿里发布国内首个百亿参数级多模态大模型 M6 和被称为「中文版 GPT-3」的语言大模型 PLUG。其中,M6 在多次迭代之后,实现了十万亿级别的参数规模,并且 M6 和支付宝、淘宝的业务需求相结合。

在去年的 WAIC 上,阿里发布通义大模型系列,为业界首次构建一个「基础模型」,做到了模态表示、任务表示、模型结构统一。而且,相关核心模型向全球开发者开源开放。

有关生成式 AI 落地,我们一直面临着几个挑战:算力成本高、构建过程复杂、通用性有限。通义打造了业界首个 AI 统一底座,并构建大小模型协同的层次化人工智能体系,其目标就是直面挑战,让 AI 从感知迈向认知。

可以说,在超大模型、语言及多模态能力、低碳训练、平台化服务、落地应用等方面,阿里为中文大模型的发展做了一些前沿性、引领性的贡献。

在通义万相之前,阿里已陆续发布了面向自然语言处理的「通义千问」和专攻音视频生产力的「通义听悟」。至此,AI 的三大主要方向已经全部打通。面对大模型及生成式 AI 的巨大潜在需求,阿里云有着得天独厚的优势

除了大模型技术积淀,强大的云基础设施能力至关重要。而在算力层面,阿里云是亚洲第一、全球第三的云计算服务商,自家大模型有了坚实的算力体系支撑。例如,阿里云拥有国内最强的智能算力储备,阿里云的智算集群可支持最大十万卡 GPU 规模。

此外阿里国内首先提出「Model as a Service」理念,牵头建设国内最大 AI 模型服务社区「魔搭」,坚持开源开放,推动 AI 普惠。此次在阿里云《MaaS:以模型为中心的 AI 开发新范式》主题论坛上,周靖人分享了对 MaaS 的愿景以及如何进一步赋能产品和合作伙伴。

图片

阿里云首席技术官周靖人

在 AI 2.0 的竞争中,比拼已经进入了新的阶段,百模大战之后必然是大浪淘沙,而阿里云已经做好了准备。
产业AI绘画创作大模型通义万相
相关数据
周靖人人物

中国科学技术大学毕业,获哥伦比亚大学计算机博士学位,前微软研发合伙人。2016年07月06日,周靖人已证实加盟阿里巴巴集团,任职阿里云首席科学家,将带领阿里云中美两地的研发团队,总体负责阿里云大数据平台和人工智能研究机构iDST的科研工作。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

阿里云机构

阿里云创立于2009年,是全球领先的云计算及人工智能科技公司,致力于以在线公共服务的方式,提供安全、可靠的计算和数据处理能力,让计算和人工智能成为普惠科技。 阿里云服务着制造、金融、政务、交通、医疗、电信、能源等众多领域的领军企业,包括中国联通、12306、中石化、中石油、飞利浦、华大基因等大型企业客户,以及微博、知乎、锤子科技等明星互联网公司。在天猫双11全球狂欢节、12306春运购票等极富挑战的应用场景中,阿里云保持着良好的运行纪录。 阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。 2014年,阿里云曾帮助用户抵御全球互联网史上最大的DDoS攻击,峰值流量达到每秒453.8Gb 。在Sort Benchmark 2016 排序竞赛 CloudSort项目中,阿里云以1.44$/TB的排序花费打破了AWS保持的4.51$/TB纪录。在Sort Benchmark 2015,阿里云利用自研的分布式计算平台ODPS,377秒完成100TB数据排序,刷新了Apache Spark 1406秒的世界纪录。 2018年9月22日,2018杭州·云栖大会上阿里云宣布成立全球交付中心。

https://www.aliyun.com/about?spm=5176.12825654.7y9jhqsfz.76.e9392c4afbC15r
文本生成技术

文本生成是生成文本的任务,其目的是使人类书写文本难以区分。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
图生成技术

根据给定信息信息生成图表。

达摩院机构

阿里巴巴达摩院(The Academy for Discovery, Adventure, Momentum and Outlook,Alibaba DAMO Academy)成立于2017年10月11日,是一家致力于探索科技未知,以人类愿景为驱动力的研究院,是阿里在全球多点设立的科研机构,立足基础科学、颠覆性技术和应用技术的研究。阿里巴巴达摩院由三大主体组成,一是在全球建设的自主研究中心;二是与高校和研究机构建立的联合实验室;三是全球开放研究项目-阿里巴巴创新研究计划(AIR计划)。

https://damo.alibaba.com/
推荐文章
暂无评论
暂无评论~