Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

AI告别鬼画符!快手可图和国外写字小能手Ideogram打擂台,谁更牛?

机器之能报道

编辑:杨文

快手AI,步履不停。

最近,快手出尽风头。

OpenAI 当家花旦 Sora 的公测还遥遥无期,快手就率先祭出了可灵。凭借其逼真、高清、不输 Sora 的视觉效果,一下子成了全球网友的新宠。

据快手称,可灵申请用户数量已经接近 70 万,目前已开放给超 30 万用户使用。

趁着热乎劲,快手又马不停蹄地上线了可灵网页版。

老铁们拿它各种整活儿 ——

蒙娜丽莎戴墨镜:

图片

容嬷嬷喂紫薇吃鸡腿:

图片

大胖橘端着高脚杯、翘着兰花指喝红酒:

图片

甚至还给肯德基来了一波广告植入:

图片

不过呢,今天我们不聊可灵,而是唠唠快手的另一款明星产品 —— 可图

在刚结束不久的 2024 世界人工智能大会上,快手宣布自研文生图大模型可图正式开源。

目前,可图已在 Huggingface 平台和 GitHub 上线,包括模型权重和完整代码,供个人开发者免费使用。

  • 官网地址:

https://kwai-kolors.github.io/

  • Github 项目地址:

https://github.com/Kwai-Kolors/Kolors

  • Huggingface 模型地址:

https://huggingface.co/Kwai-Kolors/Kolors

  • 技术报告地址:

https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf

对于技术小白来说,如果想尝鲜,可以直接登录可灵网页版,使用「AI 图片」功能。

可灵网页版:https://klingai.kuaishou.com/


-1-

实测:能写汉字、英文,还能一键生成视频

别看大模型能说会道,其实此前还是个不会写字的「文盲」,无论是汉字还是英文,只要 AI 生成的,八成是「鬼画符」。

这样的:

图片

或者这样的:

图片

而可图大模型不仅能刻画丰富的细节,进行多种风格转化,其最大的亮点是 ——

会写字!

据介绍,可图支持中英文双语,生成效果比肩 Midjourney-v6 水平,具备英文和中文写字能力。

其中,为了更好地理解中文,快手称可图大模型通过数十亿中文语料的训练,构建了一个强大的中文 CLIP 模型。

其玩法也很简单。

点击可灵网页版链接,进入操作界面后,选择「AI 图片」,用户只需输入提示词、调整比例大小或者上传参考图。其中可图支持长达 256 字符的文本输入。

图片

文生图功能

例如,我们输入提示词:复古摄影写真,80 年代的 MTV 风格,多巴胺的色彩装饰,背景是室内复古电视,电视中写着中文“机器之能”,一把绑着粉色蝴蝶结的叉子,一个草莓蛋糕,电视广告,80 年代流行文化,柔光。

图片
图片

提示词:可爱的蜥蜴,穿着环卫工的衣服,一只手拿着拖把一只手拿着水桶。角色扮演游戏,色彩鲜艳,对比度高,印刷纹理。特写摄影,具有表现力的姿势,柔和的彩色背景。

图片
图片

图生图功能

可图还具备图生图功能,直接上传一张参考图片,然后输入提示词即可。

图片

最终生成效果如下:

图片
图片
图片
图片

由于搭载在可灵网页版上,可图还可以将生成的图片直接进行图生图。

例如,我们输入提示词:毛毡艺术,高清,毛毡材质,高级滤镜,可爱,卡通,羊毛毡娃娃,名画,梵高的自画像。

十几秒即可得到以下成果:

图片
图片
图片
图片

接着在生成的图片中点击「垫图」,即可使用参考图功能。我们继续输入提示词:小羊抱着一束玫瑰花,设置完参数,就能生成新图片。

图片

效果如下:

图片
图片

图生视频

图生视频功能玩法同理。

我们输入提示词:武林高手故宫猫,几只故宫猫穿着白色、红色、黄色练功服,正在表演武术,美学造型,完美光影。

然后在生成的图片中点击「生成视频」,即可进入图生视频界面。

图片

接着输入提示词、负向提示词以及设置参数,静待系统生成就 OK 了。

图片

以下是生成视频效果:

-2-

快手可图单挑Ideogram:狭路相逢谁更勇?

恰好,国外也有一款擅长写字的 AI 文生图应用 ——Ideogram。

这款应用被称为 Midjourney 和 Stable Diffusion 的「劲敌」,由前 Google 工程师创立,硅谷 AI 大神投资,去年 8 月面世,2 月底发布了最新的模型。

Ideogram 链接:

https://ideogram.ai/t/explore

图片

发布之初,该应用打出的招牌就是「能生成各式字体」,这正好与快手可图的亮点不谋而合。

值得注意的是,无论是快手可图还是 Ideogram,要想在图片中自定义文本,则需要在提示词中加上一段「咒语」。

快手可图咒语:写着中文「xxxx」。

Ideogram 咒语:With the text 「xxxx」,风格选中「typography(排版)」。

如此一来,就能生成带有「xxxx」文字的图片。

接下来,我们就让这两家产品进行同台 PK。

Round 1:写字能力

【写中文】提示词:一只卡通小狗,身上挂着一个木牌,上面写着 “可爱” 两个字。

快手可图:

图片
图片
图片
图片

Ideogram:

图片
图片
图片
图片

【写英文】提示词:一个生日蛋糕,上面插着生日蜡烛,写着 “Happy Birthday”。

快手可图:

图片图片

Ideogram:

图片图片

Round 2:多样风格

提示词:摄影人像,写真,东方面孔的羊毛卷长发美女,穿着复古的服装,鲜花点缀在头发上面,高级滤镜,复古,蓝色背景。

快手可图:

图片图片
图片图片

Ideogram:

图片图片
图片图片

提示词:卡通插画,一个咖啡店内,一个东方面孔的女孩坐在窗边的位置写作,桌子上有咖啡、书本和花朵,c4d,oc 渲染,逼真细节,超高清,8k,完美构图,电影灯光,浪漫温馨的画面,甜美。

快手可图:

图片图片
图片图片

Ideogram:

图片图片
图片图片

提示词:纯黄色背景上排列着一些夏堇和绿叶,菲尔・科赫风格,水滴,浪漫场景,颗粒感,重复。

快手可图:

图片图片
图片图片

Ideogram:

图片图片
图片图片

经过多次测评,我们发现快手可图和 Ideogram 各有优势。

快手可图在中文生成方面确实惊艳,基本告别「鬼画符」,英文也能生成,不过有时会写错字;而 Ideogram 只懂英文,对于中文那是一窍不通。

从生成风格来看,Ideogram 提供 18 种风格,用户可任意选择,而快手可图则只能按照提示词中的风格生成。

不过,快手可图作为中国人自己的绘图模型,其逼真度更强,尤其是人物特写,Ideogram 毕竟是外国产品,生成的东方女子要么有外国人的影子,要么不咋好看。

此外,二者的生成速度相差不大,10 多秒就能出图。快手可图可调整每次生成图片数量,最多不超过 9 张,Ideogram 每次固定可生成 4 张。

最关键的一点是,目前快手可图仍是免费使用,而 Ideogram 每日只有十次免费生成机会。


-3-

「一战成名」的快手

这段时间,快手重押 AI,狠砸真金白银,埋头搞大模型和 AI 应用。

别看此前不显山不露水,一出手就艳惊四座。

先是对标 Sora 的 AI 视频生成应用可灵一战成名,接着 AI 生图模型可图备受好评,最近开源的、擅长挤眉弄眼的 LivePortrait 模型火遍国内外。

图片

其实,快手的 AI 布局远不止于此。

例如,AI 厂商们掀起百模大战时,快手也推出了自家大模型 —— 快意大模型;Suno 领衔的 AI 音乐生成红透半边天,快手加码旗下的 K 歌 APP 回森,推出 AI 美音功能。

此外,还有 AI 剪辑应用快剪、AI 特效创作产品必扬、AI 社交应用快崽以及嵌在快手短视频 APP 里的 AI 玩评功能等。

不得不说,曾经「土味」的快手,如今在 AI 的加持下显得高端了不少。

不过,以 AI 圈日新月异的迭代速度,快手的 AI 之路还得步履不停……

以后我们会带来更多AI大模型、AI应用的一手评测,也欢迎大家进群交流。


图片
产业
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

视频生成技术

视频生成是指利用深度学习等技术生成视频的任务。

美光机构

美光是全球最大的半导体储存及影像产品制造商之一,其主要产品包括DRAM、NAND闪存、NOR闪存、SSD固态硬盘和CMOS影像传感器。总公司(Micron Technology, Inc.)设于美国西北部爱达荷州的首府博伊西。

https://cn.micron.com/
暂无评论
暂无评论~