机器之能报道
编辑:杨文
FLUX.1强在文字生成上,Midjourney赢在审美和质感上。
Stable Diffusion 这个团队,用一句话形容就是:
聚是一团火,散是满天星。
最近,Stable Diffusion 作者之一 Robin Rombach 官宣创业,成立了新公司「Black Forest Labs」(黑森林实验室),并推出了最新文生图模型「FLUX.1」。
这个模型有多牛?看效果:
Prompt:a portal into a mythical forest on the wall of my small messy bedroom.
中文提示词:凌乱的小卧室墙上有一个通往神秘森林的入口。
Prompt:photograph of a beautiful cafe in Freiburg.
中文提示词:弗莱堡一家美丽咖啡馆的照片。
X 网友 @MrDavids1 则用它搞了个微缩版动物世界。他先用 FLUX 生成逼真的动物,然后用可灵将其动起来。
有网友表示,FLUX.1 最让人印象深刻的就是语言理解和文本控制能力,基本告别「鬼画符」。
还有网友表示,它将拳打 Midjourney,脚踢 Stable Diffusion,成为引领市场的另一「霸主」。
关键是,它不需要部署,目前还免费。
它的实力究竟如何?我们就来实地体验一番,并让它和 Midjourney 在线「掰头」。
大家有啥想法,也可以评论区聊聊。
-1-
评测:告别「鬼画符」,但还是「六指狂魔」
FLUX.1包含了三个变体模型:实力最强的 Pro 版本、dev 版本和速度最快的 schnell 版本。用户均可在 Replicate 和 fal.ai 上访问。
免费体验地址:
- https://replicate.com/black-forest-labs/flux-pro
- https://fal.ai/models/fal-ai/flux-pro
我们先单独考考 FLUX.1,测试内容包括文字生成能力、多风格能力。
文字生成能力
Prompt:realistic minion holding a sign that says "Good morning!" and showing the middle finger to the front,quality details, hyper realistic,high definition,8K, photo.
提示词 1: 逼真的小黄人举着一个写着 “Good morning!” 的牌子,并向前方伸出中指,高质量的细节,超逼真,高清,8K,照片。
Prompt :A high-resolution photograph of a weathered, historical brick wall with a rough, hammer-carved inscription of "Never give up on yourdreams"
提示词 : 这是一张高分辨率的照片,一张风化的历史砖墙的照片,上面刻有粗糙的文字“Never give up on yourdreams”。
Prompt :Steve Jobs wears T-shirt with the text “stay hungry stay foolish”, hand write, cinematic, photo.
提示词 : 史蒂夫・乔布斯穿的 t 恤上写着 “stay hungry stay foolish”,手写,电影,照片。
多风格能力
Prompt :A whimsical arrangement of pink roses, pastel tulips, and baby's breath in a vintage watering can, ideal for a garden party.
提示词:复古喷壶中异想天开地摆放着粉红玫瑰、柔和的郁金香和满天星,非常适合花园派对。
Prompt :Elon Musk caricature, in the style of michael hussar, caricature faces, angelina wrona, dark white and azure, expressive eyes, celebrity-portraits, high resolution,9:16.
提示词 : 埃隆・马斯克的漫画,michael hussar 风格,漫画脸,angelina wrona,深白和天蓝色,富有表现力的眼睛,名人肖像,高分辨率,9:16。
我们还让它生成了一张特朗普同风格漫画图片。
Prompt :pretty Asian woman was holding the flowers in her hands, Korean Model, real photo style, full body shot.
提示词:漂亮的亚洲女子手捧鲜花,韩国模特,真实照片风格,全身拍摄。
Prompt:A simple cartoon drawing of an open food truck on grass, with the door open and shelves filled inside, set against a blue sky and white clouds.The background is a green meadow, with some trees in soft focus to add depth. There is no text or characters visible, focusing solely on the scene. It has bold outlines for clear definition, with a flat color scheme to emphasize simplicity.This design would be suitable as clipart, featuring clean lines and flat colors in the style of a simple cartoon,1:1.
整体来说,FLUX 的文字生成能力确实惊艳,尤其是小黄人举着「good morning」牌子那张图,字体清晰,拼写正确,基本解决了 AI 不会写字的难题。
不过,FLUX 似乎仍然不会画手,例如「亚洲女孩」那张图,尽管人物表情自然逼真,但它最大的 bug 就是手指畸变。
-2-
两大神器在线 PK
接下来,我们请出实力最强劲的FLUX.1 Pro 版本和 Midjourney 斗斗法。(左图为 FLUX.1 pro,右图为 Midjourney。)
Prompt:"HAPPY" letters made by balloons, realistic, simple background.
Prompt:One girl, long hair, model, white background, white shirt, khaki Capri pants, khaki loafers, sitting on a stool, lazy pose, slightly tilting head, smiling, Asian beauty, loose-fitting clothes, hands placed in front of body, slightly raised foot, half-body shot, Canon R5 camera style, blurred background, indoor, natural light, some sunlight shining on the face,9:16.
Prompt:Flat illustration of a girl, background in avocado green, minimalist art, white dress, red lipstick, alluring gaze, green vintage earrings, profile view, soft lighting, muted tones, serene ambiance.
Prompt:Adult boy, successful person, Asian, happy,solid color background, C4D rendering, Pixar,9:16.
Prompt:flower on smooth pebbles, in a spa background, with a spa concept, with water drops on the stones, in the style of a spa relaxation wallpaper, with a spa nature theme, for a spa design,16:9.
Prompt:a very beautiful girl in the bus window, photorealism, perspective,9:16.
Prompt:An oil pinting of a black greyhound dog lay down in a field of grass and lots of flowers of different colors. There is a sunset back in the field,3:2.
对比了一番后,我们发现,这二者可以说各有拿手之处。
Midjourney 赢在审美和质感上,最典型的例子就是最后一幅油画风格的「狗狗躺在田野里」。
Midjourney 生成的画面更具氛围感,用色大胆舒服,几乎看不出来 AI 痕迹,而 FLUX 的画面则有股 AI 味,而且稍显单调。
Flux 则在文本理解和提示词遵循能力方面能力更强,例如第一幅用气候制作的「HAPPY」字样,Flux 明显体现出气球元素。
-2-
网友们的「奇思异想」
X 网友 Dogan Ural 也让二者对比了下。
例如,泳池边的红发女人:
30 多岁的帅气男人:
疯狂的艺术家:
深海新物种:
龙的油画:
有广告牌的未来世界:
一种对于时间的抽象主义:
该网友表示,被称为「Midjourney 杀手」的 FLUX ,确实有一些优点,比如极其丰富的图像细节、极强的 prompt 遵循能力和多样化风格.
然而,鉴于 Midjourney 卓越的美学和编辑能力,FLUX 不会很快超越它。
网友 @javilopen 认为,FLUX 对复杂提示词的理解相当到位。
他举了个例子,左图:联谊会金发少女,真实摄影,穿着比基尼在热带岛屿;右图:在热带岛屿上穿着比基尼的狗头女生联谊会金发少女,真实摄影。
最终的效果如下:
再如 Prompt: huge bird inside a bottle, raining inside the room and a boy with an umbrellam, studio ghibli style.(瓶子里有一只巨大的鸟,房间里下着雨,一个打着雨伞的男孩,吉卜力工作室风格)
FluX 在创建超现实图像方面做得也非常出色。
不过,有眼尖的网友发现,第二张图片有 5 个手指、6 个指甲。
该 Lab 表示,下一步的目标是推出所有人可用的 SOTA 文生视频模型,大家可以狠狠期待了!
目前,该 Labs 已经完成 3100 万美元的种子轮融资,由 Andreessen Horowitz 领投。
其他投资者包括了天使投资人 Brendan Iribe、Michael Ovitz、Garry Tan、Timo Aila、Vladlen Koltun 以及一些知名 AI 研究和创业专家。
此外它还获得了来自 General Catalyst 和 MätchVC 的后续投资。
想了解该公司更多信息及技术报告,请移步机器之心查看《全员离开老东家,Stable Diffusion 一作带团创业,出手即击败 MJ v6、SD3,还开源》。
Replicate 体验地址:
- https://replicate.com/collections/flux
- https://replicate.com/black-forest-labs/flux-pro
- https://replicate.com/black-forest-labs/flux-dev
- https://replicate.com/black-forest-labs/flux-schnell
FAL 体验地址:
- https://fal.ai/models/fal-ai/flux-pro
- https://fal.ai/models/fal-ai/flux/dev
- https://fal.ai/models/fal-ai/flux/schnell
以后我们会带来更多AI大模型、AI应用的一手评测,也欢迎大家进群交流。