关于“革命”这件事,通常只是一个更好的门把手
每个人都说他们的产品是革命性的。但大多数革命看起来都像是经过精心装扮的渐进式改进。有时候这样也挺好——一个更好的门把手胜过一个坏的。Recraft 的 AI 图像生成 属于这一类:一个更好的把手,一个更顺畅的上手方式,一种更具对话性的像素推送方式,而不是假装它发明了门。
如果你尝试过用通常的咒语来引导 AI 图像模型——“超现实主义、电影感、35mm、照片写实、octane 渲染”等形容词像熟食店的三明治一样堆积——你就会知道这就像玩提示填空游戏。 说:别那样做。直接问。然后再次询问。然后像在 Slack 上与设计师沟通一样进行改进。要求提供所需的内容,进行调整,进行修改。感觉很明显,因为它确实如此。做得好的显而易见的事情通常是最好的革命。
到底是什么?
的 正如其名称所示:一个用于 AI 图像生成的对话式界面,提示变成对话,而不是一次性的魔法。你无需编写一篇小说长度的提示,希望在点击“生成”之前准确地把握住每一个形容词,而是像与一位设计师交谈一样与系统对话,当你说初稿看起来像一个麦片盒时,他也不会生气。
- 你要求提供一张图像:“一张带有醒目标题和微妙渐变的极简海报。”
- 你说,“更高的对比度,更少的蓝色,将排版调整为瑞士风格——没有装饰性的花纹。”
这里没有什么神秘的东西。该模型不会因为你在聊天气泡中输入内容而变成艺术家。但是你的意图和像素之间的距离缩小了。这比大多数流行语都重要。
旧方式 vs. Chat 方式(或者:少一些巫术,多一些对话)
旧的提示密集型 AI 图像生成方式感觉就像通过迷信进行编程。你记住正确的形容词,你向负面提示之神献祭一只山羊,也许你会得到一些可用的东西。但它很脆弱。一个形容词会导致奇怪的玻璃般的眼睛,另一个形容词会让图片看起来像被牙医的灯照亮。
大声说出了安静的部分:大多数人不想成为提示工程师。他们想用自己的话说出他们想要的东西,看到结果并进行迭代。“让它更忧郁”比“在保持 ISO 400 胶片颗粒的同时,将中间色调的对比度提高并降低饱和度 18%”更友好。即使你能那样说话,你为什么要那样做呢?
“彻底改变 AI 图像生成”——还是降低摩擦?
的宣传—— 正在彻底改变 AI 图像生成——即使不浮夸也是真实的。降低摩擦确实会改变行为。当 Photoshop 引入图层时,那是一场伪装成便利的革命。撤销历史是一场革命。两者都使创造力变得不那么可怕。
为基于提示的构图做到了这一点。它是创意的图层面板。你可以说“这是错误的”,而不会回到原点。迭代成为常态:对话式、渐进式、宽容。这就像与一个从不抱怨的学徒一起工作,他可以在三十秒内生成十个作品。
辩证法:对话是产生更好的图像,还是仅仅产生更多的图像?
问题是: 是提高了图像质量,还是仅仅使其更容易生成大量变体?答案令人恼火地细致。
- 是的,当你的目标是意图明确时, 会提高输出质量。你可以更快地进行改进,因为你可以自然地表达反馈。
- 不,它不会使模型更聪明。垃圾输入变成迭代垃圾输出——尽管排版更好。
质量仍然受到模型能力、训练数据以及系统解释你的语言方式的限制。魔法不是真正的魔法。它只是减少了仪式感。
的 的闪光点
在某些方面, 确实感觉像是一种升级:
- 快速的品牌变体:你说“相同的 logo,季节性主题,像地铁广告一样布局”,然后不断调整直到它符合要求。
- 情绪探索:“更多 90 年代早期的杂志艺术指导风格,更少‘AI 奇怪的牙齿’。”在保持氛围的同时避开怪异的人工制品的能力非常重要。
- 协作:设计师和非设计师可以坐在一起,通过对话来达成设计。没有人需要假装他们是拥有管道和种子数字的魔术师。
它的不足之处
它仍然会在每个 AI 图像模型都会遇到的地方遇到困难。
- 特定的文本:要求提供带有确切副本的海报;看着字母变成一锅粥。比以前好,但仍然不够好。
- 精细的构图控制:“将标题向上移动 12 像素”有时有效,但你更可能得到“更向上一点”。
- 原创性:如果你想要真正新的东西,你需要一个观点。 不会变出品味。
提示悖论:更简单的提示,更明智的结果
我们过去常常用形容词和相机术语来掩盖模型,以诱使它们达到我们想要的外观。悖论在于,更简单的提示,加上迭代聊天,通常会产生更好的结果。这就像一个有 48 个步骤的食谱和一个厨师之间的区别,厨师会问:“你想要更辣吗?”然后把它做得更辣。
强调了一个设计师们永远都知道的显而易见的道理:意图胜过语法。如果你能清晰地表达意图,迭代就会变成一个有指导的搜索,而不是一台老虎机。
“AI 图像生成”vs. 实际设计
AI 图像生成擅长按需提供美学。它不太擅长克制。真正的设计主要是编辑——你省略的内容。 有所帮助,因为编辑本质上是对话式的。你可以说“太多了”、“调低一点”、“让它透气”,而且你不必从头开始重新提示。
但你仍然需要某人——人类或警惕的机器——来划清聪明和杂乱之间的界限。 使这条线更容易接近,而不是更容易看到。
关于速度的说明(它比你想象的更重要)
速度不仅仅是便利。快速迭代会改变你的工作方式。如果你可以在一分钟内从想法到六个可接受的作品,你就会开始以作品来思考。你会扔掉更多。你会保留有效的东西。那是创造性的进化,而不仅仅是创造性的输出。
的 足够快,可以在实践中实现这一点。对话循环很短:说、看、改变、重复。这个紧密的循环才是真正的革命——你只有在尝试用一个坏的门把手打开一扇门时才会注意到的门把手。
风格迁移、氛围和品味的错觉
如果你想要“包豪斯风格但更温暖”、“Y2K 风格但可读”,或者“苹果主题演讲幻灯片,大约在艾维时代”,你会得到一些在正确方向上点头的东西。氛围很容易。品味很难。品味需要判断——选择更少而不是更多。 可以帮助你探索氛围,而不会陷入 AI 装饰的恐怖谷。
但它不会教你优雅和仅仅对称之间的区别。这仍然取决于你自己。
信任问题:我们只是在外包视觉吗?
最糟糕的情况是一个停止观看的创意团队。“没关系—— 这么说的。”降低摩擦的工具会让你陷入自满。一百个变体与一个好主意是不一样的。
解药很无聊:保持你的高标准。使用 进行探索,而不是找借口。并且为了良好的排版,关闭虚假的反光。
实用指南:一个简短、诚实的剧本
如果你是第一次尝试 的 ,这里有一个简单有效的方法:
- 从简单的开始:“一个干净的主页 hero,带有一个醒目的标题、柔和的颜色和一张照片”——没有行话。
- 立即做出反应:“太忙了;删除装饰元素;调亮背景。”
- 只有在布局稳定后才调整风格:“现在让它具有瑞士风格,更少的圆角,标题采用大写字母,网格更紧密。”
- 测试你的用例:导出模型,放入真实的网格系统中,看看间距是否成立。
- 在足够好时停止。迭代与完美不同。完美会浪费你的一天。
竞争性旁白:每个人都在制造门把手
整个 AI 图像领域的竞争对手都在将聊天气泡添加到他们的 UI 中——因为它显然更好。 的 的区别不在于聊天的存在。而在于感觉:响应性、迭代紧密度,以及它在不使其平淡的情况下解释“使其不那么俗气”的方式。
如果你测试过其中一些工具,你就会知道这种感觉。有些聊天模式感觉就像与一个只知道形容词的机器人争论;另一些感觉就像一个了解笑话的设计助手。
那么, 值得吗?
简短的回答:是的,如果你关心以更少的仪式感从想法到可用的作品。不,如果你认为聊天气泡是创意总监。
更好的问题是: 的 是否让你对自己的品味更加诚实?如果你可以推动、拉动并说“停止”,你就会更接近你的意思。这是值得的。
小字部分:你无论如何都会遇到的限制
- 文本保真度仍然落后于布局保真度。预计需要手动替换类型。
- 小心“变体陷阱”——十种略有不同的蓝色不会使沉闷的布局变得有趣。
Sider.AI 实际上跨任务实现了这种对话循环——不仅仅是图像。如果你将 AI 文本生成与设计迭代融合在一起,Sider 的工作区可保持聊天驱动的流程一致:指定叙述,删除参考资料,然后在不丢失线索的情况下调整视觉效果。它并不华丽。它很可靠。将其用于工作中上下文很重要的部分,并且切换应用程序会破坏心情。 为什么这很重要(以及为什么“革命”仍然很牵强)
真正的胜利不是 “彻底改变”了 AI 图像生成。它使工作更像是说话。创造性工作——实际的创造性工作——是在与自己争论,直到出现正确的事情。 邀请进行这种争论。这就是值得拥有的革命:一种使诚实部分更容易的工具。
但让我们控制住形容词。如果你的团队有品味和判断力, 就像动力转向。如果你的团队追逐闪亮的物体,这是一种更快地驶入沟渠的方式。
令人不安的真相
AI 不会让你有创造力。它让你更快。增量是你如何利用速度。
的 是一个很好的门把手。它经过抛光,事后看来很明显,而且比仪式繁重的提示文化更容易。这就足够了。大多数革命都不是烟花——而是当使用该东西停止感觉像工作的那一刻。
最后的题外话:继续提出更好的问题
如果 有一个杀手级功能,那不是聊天——而是思考问题的邀请。这就是好的设计的工作方式:如果这个更安静会怎么样?如果这个感觉更人性化会怎么样?如果我们不强迫用户解码一种只存在于 2007 年 Tumblr 中的氛围会怎么样?
提出更好的问题,获得更好的答案。提出更诚实的问题,获得诚实的工作。
总结:一扇没有戏剧性地打开的门
如果你正在交付真正的工作,你会接受任何可以减少废话的东西。 的 减少了很多。你可以进行对话而不是提示炼金术,进行迭代而不是掷骰子,并且可以将想法调整成形,而不会失去耐心。
如果你必须称之为革命,那就称它为革命吧。我会称它为一个更好的门把手,连接到一扇我真正想打开的门上。
相关:如何在不失去品味的情况下使用
常见问题解答
Q1: 实际上正在彻底改变 AI 图像生成吗?
它正在彻底改变你与 AI 图像生成交互的方式:减少仪式感,增加对话。这些模型并没有突然学会品味;它们只是更快地响应直白的指示。
Q2: 与传统的提示工程相比如何?
提示工程是施法; 是一场对话。你可以更快地进行迭代,并且你的意图在过程中得以幸存,而不是迷失在一堆形容词中。
Q3: 可以处理精确的文本和精确的布局吗?
文本保真度仍然不稳定,并且精细的网格精度是一场硬币游戏。使用 来获得布局和氛围,然后手动收紧类型和对齐方式。
Q4: 在实际工作流程中的闪光点在哪里?
快速作品、风格探索和协作迭代。它最擅长在没有提示工程师表演的情况下将意图转化为可用的视觉效果。
Q5:设计师是否应该担心 会取代创造力?
不—— 使你更快,而不是更有创造力。这是动力转向;如果你有品味,你将更快到达那里。如果你没有,你只会更快地达到平庸。