AI圖像生成器的問題在於,每個人都假裝想要「照片般逼真的完美」,直到模型完美地呈現了他們真正想要的東西:品味。而品味——不是速度、不是百萬像素、不是帶有神秘語法的提示——才是爭論的焦點。
讓我們先問一個明顯的問題。如果AI圖像生成器現在這麼好,為什麼這麼多圖像仍然…如此詭異?不是錯誤。只是有些微不對勁,就像蠟像館一樣,燈光很棒,但眼睛追蹤你的速度慢了一秒。我們口頭上說想要的和實際上能接受的之間的差距,正是這個領域運作的基礎。
以下是明確的:AI圖像生成器快速、靈活,而且坦白說令人驚艷。它們在電腦應該最不擅長的事情上變得越來越好:做我們想表達的,而不是我們說的。第二部分仍然很棘手。如果你曾經深入研究過「為什麼它不會把文字放在標牌上,而是融化了字母」這個問題,你就會明白。
我們正處於早期數位相機時代和智慧型手機讓攝影成為日常超能力的時刻之間。這些模型可以渲染讓你的皮膚科醫生臉紅的皮膚毛孔,並且可以在你說出「美學」之前吐出六種變體。但真正的故事不是表面上的真實感。而是控制、連貫性和品味。
人們真正希望從AI圖像生成器獲得什麼
- 明顯的控制旋鈕:局部重繪(inpainting)、擴展繪圖(outpainting)、風格鎖定、種子一致性、不像是建議的長寬比。
- 可預測性:相同的提示,相同的輸出方向,而不是英俊熵值的隨機擲骰子。
- 尊重約束:字體清晰易讀,手屬於人類,光線不違背物理學。
從表面上看,這個領域似乎很擁擠。但在實踐中,每種主要工具都暴露了關於製作圖像應該是什麼感覺的不同觀點。
- Midjourney:作者的情緒板。在風格和構圖方面非常出色,但在控制方面仍然有些神秘。你與Midjourney合作,而不是在它上面工作。
- DALL·E 3:完美地服從自然語言和標題。它是個優等生:擅長遵循指示,但偶爾會過於字面意思。
- Stable Diffusion 和 SDXL/SD3.x:修補匠的車庫。開放、可修改,在合適的人手中具有強大的能力。如果你不知道該拉哪個槓桿,那就很危險。如果你知道,就會有回報。
- Adobe Firefly:企業裡的成年人。安全護欄、商業許可證,以及額外的「是的,法律已簽署」。
共同點:AI圖像生成器本質上是品味的放大器。它們讓非藝術家能夠表達願景,但它們仍然獎勵那些古老而乏味的優點:迭代、編輯和眼光。
提示不是咒語。而是一份簡報。
業界最糟糕的習慣是假裝提示是秘術。真相更接近於撰寫一份好的創意簡報。你不需要巴洛克式的副詞和數十個逗號分隔的藝術家。你需要:
- 主體清晰度:畫面中有什麼,沒有什麼,觀眾應該首先注意到什麼。
- 背景和限制:一天中的時間、光照風格、鏡頭感覺(廣角與遠攝)、時代、媒介、情緒。
- 構圖提示:前景與背景、對稱、留白、文字應該放在哪裡。
- 不可協商的:『五根手指』、清晰的標誌、品牌顏色保真度。
將模型視為初級設計師:足夠具體以使其負責,足夠開放以提供選擇。然後迭代。第一張圖像很少是最終版本。第二張通常是。第三張有時會顛覆這個概念。
真實感 vs. 品味(選擇品味)
照片寫實主義是一種騙人的把戲。它讓我們驚嘆;現在我們期望它。真正推動進步的是品味。這就是為什麼即使 Midjourney 圖像在細節上出錯,看起來仍然像電影一樣——該模型偏向於某種美學。攝影師和插畫家憑直覺施加品味;AI通過先驗機率施加品味。這不是錯誤。這是功能。問題是該模型的品味是否與你的品味重疊。
你可以對抗先驗。或者你可以駕馭它們。獲得良好結果的人不會強行將模型推入正統觀念;他們會將提示引導到潮流中。要求一張Saul Bass海報,並為粗獷的極簡主義而奮鬥,你會比從「給我一張極簡海報」開始,並將模型從「現代光滑漸變糊狀物」中解脫出來更快地達到目的。
排版仍然是金絲雀
問任何設計師:如果類型看起來不對,整個圖像看起來都不對。AI的文字處理問題已經從「帶有多餘手臂的字母湯」改進為「如果你不仔細看,幾乎是對的」。在模型尊重空白區域的佈局中,它更好——甚至可用。但我們還沒有達到「隨時可用的標題」的程度。當你需要緊湊的排版時,老式的方法(你、真正的字體和佈局工具)仍然獲勝。
這很好。因為AI圖像生成器的殺手級用例不是最終的印刷品。而是概念設計。是不會讓你感到尷尬的排版。是突破空白頁。我見過的最好的作品將AI與對懶散細節過敏的人工編輯配對。
局部重繪(Inpainting)、擴展繪圖(Outpainting)和控制的錯覺
工具喜歡銷售控制。現實情況是:局部重繪(inpainting)和擴展繪圖(outpainting)不太像是手術器械,更像是用手術刀進行的即興爵士樂。當你輕推時,它們會完美地工作:移除一盞燈,增加一個天空,延伸一個場景。它們對與場景邏輯相矛盾的結構性編輯感到緊張。訣竅是像電影攝影師一樣思考。保持連續性:角度、光線方向、比例。如果太陽在重繪過程中移動了30度,觀眾會感覺到,即使他們無法解釋原因。
負面提示仍然有用,但像所有負面空間一樣,少量使用時效果更好。「沒有多餘的手指」很好。一份「不要這個,不要那個」的清單會將生成器變成一個內疚的即興夥伴。告訴它要做什麼,而不僅僅是避免什麼。
法律現實:許可證和水印
這是每個人都假裝很無聊的部分,直到客戶要求提供來源。如果你正在製作商業作品,你需要清晰度:什麼是數據,什麼是許可證,如果有人投訴會發生什麼?與明確的庫存或企業許可證相關的模型將繼續贏得交易。不是因為它們是更好的藝術家,而是因為它們附帶文書工作。另一部分是出處——密碼學內容憑證、水印,所有這些字母湯。它們不會阻止壞人。它們將幫助誠實的團隊證明真相。
對於個人創作者來說,務實的途徑更簡單:保留你的圖層、保留你的種子、保留你的提示。記錄你的過程。這並不迷人,但這是你的不在場證明。
工作流程:AI圖像生成器實際上適合在哪裡
- 集思廣益:在15分鐘內快速完成20個方向,並毫不留情地淘汰其中的18個。
- 變體:a/b測試調色板、姿勢、環境,無需重新拍攝。
- 後期技巧:重繪你在片場忘記的元素,延伸框架,修復雜散的反射。
注意缺少了什麼:「最終主視覺」和「可直接用於生產的排版」。有些團隊可以通過足夠的迭代和人工潤色來實現這一目標。大多數人不應該僅僅因為第一次通過看起來很光鮮而試圖跳過步驟。
如何真正擅長AI圖像生成
- 從簡單開始。名詞、動詞、背景。獲得一個體面的基礎。
- 當你喜歡一個方向時,鎖定種子。然後迭代:相機、鏡頭、光線、一天中的時間。
- 保留一個小的個人風格手冊:10個你欣賞的參考文獻。在提示中提及它們,但不要指名道姓。
- 像專業人士一樣使用圖像到圖像:粗略草圖,塊狀構圖,然後讓模型添加漂亮的東西。
- 學會裁剪。構圖是成功的一半,裁剪工具仍然是無可匹敵的。
- 後期處理。曲線、顆粒、微妙的光暈、實際類型。最後百分之五很重要。
開放性問題:這是「藝術」嗎?
當然它可以是。當然,它也常常不是。有用的鏡頭是作者身份。如果你可以描述、重現和發展你的過程——如果你的選擇有一條貫穿始終的線索——那麼你就是在進行創作。如果你正在使用老虎機,直到你得到一些很酷且不可重複的東西,這對於海報和氛圍來說很好,但不要假裝它是同一件事。
我不能忽視的行業自命不凡
有一種AI推動者的觀點,本質上是說,模型是藝術家,而你只是幸運地在那裡。這是倒退的。該模型是一台擁有10,000個鏡頭和一百萬種情緒的相機。相機不拍照。人會拍照。更好的比喻是樂器。把一架Steinway放在我的客廳裡;它不會創作奏鳴曲。但是,它會讓一位稱職的鋼琴家聽起來很棒,讓一位偉大的鋼琴家聽起來超凡脫俗。糟糕的提示聽起來像糟糕的練習。
另一方面,認為AI是「作弊」的純粹主義路線忽略了更長遠的歷史。攝影是作弊。數字繪畫是作弊。撤銷是作弊。真正的作弊碼是以思考的速度進行迭代。如果你願意思考。
關於工具,沒有炒作
- Midjourney 用於氛圍和風格。在電影照明方面表現出色。在旋鈕和錶盤中仍然非常不透明。接受它的脾氣,它會獎勵你。
- DALL·E 3 用於字面指令遵循和構圖健全性。當客戶像會議記錄一樣編寫提示時,效果很好。
- Stable Diffusion 風格 (SDXL, SD3.x) 適用於控制狂和修補匠。如果你喜歡模型版本、LoRA 和本地設備,這就是你的遊樂場。
- Firefly 適用於像關心散景一樣關心賠償的團隊。
如果你的工作是製作人們願意付費的圖像,那麼正確的答案通常是「使用多個」。風格來自一個,排版和佈局來自其他地方,清理在任何你最快的地方進行。工具一夫一妻制是一種氛圍,而不是一種工作流程。
幫助你思考而不僅僅是生成的工具被低估了。如果你正在處理研究、參考文獻、視覺迭代和提示,那麼擁有一個可以組織你的大腦的助手比另一個「看,再次超分辨率」功能更有幫助。生成器很吵鬧。工作流程很安靜。安靜的勝利往往多於失敗。
節省時間的最佳實踐
- 建立一個提示庫。不是 500 個提示;15 個好的提示,並附有關於它們何時工作的說明。
- 清楚地命名你的輸出。未來的你是一個合作者。不要粗魯。
- 在開始大量編輯之前,始終導出乾淨的底圖。你會想回溯。
- 在分支中迭代。當一個想法分裂時,複製文件並雙向進行。
未來:更少的旋鈕,更多的判斷
隨著模型的改進,最好的模型會感覺更簡單——不是因為它們失去了能力,而是因為它們更擅長尊重意圖。獲勝的UI不是充滿撥動開關的駕駛艙。它是一個安靜的畫布,上面只有少數有意義的選擇和強大的默認設置。其餘的是品味。品味無法擴展。這就是重點。
一個告別的爭論(或兩個)
如果你因為你認為它們會將人們從過程中移除而對AI圖像感到興奮,請準備好失望然後感到寬慰。該技術不斷變得更好。結果越來越依賴於知道自己在做什麼的人。這不是一個矛盾。這就是模式。
相反,如果你認為AI圖像生成器只是花哨的剪貼畫,請繼續關注。當每個人都在網上爭論時,「玩具」和「工具」之間的差距悄然關閉。這些模型不需要你崇拜它們。它們只需要你有意地使用它們。其餘的是練習。
那條恐怖谷呢?它正在縮小。緩慢地、煩人地、不可避免地。但即使它消失了,真正的工作也將與過去一樣:決定你想說什麼,然後讓每個像素都說出來。
常見問題解答
Q1:AI圖像生成器現在實際上最擅長什麼?
概念設計和迭代。AI圖像生成器可以擊潰空白頁面,探索風格,並快速生成可用的排版——特別是當你將排版和最終潤色保持在人工手中時。
Q2:AI圖像生成器是否足以用於商業工作?
是的,如果你關心流程和許可證。使用AI圖像生成器進行探索和基本渲染,然後使用正確的類型、修飾和不會讓法律部門感到不安的工具鏈完成。
Q3:我應該選擇哪個AI圖像生成器來獲得逼真的結果?
選擇符合你品味的工具:Midjourney 用於電影氛圍,DALL·E 3 用於忠實地遵循指示,以及如果你想要精細控制,則選擇 Stable Diffusion 變體。AI圖像生成器並非可以互換;它們具有不同的先驗。
Q4:為什麼文本在AI生成的圖像中仍然看起來很奇怪?
因為排版是不可原諒的,並且模型仍然將字母視為紋理形狀。AI圖像生成器正在改進,但對於標題和品牌類型,真正的佈局工具中的真實字體仍然獲勝。
Q5:我如何為AI圖像生成器編寫更好的提示?
編寫一份簡報,而不是一個咒語。具體說明主題、光照、構圖和約束;當方向有效時鎖定種子;並通過小的、有意的更改而不是堆砌形容詞來迭代。