我的筆記型電腦嘗試創作熱門歌曲的那一天
幾個月前,我做了一件任何理性的成年人在面對迫在眉睫的截止日期和一塵不染的廚房時都會做的事情:我要求我的電腦為我寫一首朗朗上口的配樂。並不是因為我懶惰(好吧,有一點),而是因為音樂 AI 工具聲稱它們可以比你說出「免版稅」的速度更快地吐出旋律。
哇——真是個馬戲團。一個工具用假的 Billie Eilish 風格的英語唱出了一首令人信服的 90 年代 power ballad。另一個工具給了我一個輕快的爵士四重奏,用於關於雲端儲存的投影片組。第三個工具產生了一些聽起來非常像我孩子在喝了三杯 Capri Suns 後的直笛演奏會的東西。
因此,如果您聽說過 OpenAI 的 Jukebox 和 MuseNet——以及不斷擴大的音樂 AI 工具動物園——您可能想知道:您實際上應該使用哪一個?用於您的 podcast 片頭?您的 TikTok 舞蹈?您的電影配樂?您的理智?
讓我們用簡單易懂的語言來了解一下音樂 AI 的概況,在這裡,承諾很大,差異很重要,而正確的選擇幾乎完全取決於您想做什麼。
音樂 AI 工具到底是什麼?
將音樂 AI 想像成不同種類的廚師:
- 有些是詞曲作者,他們試圖以特定藝術家或時代的風格創作新曲調。他們炮製出人聲、歌詞和樂器——就像一個永不休眠的「翻唱樂隊」。
- 有些是樂器作曲家,他們產生 MIDI——你知道的,電腦的樂譜——可以用您選擇的任何樂器聲音播放。
- 另一些是編曲家和混音師:給他們一個旋律或情緒,他們會充實它。
- 然後還有母帶處理和輔助工具——潤色者,而不是廚師——他們採用您現有的音軌並使其達到廣播(或 TikTok)就緒的狀態。
OpenAI 的 Jukebox 和 MuseNet 位於前兩個陣營中。Jukebox 旨在生成完整的音訊——包括人聲——以可識別的藝術家和流派的風格。MuseNet 將樂器作品創作為 MIDI,能夠組合怪異而令人愉悅的配對(如 country + Chopin),您可以使用您喜歡的任何樂器聲音來渲染。
您想要哪一個取決於您的任務。
快速秘訣:Jukebox vs. MuseNet
- OpenAI 的 Jukebox:音訊輸出(帶有合成人聲)、藝術家風格生成、處理時間長、研究/演示氛圍,更適合創意探索和新奇的「聽起來像」的聲音,不適合生產就緒的一致性。
- OpenAI 的 MuseNet:MIDI 作曲、迭代速度更快、樂器靈活性強,非常適合背景音樂、配樂和提示音;需要您(或 DAW)來塑造最終聲音。
如果您的目標是「我需要在午餐前製作出一首精美的免版稅音軌」,您可能需要超越這兩個工具,尋找更注重現代生產的工具,這些工具強調速度、許可清晰度和控制。
如何選擇合適的音樂 AI 工具(而不會浪費您的週末)
從最終目標開始。回答三個問題:
- 如果您想要人聲——歌詞、歌唱——Jukebox 風格的產生器可以激發靈感,但輸出可能模糊、風格化且時好時壞。對於生產就緒的人聲,您可能需要真人或混合流程(AI 歌詞 + 真人歌手)。
- 如果您想要樂器背景、片頭和提示音,MuseNet 風格的 MIDI 或現代音訊產生器會更快、更乾淨且更易於控制。
- 如果您關心速度、調性、結構和樂器選擇,請選擇基於 MIDI 的工具(MuseNet 的流派混合表親)或具有詳細提示和部分的音訊工具。MIDI 允許您在 Logic、Ableton 或 GarageBand 等 DAW 中調整音符。
- 如果您想要「給我驚喜,讓它充滿情調」,音訊產生器快速而有趣——但不太可編輯。
- 對於 YouTube、podcast 或商業專案,請確保該工具提供清晰的免版稅許可。「研究演示」可能會產生風格的輸出,這些輸出會危險地接近受版權保護的指紋。如果一個工具很模糊,請假設您需要諮詢律師或選擇一個明確說明使用權的服務。
請隨時提供這些答案;它們會引導您到正確的領域。
OpenAI 的 Jukebox:大膽的音訊實驗
Jukebox 就像要求 AI 為您夢想一個樂隊。您給它一個流派、一個時代,也許是一個假裝的藝術家影響,它會產生完整的音訊,包括人聲。聽起來令人印象深刻——有時確實如此。您會聽到令人信服的和聲結構、熟悉的節奏特徵和「唱」的音節,這些音節與清晰的歌詞調情。
但這是細則:
- 它很慢。產生高品質的音訊並不是速溶咖啡。預計會有很長的等待時間和大量的差異。
- 它是風格化的,並不精確。如果您想要「聽起來有點像 X」,您可能會最終得到「X 的遠房表親,他搬到了冰島並迷上了環境音樂」。
- 編輯很困難。您無法輕易地在輸出中移動音符;它是音訊湯。您使用部分和再生,而不是精確的外科手術編輯。
當真人音樂家仍然獲勝時(劇透:通常)
OpenAI 的 MuseNet:MIDI 優先的作曲機器
MuseNet 說的是作曲的語言:音符、和弦、節奏、結構——以 MIDI 的形式輸出,您可以在 DAW 中重新排列。想像一下一個勤奮的學生,他可以用「電影小調」寫出一首 60 秒的鋼琴曲,您稍後可以用虛擬樂器將其變成弦樂、合成器或卡祖笛。
優點:
- 它是可編輯的。更改調性、輕推旋律、交換樂器——MIDI 適合修補。
- 迭代速度很快。您可以試聽幾個變體,然後潤色最好的那個。
- 它對於背景使用是安全的。MuseNet 風格的輸出更像是「通用的原創」,而不是「這聽起來很像那首特定的熱門歌曲」,這有助於許可和原創性。
缺點:
- 沒有人聲。如果您需要歌詞和歌唱,您將需要單獨的工具(用於文本到歌詞)和真人或 AI 人聲合成工作流程。
- 有時是香草味。如果沒有仔細的提示和編曲,您可能會得到聽起來……還不錯的音樂。一碗米色。
最適合:背景音樂、企業視訊、podcast 背景、投影片組配樂,以及任何您想要控制和可編輯性,而無需完整音訊生成的混亂。
其他值得了解的音樂 AI 工具(以及它們的適用範圍)
變化速度比發現 espresso 的鼓手還快,但類別保持一致:
- 具有強大控制的音訊產生器:這些產生器從文本提示創建完成的音訊軌道,有時帶有 stem(單獨的鼓/貝斯/旋律軌道),因此您可以混音。當您今天需要一些可用的東西並且不想要 MIDI 時,這非常棒。
- MIDI 和作曲助手:它們構建您可以編輯的旋律、和弦進行和編曲。對於想要留在 DAW 舒適區的人來說,這非常棒。
- 母帶處理和潤色器:它們採用您的音軌(AI 生成或人工製作)並修復電平、EQ 和響度以獲得專業的光澤。
- 聲音設計/取樣器工具:不太關注完整的歌曲,更關注紋理、循環和效果。
在「其他音樂 AI 工具」中進行選擇時,請注意:
- 提示清晰度:您可以指定速度、調性、流派混合、情緒、強度嗎?
- 匯出選項:音訊 stem、MIDI 檔案、DAW 整合。
- 許可清晰度:輸出是否可免版稅用於商業用途?是否有署名要求?
- 速度和一致性:該工具是否使用相似的提示產生相似的結果?還是輪盤賭?
如何編寫不會混淆機器人的提示
音樂 AI 很挑剔。它不會讀懂你的心思;它會讀懂你的形容詞。像導演一樣思考。
為音訊產生器試試這個提示框架:
- 流派 + 時代:「令人振奮的合成流行音樂,2010 年代早期」
- 結構:「30 秒,片頭 + 建立 + 簡短的 hook」
- 樂器傾向:「活潑的合成器主音、緊密的底鼓、側鏈貝斯」
對於 MIDI 優先的工具:
- 流派混合:「lo-fi hip-hop 遇上弦樂四重奏」
當您含糊不清時會發生什麼?您會變得含糊不清。「創作酷炫的音樂」往往會產生商店品牌的格蘭諾拉麥片般的音訊等價物:還不錯,但您會在午餐前忘記它。
實踐演示:為五個真實場景選擇合適的工具
讓我們來做媒。
- 您需要一個 15 秒的標誌音效,用於 YouTube 頻道。
- 選擇:MIDI 優先的作曲。為什麼?您想要一些緊湊、品牌化且可循環的東西。生成三個變體,將最好的那個放入 DAW,交換樂器,直到它符合您頻道的氛圍,然後匯出。
- 提示:將其保持在一個調性中,簡單的旋律,節奏性的 hook。然後保存 stem 以供將來的變體使用。
- 您想要一個 3 分鐘 podcast 片段的樂器背景。
- 選擇:具有清晰「背景」提示(沒有人聲)的音訊產生器。為什麼?速度和一致性很重要;您不希望在您的嚴肅採訪中出現令人驚訝的卡祖笛獨奏。
- 提示:要求「低對比度編曲」並避免擁擠的中頻——聲音就在那裡。
- 選擇:用於主題的 MIDI 優先工具 + 用於紋理的音訊產生器。為什麼?主題需要可編輯性以匹配圖片;紋理可以與環境音訊分層。
- 提示:在 MIDI 中構建主旋律,匯出 stem,並在需要的地方灑上音訊生成的氣氛。
- 選擇:用於實驗的 Jukebox 風格的音訊生成,然後(如果發布)替換為原始人聲或會話歌手,以避免許可方面的麻煩。
- 提示:使用 AI 製作旋律和氛圍的原型。如果您需要乾淨的法律界限,請不要按原樣發布風格的人聲。
- 您經營一家小企業,並且昨天就需要用於廣告的免版稅音樂。
- 選擇:具有清晰許可 + stem 匯出的以生產為中心的音訊產生器。
- 提示:保持提示具體到速度和情緒,測試兩到三個變體,並將您的最愛保存在目錄中。
生成後清單:將 AI 噪音變成真正的音樂
即使是好的 AI 輸出也可能聽起來像沒吃早餐一樣。這是一個快速潤色程序:
- 修剪和結構:剪切最好的 30–60 秒。排列片頭、建立、hook 和一個按鈕結尾。
- 均衡器雜亂:如果是背景,請輕輕地取出 2–4 kHz,為語音騰出空間。
- 控制低音:馴服 60–120 Hz 左右的轟鳴聲,這樣它就不會弄髒您的混音。
- 檢查單聲道相容性:您聽眾的藍牙揚聲器不是杜比全景聲舞台。
對於 MIDI 輸出:
- 選擇更好的樂器庫:預設的「通用 MIDI 鋼琴」聽起來像您牙醫的候診室。
- 人性化計時和力度:稍微改變音符長度和音量。否則,您會得到機器人演奏會的氛圍。
沒有人警告您的陷阱(直到您發布到 YouTube)
- 怪異的風格區域:「聽起來像 X」可能會變成「太像 X」。如果您的專案是公開的或商業的,請避免過於具體的藝術家模仿。
- 音量蔓延:AI 音訊產生器喜歡響亮的母帶。將響度與您的平台匹配,這樣您就不會轟炸聽眾。
- 循環接縫:短 AI 音軌有時會有可聽見的循環點擊聲。交叉淡化您的結尾。
- 過度提示:十五個形容詞會混淆模型。選擇五個重要的形容詞。
這是一個驚喜:Sider.AI 可以幫助處理音樂周圍的部分。起草您的提示想法,迭代流派描述,甚至生成與您的音軌的情緒相匹配的短劇本或視訊大綱。將其視為持有剪貼板的助手,它可以讓您的創作過程保持流暢。它不會取代您的 DAW,但如果您告訴它,「為音訊產生器編寫三個 30 秒的『令人振奮的科技』提示的變體,每個變體都帶有速度和結構」,它會吐出可用的選項,您可以將其直接貼到您的音樂工具中。很方便。 如何通過 30 分鐘的烘焙比賽比較工具
如果您在 Jukebox、MuseNet 和其他音樂 AI 工具之間左右為難,請運行定時測試:
- 定義一個簡短的:「兩個 30 秒的樂器提示音,一個是快節奏的(120 BPM),一個是有情緒的(80 BPM)。」
- 對每個工具進行評分:速度、控制(您可以修復一個刺耳的音符嗎?)、輸出品質、許可清晰度以及 stem/MIDI 匯出。
您在 30 分鐘的動手戳刺中學到的東西比在 3 小時的閱讀功能列表中學到的東西還要多。
編輯 vs. 生成:知道您生活在哪個世界
MuseNet 世界的人喜歡編輯。他們想要可以像粘土一樣雕刻的 MIDI。Jukebox 世界的人喜歡發現。他們想要讓他們驚訝的音訊。
如果您沒有 DAW 或不喜歡時間線和鋼琴卷,請傾向於使用具有良好 stem 匯出的音訊產生器。如果您在 Logic 或 Ableton 中感到舒適,MIDI 優先的工具會讓您感到賓至如歸。
您可以竊取的提示配方
- 企業解說背景:「溫暖的獨立電子音樂,110 BPM,輕柔的活潑合成器主音,不斷演變的 pads,沒有人聲,低對比度的混音,用於旁白,45 秒,按鈕結尾。」
- 電影張力提示:「黑暗的管弦樂混合,70 BPM,A 小調,頑固的弦樂,遙遠的太鼓敲擊聲,稀疏的鋼琴主題,30 秒,建立 + 刺痛聲。」
- Lo-fi 學習循環:「Lo-fi hip-hop,85 BPM,乙烯基爆裂聲,柔和的 Rhodes,刷式小軍鼓,16 小節循環,輕鬆的搖擺。」
- 復古遊戲 chiptune:「8 位 chiptune,140 BPM,歡快的琶音,方波主音,簡單的三和弦,8 小節,可循環。」
複製、貼上、調整,然後您就可以開始了。
AI 非常適合速度、多樣性和佔位符提示。真人非常適合細微差別、情感和匹配精確的圖片編輯。如果您的專案風險很高——電影節、品牌發布——請考慮混合工作流程:使用 AI 來探索想法,然後將接力棒交給作曲家(或您,您才華橫溢的人)來磨練最終音軌。
好消息是:MIDI 優先的工具使交接順利。帶有 stem 的音訊產生器也有幫助。
故障排除側欄:幫助,我的 AI 音軌聽起來像燕麥片
- 它很糊狀:增加節奏清晰度。要求「清晰的底鼓模式」或「切分音的踩镲」,並將 BPM 提高 10。
- 它很刺耳:降低高端 EQ;要求「柔和的高頻輪廓」或減少亮度形容詞。
- 它很忙:要求「最小的編曲」或「兩種樂器的紋理」(pads + 貝斯)。削減中頻。
- 它很無聊:添加一個 hook——每 8 小節重複的短旋律。要求「令人難忘的主題」。
- 它沒有平滑地循環:要求「可循環的結尾」,並在 DAW 中的循環點添加 10–20 ms 交叉淡化。
MuseNet vs. Jukebox vs. 其他音樂 AI 工具:真實世界的判決
- 如果您想要可編輯的作曲,請選擇 MuseNet 風格的 MIDI。它是您執行背景任務和靈活配樂的最佳朋友。
- 如果您想要怪異、風格化的音訊探索(包括合成人聲),請使用 Jukebox——但將其視為草圖本,而不是工廠。
- 如果您需要快速的製作音軌和清晰的許可,現代音訊產生器與 stem 匯出在實用性方面勝過兩者。
- 為了潤色,將您的最終作品丟到母帶處理工具或真人工程師手中。
正確的選擇取決於您的專案、您對編輯的胃口以及您的截止日期。一如既往:測試、調整、相信您的耳朵。
最後一件事…
這是沒有人談論的魔術技巧:當您描述故事而不僅僅是聲音時,會獲得最佳結果。「為創始人講述一個關於混亂原型並最終成功的充滿希望的故事的音樂」比「令人振奮的樂器」產生更好的氛圍。描繪場景,AI 會回饋。
有了這個,拿起你的提示,啟動你選擇的音樂 AI,看看你的筆記型電腦會創作什麼。最壞的情況是,你會得到一些愚蠢的東西並學到很多東西。最好的情況是,你的下一個視訊、podcast 或專案會獲得令人驚訝的你的配樂。
快速參考:在 OpenAI 的 Jukebox、MuseNet 和其他音樂 AI 工具之間進行選擇
- 在以下情況下選擇 Jukebox:您需要風格化的音訊實驗、合成人聲,並且您可以接受不可預測性。
- 當你需要可編輯的 MIDI、清晰的結構和彈性的樂器配置時,請選擇 MuseNet。
- 當你需要速度、音軌匯出和明確的商業授權時,請選擇以製作為中心的音訊工具。
現在開始製造一些聲音吧——要有計劃。
常見問題解答
Q1:我該如何在 Jukebox 和 MuseNet 之間選擇用於背景音樂?
對於背景音樂,MuseNet 風格的 MIDI 工具通常勝出,因為你可以編輯速度、調性和樂器。Jukebox 更適合風格化的音訊實驗,但其輸出結果更難以調整,使其適用於配音友好的混音。
Q2:我是否可以在沒有法律問題的情況下,將 AI 生成的音樂用於商業用途?
可以——如果音樂 AI 工具提供明確的、免版稅的商業用途授權。在公開發布中,避免使用來自 Jukebox 類似模型的“風格化”人聲,並首選具有明確授權條款和音軌/MIDI 匯出的製作工具。
Q3:音樂 AI 工具的最佳提示格式是什麼?
具體說明:類型 + 年代、速度 (BPM)、調性、結構、情緒和樂器配置。對於像 MuseNet 這樣的 MIDI 產生器,添加小節長度、拍號和複雜度,以獲得可循環、可編輯的結果。
Q4:我該如何使 AI 音樂在對話下不產生衝突?
要求低對比度的編曲,並避免擁擠的中頻;然後在 2–4 kHz 附近進行輕微的 EQ 衰減。使用輕壓縮保持動態平滑,並在小型揚聲器上測試混音,以模擬真實世界的聆聽體驗。
Q5:在使用音樂 AI 工具時,Sider.AI 有用嗎?
它對於製作和迭代符合你的音軌情緒的提示、腳本和創意簡報非常有用。將 Sider.AI 視為一個規劃助手,它可以幫助你從 Jukebox、MuseNet 或任何其他音樂 AI 中獲得更好的輸出結果。