私のラップトップがヒット曲を作ろうとした日
数か月前、私は差し迫った締め切りと完璧に片付いたキッチンに直面したときに、良識ある大人なら誰でもやるであろうことをしました。それは、私のコンピューターにキャッチーなサウンドトラックを作ってくれるように頼んだのです。怠け者だからというわけではありません(まあ、少しはそうですが)。音楽AIツールは、「著作権フリー」と言うよりも早くメロディーを吐き出せると豪語しているからです。
そして、なんとまあ、お祭り騒ぎでしょう。あるツールは、偽物のビリー・アイリッシュ風の英語で、説得力のある90年代のパワーバラードを歌い上げました。別のツールは、クラウドストレージに関するスライドデッキのために、軽快なジャズカルテットを作ってくれました。3番目のツールは、3つのカプリサンを飲んだ後の子供のリコーダー発表会に酷似したものを生成しました。
もしあなたがOpenAIのJukeboxとMuseNet、そして拡大し続ける音楽AIツールの動物園について聞いたことがあるなら、こう思っているかもしれません。実際にはどれを使うべきなのか?あなたのポッドキャストのイントロに?あなたのTikTokダンスに?あなたの映画音楽に?あなたの正気のために?
音楽AIの世界をわかりやすく解説し、その約束は大きく、違いは重要であり、適切な選択はほとんど完全にあなたが何をしようとしているかに依存します。
音楽AIツールとは一体何なのか?
音楽AIをさまざまな種類のシェフのように考えてください。
- 特定のアーティストや時代のスタイルで新しい曲を作曲しようとするソングライターのような人もいます。彼らはボーカル、歌詞、楽器編成を即座に作り上げます。それはまるで、決して眠らない「カバーバンド」のようです。
- MIDIを生成するインストゥルメンタル作曲家もいます。ご存知のように、MIDIとはコンピューター用の楽譜のことで、好きな楽器の音で再生できます。
- 編曲家やリミキサーもいます。彼らにメロディーやムードを与えれば、それを肉付けしてくれます。
- そして、既存のトラックをラジオ(またはTikTok)対応にする、マスタリングおよびアシスティブツール、つまり磨き屋(シェフではありません)があります。
OpenAIのJukeboxとMuseNetは、最初の2つのグループに属します。Jukeboxは、認識可能なアーティストやジャンルのスタイルで、ボーカルを含む本格的なオーディオを生成することを目指しています。MuseNetは、インストゥルメンタルの楽曲をMIDIとして作曲し、奇妙に楽しい組み合わせ(例えば、カントリー+ショパン)を可能にし、好きな楽器の音でレンダリングできます。
どちらを使うかは、あなたの目的に応じて異なります。
早見表:Jukebox vs. MuseNet
- OpenAIのJukebox:オーディオ出力(合成ボーカル付き)、アーティスト風の生成、長い処理時間、研究/デモの雰囲気、創造的な探求や目新しい「サウンドアライク」に適しており、制作準備が整った一貫性はありません。
- OpenAIのMuseNet:MIDI作曲、より速い反復、柔軟な楽器編成、バックグラウンドミュージック、スコア、キューに最適。最終的なサウンドを形作るには、あなた(またはDAW)が必要です。
もしあなたの目標が「昼食までに、洗練された著作権フリーのトラックが必要だ」というのであれば、それらの2つを超えて、スピード、ライセンスの明確さ、コントロールを重視する現代的な制作中心のツールを探したいと思うかもしれません。しかし、それについては後ほど説明します。
適切な音楽AIツールを選ぶ方法(週末を無駄にしないために)
最終的な目標から始めましょう。3つの質問に答えてください。
- ボーカル付きのオーディオが必要ですか、それともインストゥルメンタルのみが必要ですか?
- もしボーカル(歌詞、歌)が必要な場合、Jukeboxスタイルのジェネレーターはインスピレーションを得るには楽しいかもしれませんが、出力は曖昧で、様式化されており、当たり外れがあります。制作準備が整ったボーカルには、おそらく人間またはハイブリッドプロセス(AI歌詞+人間の歌手)が必要になるでしょう。
- インストゥルメンタルの土台、イントロ、キューが必要な場合は、MuseNetスタイルのMIDIまたは現代的なオーディオジェネレーターの方が、より速く、クリーンで、制御可能です。
- もしテンポ、キー、構成、楽器の選択にこだわりたいのであれば、MIDIベースのツール(MuseNetのジャンルブレンドの仲間)または詳細なプロンプトとセクションを持つオーディオツールを選んでください。MIDIを使えば、Logic、Ableton、GarageBandなどのDAWで音符を調整できます。
- もし「驚かせて、ムーディーにして」というのであれば、オーディオジェネレーターは速くて楽しいですが、編集性は低いです。
- YouTube、ポッドキャスト、または商業プロジェクトの場合、ツールが明確な著作権フリーのライセンスを提供していることを確認してください。「研究デモ」は、著作権で保護された指紋に危険なほど近いスタイルの出力を生成する可能性があります。もしツールが曖昧な場合は、弁護士に確認するか、使用権を明確に定めているサービスを選ぶ必要があると考えてください。
これらの答えを手元に置いておいてください。それらはあなたを適切な場所に導いてくれるでしょう。
OpenAIのJukebox:大胆なオーディオ実験
Jukeboxは、AIにバンドを夢見てもらうようなものです。ジャンル、時代、あるいは架空のアーティストの影響を与えると、フルオーディオ(ボーカルを含む)をスピンアウトします。印象的に聞こえるかもしれませんし、実際そうであることもあります。説得力のあるハーモニー構造、おなじみのリズムの署名、そして理解可能な歌詞と調和する「歌われた」音節を聞くことができます。
しかし、ここに注意点があります。
- 遅いのです。高品質のオーディオ生成はインスタントコーヒーではありません。長い待ち時間と多くのばらつきを予想してください。
- 正確ではなく、様式的なのです。「Xのようなサウンド」を目指している場合、「アイスランドに移住してアンビエントにハマったXの遠い親戚」で終わる可能性があります。
- 編集は難しいです。出力内の音符を簡単に移動することはできません。それはオーディオスープです。正確な外科的編集ではなく、セクションと再生成を扱います。
最適な用途:ワイルドなアイデア出し、ムード作品、そして「もし合成された歌手が私の製品プレゼンを歌ったらどうなるか」という実験的な探求。予測可能で厳密に管理されたキューが木曜日までに必要な場合には理想的ではありません。
OpenAIのMuseNet:MIDIファーストの作曲マシン
MuseNetは、音符、コード、リズム、構成という作曲の言語を話します。それらはDAWで再配置できるMIDIとして吐き出されます。「映画のような短調」で60秒のピアノ曲を書くことができる勤勉な学生を想像してみてください。それを後で、仮想楽器を使ってストリングス、シンセ、またはカズーに変えることができます。
利点:
- 編集可能です。キーを変更したり、メロディーを微調整したり、楽器を交換したりできます。MIDIは調整しやすいです。
- 反復が速いです。いくつかのバリエーションを試聴し、最適なものを磨くことができます。
- バックグラウンドでの使用に安全です。MuseNetスタイルの出力は、「特定のヒット曲のように聞こえる」というよりも「一般的なオリジナル」であるため、ライセンスとオリジナリティに役立ちます。
短所:
- ボーカルはありません。歌詞や歌が必要な場合は、別のツール(テキストから歌詞へ)と、人間またはAIボーカル合成ワークフローが必要になります。
- 時にはバニラのようです。慎重なプロンプトとアレンジがなければ、音楽は…まあまあに聞こえるかもしれません。ベージュ色のボウルのように。
最適な用途:バックグラウンドミュージック、企業ビデオ、ポッドキャストの土台、スライドデッキのサウンドトラック、そしてフルオーディオ生成の混乱なしにコントロールと編集性を求めるあらゆるもの。
知っておく価値のある他の音楽AIツール(とその適合場所)
状況はエスプレッソを発見したドラマーよりも速く変化しますが、カテゴリは一貫しています。
- 強力なコントロールを備えたオーディオジェネレーター:これらはテキストプロンプトから完成したオーディオトラックを作成し、リミックスできるようにステム(ドラム/ベース/メロディの個別のトラック)が含まれることもあります。今日使えるものが必要で、MIDIを必要としない場合に最適です。
- MIDIおよび作曲アシスタント:メロディー、コード進行、および編集できるアレンジメントを構築します。DAWの快適なゾーンにとどまりたい人に最適です。
- マスタリングおよびポリッシャー:AI生成または人間製のトラックを取り、レベル、EQ、およびラウドネスを修正して、プロフェッショナルな光沢を与えます。
- サウンドデザイン/サンプラーツール:フルソングというよりも、テクスチャ、ループ、およびエフェクトに関するものです。
「他の音楽AIツール」の中から選択する際には、以下を探してください。
- プロンプトの明確さ:テンポ、キー、ジャンルのミックス、ムード、強度を指定できますか?
- エクスポートオプション:オーディオステム、MIDIファイル、DAW統合。
- ライセンスの明確さ:出力は商用利用のために著作権フリーですか?帰属要件はありますか?
- スピードと一貫性:ツールは同様のプロンプトで同様の結果を生成しますか?それともルーレットですか?
ボットを混乱させないプロンプトの書き方
音楽AIは気難しいです。あなたの心を読みません。形容詞を読みます。ディレクターのように考えてください。
オーディオジェネレーターには、このプロンプトの骨格を試してください。
- ジャンル+時代:「高揚感のあるシンセポップ、2010年代初頭」
- ムードと用途:「暖かく、楽観的、企業向け説明ビデオのバックグラウンド」
- 楽器の傾向:「 pluckシンセリード、タイトなキック、サイドチェーンベース」
そして、MIDIファーストのツールの場合:
- 複雑さ:「シンプルなメロディー、三和音コード、時折通過音」
- ダイナミクス:「最後の4小節で穏やかなクレッシェンド」
- ジャンルのブレンド:「ローファイヒップホップ meets ストリングカルテット」
曖昧にするとどうなりますか?曖昧になります。「クールな音楽を作って」と言うと、店舗ブランドのグラノーラのようなオーディオが生成されがちです。悪くはありませんが、昼食までに忘れてしまうでしょう。
ハンズオンデモ:5つの実際のシナリオに適切なツールを選ぶ
お見合いをしましょう。
- YouTubeチャンネルの15秒のロゴスティンガーが必要です。
- 選択:MIDIファーストの作曲。理由:タイトで、ブランド化され、ループ可能なものが必要だからです。3つのバリエーションを生成し、最適なものをDAWにドロップし、チャンネルの雰囲気に合うまで楽器を交換して、エクスポートします。
- ヒント:1つのキー、シンプルなメロディー、リズミカルなフックに保ちます。次に、将来のバリエーションのためにステムを保存します。
- 3分間のポッドキャストセグメントのインストゥルメンタルベッドが必要です。
- 選択:明確な「バックグラウンド」プロンプト(ボーカルなし)を備えたオーディオジェネレーター。理由:スピードと一貫性が重要です。深刻なインタビュー中にカズーのソロがサプライズで入ってくるのは嫌でしょう。
- ヒント:「低コントラストのアレンジメント」を要求し、混雑したミッドレンジを避けてください。声はそこに存在します。
- ムーディーで進化するスコアの短編映画を作っています。
- 選択:テーマにはMIDIファーストのツール+テクスチャにはオーディオジェネレーター。理由:テーマは映像に合わせて編集可能である必要があります。テクスチャはアンビエントオーディオとレイヤー化できます。
- ヒント:MIDIでライトモチーフを構築し、ステムをエクスポートし、必要に応じてオーディオ生成された雰囲気を取り入れます。
- 風刺のために「スタイル風」のポップボーカルトラックが必要です。
- 選択:実験にはJukeboxスタイルのオーディオ生成を使用し、(公開する場合は)ライセンスの問題を避けるために、オリジナルのボーカルまたはセッションシンガーと置き換えます。
- ヒント:AIを使用してメロディーと雰囲気をプロトタイプ化します。明確な法的線を必要とする場合は、スタイル風のボーカルをそのまま出荷しないでください。
- 中小企業を経営しており、広告用の著作権フリーの音楽が昨日必要です。
- 選択:明確なライセンス+ステムエクスポートを備えた制作に重点を置いたオーディオジェネレーター。
- ヒント:プロンプトをテンポとムードに具体的に保ち、2つまたは3つのバリエーションをテストし、お気に入りをカタログに保存します。
生成後のチェックリスト:AIノイズを実際の音楽に変える
優れたAI出力であっても、朝食を抜いたように聞こえることがあります。ここに迅速な研磨ルーチンを示します。
- トリムと構成:最高の30〜60秒をカットします。イントロ、ビルド、フック、およびボタンエンディングを配置します。
- クラッターのEQ:バックグラウンドベッドの場合、音声のためのスペースを作るために、2〜4 kHzを優しく削ります。
- ローエンドを制御する:ミックスを濁らせないように、60〜120 Hz付近のブーミーさを抑えます。
- 少しコンプレッションを加える:ピークを滑らかにします。人生を押しつぶさないでください。
- モノラル互換性を確認する:オーディエンスのBluetoothスピーカーはドルビーアトモスステージではありません。
MIDI出力の場合:
- より良い楽器ライブラリを選択する:デフォルトの「一般的なMIDIピアノ」は、歯科医の待合室のように聞こえます。
- タイミングとベロシティを人間味あふれるものにする:音符の長さと音量をわずかに変えます。そうしないと、ロボット発表会の雰囲気が漂います。
- トランジションを追加する:スウェル、ライザー、およびドラムフィルは、音楽が呼吸するのに役立ちます。
誰も警告しない落とし穴(YouTubeに投稿するまで)
- 不気味なスタイルゾーン:「Xのように聞こえる」は「Xに似すぎる」になる可能性があります。プロジェクトが公開または商用の場合、過度に具体的なアーティストの模倣は避けてください。
- ボリュームの増加:AIオーディオジェネレーターは大きなマスターを好みます。リスナーを爆破しないように、プラットフォームにラウドネスを一致させます。
- ループシーム:短いAIトラックには、可聴ループクリックがある場合があります。端をクロスフェードします。
- オーバープロンプト:15個の形容詞はモデルを混乱させます。重要な5つを選択します。
Sider.AIの適合場所(あなたのフレンドリーな相棒)
驚くかもしれませんが、Sider.AIは音楽の周辺のパーツで役立ちます。プロンプトのアイデアを起草し、ジャンルの説明を反復し、トラックのムードに一致する短いスクリプトやビデオの概要を生成することもできます。クリエイティブなプロセスを動かし続けるクリップボードを持つアシスタントと考えてください。DAWに代わるものではありませんが、「オーディオジェネレーター用の30秒の「高揚するテクノロジー」プロンプトの3つのバリエーションを、テンポと構成を含めて作成して」と指示すると、音楽ツールに直接貼り付けることができる使用可能なオプションが出力されます。便利です。 30分間の焼き切りでツールを比較する方法
Jukebox、MuseNet、および他の音楽AIツールの間で迷っている場合は、時間制限付きのテストを実行します。
- 1つの簡単な概要を定義します:「2つの30秒のインストゥルメンタルキュー、1つはアップビート(120 BPM)、もう1つはムーディー(80 BPM)」。
- スピード、コントロール(酸っぱい音符を修正できますか?)、出力品質、ライセンスの明確さ、およびステム/ MIDIエクスポートについてそれぞれスコアを付けます。
機能リストを読むのに3時間かけるよりも、30分間のハンズオンポークでより多くのことを学びます。
編集 vs. 生成:自分がどの世界に住んでいるかを知る
MuseNetの世界の人々は編集が大好きです。彼らは粘土のように彫刻できるMIDIを求めています。Jukeboxの世界の人々は発見が大好きです。彼らは自分を驚かせるオーディオを求めています。
DAWを所有していない場合、またはタイムラインやピアノロールが好きではない場合は、優れたステムエクスポートを備えたオーディオジェネレーターに傾倒してください。LogicまたはAbletonに慣れている場合は、MIDIファーストのツールが自宅のように感じられるでしょう。
盗むことができるプロンプトレシピ
- 企業向け説明ベッド:「暖かいインディーエレクトロニカ、110 BPM、穏やかな pluckシンセリード、進化するパッド、ボーカルなし、ボイスオーバー用の低コントラストミックス、45秒、ボタンエンディング」。
- 映画のような緊張キュー:「暗いオーケストラハイブリッド、70 BPM、イ短調、オスティナートストリングス、遠い太鼓のヒット、まばらなピアノモチーフ、30秒、ビルド+スティンガー」。
- ローファイスタディループ:「ローファイヒップホップ、85 BPM、ビニールクラックル、まろやかなローズ、ブラシスネア、16小節ループ、リラックスしたスウィング」。
- レトロゲームチップチューン:「8ビットチップチューン、140 BPM、陽気なアルペジオ、スクエアウェーブリード、シンプルな三和音コード、8小節、ループ可能」。
コピー、ペースト、調整して、準備完了です。
人間のミュージシャンが依然として勝つ場合(ネタバレ:多くの場合)
AIは、スピード、多様性、およびプレースホルダーキューに最適です。人間は、ニュアンス、感情、および正確な映像編集に合わせることに最適です。プロジェクトが高額な場合(映画祭、ブランドの立ち上げ)、ハイブリッドワークフローを検討してください。AIを使用してアイデアを探索し、最終的なトラックを磨くために、指揮棒を作曲家(または、あなた、あなたは素晴らしい多才な人)に渡します。
良いニュース:MIDIファーストのツールにより、その引き渡しがスムーズになります。ステムを備えたオーディオジェネレーターも役立ちます。
トラブルシューティングサイドバー:助けてください、私のAIトラックがオートミールのように聞こえます
- マッシュ状です:リズムの定義を増やします。「明確なキックパターン」または「シンコペーションされたハイハット」を要求し、BPMを10上げます。
- 耳障りです:ハイエンドEQを下げます。「ソフトな高周波プロファイル」を要求するか、明るさの形容詞を減らします。
- ビジーです:「最小限のアレンジメント」または「2楽器テクスチャ」(パッド+ベース)を要求します。ミッドレンジをカットします。
- 退屈です:フックを追加します。8小節ごとに繰り返される短いメロディーです。「記憶に残るモチーフ」を要求します。
- スムーズにループしません:「ループ可能なエンディング」が必要であり、DAWのループポイントで10〜20 msのクロスフェードを追加します。
MuseNet vs. Jukebox vs. その他の音楽AIツール:実際の評価
- 編集可能な作曲が必要な場合は、MuseNetスタイルのMIDIを使用してください。バックグラウンドタスクと柔軟なスコアに最適です。
- 奇妙で様式化されたオーディオ探索(合成ボーカルを含む)が必要な場合は、Jukeboxで遊んでみてください。ただし、工場ではなくスケッチブックとして扱ってください。
- 迅速な制作トラックと明確なライセンスが必要な場合は、ステムエクスポートを備えた最新のオーディオジェネレーターが実用性の点で両方を上回ります。
- 磨きをかけるには、最終的なものをマスタリングツールまたは人間のエンジニアに投げ込みます。
適切な選択は、プロジェクト、編集への意欲、および締め切りによって異なります。常に:テスト、調整、自分の耳を信頼してください。
もう一つ…
誰も話さない魔法のトリックがあります。最高の成果は、サウンドだけでなくストーリーを説明するときに得られます。「雑なプロトタイプと最終的にそれを正しく行うことについての希望に満ちたストーリーを語る創設者のための音楽」は、「高揚するインストゥルメンタル」よりも良い雰囲気を生み出します。シーンを描くと、AIが描き返します。
それを使って、プロンプトをつかみ、選択した音楽AIを起動し、ラップトップが何を構成するかを確認してください。最悪の場合、ばかげたものが得られ、多くのことを学びます。最良の場合、次のビデオ、ポッドキャスト、またはプロジェクトには、驚くほどあなたらしいサウンドトラックが付属します。
クイックリファレンス:OpenAIのJukebox、MuseNet、およびその他の音楽AIツールの中から選択する
- 次の場合にJukeboxを選択します:様式化されたオーディオ実験、合成ボーカルが必要で、予測不可能性に満足している場合。
- MuseNetを選ぶべき時:編集可能なMIDI、整理された構成、柔軟な楽器編成が必要な場合。
- プロダクション重視のオーディオツールを選ぶべき時:スピード、ステムのエクスポート、明確な商用ライセンスが必要な場合。
- Sider.AIを使うべき時:音楽に関するプロンプト、アウトライン、クリエイティブブリーフの作成を手伝ってほしい場合。
さあ、計画を立てて、ノイズを作り出しましょう。
よくある質問
Q1:BGMとしてJukeboxとMuseNetのどちらを選ぶべきですか?
BGMの場合、MuseNetスタイルのMIDIツールは、テンポ、キー、楽器を編集できるため、通常有利です。Jukeboxは様式化されたオーディオの実験に適していますが、その出力はナレーションに適したミックスに調整するのがより困難です。
Q2:AIが生成した音楽を、法的問題なく商用利用できますか?
はい、音楽AIツールが商用利用のための明確なロイヤリティフリーライセンスを提供している場合です。Jukeboxのようなモデルからの「~風」のボーカルを公開リリースで使用するのは避け、明示的なライセンス条項とステム/MIDIエクスポートを備えたプロダクションツールを選びましょう。
Q3:音楽AIツールに最適なプロンプトの形式は何ですか?
具体的に指定してください:ジャンル+時代、テンポ(BPM)、キー、構成、ムード、楽器編成。MuseNetのようなMIDIジェネレーターの場合は、小節の長さ、拍子記号、複雑さを加えて、ループ可能で編集可能な結果を得ましょう。
Q4:AI音楽をダイアログの下に配置して、ぶつからないようにするにはどうすればよいですか?
コントラストの低いアレンジを依頼し、混雑したミッドレンジを避けてください。次に、2〜4 kHz付近を穏やかにEQで下げます。軽いコンプレッションでダイナミクスを滑らかに保ち、実際のリスニングを模倣するために、小型スピーカーでミックスをテストしてください。
Q5:Sider.AIは、音楽AIツールを使用する際に役立ちますか?
トラックのムードに合わせたプロンプト、スクリプト、クリエイティブブリーフを作成および反復するのに役立ちます。Sider.AIを、Jukebox、MuseNet、またはその他の音楽AIからより良い出力を得るのに役立つ計画アシスタントとして考えてください。