オープンソースの画像生成AIをセットアップから使い方まで解説する『Stable Diffusion AI画像生成ガイドブック』(ソシム刊)発売中(→本のサポートページ

『Stable Diffusion AI画像生成ガイドブック』が3月31日ごろ出ます

AUTOMATIC1111版Stable Diffusion WebUI(以下SD/WebUI)の解説書、『Stable DiffusionAI画像生成ガイドブック』(ソシム刊)を執筆して編集しました。3月31日ごろから書店に並びます。

画像生成AIのしくみを解説し使い道を紹介したあと、Stable Diffusionを使える各種サービスを紹介し、SD/WebUIのセットアップ(パソコン上とGoogle Colaboratory)と使い方、プロンプトで実際にいろいろな画像を生成する解説、弁護士の先生による著作権関係の解説、そして深津貴之さんのインタビューという構成です。そしてプロンプト単語帳が巻末に収録されています。

いろいろな画像を出力するプロンプトの書き方については、多くを「Stable Diffusion入門 - ISID テックブログ」のシリーズを発表していた比嘉康雄さん(id:higayasuo)に執筆いただきました。プロンプト解説は、女の子のイラストだけでなく、さまざまな風景や人物の写真や絵、商品写真ぽい画像の出力などを扱っています。

また著作権関係の解説は、「専門家から見た画像生成AI」というclusterのオンラインイベント(動画もあります)に登壇なさっていた五十嵐良平弁護士(@Reihoxy)に担当していただいています。

SD/WebUIはとても機能が多く、全部は説明しきれませんでした。追加学習関係は新技術がどんどん出てくるので割愛したほか、img2imgの一部、「その他」タブの解説も省略しています。便利な拡張機能の紹介もできませんでした。特にControlNetは革新的な拡張機能なのですが、刊行時期やページ数のかねあいでほぼ触れられなかったのが心残りです。

それでも288ページとけっこう厚くなりました。

サンプラーの分類と出力例、気付きにくい便利な操作、ファイル名の命名に使えるタグ一覧、おもな設定項目などなど、基本的な知識から使っている人にはわかる便利な情報をたくさん詰め込んでいます。

パソコンだけでStable Diffusionを使おうとすると、今はミッドレンジ以上のNVIDIAGPUを積んだビデオカードがあるのが望ましいとされています。特にRTX3060 12GBは価格のわりにVRAMが多くておすすめです。そしてそんなつよつよGPUがなくてもStable Diffusionを使うやり方として、WebサービスGoogle Colaboratoryを介する方法も解説しています。そのためのGoogle Colabノートブックも用意しました。

GPUがない人向けのセットアップ記事
Stable Diffusion WebUI(1111)をGoogle Colabで使うノートブック【画像も設定も自動保存】
GPUがある人向けのセットアップ記事
Stable Diffusion WebUI(1111)のインストールがとても簡単になっていた【令和最新版】
セットアップせずにStable Diffusionを使えるサイトの例(SD/WebUIではありません)
Mage 🧙 | Free, Fast, Unfiltered Stable Diffusion

画像生成AIは話題になっていますが、実際に使ってみたという人はまだ少ないと感じます。言葉を与えると画像が出てくる、言葉を工夫して思い通りの画像が出るのを目指す。これは魔法のようで本当に楽しく、AIに渡す言葉(プロンプト)が「呪文」と呼ばれるのも使ってみるとよくわかります。

みなさんもぜひ、上の記事からStable Diffusionを始めてみてください。そして詳しい使い方を知りたくなったら本を読んでいただけると幸いです。

書籍のサポートページ
『Stable Diffusion AI画像生成ガイドブック』(ソシム刊)サポートページ

目次

はじめに
第1章 Stable Diffusionとは何か(p9)
  • 1-1 Stable Diffusionは画像生成AI
  • 1-2 Stable Diffusionが画像を作るしくみ
  • 1-3 Stable Diffusionのデモページで画像を作ってみる
  • 1-4 テキストからの画像生成、画像とテキストからの画像生成
  • 1-5 こんなことにも使えるStable Diffusion
  • 1-6 Stable Diffusionを用いたサービスやプログラム
第2章 Stable Diffusion WebUIをセットアップする(p51)
  • 2-1 AUTOMATIC1111版Stable Diffusion WebUIを使う2つの方法
  • 2-2 SD/WebUIのセットアップ
  • 2-3 Google ColaboratoryでSD/WebUIを使う
  • 2-4 SD/WebUIを日本語化する
第3章 Stable Diffusionで画像を出力してみよう(p85)
  • 3-1 txt2imgの操作画面
  • 3-2 プロンプトの入力
  • 3-3 3つのパラメータとサンプリングアルゴリズム
  • 3-4 画像の生成
  • 3-5 画像の保存と保存先
  • 3-6 大きな画像を出力する
  • 3-7 複数の画像を一度に生成する
  • 3-8 学習モデルの追加と変更
  • 3-9 img2imgの操作画面
  • 3-10 画像を別の画像に変換する
  • 3-11 インペイントで画像の一部を修正する
  • 3-12 SD/WebUIの設定①「設定」タブ
  • 3-13 SD/WebUIの設定②そのほかの設定
第4章 こんな画像を出力するには(p173)
  • 4-1 ほかの人の作品とプロンプトを見てみよう
  • 4-2 人物のイラストを出力する
  • 4-3 アニメ風の人物イラストを出力する
  • 4-4 さまざまな画材で描かれた絵を出力する
  • 4-5 人物の写真を出力する
  • 4-6 自然の風景を出力する
  • 4-7 都市の風景を出力する
  • 4-8 建築物の画像を出力する
  • 4-9 ファンタジー世界の画像を出力する
  • 4-10 商品の画像を出力する
第5章 AI生成画像の権利と未来(p245)
  • 5-1 弁護士が解説する画像生成AIと著作権
  • 5-2 深津貴之氏インタビュー「Stable Diffusionは何を可能にするのか」
付録 プロンプト単語帳(p268)
奥付など(p288)

表紙に使われている画像(一部)のプロンプト

本に出てくる画像については、プロンプトをなるべく開示していきたいと思っています。

画像の下に3行あるプロンプトやパラメータの部分をプロンプト欄に転記して、「生成」ボタンの下にある↙ボタンをクリックするとパラメータがその通りにセットされます。

または、画像を「PNG内の情報を表示」欄に直接ドラッグ&ドロップしても生成パラメータを取得できます(その際ブラウザに、画像だけが表示されるタブが作られることがあります。そのタブは閉じてかまいません)。「txt2imgへ転送」ボタンをクリックすれば、プロンプトやパラメータがセットされます。

学習モデルを合わせれば同じ画像が出るはずです。


  • 1girl school uniform looking at viewer
  • Negative prompt: flat color flat shading retro style, 1980s, 1990s, 2000s, 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019
  • Steps: 50, Sampler: DDIM, CFG scale: 20, Seed: 2, Size: 768x768, Model hash: eee110cb, Model: derrida_final, Denoising strength: 0.7, First pass size: 0x0

  • cornfield, modern style, bustup portrait, detailed face, beautiful face, by Greg rutkowski and alphonse mucha, d & d character, in front of an urban background, digital painting, concept art, smooth, sharp focus illustration, artstation hq, artstation deviantart behance dribbble
  • Negative prompt: ((((mutated hands and fingers)))), lowres blurred
  • Steps: 60, Sampler: Euler a, CFG scale: 12, Seed: 661376459, Size: 512x512, Model hash: 0acc70d6a5, Model: trinart2_step60000, Denoising strength: 0.5, Hires upscale: 2, Hires upscaler: Latent

  • high mountain, Alps Himalaya in the early morning, illustration concept art anime key visual trending pixiv fanbox by wlop and greg rutkowski and makoto shinkai and studio ghibli and kyoto animation, alphonse mucha and caravaggio
  • Steps: 80, Sampler: Euler, CFG scale: 7, Seed: 2112682449, Size: 512x512, Model hash: 7460a6fa, Model: sd-v1-4

そのほか最近出力した画像

下の4枚は同じプロンプトで、シード値だけが違います。

学習モデルには「Nostalgia-clear」を使っています。VAEは確か「vae-ft-mse-840000-ema-pruned.ckpt」です。

「bad_prompt_v2」は「bad_prompt」からダウンロードして「embeddings」フォルダに入れた「bad_prompt_version2」なのですが、「v2」は「version2」の書き間違いですね。

またアップスケーラーの「4x_fatal_Anime_500000_G」は「model」-「ESRGAN」フォルダに入れます。

  • (masterpiece, best quality, ultra detailed sharp focus illustration:1.2), large-scale factory, where the light shines and the plants grow
  • Negative prompt: (worst quality:1.3), (low quality:1.3), (bad_prompt_v2:0.8)
  • Steps: 40, Sampler: UniPC, CFG scale: 10, Seed: 2133825908, Size: 640x448, Model hash: 80b64299af, Model: nostalgiaClear_nostalgiaClear, Denoising strength: 0.53, Clip skip: 2, Hires upscale: 2.1, Hires steps: 20, Hires upscaler: 4x_fatal_Anime_500000_G

  • (masterpiece, best quality, ultra detailed sharp focus illustration:1.2), large-scale factory, where the light shines and the plants grow
  • Negative prompt: (worst quality:1.3), (low quality:1.3), (bad_prompt_v2:0.8)
  • Steps: 40, Sampler: UniPC, CFG scale: 10, Seed: 1269183820, Size: 640x448, Model hash: 80b64299af, Model: nostalgiaClear_nostalgiaClear, Denoising strength: 0.53, Clip skip: 2, Hires upscale: 2.1, Hires steps: 20, Hires upscaler: 4x_fatal_Anime_500000_G

  • (masterpiece, best quality, ultra detailed sharp focus illustration:1.2), large-scale factory, where the light shines and the plants grow
  • Negative prompt: (worst quality:1.3), (low quality:1.3), (bad_prompt_v2:0.8)
  • Steps: 40, Sampler: UniPC, CFG scale: 10, Seed: 1465811741, Size: 640x448, Model hash: 80b64299af, Model: nostalgiaClear_nostalgiaClear, Denoising strength: 0.53, Clip skip: 2, Hires upscale: 2.1, Hires steps: 20, Hires upscaler: 4x_fatal_Anime_500000_G

  • (masterpiece, best quality, ultra detailed sharp focus illustration:1.2), large-scale factory, where the light shines and the plants grow
  • Negative prompt: (worst quality:1.3), (low quality:1.3), (bad_prompt_v2:0.8)
  • Steps: 40, Sampler: UniPC, CFG scale: 10, Seed: 1717840909, Size: 640x448, Model hash: 80b64299af, Model: nostalgiaClear_nostalgiaClear, Denoising strength: 0.53, Clip skip: 2, Hires upscale: 2.1, Hires steps: 20, Hires upscaler: 4x_fatal_Anime_500000_G

以下は画像のALTにプロンプトを入れてあります。