Stable Diffusion試してみた

話題のオープンソースAI画像生成ソフトStable Diffusionを試してみました。


といっても,我が家の最速PCのグラフィックボードはRTX 2060 SUPER VRAM 8GBということで,Stable Diffusionを素直に動かすVRAM 10GB以上という条件を満たさないのです。

というわけで,https://huggingface.co/blog/stable_diffusion の下の方のNoteに書かれている下記の方法で,fp16 precisionで動作させることにしました。(これなら,8GB環境でも動く)
Note: If you are limited by GPU memory and have less than 10GB of GPU RAM available, please make sure to load the StableDiffusionPipeline in float16 precision instead of the default float32 precision as done above. You can do so by loading the weights from the fp16 branch and by telling diffusers to expect the weights to be in float16 precision:

ちなみに,このdiffusersを使う方法は,多少自分でPythonプログラムを書いてやる必要があります。

で,絵を描くには,Stable Diffusionさんにこういうテーマで描いてほしいという指示を与えてやらないといけないのですが,やはり得手不得手があるようです。

ちなみに,上の画像は
"fairy dreamy and misty swamps in Asgard forest"
ということで,「幻想的な(北欧神話の)アースガルドっぽい森」という感じです。こういう,ふわっとした幻想的な感じの絵は,割とうまく行くようです。(うまく行くというのは,あくまでも主観)

elfen village in the dreamy and misty and snowy forest in winter

elfen hut in the dreamy and misty and snowy forest in winter

Camelot castle in the dawn

あと,動物も,まあまあいい感じ。

a sleeping cat on the red roof

a monkey reading a book

ちょっと,本はおかしなことになっているけど,まあ,許容範囲ということで。ただ,現代的な人工物を入れると難しいです。

aircraft landing to foggy airport

photographic crystal city with a tall tower

人工物だと,ちょっと変なところがあると,それが目についてしまうので,一気に違和感が出てしまうのでしょうか。あと,人も難しいです。

a girl playing a guiter in Paris

これは,かなりましですが,だいたい顔が残念な感じになってしまうのと,指とかがすごいことになります。

多分,写真っぽくせずに,イラスト・絵画風にすると人などももう少しいい感じになるのかなと思います。

追記

ちなみに,私の環境(VRAM 8GB)では512×512pxの画像を生成するのが限界です。ネットで見ていると,VRAM 12GBでも,素のStable Diffusionでは高解像度の画像を生成できなかったと書かれていたので,よほどハイスペックなグラボを持っていないと,高解像度な画像を生成するのは無理かもしれません。

コメント

このブログの人気の投稿

MSFS2020 G1000でのVORの使い方 (C172)

Linuxでの省電力設定

Word 2016の不具合