画像生成AIとは、テキストで指示をするだけで、誰でも簡単にイラストや画像を作成できるソフトウェアのことです。今回は、どのような仕組みでイラストや画像が生成されるのかまとめます。また、画像生成AIのおすすめサービスや、画像生成AIがはらむ課題についても説明します。
関連記事:生成AI出現以降のB2Bマーケティング手法はどう変わる?B2Bマーケの第一人者が解説
【基礎編】ChatGPTの使い方レッスンとシーン別の事例集
OpenAI社が2022年11月にChatGPTをリリースしてから、ChatGPTの利用者数は急速に増えています。すでに日々のマーケティング業務にChatGPTを取り入れているマー…
目次
画像生成AIとは?広まった背景
画像生成AIとは、テキストで出来上がりのイメージを指示するだけで自動的に画像やイラストが生成されるソフトウェアのことです。2022年6月にリリースされた「Midjourney」がブームの発端といわれています。
同年8月には「Stable Diffusion」が誕生し、さらにブームが加速しました。Stable Diffusionは無料かつ登録なしに利用できるツールです。トップページにアクセスし、「Get Started for Free」をクリックする、と以下の画面が表示されます。
生成したい画像をイメージする言葉を「Enter your prompt」の欄に記入し、除外したいイメージの言葉を「negative word」の欄に記入します。例として、「Enter your prompt」に「big cat」、「negative word」に「slim」を入れてみました。
このように、一般的な飼い猫の写真ではなく、ヒョウやトラなどに見えるネコ科の動物の写真が生成されました。
2回目以降にアクセスすると「negative word」の表示はなく「Enter your prompt」だけ表示されることもあります。
続いては、日本語でも指示ができるかどうかを試してみました。「Enter your prompt」の欄に「青い空」を入れると、以下の画像が生成されました。
青い空ではない画像も表示されていますが、指示する言葉を吟味することで、より精度の高い画像作成が実現できることもあります。
関連記事
・AI(人工知能)とは?意味や定義をわかりやすく解説
・マーケティング成功へのカギ:AIは上級パートナーとして使い倒せ
イラストが生成される仕組みと画像生成に用いられる6つの手法
イラストや画像を生成するソフトウェアには、「image to image」と呼ばれるものがあります。これはラフスケッチを記載すると、より完成度の高いイラストに仕上げてくれるソフトウェアです。
また、キーワードや文章(プロンプト)からイラストや画像を作成する「text to image」と呼ばれるものがあります。これは日本語で「画像生成AI」と呼ばれるもので、画像のイメージに近い言葉や文章(プロンプト)を入力するだけでイラストなどを生成してくれます。
画像生成は、ディープラーニングと呼ばれる機械学習の手法によって実施されています。ソフトウェアによっても表示までの手法は異なりますが、大まかには以下の流れに沿って処理されることが一般的です。
1. テキスト入力
2. テキストエンコーダによるテキストからベクトルへの変換
3. 画像生成器によるベクトルから画像への変換
上記で挙げたテキストエンコーダや画像生成器は、ソフトウェアによって仕組みが異なります。そこで「text to image」の実現に用いられる6つの主な手法について見ていきましょう。
1.VAE(変分オートエンコーダ)
VAE(Variational Auto Encoder、変分オートエンコーダ)とは、訓練データを利用した画像生成器の仕組みで、訓練データと類似するデータの生成を可能にします。
VAEの特徴としては、潜在変数として確率分布に組み込めることが挙げられます。
一般的なオートエンコーダでは、入力テキストを画像に変える前段階における潜在変数の構造については、明らかにできません。
VAEでは確率分布という明瞭な構造があるため、よりテキストから創造されるイメージが妥当性の高いものとして表示されます。
2.GAN(敵対的生成ネットワーク)
GAN(Generative Adversarial Networks)とは、生成したデータを本物と繰り返し比較・判定することで、より自然なイメージを生成する仕組みです。本物と比較・判定することで、テキストで示される特徴を定量化することも可能です。
この特徴を活かすと、実際には存在しないものも自動的に生成でき、データの信憑性とクリエイティブ、テキストの独自性を兼ね備えた画像として表示できるようになります。
3.Pix2Pix
Pix2Pixとは、2つの画像の関係を学習し、関係性を反映した画像を生成する仕組みです。
画像生成を予測するモデルと生成画像の真偽を判定するモデルを競わせ、それぞれの関係性によって導かれる結論を画像に反映していきます。
Pix2Pixではテキストからベクトルの変換をおこないません。ベクトルの代わりに画像そのものを条件として活用し、画像から画像への変換を可能にします。
4.TransGAN
TransGANとは、画像を何段階にも変化させることで新たな画像を生み出す技術です。Transformerを用いたシンプルな遷移工程だけで画像を表示します。
構造がシンプルな分、妥当性が高い画像が表示されやすい点が特徴です。なお、構造部分にはレイヤーノーマライゼーションとマルチヘッドSelf-Attention、全結合層が用いられています。
5.DALL・E
ChatGPTを発表したことで一躍知名度が急上昇したOpenAI社が発表した画像生成モデルが、DALL・Eです。
情報量が多い画像を離散変分オートエンコーダで1/192まで圧縮し、元々の品質と同じ情報量の画像としてデコーダで復元します。復元された画像と、最初に入力されたテキストデータの対応関係を学習し、適切な構成になるように画像を調整して完成させます。
この学習の工程にはTransGANと同じくTransformerが用いられています。
6.StyleGAN/StyleGAN2
StyleGANとは学習データの特徴をもとに、実在していないデータの生成や変換をおこなう仕組みです。
GANとはGenerative Adversarial Networksの頭文字を合わせた言葉で、TransGANと同じく、学習データからデータ生成・変換する際に用いられる仕組みを指します。
StyleGANでは通常のGANとは異なり、転置において畳み込み処理をおこなったあとに特有の調整をおこない、細部をノイズによって生成します。これにより画像の精度を高め、リアリティの高い作品へと昇華します。
また、StyleGANを改良したStyleGAN2では、生成の過程で生じる微細なノイズを除去し、不自然さを取り除くことが可能です。
実在しないアニメキャラクターを描くなど、クリエイティブな作業も得意とします。
画像生成AIおすすめサービス7選
オンラインで利用できる画像生成AIのサービスは増えてきています。そのなかでも使いやすいサービスをいくつか紹介します。
1.Stable Diffusion
Stable Diffusionは多彩な機能を兼ね備えた画像生成AIです。シンプルなテキストだけで画像を生成できるため、使いやすいのも特徴です。
ただし、無料ではデモ画面となるため、カスタマイズ機能は使えません。使い方がシンプルで、初めて画像生成AIを使う人にもおすすめです。
2.Generated Photos
Generated Photosは、実際には存在しない顔を自動生成できるサービスです。性別や年齢、目の色、肌の色などを指定すると、さまざまな人のさまざまな表情をもつ顔を作ることができます。
背景色も選べますが、透過を選択するとダウンロードが有料になりますので注意してください。
3.にじジャーニー(nijijourney)
にじジャーニーは、主にイラストを作成する際に用いる画像生成AIです。
日本語だけでなく中国語や韓国語、英語に対応しており、さまざまなテイストのキャラクターを生成できます。生成したイラストのサイズを大きくしたり、バリエーションを増やしたりするのも、すべてワンクリックで可能です。
4.cre8tiveAI
cre8tiveAIでは、高画質化のためのサービスや、顔イラスト専用のサービス、全身イラスト専用のサービスなど、AIを活用した豊富な画像生成サービスを複数提供しています。
たとえば顔イラスト作成AIの「彩ちゃん(さいちゃん)」では、イラストのテイストを選択するだけで、オリジナルの画像が作れます。
5.NovelAI
NovelAIはアニメのような高クオリティのイラストを、スマホや低スペックのパソコンで生成できるサービスです。
文章作成サービスと画像生成サービスがあり、画像を作成したいときは「Image Generation」を選択します。
文章と画像を両方使用すれば、簡単に漫画として仕上げることもできます。
6.Artbreeder
Artbreederは、存在しないものを創り出す画像生成AIサービスです。
「コラージュ」と「ポートレート」があり、コラージュは文章(プロンプト)を入力することで、ポートレートは実際の写真をアップロードすることで新しい画像が仕上げられます。
Artbreederで作成
テキストでは「緑色の猫」を指定しましたが、目の色がグリーンの猫になりましたので、「体毛が緑色の猫」などとより詳しく指定して、自分のイメージに近い作品に仕上げましょう。
7.Visual ChatGPT
Visual ChatGPTとは、ChatGPTを利用し、画像を対話的に生成するサービスです。無料で制限なく利用でき、気軽に試せる画像生成AIです。
説明を詳しくするほど、よりイメージに近い画像が生成されます。
文章作成については、ChatGPTを活用できます。なお、ChatGPTで絵を生成できるか尋ねたところ、却下されました。
ChatGPTより
ChatGPTでできることや使い方については、次の記事で説明しています。ぜひチェックしてみてください。
関連記事・資料
・ChatGPTとは?日本語でも使える?始め方や使い方の基礎を解説
・【基礎編】ChatGPTの使い方レッスンとシーン別の事例集
・【実践編】ChatGPTの使い方レッスンとシーン別の事例集
・CMS+MAツール「Switch Plus」ChatGPT機能と連携!マーケティング関連のメール作成がより簡単になりました
・CMS+MAツール「Switch Plus」のChatGPT連携機能で約10,000文字の記事を自動生成できるようになりました
画像生成AIにおける2つの課題
画像生成AIは、シンプルなテキストで簡単に画像・イラストを生成できるサービスです。しかし、利用することで次のようなトラブルに巻き込まれる可能性も想定されます。
1. 著作権問題
2. フェイク画像の悪用問題
起こり得るトラブルについては事前に確認しておくことが大切です。それぞれの問題で想定されるトラブルを紹介しますので、利用する際は注意してください。
1.著作権問題
画像生成AIによって作成した画像は誰のものかという議論がよく生じます。テキストを入力するのはユーザー自身ですが、テキストが常にオリジナリティのある言葉とは限りません。
たとえば「かわいい猫」や「青い空」などのシンプルなテキストを入力する人は多いと考えられるため、類似する、あるいはまったく同じイラストや画像が別のユーザーにも表示される可能性はあります。
このような場合、どちらが早く作成したなどの証拠がない限り、誰の著作物か断定することは困難です。また、そもそも画像を作成するAIを提供している側に、著作権が発生しているという見方もあります。
ツールによって規定が異なるため、詳しく確認するのはもちろんのこと、画像を印刷物やWebサイトなどに掲載する場合は、常に作成したツール名を明示する習慣をつけておくことも大切です。
関連記事:フリー素材をうまく活用しよう!著作権フリー画像を使用する際の注意点とは!
2.フェイク画像の悪用問題
入力するコマンドによっては、倫理的に好ましくないイラストや、事実を誤認させるフェイク画像が生成されることがあります。画像生成AIは新しいツールのため、法規制が追い付いていないのが現状です。
画像を使う側には高い倫理観を持つことが求められています。
デザインAIツールに関するWebアンケート:クリエイターの利用率の高さが判明
合同会社田島デザインが実施したAIツールに関するWebアンケート(「スクリーニング調査(n=5,000)」「本調査(n=298)」)によると、AIツールの使用頻度について、月数回利用している人のうちでもっとも多い職業は広報/PR、毎日利用している人のうちでもっとも多い職業はデザイナーであることがわかりました。
参考リンク:【2024年版最新】どれが人気!?デザイン系AIの認知率・普及率に関するアンケート結果まとめ(合同会社田島デザイン)
同調査によると、使用するAIツール数がもっとも多い職業はデータサイエンティストで、次いでデザイナー、広報/PR、マーケティングなどが続きます。
汎用AI・デザインツールの認知率・利用率のランキングにおいて、一番人気は当然ながら「ChatGPT」、2位は「Adobeフォトショップ」となり、画像/グラフィック系AIツールの認知度・利用率ランキングの一番人気は、この記事でもご紹介した「Midjourney」、2位は「Stable Diffusion/ Stability AI」となっています。
同調査は今年2024年6月13日(木)〜6月14日(金)に実施されており、AIツールを普段利用していない割合は85%のため、現状では大多数の人が業務にまだ生成AIを使っていないことが伺えますが、一方で若い年齢層ほど普段からAIツールを使用しており、広報職やデータサイエンティスト、デザイナーなどの職業においては、半数以上が日常的にAIツールに触れている(毎日or週数回or月数回使っている)ことがわかっています。
以上の調査結果から、「クリエイティブに関わる職種において生成AIを利用することは、日常的な風景になりつつある」ということが言えるでしょう。
ご参考までに、スクリーニング調査と本調査の概要まとめを下記に掲載します。
スクリーニング調査(n=5,000)
・AIツールを普段利用していない割合は85%
・毎日AIツールを使っている割合が一番多い職業は「デザイナー」
・「デザイナー」でAIを毎日利用している割合は20%以上
・AIツールに有料課金している人は全体の7%
・有料課金率が最も高かったのは20代で、「20,000円以上」と回答している比率も最も高い本調査(n=298)
・汎用系AIツールの中で最も認知率が高いのは「ChatGPT」(56%)
・汎用系AIツールの中で最も利用率が高いのも「ChatGPT」(48.7%)
・画像/グラフィック系で最も認知率が高いのは「Midjouney」(30.2%)
・画像/グラフィック系で最も利用率が高いのも「Midjouney」(24.2%)
・資料系で最も認知率が高いのは「Gamma」(36.6%)
・資料系で最も利用率が高いのも「Gamma」(31.9%)
・web系で最も認知率が高いのは「Create.xyz」(25.2%)
・web系で最も利用率が高いのは「tl;draw」(22.8%)
・動画系で最も認知率が高いのは「DomoAI」(27.2%)
・動画系で最も利用率が高いのも「DomoAI」(23.8%)
・AIツールへの課金額を増やす意向の割合が40.3%、減らす意向の割合が25.8%
・現状無料の範囲で利用している人の半数程度は課金意向あり参考リンク:【2024年版最新】どれが人気!?デザイン系AIの認知率・普及率に関するアンケート結果まとめ(合同会社田島デザイン)
特徴や課題を理解し画像生成AIを活用しよう
画像生成AIを使うことで、イラストレーターや写真家ではない一般の人でも、簡単にオリジナルのイラストや画像を作成できます。ただし、生成された画像の著作権については議論の余地があるため、利用する際は慎重に行動することが求められます。
また、特定の個人やブランドなどを表現することや、事実誤認につながるフェイク画像の利用は問題のある行為です。高い倫理観を持って画像作成AIを利用するようにしましょう。
関連記事:リテラシーとは?ITリテラシーの意味も含め解説します
よくあるご質問
画像生成AIはいつ誕生したの?
画像生成AIサービスは2014年に誕生したとされています。GAN(敵対的生成ネットワーク)が最初ともいわれており、学習データを自動再生するアルゴリズムを画像生成に応用しました。2022年に発表されたMidjourneyは、画像生成AIサービスの人気に拍車をかけたサービスともいわれています。使いやすく、高精度な点が注目を集めています。
画像生成AIのイラストはどうやって作られるの?
画像生成AIのイラストは、テキストエンコーダによってテキストをベクトルへと変換し、画像生成器によってベクトルを画像に変換することで作成されています。画像生成器には、ディープラーニングと呼ばれる機械学習の手法が取り込まれていることが一般的です。ただし、画像生成AIサービスによってアルゴリズムが異なるため、同じテキストを入力しても異なる画像が生成される可能性があります。
画像生成AIの無料サイトは?
画像生成AIサービスを無料で利用できるサイトとしては、Visual ChatGPTやStable Diffusionなどが知られています。いずれもシンプルなテキストだけで画像を生成でき、なおかつ無料で利用できるため、画像生成AIサービスを初めて使う人にもおすすめです。また、存在しないものの画像を作成したい場合は、Artbreederなども活用できます。