最近、インターネットやテレビなど各メディアで「AI(エーアイ)」というワードを耳にすることが多くなりました。これはChatGPTをはじめとする「生成AI(ジェネレーティブAI)」が注目され、業務や私生活でも利用する機会が増えてきたことによるものだと思います。
この投稿ではこれからの生活に欠かせないものとなる「生成AI」について私が勉強したことをまとめています。かなり初心者向けの内容かもしれませんが、「”ChatGPT”は知ってるけど”生成AI(または生成系AI)”についてはよく知らない」という方は是非一読いただけたら幸いです。
生成AIについて
生成AIとは
生成AI(生成系AI)は、学習済みのデータを活用してオリジナルデータ(コンテンツ)を生成できるAIのことです。
「Generative AI:ジェネレーティブAI」とも呼ばれと呼ぶこともあります。
代表的な生成AIシステムに、テキスト生成AIの「ChatGPT」、画像生成AIの「DALL-E 」があり、その他にも多種多様な生成AIがビジネスシーンや日常生活で活用され始めています。
従来のAIと生成AIは何が違う?
生成AIが登場する以前にもAI(人工知能)という言葉がありましたが、この従来のAIと生成AIとはどんな違があるのでしょうか?
従来のAIは、データの整理・分類を学習し、その結果に基づいて予測を行い、既存のコンテンツから最適なものを識別する用途のAIです。つまり、決められた行為の自動化が目的であり、出力されるものは、数値データや、テキストデータなど、構造化されたものが多く、新しい形で創造されたものではありません。
上記のような従来のAIを生成AIと区別して「識別系AI (Discriminative AI)」と呼ぶこともあります。
生成AIは、AIが自ら答えを探して学習する「ディープラーニング(深層学習)」を用いて構築された機械学習モデルです。情報の特定や予測だけではなく、新たなコンテンツを創造することができることを特徴とするAIと言えます。生成できるものは文章などのテキストデータのみならず、楽曲や画像、動画、プログラムのコードなど多岐にわたります。
つまり、従来のAIと生成AIの違いは、学習によって得た新しい考えにより、オリジナルのコンテンツを創造するかどうかの違いであると言えます。
生成AIの仕組みや特徴
ではどうやって生成AIはオリジナルのコンテンツを生み出すことができるのでしょう。
生成AIが新しいコンテンツを生み出すためには、大量の学習データを与える必要があります。生成AIに活用されているデータ分析手法は主に「ディープラーニング(深層学習)」と呼ばれる機械学習の手法であり、与えられた学習データをもとにAI自身が最善の回答を探し出していくことによって新たなデータが生み出され、より高度なコンテンツを創造できるようになります。
機械学習とは、人間が行うような認識や推論、判断、意思決定などを自動化する技術のことで、
「教師あり学習」
「教師なし学習」
「強化学習」
「ディープラーニング(深層学習)」などのモデルがあります。
生成AIのデータ分析に用いられる「ディープラーニング(深層学習)」は
人間の脳神経回路をモデル化した「ニューラルネットワーク(NN)」と呼ばれる仕組みを利用して、データの特徴をより深く段階的(多層的)に自動で抽出する技術です。
生成AIはなぜ注目されるようになったのか
生成AIが注目されるようになった理由はいくつか挙げられますが、やはりChatGPTに代表される生成AIサービスが以下のような進化を続けているためだと思われます。
- 入力(質問)に対する回答の「精度」が向上した
質問に対する回答の精度、出力される文章表現の自然さ、入力した条件にあった画像など、出力されるものがビジネスなどで使えるレベルまで向上しました。
これは、コンピュータの性能向上により学習するデータ量が飛躍的に拡大したことも大きく影響しています。 - コンテンツ生成の「スピード」が向上した
アプリケーションなどを用いて、条件を入力し、条件に応じた文章や画像を出力するための時間が格段に短くなりました。 - アプリケーション(生成AIサービス)の「使いやすさが」が向上した
誰でも簡単に使うことができ、特にマニュアルなどを見なくても、簡単に条件を入力することができるようになってきました。
生成AIができること、できないこと 苦手なこと
できること(得意なこと)
- 自然言語生成
文章やテキストの生成、要約、翻訳など、自然言語処理に関するタスクをこなすことが得意です。 - 画像生成
絵画、写真、デザインの生成や編集に関するタスクを行うことができます。 - 予測分析
データ解析や予測モデリングにおいて、優れた結果を出すことがあります。 - タスク自動化
ルーチンな業務タスクの自動化、カスタマーサポート、チャットボットなど、顧客対応に関する仕事の一部を担うことができます。 - 画像認識
画像内の物体や特徴の認識に役立つことがあります。
できないこと
- 意識や感情の理解
生成AIはコンピュータプログラムであり、意識や感情を持ちません。人間の感情や主観的な体験を理解することはできません。 - 真実の理解
生成AIは情報をテキストとして処理しますが、情報の真偽を判断することは難しいです。誤った情報を信じる可能性があるため、情報の確認が必要です。 - 倫理的判断
倫理的な問題や道徳的判断を行うことは難しいです。倫理的な問題に関する指導は人間の専門家に依存します。 - 特定の専門知識
生成AIはトピックに特化した専門知識を持ちません。特定の分野に関する詳細な情報は、人間の専門家に求める必要があります。
苦手なこと
- 複雑な対話
長い対話の中で文脈を正確に理解し続けることは難しく、深い議論や複雑な対話に対する対応能力は限定的です。 - 情報の信頼性
情報の信頼性を確認する能力が制約されており、偽情報を拡散する可能性があります。 - 創造性
AIは人間のような真の創造性を持たず、予測可能なパターンに従って情報を生成します。

生成AIの利用シーン
生成AIは既に多くの異なる利用シーンで活用されており、さまざまな分野で革新的なソリューションを提供しています。以下は、生成AIの代表的な利用シーンの一部であり、技術の進歩と応用の拡大により、さらに多くの分野で利用が拡大するでしょう。
自然言語処理(NLP)
- 文章生成
生成AIは記事、ブログポスト、レビュー、広告コピー、小説などの文章を生成するのに使用されます。これにはコンテンツの自動生成やライターサポートツールが含まれます。 - 言語翻訳
生成AIは言語間の翻訳を行うのに役立ち、多言語コミュニケーションをサポートします。 - 質問応答
チャットボットや仮想アシスタントは、生成AIを使用してユーザーの質問に回答し、サポートを提供します。
画像処理
- 画像生成
生成AIは写真のスタイル変換、アート作品の生成、顔の合成、風景写真の創造などで使用されます。 - 画像認識
生成AIは画像認識タスクで特定のオブジェクトや特徴を検出するためにも活用されます。
音声処理
- 音声合成
生成AIはテキストから自然な音声を合成し、音声アシスタントやナレーション、オーディオブックの制作に使用されます。 - 音楽生成
音楽の作曲や生成において、生成AIは旋律や楽曲の生成を支援します。
動画処理
- 動画生成
生成AIは動画の生成、アニメーションの制作、特殊効果の追加、動画編集などに使用されます。
医療分野
- 診断支援
生成AIは医療画像の解釈、疾患の診断支援、診療報告書の生成に役立ちます。 - 新薬開発
化合物のデザインや新薬の候補の生成に生成AIが利用されます。
教育分野
- 教材生成
教科ごとのカスタマイズされた教材、クイズ、質問集の生成が可能で、教育の支援に役立ちます。 - 言語学習
言語学習アプリやプラットフォームでの会話の練習相手として生成AIが使用されます。
クリエイティブ分野
- アートとデザイン
生成AIはアート作品の制作やデザインのサポートに使用され、新しいクリエイティブプロジェクトの実現を助けます。
金融分野
- 予測と分析
生成AIは金融市場の動向予測、リスク評価、顧客サポートなどに活用されます。
生成AIサービス
テキスト生成AIサービス
OpenAI ChatGPT
「ChatGPT(チャットGPT)」 はOpenAI社が開発した対話型AIサービス(チャットボット)です。高度なAI技術によりまるで人間が話しているかのような自然な会話を繰り広げることができます。
2022年11月にGPT-3.5を利用した「ChatGPT-3.5」が無料で公開され、2023年3月にはGPT-4.0を利用した「ChatGPT-4.0」が有料で公開されました。ChatGPT-4.0は、3.5よりも高精度で文書作成だけでなく画像・音楽・動画の生成も可能です。
GPT-4およびGPT-3.5は2023年10月現在、学習済みのデータが2021年9月までのものが使われています。そのため2022年以降に起きた出来事や新しい情報に関する質問に答えられないという問題があります。

Google Bard
「Google Bard(グーグルバード) 」は、検索エンジン最大手のGoogleが開発した対話型AIサービス(チャットボット)です。 2023年3月にアメリカとイギリスで一般公開され、日本語版は2023年5月からスタートしました。まだ試験運用中という形式ですが、Google検索と連動して回答を行うことが可能であったり、無料でも最新の情報からコンテンツを生成してくれる点にあると思います。
Microsoft BingAI
BingAI はMicrosoft社が開発した検索エンジン「Bing」に生成AIを組み込んだ対話型AIサービス(チャットボット)です。BingAIは2023年2月に公開され、日本語でも利用可能です。
BingAIの強みはOpenAI社の有料サービス「GPT-4」を実装している点にあります。つまり、GPT-4がBingを通して無料で使用できるということになります。(但し利用回数に制限あり)
画像生成AIサービス
OpenAI DALL·E
「DALL·E (ダリ)」は、ChatGPTを開発したOpenAIが開発した生成AIサービスで、画像とテキストの相互変換を行うことができる画像生成AIです。最新のDALL-E 3 が2023年9月21日に公開され、前のバージョンであるDALL・E2 を遥かに凌ぐ性能で話題となっています。ChatGPT上でネイティブに構築されているため、ChatGPTにアイデアを提示すると、それをもとにアイデアを具体化する詳細な画像を自動的に生成します。
DALL·E 2は無料で利用できます(回数制限あり)が、DALL·E 3は有料サービスです。但し、Bingを使ってDALL·E 3を無料で使用することも可能です。

Stable Diffusion
「Stable Diffusion(ステーブルディフュージョン) 」は、英国のStability AI社が開発した画像生成AIサービスです。無料で使用することができます。ユーザーが作成したい画像のイメージをテキストで入力すると、この情報をもとにクオリティの高い画像を生成することができ、さらには商用利用することも可能です。
Midjourney
「Midjourney(ミッドジャーニー) 」は、アメリカの研究所が開発した画像生成AIです。元NASAの技術者などが開発に携わったことでも有名です。
Midjourney(ミッドジャーニー)はDiscordというチャットアプリを使用して画像を生成します。DALL-EやStable Diffusion と同様に入力したテキストの情報を元に自動的に画像を生成します。
2023年3月までは無料で使用できましたが、アクセス過多やディープフェイク画像の作成に利用されるなどの問題もあり、現在は有料サービスのみの提供となっているようです。
動画生成AIサービス
Runway Gen-2
「Gen-2 」はRunway(ランウェイ)社の動画生成サービスです。1枚の画像から動画を生成することが可能です。最新のGen-2から、描いてほしい場面をテキストプロンプト(入力命令)として入力すると、動画を生成する「text to video」が実現できるようになりました。

生成AIのリスクや課題
生成AIにはいくつかのリスクや課題が存在します。これらの課題に対処するために、研究者、政府、産業界、および一般の人々が共同して取り組んでいます。倫理的なガイドラインの策定、技術の監視と規制、プライバシー保護の強化、バイアスの軽減などが重要な対策として挙げられます。また、公共政策や教育の向上も生成AIのリスクを軽減するために役立つでしょう。
虚偽の生成と拡散
ChatGPTを使用した際に「おや?」と思った方もいるかもしれませんが、流暢な日本語で回答されているにもかかわらず、その内容は事実と全く異なる生成をしてしまうことがあります。この問題を”hallucination”(ハルシネーション=幻覚)と言うそうです。
hallucinationは、入力したテキストを読み違えるケースと、外部知識が必要な場合に捏造するケースの2つに分類でき、ChatGPTの場合はほとんどが後者らしいです。
生成AIはテキスト、画像、音声などを生成する能力を持ちます。この能力を悪用すれば、偽の情報やコンテンツを大規模に拡散させる可能性があります。これにより、信頼性が損なわれ、社会的な不安や混乱が生じる可能性があります。
個人情報の侵害
生成AIは大量のデータから新しいデータを生成できるため、個人情報やプライバシーの侵害につながる可能性があります。他人の情報を生成して悪用するリスクがあるため、プライバシー保護の重要性が高まっています。
バイアスと差別
生成AIは訓練データに含まれるバイアスを反映することがあります。これにより、性別、人種、宗教などの偏見が生成されたコンテンツに影響を与え、差別的な表現が増加する可能性があります。
バイアス(bias)とは、「偏り」「偏見」「先入観」などを意味し、認識の歪みや偏りを表現する言葉として使われます。
知的財産権の侵害
生成AIは既存のコンテンツを元に新しいコンテンツを生成することができます。これにより、知的財産権の侵害が生じる可能性があります。著作権や特許に関する法的課題が浮上することがあります。
日本政府もこれを問題視しており、知的財産権の侵害を防ぐ方策の取り組みが始まっています。

人間の労働の代替
生成AIがより高度に発展すると、一部の業務や作業が自動化され、人間の労働力が不要になる可能性があります。これにより雇用の減少や社会的な影響が懸念されます。
厚労省は生成AI普及による雇用への影響おける対応案を2023年度内にまとめる方針です。

倫理的ガイドラインの不足
生成AIの使用に関する倫理的なガイドラインや法的枠組みが不足している場合があり、どのように使用すべきかについての明確な指針が不足しています。
まとめ
最後にChatGPT(GPT-3.5)に「“生成AI”について、中学生でもわかるように簡単に説明してください」と入力した回答を記載します。

生成AIは、コンピューターが文章や画像を自動的に作成できる技術です。文章を要約したり、新しい文章を書いたり、絵を描いたりすることが得意です。広告や翻訳、チャットボットなどで使われます。ただし、情報の正確性や倫理的な問題に気を付ける必要があります。