【決定版】GPTs開発の教科書
この記事は、一度使われて終わるような、ChatGPT にちょっとした機能を追加しただけの GPTではなく、本当に使われる素晴らしく便利な GPTs を作成、開発するための教科書として、書きました。
今までの GPTs 開発関連の情報を全てまとめた内容になっています。
この note 一冊を読めば、GPTs 制作の基礎から応用まで全部わかります。
記事の内容は必要に応じて適宜アップデートしていきます。
目次は以下です:
第1章 GPTsの概要とその可能性
そもそも GPTs とはなんでしょうか?
一言で言うと、ChatGPTを自分独自に大幅にカスタマイズできる機能とそのカスタマイズされたAIのことです。
ただし、GPTsを単なるChatGPT のいち機能の一つとして考えるのは非常にもったいないです。
OpenAI は、GPT Store という、他の人が作ったGPTsを使えるようになるストアのリリースを来年控えており、ここでお金を稼ぐこともできるようになると、公式にアナウンスしています。
また、GPTs は、まだそのポテンシャルが知れ渡っていませんが、特に業務効率化の面において、非常に大きな影響をもたらすものです。
まだ余りポテンシャルが知られていないと言ったのは、本当に質が高い GPTs の数がまだまだ少ないからです。良い GPT を作れる GPTs 開発者の数が不足しています。
例えば、ChatGPT研究所メンバーが作った以下のような秘書GPTはカレンダーの管理に便利で、実際に日常で普段使いしています:
このGPT自身、まだまだ改善の余地があり、本当に質が高いGPTとは言いません。
参考までに、以下にChatGPT研究所がこれまでに作成したGPTs を列挙します。:
8412個のGPTsから最適なGPTを探索:GPT Finder
Google ログインをして Google カレンダーやGmailを管理:秘書GPT(限定公開)
Grok のシステムプロンプトをハックしてGrokをコピー:Grok GPT
サムネイル画像の作成を画像からテキストまで完全に自動化:Tnumbnail Sckether
GIF画像を自動生成する:GIF Maker
Knowldge を与えてカスタマーサポートを自動化するGPT (非公開)
語彙力推定と頻度順に単語を学べるGPT:AITAN
デヴィ夫人の人格を模倣したデヴィ夫人AI
その他多数。少なくとも50個以上は作ってきています。
この記事は、これらのGPTの制作経験をもとにして書いています。
公開しているGPTが、他のユーザーに使用された合計回数は現状3万5千回以上です。GPT Finder は単体で1万回以上利用されています:
世界に目を向けると、単体で15万回以上も使用されている、Grimorie と言う GPTがあります:
しかしはっきりいって、この Grimorie ですらまだまだ改善の余地があり、最高のGPTとは言えないと私は考えています。
ここで言いたいのは、
今、GPTs領域には無限の可能性があり、
アプリストアが出てきた、あの2008年当時のように、
大きなチャンスが目の前に広がっていると言うことです。
この note を書いた理由のひとつが、
日本から素晴らしい GPTs がどんどんと作られていき、
世界で使われるGPTが出てきて欲しいからです。
この note を読み、あなたが実際に本当に便利なGPTsを作って、
それをみんなに共有してくれることを願っています。
GPT Store に出さずとも、
自分や社内専用のGPTを作るのも良いでしょう。
今後の業務効率を何倍にもアップさせる可能性を秘めています。
ちゃんとしたGPTsを作れる人はまだまだ限られているため、
GPTs制作領域はチャンスしかないです。
【超簡単】 GPT の作り方
GPTs の素晴らしいところは、これまでのアプリ開発など、高度なエンジニアリングスキルを要求されるものとは異なり、アイデアさえあれば誰でも本当に簡単に優秀なエージェントが作れてしまう点、にあります。
まだ一回も作ったことがない人は、以下を参考にして、
とにかく一個、作ってみましょう。
ここで紹介するやり方は、GPT Builder と対話しながら、作りたいGPTを尋ねていく方法です。
後述するように、この方法だとプロンプトが自分で自由に設定できないので、質が高いGPTを作るには GPT Builder に頼らず、自分でプロンプトを編集する必要があります。
ですが、このやり方はとにかく簡単なため、
とにかく一個作ってみるには良い一歩です。
わかる方は、この章は飛ばしてOKです。
Step 1. GPT Builder を立ち上げる
新しい ChatGPT UI の My GPTs のすぐ下、Create a GPT をクリックします。
GPT の作成を補助してくれる GPT Builder が立ち上がります。
以下のURLからでもOKです:
Step 2. 何を作りたいのかを伝える、GPTタイトルの決定
ここでインタラクティブに会話形式で作成します。
といっています。
GPT Builder と会話していくだけで、簡単に完成してしまいます。
試しに、ブログ記事タイトルを代わりに考えてくれるボットを作ってみます。日本語でも大丈夫ですが、今はなぜか返答が全て英語になってしまうようです。
ボットのタイトルを勝手に決めてくれました。他の提案が欲しかったらそのように尋ねればOKです。
Step 3. ロゴを決定する
タイトルが決まると、勝手にボットのロゴを決めてくれます。
これも、気に入らなかったら、変更をお願いすればOKです。
Step 4. トーンを決定する
画像が決まると、フォーマルか、カジュアルか、というトーンを聞いてきますので、答えます。
そうすると、最後に気を付けるべき点などを聞いてきますので、SEOに気をつけてなどをいっておきます。
変更したいことを言うと、勝手にプロンプトを変更してくれます。
実際に作成された GPT の詳細は、Configure タブで確認できます。
色々と設定できる項目がありますが、ここでは一旦無視しましょう。
後の章で、全て詳しく解説していきます。
これらはもちろん手作業で変更することができます。
実際の GPT の動作は、右側の Preview タブからいつでも確認することができます。
GPT の共有
GPT の共有範囲は、右上から、自分だけ、URLを知っている人だけ、パブリックに公開の三つから選ぶことができます。
Only me は、自分だけ。
URLにアクセスしても自分のアカウントだけしかアクセスできないため、自分専用の特化型GPTに使います。
Only people with a link は、リンクを知っている人だけ。
例えば、社内用で、機密情報を扱わないGPTなどに使えます。
Public は、GPT Store に並びます。
GPT Store が出る前に質の高いGPTを作っておくのがベストです。
GPT Store に出す場合は必須: Builder Profile を設定する
ここでは、GPT Store に出す場合に必須のBuilder Profile の設定方法、特に、自社ドメインの設定方法を見ていきます。
自分の名前が出ても大丈夫な場合は、Name を ON にするだけでもOKです。
ただ、Website (独自ドメイン)を登録することで、信頼性が高まるのと、ここからの集客なども見込めますので設定するのがおすすめです。
Step 1. Settings → Builder Profile にいく
Step 2. Verify new domain から、ドメインを追加
ドメインを追加します。この際、https などは必要ありません。
入力後に Submit をクリックします。
Step 3. TXTレコード用のデータをコピーします
Step 4. しばらく待ってから Website を ON に
しばらく(5〜30分)ほど待ってから、Website を ON にすれば、完了です。
これで、こんな感じでリンクが作者欄に反映されます:
第2章 GPTで出来ることのすべて
GPTsは多くの素晴らしい機能を搭載しており、そのポテンシャルは計り知れません。
本章は、GPTsに搭載された主要な機能を簡単に紹介し、
全体的な理解を深めることが目的です。
これらの機能を適切に組み合わせることで、本当に便利なGPTsになっていきます。
各機能の詳細な解説は後続の章で行います。
それぞれ、GPT Builder の Configure 画面からチェックボックスをオンにしたりすることで使えます。GPT-4 Vision については常にオンです。
Code Interpreter 概要
「Code Interpreter」機能は、Python でのプログラムを生成、実行する機能です。様々な計算やデータ処理を可能にします。
プログラミングスキルがなくても、心配無用。
GPT自身がコードの記述を手助けし、必要な処理を実行してくれます。
DALL・E Image Generation 概要
次に、テキストからのAIによる画像生成ができる「DALL·E」機能です。
例えば、「猫を描いて」と言えば特定のテーマやスタイルに沿って猫の画像が生成されます。生成される画像の精度はとても高いです。
Web Browsing 概要
「Web Browsing」機能は、Bing検索エンジンを用いてインターネット上の情報にアクセスし、最新のデータを取得することが可能です。
これは、日々変化する情報を追いかける上で非常に便利な機能です。
ただし、Web Browsingの深掘りで述べるように、使用場面はそこまでないかもしれません。
GPT-4 Vision 概要
GPT-4 Visionは、AIが画像を理解する機能です。
この機能を用いることで、GPTは画像内容の解析、説明、さらには関連するテキスト情報の生成が可能になります。
例えば、特定の画像に対する詳細な説明を要求したり、画像からインスピレーションを得たテキストコンテンツを作成したりすることができます。
Knowledge 概要
「Knowledge」は、あらかじめGPTにファイルを渡しておける機能です。テキストファイルやPDF、画像、フォントなんでもありです。
また、従来のGPTでは長いテキストや複雑な情報の処理が困難でしたが、この機能により膨大な情報を効率的に処理することが可能になります。なんと、約500MBまで対応しているという報告があります。
Actions 概要
最後に、「Actions」機能は、APIリクエストを通じて外部のサービスやソフトウェアと連携する能力を持っています。API とは、外部からのデータの取得、指示、データの保存や削除などを可能にするものです。
これは、GPTsが単なる情報提供だけでなく、実際の「行動」を起こせるようになることを意味します。外部のサービスに指示を出したり、データを取得・送信したりすることが可能です。
この機能により、GPTsはよりダイナミックで実用的なツールへと進化しています。
他の機能も、全て強力な機能ですが、他のGPTと差別化する上では Actions が最も成否を分ける機能と言えるでしょう。
【重要】全ての機能は、組み合わせることができる!
重要な点として、上記であげた機能群は、単体でも非常に強力なものばかりですが、これらは単体でのみ動作するわけではありません。
一回のChatGPTの返答プロセスの中で、複合的に色々と何度も組み合わせて使用することができます。
これにより、作ることができる GPTs の能力には無限の可能性があります。
まだ、市場に出ている GPTs は、この点についてよく理解して作っているGPTは少なく、まだまだ作られるべきGPTが作られていないのが現状です。
あなたは、これらの組み合わせから、どんな面白いアイデアが思いつきますか?
本当に優れたGPTsは、これらのChatGPTのコア機能を少なくとも2つ以上を組み合わせて作られている印象があります。
例えば以下のGPT、AITANは、Knowledge、Code Interpreter、Actions を3つ、DALL·E と GPT Builder のポテンシャルを最大限活かしています:
以上で、「GPTで出来ることのすべて」の基本編は終了です。
次章ではこれらの機能について一つずつ、詳しく解説していきます。
第3章 Code Interpreter 深掘り
GPTsの中でも特に強力な機能の一つが「Code Interpreter」です。
この章では、Code Interpreter の機能とその活用法を詳しく掘り下げていきます。
Code Interpreter の概要
Code Interpreterは、ChatGPT内でPythonコードを実行するための環境です。
これにより、ChatGPTは単に情報を提供するだけでなく、実際の計算やデータ処理を行うことが可能になります。
PythonはAI関連の分野で広く使われており、
この機能によりGPTsはさらに強力なツールへと進化しています。
Code Interpreter でできること
Code Interpreterを用いることで、計算、画像処理、簡単な機械学習など、Pythonで行える多くの処理が可能です。
ただし、この環境にはインターネット接続不可、最大60秒の処理時間といった制限があります。また、ここで作られたファイルはしばらくすると自動で削除されます。
このような制限はありますが、え、こんなことできるの?
みたいなのも実はできたりします。
例えば、顔領域を検知しモザイクをかけるなんてこともできたりします:
上記のチャットからダウンロードした画像:
実際に実行された Python のプログラムは、実行ログをクリックすることで展開して、見ることができます。
他にも画像系でいうと、
・画像を切り抜く
・文字を入れ込む
・拡張子を変換する
・白黒画像にする
・他多数
など、できることは多岐にわたります。OpenCVという画像処理に特化したライブラリを使えるため、他にも大量にできることがあります。
具体的に使えるライブラリの範囲は、こちらのサイトで確認できますが、基本的にはChatGPTが要求された処理に適したコードを記述し、実行してくれます。
聞き方にはコツがいりますが、頼んでみると意外とできると言うことも結構あります。
これできないかな?と思ったらとりあえず聞いてみるのがおすすめです。
Code Interpreterで毎回同じコードを実行するためのtips
もし特定の処理を確実に行いたい場合は、予めPythonコードを記述し、それをGPTにプロンプト、もしくは Knowledge で渡すことなどができます。
これにより、ChatGPTは直接与えられたコードを実行することで、
より確実に同じ処理を行うことが可能になります。
他にも例えば、上記の顔検知では、”CascadeClassifier” という、プログラムの中で使われている単語をプロンプトなどで使うことで、出力を安定させることができます。
Code Interpreter を使ったGPTsを作る!
それでは実際に、Code Interpreter を使ったGPTを作ってみましょう。
ここでは上記のように、写真に顔があればモザイクをかけるGPTを作ってみることにします。
Code Interpreterを使うには、チェックボックスをオンにして、Code Interpreterを使うように促すプロンプトで指示するだけです。
以下のようなシンプルなプロンプトが使えます:
あなたには、ユーザーから受け取った写真に顔があればモザイクをかけてもらいたいです。
顔がなければ、顔がないと出力してください。
顔の領域検知には、CascadeClassifier を使ってください。
モザイク処理が終わったら画像を表示してください。
No talk, Just go.
最後の1行「No talk, Just go.」は私のお気に入りのプロンプトで、ChatGPTが余計な言葉を挟みにくくなります。
実際にやってみた結果が以下です。一度失敗しているため多少調整が必要そうですが、無事顔にモザイクをかけるGPTが完成しました。
作ったGPTは以下のリンクから実際に使えます:
第4章 DALL・E Image Generation 深掘り
DALL·E とは?
DALL·E は、テキストから画像を生成する画期的なAIモデルです。
OpenAIにより開発されたこのAIは、従来の画像生成AIと比べて細かいニュアンスやディテールを理解し、よりリアルな画像を生成できます。
例えば、「アニメ風でラーメンを食べる女性」のように具体的でユニークなシーンを描画することが可能です。
商用利用について
DALL·E で生成した画像は、商用利用が可能です。
OpenAIから特別な許可を得る必要はなく、画像は自由に使用できます。
ただし、著作権に抵触する内容や、暴力的、成人向け、憎悪的なコンテンツの生成は禁止されており、出来ません。
DALL·E 3の基本的な使い方、コツ
DALL·E は自然な日本語のプロンプトから画像を生成できます。
また、生成された画像に英語の文字を入れることもでき、より詳細なデザイン要求に対応可能です。
このように文字入れをすることは、今までの画像生成AIでは難しかったことであり、これもまたDALL·E3の用途を広げています:
ただし、現状日本語に関しては文字入れすることができません。今後に期待です。
ちなみに、文字入れの成功率を上げるには、同じテキストをはじめと終わりで二回指示すると文字が入りやすいという報告があります。
画像のアスペクト比やスタイルの指定
DALL·E 3では、「1:1(正方形)」、「16:9(横長)」、「9:16(縦長)」の3つのアスペクト比に対応しています。指定方法は「縦長にして」などのシンプルなプロンプトでOKです。
正方形、横長、縦長といったアスペクト比の指定や、水彩画などの画風の変換が可能で、これらの機能を使ってさまざまな表現を試すことができます。
もしDALL·E自体にもっと詳しくなりたい場合はこちらのnoteをご覧ください。
DALL·E を使ったGPTsを作る!
画像生成機能を使ったGPTを一個一緒に作ってみましょう。
「ユーザーのメッセージに対して、メッセージ付きの猫の画像で返答するGPT」を作ってみます。
今回作ったプロンプトがこちらです:
あなたには、ユーザーのメッセージに対して、猫の画像で返答してもらいたいです。
あなたは猫になりきってください。
dalle を使って、ユーザーのメッセージへ応答する画像を生成してください。
必ず画像のみを生成するように注意してください。テキスト情報は一切出力しないでください。
画像のプロンプトは以下のフォーマットを参考にしてください:
`Sign in the cat's hand says "${the English message of your reply}".
${the cat prompt}`
英語のメッセージは可能な限り短く簡潔にしてください。
ポイントは、画像のフォーマットを指定する以下の部分です。
このように、実際にどのような画像生成プロンプトを使って画像生成するかを指示することで、出力を制御することが可能です。
上記の画像で実際に使用されているプロンプトです:
「Sign in the cat's hand says "Hi!" 」とあり、ちゃんとプロンプトで指示した形式で画像生成されていることがわかります。
実際に作ったCat GPTはこちらから試せます:
第5章 Web browsing 深掘り
Web browsing とは?
続いての GPTsのもう一つの機能は「Web browsing」です。
Web browsingは、インターネット上での検索を可能にする機能です。
例えば、ChatGPTには現時点で、2023年4月までのナレッジカットオフがありますが、
ブラウジングを使えば2023年11月の最新情報を取得し、
それに関する要約を作成することが可能です。
引用先のソースも表示されます。
Web browsingの基本的な使い方
今回は、ウェブブラウジングの実例をプロンプトと一緒に、3つ紹介します。
1.特定のメディアでトレンドになっているニュースについて教えてもらう。
2.記事のURLを渡して内容を要約してもらう。
3.特定の形式で最新情報をまとめてもらう。
Web browsing を使ったGPTsを作る!
それでは、Web browsingを使ったGPTの作成について説明します。
今回は以下のように、企業名を渡すと、その企業の最近の動向を調べ、SWOT分析を行うGPTを作成してみましょう。
GPTの設定で、Web browsingにチェックを入れます。
プロンプトは以下の通りです:
あなたには、ユーザーから受け取った企業名について、
Bingブラウジングで最近の動向を調べ、分析をして欲しいです。
分析のフレームワークにはSWOT分析を使ってください。
分析の過程を出力してください。
ステップbyステップで実行してください。
No talk, Just go.
ブラウジングの実行後や、企業名が英語の場合もあるので「日本語で回答してください。」という一文を付け加えました。
実際にOpenAIと入力すると、以下のような出力が得られます:
このように、Web browsingを活用することで、
最新情報にアクセスし、それを活用できるGPTを作ることができます。
競合調査GPTはこちらから使えます:
※ ただし、GPTsのWeb browsing 機能は、BING検索である点、また直接ダイレクトにURLを開くことが出来ない点などから、第8章、Actions 深掘りで取り扱う、Webpilot を統合して使用した方が、より機能性が上がります。
第6章 GPT-4 Vision 深掘り
GPT-4 Visionは、画像を認識し解析する機能で、唯一GPTsにデフォルトで設定されています。
これにより、テキストベースの対話を超え、
視覚的な情報を処理し、それに基づいてコンテンツを生成できます。
例えば、画像内容の詳細な解説や、
画像を基にしたテキスト情報の作成を依頼できます。
基本的な使い方
GPT-4 Visionの使い方は、画像をシステムに提供し、
その内容に関する質問をするだけで非常に簡単です。
例えば、ChatGPT研究所のロゴ画像を提供し「この画像を説明して」と依頼できます。
GPT-4 Visionを活用する
高度な使い方として、DALL·E 3とGPT-4Vを組み合わせることで、
以下のように、パンダの写真からそれをピクサー風のアニメ調に変換してもらうというようなことができます。
さらに、Vision APIを活用することで、 連続的に画像を解説させることが可能になります。
これにより、AIによる完全自動解説を、 ゲームやスポーツに適用することができるようになりました。
Vision APIの詳細はこちら:
GPT-4V を使ったGPTsを作る!
では、GPT-4Vを活用したGPTsを作っていきます。
ここでは、画像のように自分のプロフィール画像をアップロードすると、
それを絵文字スタイルのアバターに変換してくれるGPTsを作成してみましょう。
GPTの設定で、Code Interpreterのチェックを外します。
理由は、画像の特徴を把握してもらう時に、
Pythonを実行しないようにするためです。
プロンプトは以下の通りです:
あなたには、ユーザーから受け取った写真を絵文字スタイルのアバターに変換して欲しいです。
Visionを使って画像の特徴を捉えてください。
元の写真の特徴を保ちつつ、絵文字スタイルにしてください。
アバター以外の背景は白にしてください。
No talk, Just go.
このように、GPT-4Vを活用することで、
テキストを超えたコミュニケーションが可能になり、
さらに他のツールと組み合わせることで可能性は無限になります。
絵文字クリエイターGPTはこちらから使えます:
この先に含まれる
・Knowledge の深掘りに関する内容、
・Actions の深掘りに関する内容、
・ChatGPT研究所で一番使われているGPTのプロンプト全文
・および、そのデータ全て(8412個のGPTs Knowldge情報など)
に関しては、
GPTsラボメンバー限定での閲覧とさせて頂きます。
GPTsラボについて、簡単にご紹介です:
その他、GPTsラボ内のハッカソンやGPTs開発合宿など、
いろいろなイベントを企画中です。
ぜひ、GPTsラボへのご参加を検討ください。
具体的には本記事の続きでは、以下の内容が含まれます:
ここから先は
【厳選10記事】必読記事総まとめお買い得パック
今年のChatGPT研究所の記事で、特に好評だった必見記事や、有料記事の中から厳選して10記事まとめました。ChatGPT初心者の方から中…