GPT-4とは
GPT-4は、マルチモーダル大規模言語モデルで2023年3月に公開されました。前身のGPT-3.5よりさらに高度な能力を持っているといわれています。
それではGPT-4は以前と一体何がが変わったのでしょうか。
ーGPT-4の特徴
- モデルのサイズとパラメーター数: GPT-4は、以前より大規模で、さらに多くのパラメーターを持つ。より複雑な情報処理と、より高度なタスクに対処できる。
- 性能と精度: 25,000語以上のテキストを同時に読み取ることが可能。高度な自然言語理解能力を持ち、複雑な文脈を理解し、適切な回答を生成する。
- 安全性: ChatGPTのユーザーからのフィードバックなどを取り入れたほか、 50人を超える専門家と協力しAIの安全性やセキュリティを高めた。さらに、GPT-4は、GPT-3.5よりも、禁止コンテンツのリクエストに応じる可能性が82%低く、事実に基づく応答を生成する可能性が40%高くなった。
- 情報の推論と抽出: 与えられた情報から推論を行い、新しい情報を生成することができる。また、複数の情報源からの情報を抽出し要約することも可能。医学、法律、技術など専門的な知識を活用して専門的な文書を作成することができる。模擬司法試験を行わせたところ、受験者の上位10%程度のスコアを獲得した(GPT-3.5 のスコアは下位10%程度)。
このように、GPT-4は人間と遜色ないレベルの複雑で高度なパフォーマンスを備えています。
DALL・E 3とは
DALL・E 3とは、自然言語の記述から独自のデジタル画像を生成できる機能です。
現在DALL・E 3は、ChatGPT Plus、Team、Enterpriseユーザーに加え、APIを通じて開発者も利用できるほか、MicrosoftのBing Image Creatorでは無料で利用することができます。(商用利用は不可)
DALL・E 2に比べ、情報認知の精度が向上し憎悪や有害な画像を制限しながら、入力されたプロンプトにより忠実で精密な画像を創造します。また、作成後には微調整も行うことができます。
ChatGPTでは、GPT-4とDALL・E 3という新しい機能が利用できるようになりましたが、さらに音声認識および画像認識機能の搭載を始めています。これにより、もっと直感的にサービスを使用できるようになりました。
例えば、冷蔵庫の食材の写真を撮り、その食材を使ってできるメニューを考えたり、子供の宿題を手伝うなど、業務に使用するだけではなく日々の暮らしのサポートに使うことができます。
音声機能では、テキストと数秒のサンプル音声のみで人間のような音声を生成できます。また、オープンソースの音声認識システムであるWhisperを使用して、話し言葉をテキストに変換することが可能となりました。
2024年2月、OpenAIは、Sora(日本語の空に由来)という、動画生成AIで作成した動画をWebサイトに公開しました。テキストプロンプトで最長1分程度の動画を作成できるモデルです。公開された動画は「スタイリッシュな女性が、暖かく輝くネオンとアニメーションの看板で満たされた東京の通りを歩く..」と言ったプロンプトで作られたものですが、日本語風の不思議な文字の看板などに違和感を感じる動画であるものの、テキストだけであのような動画が作成できるのは驚くべき技術と言えます。
まだ、開発途中で安全性などいくつかの課題があるため、一部の専門家やアーティスト限定で公開されていますが、今後さらに改善を行い一般にリリースされる日もそう遠くはないかもしれません。
このようにOpenAIのChatGPTは、文章作成のみならず画像認識、音声認識、動画作成などにAIを活用したサービスを展開しています。今後ますます、AIが身近なものとなり多くのユーザーが日常生活や業務にAIサービスを活用していくのではないでしょうか。
引用元:OpenAI,:https://openai.com/sora/ ,(参照2024-4-12)