【GPT】OpenAI DevDay, Opening Keynote(日本時間11月7日午前3時開催)の内容まとめ

備忘録

日本時間11月7日午前3時開催に開催された、OpenAIの公式イベントOpenAI DevDayの、YoutubeLive(https://youtu.be/U9mJuUkhUzk)の内容を、
GPTのプラグイン「VoxScript(YouTubeの字幕をチャンク毎に読み込んでくれるプラグイン)」でまとめてもらいました。
要約と直訳気味で意味が伝わりづらくなってる感があるので、公式ブログ記事かこちらの和訳記事(https://laketonem.org/gpt4turboja/)も合わせて参照することをおすすめします。
以下、その内容になります。

プロンプト:以下のYoutube動画の字幕データを日本語でかつ全体の内容が欠損しないよう要約してください。
チャンク毎に要約してください。
https://youtu.be/U9mJuUkhUzk

以下、要約+回答を連結させたもの+目次

<TLDR>
Sam AltmanがOpenAI DevDayのキーノートで講演
ChatGPTとGPT-4のリリースとその進化について説明
OpenAIの使用者は週間で1億人、フォーチュン500企業の92%以上が利用
ChatGPTの実生活での応用例をビデオで紹介
GPT-4 Turboの新機能として128,000トークンのコンテキストサポートやJsonモードを導入
DALL-E 3やGPT-4 Turbo with visionなどの新モダリティ
ファインチューニングの機能拡張と価格の引き下げ
Microsoftとのパートナーシップ強化について言及
ChatGPTの更新、より良いユーザーインターフェース、AIエージェントビジョンに焦点
カスタムGPT(gpts)の紹介とその利用法
GPT Builderデモ、カスタムGPTの作成と公開について説明
Assistance APIのデモ、ステートフル会話やリアルタイムアクション実行機能を紹介
AIエージェントへの進展とOpenAIの未来ビジョンを展望
OpenAIのチームに感謝を示し、AIの力で世界が変わることを強調

使用した VoxScript
YouTube動画「OpenAI DevDay, Opening Keynote」の最初の字幕チャンクの要約は以下の通りです。

目次

オープニングキーノートの概要

OpenAIの開発者会議であるOpenAI DevDayのオープニングキーノートで、Sam Altmanが登壇しました。彼は参加者を歓迎し、サンフランシスコがOpenAIにとって重要な都市であること、そしてテクノロジー業界全体にとっても重要であることを述べました。彼はまた、過去1年間にOpenAIが成し遂げたことについて話し、特に以下の点を強調しました:

約1年前にChatGPTをリサーチプレビューとしてリリースし、好評を博した。
その後、GPT-4をリリースし、現在もっとも能力の高いモデルである。
最近では、ChatGPTが視覚と聴覚を持ち、話すことができるようになった。
DALL-E 3をリリースし、これは世界で最も進んだ画像モデルである。
企業向けには、ChatGPT Enterpriseをリリースし、セキュリティとプライバシーが強化され、GPT-4への高速アクセスやより長いコンテキストウィンドウなどが提供されている。
Altmanは、現在約200万人の開発者がAPIを使用して様々な用途で素晴らしいことをしており、フォーチュン500企業の92%以上がOpenAIの製品を使用していること、そして週間アクティブユーザーが1億人に達していることを明らかにしました。これらのユーザーは、製品が役立つと感じたため、口コミで広がったと述べています。

また、人々がAIをどのように使用しているかが重要であるとし、その例として、ChatGPTを使用してタガログ語で父親に感謝の気持ちを伝える、学業や家族の時間を管理する、痛みを管理するなど、人々の生活におけるChatGPTの実用例を紹介するビデオが示されました。

GPT-4 Turboの新機能と拡張

コンテキストの長さ:

GPT-4は最大8Kトークン(一部のケースでは32Kトークン)のコンテキストをサポートしていましたが、多くの開発者には不十分でした。
新しいGPT-4 Turboは、最大128,000トークンのコンテキストをサポートし、これは標準的な本で約300ページに相当し、8Kコンテキストの16倍の長さです。
長いコンテキストにおいても、モデルの精度が向上しています。

開発者向けの新しいコントロール機能

より多くのコントロール:

開発者がモデルの応答と出力に対するより多くのコントロールを必要としているというフィードバックに基づき、いくつかの改善が行われました。
新機能「Jsonモード」が導入され、モデルが有効なJsonで応答することを保証します。
モデルは関数呼び出しをよりうまく行い、一度に多くの関数を呼び出すことができ、一般的な指示にもより良く従います。
「再現可能な出力」という新機能も導入され、シードパラメータを渡すことで、モデルが一貫した出力を返すようになります。

AIの世界知識の拡充

より良い世界知識:

モデルが世界に関するより良い知識にアクセスできるようにするため、プラットフォームに「リトリーバル」機能が導入されました。
外部のドキュメントやデータベースから知識を取り込むことができます。
知識のカットオフが更新され、GPT-4 Turboは2023年4月までの世界の知識を持っています。

新モダリティとの対話

新しいモダリティ:

DALL-E 3、GPT-4 Turbo with vision、新しいテキストから音声へのモデルがAPIに導入されました。
GPT-4 TurboはAPIを通じて画像を入力として受け入れ、キャプション、分類、分析を生成できます。
新しいテキストから音声へのモデルを使用すると、テキストから非常に自然に聞こえるオーディオをAPIで生成できます。

カスタマイズとファインチューニングの進展

カスタマイズ:

ファインチューニングはGPT-3.5で非常にうまく機能しており、今日から16Kバージョンのモデルに拡張されます。
GPT-4のファインチューニング実験アクセスプログラムへの応募が開始されました。
これらのアップデートは、開発者がより多様なアプリケーションでモデルを適応させ、新しい知識ドメインを学習させるために役立ちます。

企業向けのカスタムモデルと提携

カスタムモデル:

OpenAIは「カスタムモデル」という新しいプログラムを開始しました。これにより、OpenAIの研究者が企業と密接に協力して、その企業とそのユースケースに特化したカスタムモデルを作成します。
これには、モデルトレーニングプロセスの各ステップの変更、特定のドメインに特化した事前トレーニング、カスタムRLポストトレーニングプロセスなどが含まれます。
このサービスは初期段階では多くの企業に提供できず、また費用も安くはないとのことですが、最先端を目指す企業には価値があるとしています。

プラットフォームとサービスの改善

レートリミットの増加:

既存のGPT-4顧客向けにトークンのレートリミットを倍増し、より多くの処理が可能になりました。
さらに、APIアカウント設定で直接レートリミットとクォータの変更をリクエストできるようになります。
著作権シールド:

OpenAIは「著作権シールド」という新しいサービスを導入しました。これにより、著作権侵害に関する法的な請求に直面した場合、OpenAIが顧客を守り、発生した費用を支払います。
これは、Chat GPT EnterpriseとAPIの両方に適用されます。
価格設定:

GPT-4 Turboは業界をリードするモデルであり、多くの改善が行われていますが、開発者からはGPT-4のコストが高すぎるというフィードバックがありました。
OpenAIは価格を大幅に下げることに成功し、GPT-4 TurboはGPT-4よりもプロンプトトークンで3倍、コンプリーショントークンで2倍安くなりました。
新しい価格は、プロンプトトークン千個あたり1セント、コンプリーショントークン千個あたり3セントです。

Microsoftとの連携強化

Microsoftとのパートナーシップ:

サティア・ナデラ(MicrosoftのCEO)が特別ゲストとして登壇し、OpenAIとのパートナーシップについて語りました。
MicrosoftはOpenAIとのパートナーシップを非常に価値あるものと見なしており、インフラストラクチャのビジネスにおいて、これまでにない新しいワークロードとパターンに対応するために、Azureのシステムを大きく変革していると述べました。

サティア・ナデラ(MicrosoftのCEO)は、OpenAIとのパートナーシップについてさらに詳しく語りました。彼は以下の点を強調しました:

Microsoftの役割:

Microsoftは、開発者が最高のモデルを構築できるように、最高のシステムを構築することを第一の目標としています。
Microsoft自身も開発者であり、GitHub Copilotなどの製品をOpenAIのAPIを使用して構築しています。
開発者へのコミットメント:

Microsoftはプラットフォーム企業、開発者企業、パートナー企業としての自身の役割を重視しています。
GitHub Copilotのエンタープライズ版を会議の出席者に提供し、Azureの最高のインフラストラクチャをAPIサポートで構築し、開発者が市場に迅速にアクセスできるようにすることを目指しています。
AIの未来に対するビジョン:

AIが本当に人々を力づけるものであるためには、AIの恩恵を広く普及させることが重要です。
安全性に重点を置き、安全性は後から考えるものではなく、初期段階から重視するものであるとナデラは述べました。
Sam Altmanは、開発者向けに多くの素晴らしいアップデートを共有したことを説明し、ChatGPTにもいくつかの改善が加えられたことを発表しました。主なポイントは以下の通りです:

ChatGPTの最新アップデート

ChatGPTのアップデート:

ChatGPTは現在、GPT-4 Turboを使用し、最新の改善と最新の知識カットオフを含んでいます。
ChatGPTは必要に応じてウェブをブラウズし、コードを書いたり実行したり、データを分析したり、画像を取得・生成したりすることができます。

インターフェースとユーザーエクスペリエンスの向上

ユーザーインターフェースの改善:

モデルピッカーが非常に煩わしいというフィードバックに基づき、ドロップダウンメニューをクリックする必要がなくなりました。
ChatGPTは自動的に必要なモデルを選択し、ユーザーが必要とするタイミングで適切な機能を使用します。

AIエージェントへのビジョン

AIエージェントに向けたビジョン:

OpenAIは、人々により良いツールを提供することで、素晴らしいことができると信じています。
AIがよりスマートで個人的でカスタマイズ可能になり、ユーザーに代わってより多くのことを行うことができるようになると考えています。
AIの安全性に関する課題に対処するためには、段階的かつ慎重な導入が最善であると考えており、AIエージェントの未来に向けて慎重に進むことが重要です。

特定の目的に合わせたGPTのカスタマイズ

Sam Altmanは、カスタマイズ可能なGPT、通称「gpts」について説明しました。これらは特定の目的に合わせてカスタマイズされたChatGPTのバージョンで、指示、拡張された知識、およびアクションを組み合わせることで、より有用で、多くの文脈でより良く機能し、より良いコントロールを提供します。これらのgptsは、ChatGPT内で直接使用でき、言葉を使ってプログラムすることができるため、非常にアクセスしやすく、すべての人にエージェンシーを提供します。

gptsの実用例と開発者の体験

彼は、gptsの使用方法、構築方法、配布と発見の方法について説明し、その後、開発者が自分のアプリにこのようなエージェントのような体験を組み込む方法を示しました。いくつかの例を挙げて説明しました:

code.org:

code.orgは、学校でのコンピュータサイエンスの拡大に取り組んでおり、何千万人もの生徒が使用するカリキュラムを提供しています。
code.orgは、中学生により魅力的な体験を提供するために、「lesson planner GPT」を作成しました。例えば、教師が「forループ」を創造的な方法で説明するように依頼すると、ビデオゲームのキャラクターがコインを繰り返し拾うという形で説明します。
Canva:

Canvaは、自然言語で説明したものをデザインするためのGPTを構築しました。例えば、「今晩のDevDayレセプションのためのポスターを作成して」と言うと、CanvaのAPIを使用していくつかのオプションを生成します。
Zapier:

Zapierは、6,000以上のアプリケーションを横断してアクションを実行するGPTを構築しました。デモでは、ソリューションアーキテクトのJessicaが、カレンダーのスケジュールを確認し、会議の早退を知らせるためにSamにメッセージを送るデモを行いました。
これらのgptsは、さまざまなタスクを簡単に達成するため、または単にもっと楽しむために役立ちます。また、これらはプログラミングの知識がなくても、会話を通じてGPTをプログラムすることができるように設計されています。これは、将来的に人々がコンピュータを使用する方法の大きな部分になると信じられており、興味深い初期の例です。

GPT Builderの紹介とデモ

Sam Altmanは、ビジネスアイデアについて考える手助けをするためのGPT、通称「GPT Builder」のデモンストレーションを行いました。このツールは、ユーザーが特定の目的のためにカスタマイズされたGPTを作成できるように設計されています。以下はデモの主要なポイントです:

GPT Builderの使用:

Altmanは、スタートアップ創業者がビジネスアイデアを考え、アドバイスを得るためのGPTを作成するプロセスを説明しました。
彼は「startup Mentor」という名前のGPTを作成し、創業者が成長していない理由について質問するように指示しました。
インタラクティブな設定:

GPT Builderは、ユーザーがGPTについての詳細を入力すると、それに基づいて詳細な指示を生成し始めます。
ユーザーは、スタイルやユーザーとのやり取りの方法についても指定できます。
カスタムアクションとフィードバック:

Altmanは、スタートアップに関する講義のトランスクリプトをアップロードし、その情報に基づいてアドバイスを提供するようにGPTに指示しました。
彼はまた、フィードバックを簡潔で建設的にするように指示しました。
プレビューと公開:

GPT Builderにはプレビュータブがあり、作成したGPTを試すことができます。
Altmanは、初期段階のスタートアップで従業員を雇う際に何を探すべきかという一般的な質問をGPTに投げかけ、GPTは彼が以前に言ったことがある3つのポイントを提供しました。
GPTの共有と発見:

GPT Builderを使用すると、ユーザーは作成したGPTをプライベートに保つか、リンクを通じて公開することができます。
企業向けのChatGPT Enterpriseを使用している場合は、会社専用のGPTを作成することも可能です。
GPTストアの導入:

OpenAIは、GPTストアを立ち上げる予定であり、開発者はそこにGPTをリストし、最も優れたものや人気のあるものを特集することができます。
ストアに掲載されるGPTは、OpenAIのポリシーに従っていることが確認された後にアクセス可能になります。
OpenAIは、最も有用で使用されるGPTを作成した開発者に収益の一部を支払うことを計画しています。
Altmanは、開発者がAPIを使用してエージェントのような体験を構築している例として、ShopifyのサイドキックやDiscordのClydeを挙げました。これらはプラットフォーム上でアクションを取ることを可能にするツールです。

Assistance APIのデモンストレーション

このセクションでは、OpenAIの開発者体験の責任者であるRamanが、新しい「Assistance API」のデモンストレーションを行いました。このAPIは、カスタムアシスタント体験を簡単に構築できるようにするためのものです。以下はデモの主要なポイントです:

Assistance APIの特徴:

長い会話履歴を扱うための「永続的なスレッド」が含まれています。
組み込みの検索機能とコードインタープリターがあり、サンドボックス環境内でPythonインタープリターを動作させることができます。
以前に話された改善された関数呼び出し機能も含まれています。
アシスタントのデモ:

Ramanは「Wust」という架空の旅行アプリのランディングページを示し、GPT-4を使用して目的地のアイデアを生成しました。
これらの目的地のイラストは、新しいDALL-E 3 APIを使用してプログラム的に生成されたものです。
アシスタントの作成:

アシスタントの作成は簡単で、名前、初期指示、モデル(この場合はGPT-4 Turbo)を選択し、コードインタープリターと検索機能をオンにして保存するだけです。
コードの統合:

新しいユーザーごとに新しいスレッドを作成し、ユーザーがアシスタントとやり取りするたびにメッセージをスレッドに追加します。
アシスタントを実行して、アプリにレスポンスをストリーミングすることができます。
アプリ内アシスタントの実演:

ユーザーが「パリに行こう」と言うと、アシスタントは特定のアシスタントをアプリ内で利用できるようにします。
関数呼び出しの機能:

関数呼び出しは、JSON出力を保証し、複数の関数を同時に呼び出すことができます。
アシスタントは、地図上にピンを落とすなどの関数を知っており、リアルタイムでピンを落とすことができます。
リトリーバル機能:

アシスタントには、ユーザーメッセージを超えた知識を提供するリトリーバル機能があります。
Ramanはパリへの航空券のPDFをアップロードし、リトリーバルがその情報を読み取り、画面に表示しました。
APIの状態管理:

この新しいステートフルAPIにより、会話履歴の複雑さがなくなります。
AIがAPIを管理していても、開発者ダッシュボード内でツールが取っているステップを確認できます。

開発者向けの新たなツールと機能

このセクションでは、Ramanが新しい「Assistance API」のさらなる機能を紹介しました。彼は、開発者が会話履歴を管理し、関数を呼び出し、PDFをアップロードして内容を取得するプロセスを示しました。以下はデモの主要なポイントです:

スレッドの管理:

Ramanは、開発者が会話スレッドを管理し、関数呼び出しやアップロードされたPDFの内容を確認できることを示しました。
コードインタープリター:

Assistance APIには、リアルタイムでコードを書いて実行し、ファイルを生成する能力があります。
デモでは、ユーザーが宿泊費と飛行機代を計算するためにコードインタープリターが使用されました。

音声アシスタントと実用例の展開

アシスタントの応用:

Ramanは、アシスタントが状態管理、外部ツールの利用、コードインタープリターの使用、そして独自の関数を呼び出してアクションを実行する方法を説明しました。
音声アシスタントのデモ:

Ramanは、DevDayイベントについてすべてを知っているカスタムアシスタントを作成し、音声入力を使用してアシスタントに話しかけるデモを行いました。
このアシスタントは、複数の言語を話す6つのユニークな声から選ぶことができます。
実際のアクションの実行:

アシスタントはインターネットに接続し、ユーザーのために実際のアクションを実行することができます。
デモでは、アシスタントがランダムに選ばれた5人のDevDay参加者にOpenAIのクレジットを$500分与えました。
APIのベータ版リリース:

Assistance APIはベータ版としてリリースされ、開発者はこれを利用して新しいアプリケーションを構築できるようになります。

AIとエージェントの将来像

将来のエージェントに向けて:

GPTとアシスタントは、将来的にはより複雑なアクションを計画し、実行できるエージェントへの前駆体です。
OpenAIは、これらのエージェントがより能力を持つようになるにつれて、世界がどのように変わるかを理解するために、今からこれらを使い始めることが重要だと考えています。

クロージングリマークスと感謝の意

この最終セクションでは、Sam AltmanはAssistance APIの導入と、AIエージェントへの第一歩について話しました。彼は、新しいGPT-4 Turboモデルの導入も発表し、これには改善された関数呼び出し機能、知識の拡張、価格の低下、新しいモダリティなどが含まれています。また、Microsoftとのパートナーシップを深めることも明らかにしました。

Altmanは、OpenAIのチームに感謝の意を表し、その才能の密度と、これらすべてを実現するための努力と調整を称賛しました。彼は、AIが技術的および社会的革命をもたらし、世界を多くの方法で変えると信じており、人々により良いツールを提供することで世界を変えることができると述べました。

AIは個々のエンパワーメントとエージェンシーを前例のない規模で提供し、人類をこれまでにない規模で高めると彼は信じています。インテリジェンスがどこにでも統合されるにつれて、私たちは必要に応じてスーパーパワーを持つことができるようになります。Altmanは、開発者がこの技術を使って何を構築するか、そして私たちが共に築く新しい未来を発見することに興奮していると述べました。

彼は、参加者に来年も戻ってきてほしいと願い、今日発表されたものが、現在彼らが作成しているものに比べて非常に素朴に見えるだろうと述べ、参加者に感謝を表しました。

コメント

タイトルとURLをコピーしました