🌅はじめに
こんにちは!R&Dチームに配属されました、25卒(新卒)の栗林です。
私はポテンシャル採用というプログラミング未経験者として入社し、約3か月のIT研修を経て、現在はエンジニアとして日々新たな知識と技術の習得に励んでいます。
今回は、2025年6月27日にOpenAI社からリリースされた 「Deep Research API」 を試した結果と、その概要や感想をまとめました。
Deep Research APIの公式サイトは以下となります。
🤖Deep Research とは
APIの紹介に入る前に、まずはDeep Researchがどのようなものか、簡単に触れておきたいと思います。
deep research は、独立して作業を実行できる OpenAI の次期エージェントです。
プロンプトを送信すると、ChatGPT が数百のオンライン情報源を検索し、分析し、統合してリサーチアナリストレベルの総合的なレポートを作成します。
これは、ウェブ参照とデータ分析向けに最適化された、近日公開の OpenAI o3 モデルのバージョンを採用し、推論を活用して、膨大な量のテキスト、画像、PDF をインターネット上で検索し、解釈し、分析します。
さらに、検出した情報に反応し、必要に応じて方向転換します。
上記はOpenAI公式サイトより引用しましたが、簡単にまとめると、 「深い文脈理解と高度な要約能力を活かし、大量の情報源から複雑な調査やリサーチを自律的に行うことができるAIエージェント」 です。
※ o3 モデルは2025年4月16日に既に公開済み
その主な特徴は以下の通りです。
自律的な情報収集と分析: まるで人間のように、調査の途中で得られた情報に基づいて、必要に応じて調査の方向性を調整することができます。
高度な要約とレポート作成: 参照した複数の情報源から、深い文脈理解と高度な要約能力を駆使して、わかりやすくレポートとしてまとめてくれます。
情報源の明記: 使用した情報の引用元を明確に提示するため、レポートの根拠を容易に確認できます。
普段、私たちはインターネットで何らかの調査をする際に、まずキーワードでWeb検索したり、AIに質問をするかと思います。
その後、得られた検索結果から必要な情報を得るために多数のページを閲覧したり、情報の信頼性を自身で精査したりと、調査に多くの時間を費やしているのではないかと思います。
しかし、Deep Research では、上記のような私たちが多くの時間を費やしている作業を、自律的にかつ数十分で行ってくれます。
Deep Research は、インターネット上の膨大な情報を自動で参照し、参照した情報を Deep Research 自身が分析します。そして、その分析結果に基づいてさらに調査を進めたりと、一連の調査を全て自律的に行うことができます。
さらに、Deep Research は使用した情報の引用元を明記するので、出力された情報の信頼性もスムーズに確認できます。
👍Deep Research API でできること
先程紹介したDeep Research は、これまでChatGPTのユーザーインターフェース内でしか利用できませんでしたが、「Deep Research API」 として公開されたことで、プログラム内からの利用ができるようになりました。
先述したDeep Research 機能に加え、「Deep Research API」では、以下のことが可能になります。
多様な利用方法: Deep Research APIは、HTTPリクエストによる直接アクセスに加え、PythonとJavaScript / TypeScript向けの公式SDKを提供しています。
モデルの選択: 高精度・高品質のo3-deep-researchモデルと、軽量・低コストのo4-mini-deep-researchモデルを選択できます。
内部ツールの使用: 推論時には、Web検索ツールに加えてコード実行によるデータ分析やMCPサーバの呼び出しなどのツールも利用できます。
処理過程の出力: 最終的な回答だけでなく、Web検索ツールの呼び出し内容やコードの実行といった処理全体を出力できます。これにより、処理過程を確認することができます。
※ 各推論ステップの要約も出力できるようですが、追加の認証が必要だったため未検証。バックグラウンド実行: バックグラウンドモードを有効にすると、タイムアウトや接続の問題を気にせず、リクエストを非同期で即座に実行できます。 OpenAIには、同様に非同期処理を提供するBatch APIもありますが、両者には以下の違いがあります。
- バックグラウンドモード: 単一リクエストを即時に非同期実行。コストは通常の同期実行と同じ。
- Batch API: 複数リクエストをまとめて非同期実行。最大24時間後に処理される可能性があり、即時性は保証されない。コストは50%割引。
Webhookによる完了通知: バックグラウンドモード有効後、Webhookを設定することで、リクエストが完了した際に自動で通知を受け取ることもできます。
APIの利用シーンとしては、技術動向の分析や競合製品の調査など、様々ユースケースでの活用が考えられます。
✅実際に使ってみた
APIの使用方法は、環境変数にてOpenAIのAPIキーを用意し、リクエストを作成するだけです。
from openai import OpenAI client = OpenAI(timeout=3600) # 入力したいプロンプト input_text = """ """.strip() response = client.responses.create( model="o4-mini-deep-research", input=input_text, tools=[ {"type": "web_search_preview"}, {"type": "code_interpreter", "container": {"type": "auto"}}, ], ) print(response.output_text)
今回は、ユーザーからの質問を受け付け、Deep Researchによる出力を表示するスクリプトをPythonで作成し、実際に試してみました。
注意点として、Deep Research API は、ChatGPTのユーザーインターフェースとは異なり、モデル側からのフォローアップの質問がありません。
そのため、より高品質の出力を得るためには、自身でフォローアップ質問を生成し、その回答に基づいてプロンプトを書き換えるステップを用意する必要があります。
今回の実装では、OpenAI CookBookを参考にしました。
使用したモデルはo4-mini-deep-researchで、Web検索などのツール使用回数の上限を50回としました。
また、フォローアップ質問生成・プロンプト書き換えで使用したモデルはgpt-4.1-miniで、システムプロンプトのベースは公式サイトのを日本語訳したものです。
- フォローアップ質問生成用システムプロンプト
あなたは調査タスクを依頼しているユーザーと会話しています。 あなたの仕事は、そのタスクを成功裏に遂行するために必要な追加情報をユーザーから引き出すことです。 ガイドライン: - 必要な情報をすべて収集しつつ、**簡潔**にまとめる - 調査タスクに必要な情報を、わかりやすく整理された形で集める - 明確さのために、箇条書きや番号付きリストを適宜使う - 不要な情報や、ユーザーがすでに提供している情報は尋ねない - 抽象的な期間指定(例: 今週、今月)が含まれている場合は、必ず具体的な期間を確認する 重要: **自分で調査は行わず**、後でリサーチャーが調査を行うための情報収集だけに専念してください。
- プロンプト書き換え用システムプロンプト
あなたはユーザーから調査タスクを受け取ります。あなたの仕事は、そのタスクを完了するための研究者向けの手順を作成することです。 あなたの出力全文をそのまま研究者に渡します。手順に関係のない文章は含めずに、研究者がそのまま受け取って問題のない形式で出力してください。 **自分でタスクを実行してはいけません**。あくまでタスクを完了するための手順のみを提示してください。 GUIDELINES: 1. **具体性と詳細を最大化すること** - ユーザーの好みや条件をすべて盛り込み、考慮すべき主要な属性や観点を明示的に列挙する - ユーザーからの情報を漏れなく指示に反映させることが最重要 2. **ユーザーが示していないが必要な項目は“未指定”として扱う** - 意味のあるアウトプットに不可欠な属性がユーザーによって指定されていない場合、「未指定(オープンエンド)」として明記するか、特定の制約なしとする 3. **根拠のない想定を避ける** - ユーザーが示していない詳細を勝手に作らない - 指定がない場合はその旨を明示し、研究者には柔軟に対応するよう指示する 4. **一人称で書く** - ユーザー視点でリクエストを記述する 5. **表を使う場合** - 情報整理や視覚化に表が有用と判断したら、研究者に表形式での提示を明確に依頼する 例: - 製品比較(消費者向け): 各スマートフォンの機能・価格・評価を並べた比較表 - プロジェクト管理(業務): タスク・期限・担当者・進捗を一覧にした表 - 予算計画(消費者向け): 収入源・月次支出・貯蓄目標をまとめた表 - 競合分析(業務): 市場シェア・価格・主要差別化要因を示した表 6. **見出しとフォーマット** - 期待するアウトプット形式を明示する - レポートや計画など構造化された形式が望ましい場合、適切な見出しを付けたレポート形式を指定する 7. **言語** - ユーザー入力が英語以外の場合、ユーザーが別の言語を要求していない限り、その言語で回答するよう指示する 8. **情報源(ソース)** - 調査範囲(例: 投稿期間、調査場所)が指定されている場合は、必ずその範囲を厳守する。指定された範囲から外れるものは一切出力に含めない - 優先すべき情報源があれば明示する - 製品・旅行調査では公式サイトや信頼できるECサイト(例: Amazonのレビュー)を推奨 - 学術・科学分野では、レビュー論文ではなく原著論文や公式ジャーナルを優先 - 特定言語の問い合わせでは、その言語で公開された情報源を重視する - 出典としてURLを明記する場合は、RSSフィード配信サイトなどを利用せず、その元となっている公式サイトのURLを記述すること。
1. ユーザ質問受付
ユーザ質問を入力します。

2. フォローアップ質問生成・回答
このような形でフォローアップの質問が返ってくるので、それらに対する回答を入力します。

3. プロンプト書き換え・確認
ユーザーからの回答を受けて書き換えられたプロンプトに問題がないかを確認します。

4. Deep Research 実行
以下が出力結果です。※実行日は2025/7/14(月) です。
最新LLM技術ニュース(2025年7月上旬)
| ニュース日付 | タイトル | 概要 | 技術的特徴 | 情報源URL |
|---|---|---|---|---|
| 2025/07/09 | OpenAIがAI搭載ウェブブラウザを近日中にリリース予定 (www.reuters.com) | OpenAIは近日中にAI搭載のウェブブラウザを公開する予定で、Google Chromeに対抗すると報じられた (www.reuters.com)。新ブラウザはChatGPTのような対話型インターフェースを備え、予約やフォーム入力などのタスクをAIエージェントが自動で実行可能とする設計である。これによりウェブ閲覧体験が変革し、Googleの広告モデルにも影響を与えうる。 | - Chromiumベースの独自ブラウザ - 会話型AIインターフェースの統合 - 予約・フォーム自動入力などエージェント機能 - AI関連データ取得でユーザー行動把握の可能性 (www.reuters.com) |
Reuters (www.reuters.com) |
| 2025/07/10 | xAI「Grok 4」をテスラ車に搭載へ(Musk氏発表) (www.reuters.com) | Elon Musk率いるxAIが開発した最新の大規模言語モデル「Grok 4」が、来週にもテスラ車に搭載される見込みだと発表された (www.reuters.com)。Grok 4はxAIの最新フラグシップモデルで、テスラ車内にAI機能を統合し高度な対話やタスク遂行を実現する。一方、リリース直前にGrokの出力に反ユダヤ的表現が見られ批判を浴び、内容削除や改善検討が続いている (www.reuters.com)。 | - 翻訳・対話など強化された大規模言語モデル - テスラ車へのAI機能統合(ハンズフリー対話や車載エージェント) - モデル性能向上(複雑な推論や情報処理能力) - 公開前の安全検証課題(出力内容検閲) (www.reuters.com) |
Reuters (www.reuters.com) |
| 2025/07/10 | オープンソースLLM「Qwen 2.5」を用いたAIマルウェアがDefenderを回避 (www.tomshardware.com) | セキュリティ研究者がオープンソースの大規模言語モデル「Qwen 2.5」を用いてAI駆動のマルウェアを開発し、Microsoft Defenderを約8%の確率で回避できることを実証した (www.tomshardware.com)。AnthropicやDeepSeekのモデルと比べ大幅に高い成功率を達成したものの、現状は試作段階で実運用は難しい。執筆者はこの成果をBlack Hat 2025で発表予定としている (www.tomshardware.com)。 | - オープンソースLLM(Qwen 2.5)を活用 - 機械学習によるマルウェア自動生成 - マルウェア検出回避(8%成功) (www.tomshardware.com) - Defender等セキュリティツールへの対抗実験 - Black Hatでの発表(セキュリティ脅威の先行示唆) (www.tomshardware.com) |
Tom’s Hardware (www.tomshardware.com) |
| 2025/07/09 | Google、Gemini向け5大新機能を発表(折り畳み機やウェアラブル連携強化) (www.techradar.com) | GoogleはAIアシスタント「Gemini」に対し、Androidデバイス向けに5つの新機能を発表した (www.techradar.com)。外部画面で動作する音声対話機能(Gemini Live)や、画面上を丸く囲って連続的にAI検索するCircle to SearchのAIモードなどを導入。さらに、ゲーム中に画面の要素を囲むだけで戦略支援を得られる機能や、カレンダーなどネイティブアプリ連携によるパーソナルアシスタント機能、Galaxy Watch8対応の音声通知機能などを含む。これにより折り畳みスマホやスマートウォッチでのAI体験が向上する。 | - 折り畳み機向け音声対話機能(Galaxy Z Flip7 外部画面対応) (www.techradar.com) - AI連続検索「Circle to Search」AIモード (www.techradar.com) - ゲーム中AIサポート(画面囲みでヒント提示) (www.techradar.com) - ネイティブアプリ(Googleカレンダー等)との連携 - スマートウォッチ通知および音声操作対応(Galaxy Watch8) (www.techradar.com) |
TechRadar (www.techradar.com) |
注: 重要なニュースとして、OpenAIのAIブラウザ開発は従来の閲覧体験を革命的に変える可能性があります。また、xAIのGrok 4は高性能なLLMをテスラ車に搭載する大きな一歩である一方で、安全性への懸念が喚起されています。Tom’s Hardware報道のQwen 2.5によるAIマルウェア実験は、LLMの悪用リスクを示す技術的デモンストレーションとして注目されます。GoogleのGemini新機能強化は、AIを日常デバイスにシームレスに組み込む流れを示しています。
実行時間: 243.16秒(約4分)
推定コスト: $1.49059(約220円・2025/07/14時点)
💭試してみた感想
コストについて
高いです。Deep Research APIで使用できるモデルの料金表は以下のようになっています。
| モデル名 | 入力(100万トークンあたり) | 出力(100万トークンあたり) |
|---|---|---|
o3-deep-research |
$10.00 | $40.00 |
o4-mini-deep-research |
$2.00 | $8.00 |
Deep Researchの大きな特徴として、
- 自律的な情報収集と分析: まるで人間のように、調査の途中で得られた情報に基づいて、必要に応じて調査の方向性を調整することができます。
とあるように、モデルは推論時に何度もWeb検索を行って調査を進めます。そのため、推論時に使用するツールの回数を制限しないとかなりの額になります。(今回試した内容だと、制限しないと平気で$8は行きます。)
今回はコスト対策として、以下を行い改善を試みました。
- ツールの使用回数上限を設定する
- 軽量な
o4-mini-deep-researchモデルの活用
調査したい内容に応じてツールの使用回数を制限するなど、コスト管理には十分な注意が必要です。
扱いが若干難しい
LLM初心者である私の感想としては、意外と指示通りに動いてくれないな...という印象を受けました。特に以下の点で苦戦しました。
調査場所の指定(特定のサイトなど)を守らない
これに関しては、Deep Research の特徴である情報収集能力をかえって制限することにも繋がるので、特定のサイト内の調査などには向いていないと思いました。調査期間の曖昧な指定(今週、今月など)を守らない
「今週」と指定しても、数か月前の情報を出力することが多々ありました。情報源に「最新」などと含まれていると、そのサイトの作成日時に関わらず引用してしまう傾向などが見られました。
これらの原因としては、推論時に大量のWeb検索をしてその情報を参照するため、情報量にモデルが支配され、不安定になってしまうことが考えられます。
今回はその対策として、
- Deep Research のシステムプロンプトで入力プロンプトの内容を厳守させるように指示する
- フォローアップ質問で曖昧な箇所を可能な限り無くす
これらを行ったところ、ある程度の効果が見られました。
出力結果について
出力結果から、ユーザ質問の「今話題になっているLLM関連のニュースを調査してほしいです」に対し、Deep Researchは適切な調査レポートを出力できていると感じました。
特に、英語圏のニュースからその概要や技術的特徴を日本語で簡潔に出力できる点は、Deep Researchの要約能力の高さを感じました。
また、実行日である2025年7月14日時点で「今話題になっているLLM関連のニュース」という要求に対し、2025年7月9日、10日付のニュースが適切に出力されており、情報の鮮度も十分に確保されていることを確認できました。
しかし、「扱いが若干難しい」セクションでも述べたように、ユーザが指定した調査場所や調査期間を厳守させるには、フォローアップ質問を通じてプロンプトの品質を向上させるなどの対策が必須でした。
Deep Research APIから高品質かつユーザーが求める情報を正確に引き出すためには、プロンプトの設計が非常に重要であると感じました。
📚おわりに
試してみた感想では、Deep Research APIのコストや扱いの難しさについても触れましたが、適切な使い方をすれば、とても強力なツールになると思いました。
「Deep Research API」はまだリリースされたばかりで、その活用シーンにはとても可能性を感じたので、引き続き動向に注目したいと思います。
オプティムでは、最新のAI技術に興味のあるエンジニアを募集しています。是非以下の採用ページもご覧ください!