blog

AI創薬ベンチマーク「GeneBench-Pro」——日本企業の活用と実務判断

AI創薬ベンチマーク「GeneBench-Pro」——日本企業の活用と実務判断

AI創薬ベンチマーク「GeneBench-Pro」の要点——何が発表されたか

OpenAIは2026年6月30日、計算生物学を対象とするリサーチレベルのAI評価基盤「GeneBench-Pro」を発表した(出典:openai.com)。先代「GeneBench」を継承しつつ、設計思想を根本から転換した点が注目に値する。単なる知識問答の正答率を問うのではなく、AIエージェントが「研究上の判断力(research taste)」を持つかを評価する構成を採用している。

ベンチマークは129問、10ドメイン・21サブドメインで構成される。統計・集団・定量遺伝学、規制オミクス、機能ゲノミクス、プロテオミクス、臨床/PGx/診断、がんゲノミクス、微生物ゲノミクス、法医遺伝学と、現代の創薬・バイオ研究が直面する領域を横断的にカバーする。問題は合成データで構築され採点基準は明確だが、人間の専門家が1タスクに要する時間は約20〜40時間と設定されており(出典:digg.com)、容易に解ける問題を意図的に排除した設計になっている。

現時点の最高成績はGPT-5.6 Solで正解率31.5%(出典:digg.com、linkedin.com)。旧GeneBenchでの最強モデルスコアが5%未満だったこととの比較は劇的だが(出典:linkedin.com、digg.com)、31.5%という水準は研究現場の全課題をAIが自律解決できる段階には遠く、ベンチマーク自体が現在のAIの限界を正直に映している。10問分がHugging Face上でインタラクティブビューワーとともに公開されており、50問のサブセットをArtificial Analysisが独立評価する予定とされている(出典:digg.com、linkedin.com)。

GeneBench-ProによるAI評価フローと日本企業の活用接点AIモデル投入GPT-5.6 Sol 等GeneBench-Pro129問・10ドメイン「研究判断力」を評価スコア算出・比較正解率・トークン効率日本の製薬・バイオ企業の3つの活用接点① ベンダー選定の定量根拠化 ② グローバル連携の共通言語 ③ 社内稟議の客観的根拠※ 現時点の最高スコア:GPT-5.6 Sol 31.5%(旧GeneBench最強モデルは5%未満) 出典:digg.com / linkedin.com※ Artificial Analysisによる50問独立評価を予定 出典:digg.com※ 人間専門家の1タスク所要時間:約20〜40時間 出典:digg.com
図:GeneBench-ProにAIモデルを投入して研究判断力を数値化するフローと、日本企業がスコアを活用できる3つの接点を示す。スコアはベンダー選定・国際連携・社内稟議の根拠として機能しうる。

AI創薬ベンチマークが構造的に変えるもの——日本の製薬・バイオ企業への意味

GeneBench-Proの登場が持つ意味は、単一モデルの性能向上にとどまらない。AI創薬ツールの評価を「売り手が語る効能」から「独立した第三者基準による数値比較」へと転換させる可能性を持つ点にある。

ベンダー選定の判断軸が変わる。国内製薬企業がAI創薬ツールを選定する際、これまでベンダー各社の自社評価や事例紹介が主な情報源だった。共通ベンチマークが整備されると、「当社ツールは〇〇モデルを搭載」という定性訴求から、「GeneBench-Pro上で〇%の正解率を達成」という定量比較が可能になる。標的同定・化合物スクリーニングといった創薬初期工程でAIを活用する場合、ツールの生物学的推論能力を客観的に検証できる基盤は、稟議・調達プロセスにおいても有効な材料となりうる。

国内AI創薬企業のグローバル比較文脈が変わる。科学技術振興機構(JST)の「ライフサイエンス・臨床医学分野 AI創薬」に関する調査報告(2025年12月)は、日本のAI創薬研究が技術水準の高さを維持している一方、グローバル競争でのポジショニングや産学連携のスピードが課題として整理されている(出典:jst.go.jp)。GeneBench-Proを自社モデルの評価に組み込むことで、国際的な技術比較の共通言語を得ることができると考えられる。

政策文脈との接合が生まれる。内閣官房の「創薬力向上の進捗状況 フォローアップに係る調査研究」では、日本の創薬力強化に向けたAI活用の重要性が明示されている(出典:cas.go.jp)。企業が自社のAI創薬能力を客観的に示す際、国際標準に準拠したベンチマークスコアは、政府・研究機関との連携や研究費申請においても説得力のある材料になりうる。文部科学省も「医薬品開発におけるAIの活用」として産学官連携の促進を取組として打ち出しており(出典:cas.go.jp)、外部評価を根拠にした判断が求められる場面は今後増えていくと見られる。

AI創薬の基盤を成す機械学習・深層学習の概念については、機械学習の概念と実務応用ディープラーニングの基礎と応用が理解の土台となる。また、ゲノム・バイオ情報解析で活用されるマルチモーダルアプローチについてはマルチモーダルAIの解説も参照されたい。

AI創薬ベンチマーク活用の具体的メリットと実務接点

日本の製薬・バイオ企業がGeneBench-Proをどう活用できるか、導入・経営視点から三点に整理する。

ツール評価の内製化と外部検証の組み合わせ。GeneBench-Proの10問はHugging Face上で公開されており、社内のAI・データサイエンスチームが複数のAI創薬ツールや大規模言語モデルをこのサブセットで試行し、研究判断能力の差を可視化することが技術的に可能な状態にある。追加コストなしに着手できる範囲であり、まず技術チームへの課題として共有する価値がある。ただし10問は全体129問の一部に過ぎず、それ単体では能力全体の把握に限界があることは明記しておく必要がある。

グローバルパートナーとの対話基盤。海外の製薬大手やバイオベンチャーと共同研究・ライセンス交渉を行う際、GeneBench-Proスコアを共通言語として用いることで、使用するAIエージェントの能力水準を透明に共有できる可能性がある。中外製薬などの国内製薬大手がAI創薬の国際連携を積極的に進めていることは公表資料から確認できる(出典:chugai-pharm.co.jp)。共通評価基準の存在は、こうした連携の交渉コストを下げる方向に働くと考えられる。

社内の意思決定・稟議への活用。AI創薬ツールへの投資を稟議する際、「なぜそのモデルを選ぶか」の根拠として独立した第三者ベンチマークのスコアを添付することは、経営層や審査部門への説明責任を果たすうえで実用的だ。定性的な「AI導入で研究が加速する」という説明よりも、国際水準の評価基盤を参照した定量的な根拠は、意思決定の透明性を高めやすい。

ゲノム解析・バイオインフォマティクス分野で活用が広がる自然言語処理の役割については、BERTと自然言語処理の解説を参照されたい。また、創薬データ解析で重要なスパースモデリングについてはスパースモデリング入門が補助になる。

デメリット・注意点:AI創薬ベンチマーク活用の限界とリスク

GeneBench-Proを過度に評価することもまた、意思決定を歪める。以下の点は、経営・調達判断の前提として認識しておくべきだ。

ベンチマークスコアは実務性能と一致しない場合がある。GeneBench-Proは合成データを用いて構築されている。実際の創薬パイプラインで扱う社内実験データや患者由来の生物学的データとは性質が異なる。ベンチマーク上の高スコアが、自社の研究課題に対する高い実用性を保証するわけではない。

現時点の最高スコアでも限界は明確だ。GPT-5.6 Solの31.5%という正解率は、残り約70%の問題を解けないことを意味する。人間専門家が1タスクに20〜40時間を要する問題群であることを踏まえれば、現在のAIはあくまで補助ツールとしての位置づけを超えておらず、研究判断をAIに全委任できる段階ではない(出典:digg.com)。

公開問題数が限定的であること。現時点でHugging Face上に公開されているのは129問中10問に過ぎない。残りの問題群・採点基準の詳細が今後どの範囲まで公開されるかは明らかでなく、完全な独自評価には制約がある。

規制・データガバナンスの対応は別途必要。AI創薬ツールを実際の医薬品開発に組み込む際には、薬機法・個人情報保護法・PMDAによる規制対応が伴う。ベンチマーク評価はこれらの規制適合性を代替しない。

日本語・日本特有データへの対応は未検証。GeneBench-Proは英語の論文・データを前提に構築されたと考えられる。日本語の医療・研究文献や日本人特有のゲノムデータへの対応能力は、このベンチマークのスコアからは読み取れない点に留意が必要だ。

AI創薬の基盤技術である強化学習や生成モデルについては、強化学習の解説GANの基礎と応用も参考になる。また、テキストマイニングを活用した論文・特許情報の解析手法についてはテキストマイニングの実務活用を参照されたい。

日本の創薬・バイオ企業が今とるべき実務的な次の一手

GeneBench-Proは2026年6月30日に発表されたばかりであり、国内製薬・バイオ企業の多くがまさに対応を検討しはじめる段階にある。経営・事業責任者が優先的に検討すべき行動を、実務的な観点から四点に整理する。

①公開サブセットを社内チームで試行する。Hugging Faceで公開されている10問を使い、自社が現在導入・検討しているAIツールや基盤モデルの計算生物学的能力を実際に試すことが最初のステップだ。費用をかけずに着手できる範囲であり、まずは技術チームへの課題として共有する価値がある。

②Artificial Analysisによる独立評価の結果を注視する。50問サブセットの独立評価が公開された際には、複数モデルの横断比較が可能になる(出典:digg.com)。この結果はベンダー選定の参照データとして活用できると考えられる。公開のタイミングを把握するため、Artificial Analysisのレポートを追跡する体制を社内に設けることが現実的な対応だ。

③AI創薬ロードマップへの位置付けを明確にする。内閣官房の調査が示すように、日本の創薬力強化においてAI活用は国家的な優先課題に位置付けられている(出典:cas.go.jp)。企業としてAI創薬をどの工程に導入し、どのような評価指標で進捗を管理するかを経営レベルで定義する好機となる。GeneBench-Proはその指標の一つとして、国際的な文脈で参照できる基盤になりうる。

④社内評価能力の構築を中期的に計画する。ベンチマークの意義を理解し、自社の研究課題に対してAI能力を評価できる人材——バイオインフォマティシャンとAIエンジニアの協業体制——の整備が中長期的な競争力に直結する。JSTの報告でも、日本のAI創薬推進における人材育成の重要性が整理されている(出典:jst.go.jp)。ベンチマーク評価を担う人材を内製できるかどうかが、今後の差別化要因の一つになると考えられる。

AI創薬・機械学習全般の動向については、クリスタルメソッドのブログ最新AIモデルの動向解説も合わせて参照されたい。


主要指標比較:GeneBench-ProにおけるAIと人間専門家

評価項目 GPT-5.6 Sol 旧GeneBench最強モデル 人間専門家(参考)
正解率 31.5% 5%未満 —(基準設計者)
1タスクの所要時間(人間) 約20〜40時間
トークン効率(対GPT-5.2比) 約1/3のトークンで
約6倍のタスクを解決
公開問題数 10問(Hugging Face公開)/50問(Artificial Analysisで独立評価予定)
ベンチマーク総問題数 129問・10ドメイン・21サブドメイン
主要カバー領域 がんゲノミクス・プロテオミクス・臨床/PGx/診断・機能ゲノミクス・微生物ゲノミクス等

出典:openai.com / digg.com / linkedin.com(2026年6月30日時点)


参考文献

  • OpenAI GeneBench-Pro 発表(openai.com):https://openai.com(2026年6月30日)
  • GeneBench-Pro 詳細スコア・構成(digg.com):https://digg.com
  • GeneBench-Pro モデル性能・効率(linkedin.com):https://linkedin.com
  • ライフサイエンス・臨床医学分野 AI創薬 領域別動向編(科学技術振興機構 / jst.go.jp):https://www.jst.go.jp/crds/pdf/CRDS-FR-L/CRDS-FR-L105-202512.pdf
  • 創薬力向上の進捗状況 フォローアップに係る調査研究(内閣官房 / cas.go.jp):https://www.cas.go.jp/jp/seisakukaigi/kenkouiryou/siryou/pdf/r07_soyaku.pdf
  • 医薬品開発におけるAIの活用に関する文部科学省の取組(cas.go.jp):https://www.cas.go.jp/jp/seisakukaigi/kenkouiryou/iyakuhin/iyakuhinkyougikai_dai2/shiryo1-1.pdf
  • 中外製薬 AIを活用した新薬創出(chugai-pharm.co.jp):https://www.chugai-pharm.co.jp

監修

河合 継(クリスタルメソッド株式会社 代表取締役)

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について編集方針

AIブログ購読

 
クリスタルメソッドがお届けする
AIブログの更新通知を受け取る

Study about AI

AIについて学ぶ

  • AI創薬ベンチマーク「GeneBench-Pro」——日本企業の活用と実務判断

    AI創薬ベンチマーク「GeneBench-Pro」——日本企業の活用と実務判断

    AI創薬ベンチマーク「GeneBench-Pro」の要点——何が発表されたか OpenAIは2026年6月30日、計算生物学を対象とするリサーチレベルのAI評価...

  • 対話・チャットLLMのイメージ

    Claude Fable 5が復活、7月7日まで無償開放|対象プランと日本企業の使いどころ

    Anthropicの最新モデル「Claude Fable 5」が、米国の輸出規制解除を受けて2026年7月1日にグローバルで再展開されました。あわせて、7月7日...

  • 対話・チャットLLMのイメージ

    Claude Codeの既定モデルがClaude Sonnet 5に(v2.1.197)|変更点と使い方・注意点

    Anthropicのコーディング支援CLI「Claude Code」で、2026年6月30日リリースのバージョン2.1.197から、新モデルClaude Son...

View more