OpenAIがLifeSciBenchを公開、生命科学向けAI評価を研究現場寄りに

5行でつかむ概要

OpenAIは2026年6月17日、生命科学の実務に近い課題でAIを評価するベンチマーク LifeSciBench を公開した。

750件の専門家作成タスク、1,062個の付属アーティファクト、19,020件の採点基準を用意し、単純な知識問題ではなく研究判断を測ろうとしている。

対象は証拠整理、分析、設計、検証、翻訳、科学コミュニケーションなど幅広く、実験や創薬の現場に近い構成になっている。

初心者向けに言えば、AIが生物学の単語を知っているかではなく、研究者の補佐として使えるかを試す物差しだ。

生命科学は高リスクな領域なので、性能解釈や活用判断は元記事と論文を前提に慎重に進めたい。

重要ポイント

LifeSciBench は、実際の研究で起きる不完全な証拠の解釈、相反する結果の整理、実験設計、翻訳リスク判断などを扱うため、現場の複雑さを残した評価を目指しています。
タスクは Ph.D. レベルの科学者が作成し、複数回の見直しと専門家レビューを経て整備されたと説明されています。
7つのワークフローと7つの生物学領域をまたぐ構成で、自由記述回答を詳細なルーブリックで採点する点が特徴です。
AIの進歩を単一スコアで語るより、どの研究工程で役立ち、どこで危ういかを見るための評価基盤として読めます。

一般的なベンチマークは、正解が一つに決まる問題を多く含みます。けれど研究現場では、情報が足りなかったり、判断に根拠説明が必要だったりします。LifeSciBench は、その『答えだけではなく考え方も問われる仕事』に近い評価をしようとしている点が大事です。

AIの科学利用は、派手な発見例よりも評価設計の質が先に問われます。LifeSciBench は、実務寄りの課題をどう採点するかまで踏み込んでいて、専門領域向けAI評価の基準作りとしてかなり重要だと思います。