
Biomed-Enriched:LLM注釈で臨床・教育価値を高めたバイオメディカル大規模データセット
3つの要点
✔️ PubMed記事を段落単位でLLM注釈し、高品質臨床症例や教育的価値の高い文が抽出可能に
✔️ 臨床文アップサンプリングや教育的価値フィルタで医療QA性能と学習効率を向上
✔️ 複合戦略BE-Allは性能向上と学習トークン削減を両立し、多言語適応にも有効性を示した
Biomed-Enriched: A Biomedical Dataset Enriched with LLMs for Pretraining and Extracting Rare and Hidden Content
written by Rian Touchent, Nathan Godey, Eric de la Clergerie
(Submitted on 25 Jun 2025)
Comments: Dataset link: this https URL
Subjects: Computation and Language (cs.CL); Machine Learning (cs.LG)
概要
本研究では、PubMed Central Open Access(PMC-OA)コーパスを基に、LLMによる段階的注釈を活用した新たなバイオメディカルデータセット「Biomed-Enriched」を提案。
一般的なLLMは多様なタスクで高い性能を示す一方で、医療・バイオメディカル分野では専門性や用語精度の不足が課題です。
その原因の一つは、学習データが主にWeb由来で、専門領域の情報が希薄であること。特に臨床データはプライバシー制約により公開が難しく、非英語データも乏しい状況です。
本研究では、PMC-OAの約1億3千万段落を対象に、まずLlama-3.1-70B-Instructで40万段落を注釈し、そのラベルをXLM-RoBERTa-baseに蒸留して全コーパスに適用。
これにより、段落ごとの種類(研究・臨床症例・レビュー等)、領域(臨床・生物医学・その他)、教育的価値(1~5)を付与し、高品質臨床症例や多言語セグメントを抽出可能にしました。
実験では、臨床文のアップサンプリングや教育価値によるフィルタリングが、医療QA性能や学習効率を向上させることが示されています。
提案手法
提案手法「Biomed-Enriched」は、段落単位の精密な注釈とデータフィルタリングを特徴とします。
データ収集段階では、PMC-OAから約450万本の全文記事を抽出し、非テキスト要素を除去、64トークン未満の短文も排除しました。
その後、二段階注釈を実施。
第一段階ではLlama-3.1-70B-Instructを用い、ランダム抽出した40万段落に対し、文章タイプ(臨床症例・研究・レビュー・その他)、ドメイン分類(臨床・生物医学・その他)、教育的価値(1〜5点)、言語を付与します。
第二段階では、得られた注釈をXLM-RoBERTa-baseに蒸留し、全段落を効率的に分類。この注釈結果に基づき、教育的価値3以上の段落のみ残す「BE-Educational」、臨床分野を10倍にアップサンプリングする「BE-Clinical」、臨床症例を強化した「BE-ClinicalCase」、多言語バランスを補正する「BE-French」など複数のデータセット派生形を構築しました。
さらに、注釈メタデータを段落冒頭に付与する「BE-Prefix」も作成し、モデルが文脈とメタ情報を関連付けられるよう設計しています。
実験
評価実験では、OLMo2-7B-stage1を基礎モデルとし、各Biomed-Enriched派生データセットで3,360億トークンを追加学習しました。
比較対象はBE-Base(加工なしPMC-OA)、および各種フィルタ・アップサンプリング適用版です。
評価指標には、MMLU医療サブセット、MedQA、MedMCQA、PubMedQA、さらにフランス語適応を測るFrenchMedMCQAを使用し、ゼロショットまたは5ショットで性能を測定しました。
その結果、複合戦略を採用した「BE-All」が平均スコア61.08%で最良性能を示し、BE-Base比で+0.67ポイント向上。特に臨床アップサンプリングはMMLU Professional Medicineで+4.04ポイント、教育的価値フィルタはMedMCQAやPubMedQAで安定した改善を示しました。
また、BE-AllはBE-Baseの約3分の1の学習トークンで同等性能に到達し、データ効率の高さが確認。
さらに、BE-FrenchはFrenchMedMCQAで有意な性能向上を達成し、多言語対応の有効性も示されました。
この記事に関するカテゴリー