診断に至る思考までもデータ化!歯科パノラマエックス線写真データセット「TDD」とは?
3つの要点
✔️ 歯科パノラマエックス線写真のTufts Dental Database(TDD)を紹介
✔️ TDDは、歯と顎骨の位置、病変の有無、石灰化の程度など、複合的な情報を持った世界初のデータセット
✔️ TDDは、歯科所見に加え、読影者のアイトラッキング情報と診断理由のテキストデータを含む
Tufts Dental Database: A Multimodal Panoramic X-ray Dataset for Benchmarking Diagnostic Systems
written by
(Submitted on Oct 4 Oct 2021)
Comments: Published on IEEE J Biomed Health Inform.
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
概要
歯科パノラマエックス線写真には多くの情報が含まれるため、虫歯の検知、腫瘍の検出、骨粗鬆症のリスク評価など、多様な機械学習の応用事例に利用されてきました。ところが、ある論文では虫歯の検知、他の論文では歯周病の評価などを行い、パノラマエックス線写真が持つ多くの情報量を活用しきれていませんでした。
そこで著者ら(タフツ大学)は、Tufts Dental Database(TDD)という1000枚のパノラマエックス線写真からなるデータセットを作成しました。TDDは、解剖学的構造、病巣の位置や広がりなど、多くの歯科所見を含んだ世界初のマルチモーダルなデータセットです。
歯科で用いられるエックス線写真の例
この論文で紹介された例は以下の3つです。
左から (a) periapical, (b) bitewing, (c) panoramic と書かれていますが、いわゆるデンタル、咬翼法、パノラマのことです。
パノラマエックス線写真は、口腔を含めた上下顎を包括的に撮影でき、1枚のエックス線写真で多くの情報を提供します。
歯科AIを取り巻く課題
この論文では、AI技術が歯科で十分に活用されていない理由を以下のように述べています。
- 個人情報保護の観点からデータにアクセスできない。
- データセットが複雑で多元的であり、病的・健康的な偏りがある。
- その他のデータセットに比べて数が少ない。
- 明確なゴールドスタンダードがなく、アノテーションに専門家が必要である。
- 予測に至った経緯や理由のフィードバックがない。
本論文では上記の問題点を解決すべく、1000枚のパノラマエックス線写真からなるデータセットを紹介しています。TDDは歯科所見に加え、歯科放射線科医の認知をアイトラッキング(目の動きの追跡)と診断理由の聞き取りによってデータ化しています。
データセットについて
収集方法と撮影機器について
写真は、タフツ大学歯学部病院で2014年1月から12月までに得られたパノラマエックス線写真から無作為に選ばれました。ただしボケやアーチファクトのない品質の高いものを選定しています。この1000枚の画像に対して、歯科放射線科医と歯学部4年生(口腔顎顔面放射線学の講義と臨床研修を修了し、試験に合格した者)がアノテーションを行いました。
撮影機器は、OP100 Orghopantomograph(Instrumentarimu Imaging社 / Kavo Kerr社)とPlammeca Promax 2D(Henry Schein社)であり、画像濃度やコントラスト設定は撮影機器が自動的に決定しています。
セグメンテーションの例
下の画像が、パノラマエックス線写真に対する各種のマスクです。
(a) もとのパノラマエックス線写真、(b) 「異常」と判断された領域、(c) 視線の動きをプロットした白黒画像、(d) 視線の動きをカラー表示した画像、(e) 歯牙の領域、(f) 口腔含めた上下顎全体、というように、1つのパノラマエックス線写真に複数の画像が付与されます。
異常に関する階層的記述法
この論文では、異常所見に対して以下のように階層的な記述を行い、評価者間の表現や判断基準に曖昧さが出ないようにデザインされています。
- 第1階層(水色)では解剖学的位置について述べています。歯冠周囲、歯根周囲、顎骨内、歯とは無関係な領域と4つに分類します。
- 第2階層(緑色)は異常部の周辺についての記述です。境界明瞭か不明瞭かの2つです。
- 第3階層(橙色)は放射線学的所見です。透過性、不透過性、隔壁や石灰化の混在の3つです。
- 第4階層(藍色)は異常部が隣接する構造物についての記述です。歯牙の変位、歯根吸収、骨の菲薄化や肥厚、組織の変性、軟組織への進展です。
- 第5層(紫色)は異常の分類です。良性腫瘍や嚢胞、悪性新生物、炎症、異形成、代謝性/全身性、外傷性、発達による生理的なものとしました。
歯科放射線科医と学生との相違点
以下は、歯科放射線科医と学生が指摘した異常部位の位置情報の一致度を示した表です。
専門医の方が、指摘する異常所見の数が多いです。逆に言えば、学生の方が異常を発見できずに「異常なし(None)」と評価を下しています。あるいは診断を間違えている場合も考えられます。
3.5 アイトラッキングと聞き取り調査
パノラマエックス線写真を評価するとき、評価者の目の動きを追跡しました。ある場所を見るのに費やした時間(固定時間)を円の直径で表し、長く見つめるほど円は大きくなります。
(b) は異常部位のセグメンテーションマスクであり、(c)や(d)が示すように評価者の視線は病変部位に長く固定されていることがわかります。
また評価者が判断に至った理由を聞き取った音声データは、音声認識を用いてテキスト化され、jsonファイルに追加されます。
データセットの使い方
TDDはこちらのウェブサイトで公開されていますが、利用者はリクエストフォームを提出してダウンロードの許可を得る必要があります。
データセットの構造は上記のようになっており、1000症例に対して、合計9000枚の画像が含まれています。これらは前述した病変部のセグメンテーションマスクや、以下のような歯牙のセグメンテーションマスクを含みます。
TDDの使用例
著者らは実際にTDDを使用して、既存手法を実装しています。例えば、画像のエンハンスメント(読影しやすいように画像処理すること)では以下のような画像を得ることができています。
AMEやLogAMEとは、データセットの品質スコアに用いられ、人間の主観的な評価に着想を得た指標です。どちらも小さいほど画像のコントラストが高いことを意味しています。つまりボケがなく見やすいと判断されます。
また歯牙のセグメンテーションの結果は以下のとおりです。
評価指標としてPA(pixel accuracy), IoU(intersection over union), Dice係数を用いています。
本論文の目的はデータセットの作成であり、機械学習モデルの性能アップではありませんので、数字の多寡にはあまり意味を持ちませんが、既存の報告と同等あるいはそれ以上の結果が得られたそうです。
まとめ
本論文では、Tufts Dental Databaseという1000枚の歯科パノラマエックス線写真からなるデータセットが紹介されました。TDDには歯牙のセグメンテーション、病変部のセグメンテーション、関心領域のマスク、アイトラッキングマップ、診断理由のテキストデータが含まれ、歯科用AIの開発に非常に有用なデータセットといえるでしょう。
この記事に関するカテゴリー