いっぺんにやろう!肺の認識と骨の抑制!

論文 Image to Images Translation for Multi-Task Organ Segmentation and Bone Suppression in Chest X-Ray Radiography

胸部X線撮影は胸部・骨の診断や検診などに最も用いられています。世界で年間に約20も撮影が行われているほどです。それほど、医療において重要な検査になります。皆さんも健康診断で胸部X線撮影(レントゲン・一般撮影・X線検査とも呼ばれます)は受けられたことがあると思います。

胸部X線撮影の原理を凄く簡単に説明すると、X線はモノにもよりますが、透過する力があります。透過しづらいモノと透過しやすいモノの割合が白黒として画像に現れています。肺のように空気を多く含むところは、X線が透過しやすく、画像上で黒く写ります。逆に骨などではX線は透過しづらく、画像上で白く写ります。つまり、影絵に似ています。

そのため、重なり合う臓器や解剖学的形状やサイズを正確に診断することは難しいです。そこで、近年AIを用いたコンピュータ支援診断(Computer-Aided Diagnosis: CAD)に注目が集まっています。診断精度を良くするために、コンピュータによって肺野の領域認識(セグメンテーション)する研究肺野に重なる骨を消してしまう骨抑制に関する研究などが多く行われています。

以前の研究では肺野の認識や骨成分の抑制は別々に行われてきましたが、この論文では、正確な診断をするために、肺野のセグメンテーションタスクと骨成分の抑制タスクを1つのモデルで同時に行うmultitask pix2pix with dilation in the generator(pix2pix-MTdG)の開発を行いました。

つまり、画像上から右肺・左肺・心臓の領域を認識する作業その中で重なる骨を消してしまう作業の両方を同時に行っています。

肺野・心臓の領域認識(Segmentation)

もともと肺野の認識は医用画像処理では困難なタスクとされてきました。臓器の重なり具合や肺の形状・呼吸の仕方・性別・体格・病気・撮影者など様々な要因で、肺野の領域は変わってきてしまうためです。従来は、FCNの一種であるU-Netを用いた肺野領域の認識が盛んに行われてきました。

しかし、あまりにも様々な形状パターンを全て認識することは難しいのが現状でした。近年、新しい技術として敵対的生成ネットワークであるGANが登場し、さらに認識精度が高まりました。肺野の構造と修正を敵対的に行うことで高度な肺野の認識が行えるようになってきています。論文でもこのGANの技術によって肺野の認識を行う手法を採用しています。

骨成分の抑制(Bone suppression)

肺は肋骨という骨に守られており、胸部X線撮影では必ず骨が写ります。そのため、肺を認識する邪魔になるだけでなく、骨に被った病変が見にくくもなります。従来骨成分の除去方法としては、2種類or 3種類のエネルギーのX線で胸部を撮影し、それぞれのエネルギーでの差分を取ることで骨成分を除去する技術があります。

しかし、複数の撮影では、患者の被曝や肺の動き・心臓の鼓動などによって画像自体に変化が生じてしまいます。そこで、この分野でも胸部X線画像から骨成分を除去するAIが考案されています。また、制約付きのGANを用いた手法も高い精度が報告されています。

タスクの結合

今までの研究ではそれぞれ肺野の認識や骨成分の抑制は別々に行われてきました。今回の手法ではこれらのタスクを結合させて、同一に処理させることで精度向上を考えました。すなわち、従来の単一タスクではなく、マルチタスクで学習を行っています。

マルチタスクで行うと何がいいの?

・タスク間の共通点や相違点を利用することができるため、精度の向上に繋がる。

今回の場合、肺野の認識と骨(肋骨)は互いに同じ領域で行われるという共通点があります。他にも、肺はX線を透過しやすいため、画像上では黒っぽい。逆に骨は透過しにくく、画像上では白っぽい。これは相違点です。

多分、著者らはタスク間で共通して利用できるパラメータを学習させることで、過剰なパラメータの学習を抑える狙いがあったのではないかなと思います?

・必要なパラメータ数やメモリ、計算時間、ストレージの容量が少なくて済む。
実際に運用する際、全ての病院施設が同じようなシステムで運用しているわけではありません。病院で利用することをもうすでに考えているのではないしょうか。

 

モデル

提案されたpix2pix-MTdGは

(a) Generator(生成器)
胸部X線画像(In)が入力されると 、肺野のマスク(Ot1)と骨抑制画像(Ot2)の2枚の画像が生成されます。二つのタスクを同時に行うGeneratorになっています。そのため、入力時は1枚の画像(3チャンネル)であったものが出力時に2枚の画像(6チャンネル)になっています。Generatorで肺野の認識と骨抑制の2つのタスクを同時にこなしています。

(b) Discriminator(識別器)
生成された肺野のマスク(Ot1)と骨抑制画像(Ot2)と入力画像(In)を連結させたものと正解となる肺野のマスク(Tt1)と正解となる骨抑制画像(Tt2)と入力画像(In)を連結させたものを識別器で本物なのか、偽物なのかを判断します。

 

生成結果

左から順番に入力画像、肺野マスクの結果、正解の肺野マスク、骨抑制した結果、正解の骨抑制結果です。肺野マスクの青色が右肺・緑色が左肺・赤色が心臓を表しています。見方としては2列目と3列目が似ていれば、肺野認識において良い結果と言えます。4列目と5列目が似ていれば、骨抑制において良い結果と言えます。上段が最も良かった結果、下段が最も悪かった結果を示しています。
悪かった結果は明らかに間違った赤い領域(心臓)が検出結果にはあることがわかりますね。骨抑制精度はかなり高く、肋骨がほとんど除去されていることがわかります。

解析結果

 

(1)肺野・心臓の領域認識(Segmentation)

提案したネットワークpix2pix-MTdGとpix2pix・u-net・pix2pixMT(without dilation in the generator)を比較した結果を表(TABLE Ⅰ)にまとめました。比較した評価はDice係数・Jaccard係数・FNR(false negative rate )・FPR(false positive rate )です。全ての評価でpix2pix-MTdGが最も高い精度を示しています。

答えとなる結果は人が作成したものになります。今回の結果から提案手法は約98.5%も人と同じように肺野の認識ができているということになりますね。しかも、1枚の画像を1.2秒の速度でこの肺野の認識を行うことができます。人には真似できませんね。

Dice係数:2つの画像(検出結果と正解)の類似度を評価(似ている=高い値)
Jaccard係数:2つの画像(検出結果と正解)の類似度を評価(似ている=高い値)
FNR:認識できなかった割合(良い結果=低い値)
FPR:間違って認識した割合(良い結果=低い値)

(2)骨成分の抑制(Bone suppression)

骨抑制の精度をpix2pix・pix2pixMT・pix2pix-MTdGを比較した結果を表(TABLE Ⅲ)にまとめました。提案手法の骨抑制制度が高いことがわかります。肺野の認識に邪魔であった骨を約97.6%も消すことができていることになります。

でも、これって肋骨と被っている病変も消すのでは!?

今回正解の骨抑制画像の中には病変が含まれています。もし、骨抑制処理で病変を消した場合、MSSIMとRMSEは共に悪くなるはず。しかし、共に精度が高いことから、肋骨に重なっている病変は残しつつ骨抑制をしていることになります。

MSSIM:1に近いほど骨抑制精度が高い。
RMSE:0に近いほど骨抑制精度が高い

どんなことに使われる?

この技術は、診断をする医師や撮影をする技師を助ける技術となるでしょう。例えば、胸部X線画像から肺の疾患を見つける際にも、肺野の認識を行うことで精度向上が期待できます。また、胸部X線画像を用いて治療の効果があるかどうかを判定する際は、治療前に肺野を高精度に認識し、治療後に再び肺野を高精度に認識することで、治療前と治療後を比較することで治療効果があるのかどうかを判定します。すなわち、肺をいつも同じよう認識しなければなりません。また、この作業は煩雑で医師&技師の負担が大きく、ミスにつながる可能性があります。しかし、AIなら文句も言わず、いつもと同じように処理することができます。

 

 

 

 

 

 

 

この記事をシェアする