2D X線画像から 3D 筋骨格構造の体積・密度を予測するための生成 AI / Generative AI for prediction of 3D musculoskeletal structure volume and density from 2D X-ray images

1. Introduction 序章

Generative Artificial Intelligence (AI) has recently offered unprecedented capabilities in synthesizing content that resembles human creativity in various art and language fields. One of the most promising realms where generative AI showcases immense potential is medicine. By harnessing the power of generative AI algorithms, such as generative adversarial networks, healthcare professionals and researchers are empowered to revolutionize various facets of medical practice including diagnostics and personalized treatment strategies. In my work, I leverage the potential of generative AI in medical image analysis to improve the diagnosis of osteoporosis, sarcopenia, and the analysis of the musculoskeletal system. Our work in the Imaging-based Computational Biomedicine (ICB) lab in collaboration with orthopedic surgeons from Osaka University and Ehime University focused on the automated diagnosis of osteoporosis in hip joint patients by automatically measuring the bone mineral density (BMD) with high accuracy. BMD measurement is an important factor in predicting the risk of hip fracture, particularly, fractures at the base of the femur, which is a common incidence in aged societies that has detrimental effects on the patient’s quality of life. In addition, a system for predicting the composition of MSK structures from X-ray images for diagnosis of sarcopenia is under development. In this article, I briefly describe the concepts of both systems, summarize the current results and the future directions.

生成人工知能 (AI) は近年、さまざまな芸術や言語処理の分野で人間の創造性に似たコンテンツを合成する画期的な機能を生み出しています。 生成 AI が最も有望な分野の 1 つは医療です。 敵対的生成ネットワーク(=Generative Adversarial Network)などの生成 AI アルゴリズムの力を活用することで、医師や研究者は、診断や個別化された治療戦略など、医療行為のさまざまな側面で変革が起きています。 私の研究では、医療画像処理に生成 AIを活用して、骨粗鬆症やサルコペニアを含む、筋骨格系の解析を行っています。奈良先端大の生体医用画像(Imaging-based Computational Biomedicine, ICB)研究室では、 大阪大学および愛媛大学の整形外科医と共同研究で単純X線画像のみから骨密度(Bone Mineral Density, BMD)を高精度で自動的に測定することで、骨粗鬆症の診断を行うシステムを開発しました。 BMD 測定は、特に大腿骨頸部・転子部骨折のリスクを予測する上で重要な要素です。大腿骨の骨折は高齢者で頻繁に発生し、患者の生活の質を低下します。 さらに、サルコペニアの診断のためにX線画像から個別の筋骨格構造の組成(体積と密度)を予測するシステムの開発も進めています。 この記事では、骨密度予測及び筋肉量予測の両方のシステムのコンセプトを簡単に説明し、現在の結果と将来の方向性を展望します。

Fig. 1: Workflow of the proposed system for automated diagnosis of osteoporosis from X-ray images
X線画像からの骨粗鬆症自動診断システム

2. Automated estimation of bone mineral density (BMD) for diagnosis of osteoporosis 
骨粗鬆症の診断のための骨塩密度 (BMD) の自動測定

Traditionally, osteoporosis diagnosis is performed using a specialized BMD measurement device called DXA (Dual-energy X-ray Absorptiometry), which requires relatively large space and could only be performed at large university hospitals and medical facilities, thus having limited accessibility for patients in rural or low-income regions. Additionally, it takes 20 to 30 minutes to take measurements for one patient, as it requires lying in bed in a specific posture to take the image.

従来、骨粗鬆症の診断はDXA(二重X線エネルギー吸収法)と呼ばれる特殊な骨密度測定装置を使用して行われていましたが、この装置は比較的大きな設置スペースが必要なため大学病院や大きめの医療施設でしか実施できず、地方や低所得地域の患者にとってはアクセスが限られていました。 また、ベッドに寝て特定の姿勢で撮影する必要があるため、患者1人当たりの測定には20~30分程度かかります。

Our developed system uses AI to automatically recognize the bone region from CT images, based on paired data of X-ray images (2D images) and CT images (3D images) collected from 315 patients (Fig. 1). We combined this technology with a technique that displays images from CT and X-rays superimposed on each other. Using this method, we have built an AI system that can measure BMD using only X-ray images with almost the same accuracy as DXA or CT-based measurements (Fig. 2). Unlike DXA, X-ray images can be taken in small clinics or mobile examination vehicles, and can be taken while standing, so measurements for one patient can be completed in 1 to 2 minutes. Due to its high measurement accuracy, it can be used not only for screening but also for diagnosis of osteoporosis, as well as for determining the effectiveness of drug treatment for osteoporosis, leading to significantly reduced costs compared to DXA or CT examinations.

今回開発したシステムは、患者315名から収集したX線画像(2D画像)とCT画像(3D画像)のペアデータをもとに構築しました。CT画像からAIにより骨領域を自動認識するシステム(図1)とCT画像とX線画像を位置合わせして重ね合わせて表示する技術、を組み合わせました。 この手法により、X線画像のみでDXAやCTによる測定とほぼ同等の精度でBMDを測定できるAIシステムを構築しました(図2)。 DXAと異なり、X線画像は小規模診療所や移動検査車で撮影でき、立ったまま撮影できるため、患者1人当たりの測定は1~2分で完了します。 測定精度が高いため、スクリーニングだけでなく、骨粗鬆症の診断や骨粗鬆症の薬物治療の効果判定にも利用でき、DXA検査やCT検査に比べて大幅なコスト削減につながります。

This work has been published in 2023 in Medical Image Analysis, one of the most prestigious international journals in medical image engineering, with an Impact Factor of 10.9. In addition, this system has been accepted for deployment by the Japan Agency for Medical Research and Development (AMED), and we are currently working on its commercialization.

この成果は、医用画像工学で最も権威のある国際ジャーナルの 1 つである Medical Image Analysis(インパクトファクター: 10.9 ) に 2023 年に発表されました。 なお、本システムは国立研究開発法人日本医療研究開発機構(AMED)の製品化支援のための事業に採択され、現在実用化に向けて取り組んでいます。

Fig. 2: Representative results of the proposed system. The predicted images (DRRs) could help measure the BMD with almost the same accuracy as DXA and QCT-based measurements.
提案システムの代表的な結果。 予測画像 (DRR) は、DXA および QCT ベースの測定とほぼ同じ精度で BMD を測定するのに役立ちます。

3. Prediction of MSK tissue composition from X-ray images
X
線画像からの筋骨格組織組成の予測

Figure 3 shows the overall concept of the proposed framework for MSK decomposition of X-ray images. Using an AI model, similar to the bone density prediction introduced above, it is now possible to decompose X-ray images of bones, muscles, and other organs into projected images of each organ. By obtaining the isolated images of bone parts, the bone density can be measured. In order to train the AI model, training data, including the X-ray images with the corresponding bone segments, are needed. We collected the CT images and the X-ray images from 315 patients and used our previously developed tools for the automatic segmentation (i.e., extraction) of the proximal femur from CT images and aligning the CT and X-ray images to obtain the image pairs required for training.

図 3 は、X 線画像からの 筋骨格の分解のために提案されたフレームワークの全体的なコンセプトを示しています。 上記で紹介した骨密度予測と同様に、AIモデルを活用することで、骨や筋肉などのX線画像を臓器ごとの投影画像に分解することが可能になります。 骨部分の分離画像を取得することで、骨密度を測定することができます。 AI モデルを学習させるには、対応する骨領域を含む X 線画像とCTの学習 データが必要です。 我々は315 人の患者から CT 画像と X 線画像を収集し、以前に開発したツールを使用して CT 画像から大腿骨近位部を自動セグメンテーション (領域抽出) し、CT 画像と X 線画像を位置合わせして、モデルの学習に必要となる画像ペアのデータセットを構築しました。

Fig. 3: Concept of the proposed method for decomposition of X-ray images into MSK structures for bone and muscle density measurements
骨と筋肉の密度測定のために X 線画像を MSK 構造に分解するための提案手法のコンセプト

Figure 4 shows an example for the predictions by the developed decomposition system of a female of 81 years old and a body mass index (BMI) of 20.86 of 2 muscles (gluteus maximus and gluteus medius) and two bones (pelvis and femur). The values in blue are the predicted measurements, whereas those in green correspond with the errors compared with QCT-based measurements. SSIM indicated the similarity with the original images derived from the QCT images, with SSIM=1 indicates highest similarity. The results show that the system could accurately decompose the MSK structures into the constituent parts and estimate the bone/muscle densities.  

図 4 は、2 つの筋肉 (大殿筋と中殿筋) と 2 つの骨 (骨盤と大腿骨) の体格指数 (BMI) が 20.86 の 81 歳の女性において、開発されたシステムでX線画像から筋骨格を分離した結果の例を示しています。 青色の値は予測された測定値であり、緑色の値は 正解値(QCTから計測した値)と比較した誤差に対応します。 SSIM は QCT 画像から得られた正解画像との類似性を示し、SSIM=1 は最も高い類似性を示します。この結果は、本システムが 筋骨格構造を構成部分に正確に分解し、骨・筋肉の密度を推定できることを示しています。

Fig. 4: Representative result for the decomposition of X-ray images into MSK structures for bone and muscle density measurements 骨と筋肉の密度測定のための X 線画像の 筋骨格構造への分解の代表的な結果

4. Future Works

The developed systems could achieve high accuracy in the estimation of bone mineral density and bone/muscle decomposition for density estimation from Xray images. The results show potential for introducing the developed systems into clinical applications. These will hold promises for improving the diagnosis of MSK diseases, such as osteoporosis and sarcopenia, for wider populations with reduced costs and risks of ionizing radiation, especially in less developed areas. One potential application is the early prediction of bone fractures or fall risks, that highly diminish the mobility of elderly patients.  In my research, I will continue to explore new avenues for harnessing AI for the improvement of medical procedures and patient’s quality-of-life.

今回開発したシステムは、X線画像からの骨密度推定および筋肉の体積・密度の推定において高い精度を達成することができました。 この結果は、本システムの臨床応用の可能性を示唆しています。本システムにより骨密度測定のコストと放射線被ばくのリスクを軽減することで、より多くの人々が骨粗鬆症やサルコペニアなどの筋骨格疾患のモニタリングを行える環境を整備できると考えています。本システムの将来展望の一つとして、高齢患者の可動性を著しく低下させる骨折や転倒のリスクを早期に予測するアルゴリズムの開発が考えられます。 私の研究では、医療と患者の生活の質を向上させるために AI を活用する新たな道を引き続き模索していきます。

著者紹介/About the author

Yi Gu

生体医用画像研究室にて博士前期課程修了。現在、同研究室のダブルディグリー(フランス・Université Paris-Saclay)博士後期課程2年生。

I obtained my Master’s degree from the Imaging-based Computational Biomedicine lab. I’m currently pursuing my PhD degree in a double degree program (with Université Paris-Saclay, France) at the same lab.

自然言語で対話的に画像を編集する | 知能コミュニケーション研究室

知能コミュニケーション研究室助教の品川政太朗です。知能コミュニケーション研究室では、音声機械翻訳や対話システムなど、人と人、人と機械のコミュニケーションを支援する技術についての研究を進めています。コミュニケーションを重視しているということで、話し言葉を中心とした音声処理や言語処理、表情や身振り手振りなどのパラ言語情報を扱うための画像処理など、さまざまな情報処理を扱っています。

私が注目しているのは、言葉を使って、機械が人間とコミュニケーションをとりながら問題を解決するような課題です。現在は特に新しい画像の生成を行う対話システムの研究に取り組んでいます。画像生成は、近年著しく技術が進歩している技術です。広告やイラストの作成には高い技術が求められる上に、非常に手間がかかります。このような画像を自動的に生成できれば(または、実際に商用利用できる程でないにしろ、そこそこ良い画像を思い通りに生成できるようになれば)広告やイラストなど、画像の作成を専門にしている方が補助的に利用したり、画像を作成する技術がなくても、自分の欲しい画像の大まかなイメージを専門家に伝えたりなどして、コミュニケーションの齟齬を減らすことが可能だと考えています。よりイメージしやすい身近な例としては、探し人や探し物がある場合に、言葉で伝えるよりも画像を共有しながらお互いが頭で考えているイメージを擦り合わせていくことで、探し人や探し物を効率的に見つけるといったことができると考えています(図1)。

図1:画像が対話に有効に利用される例(機械が目撃証言を元に、対話しながら画像を編集して目撃者の見た顔を生成する)

このように、画像情報と言葉(言語情報)を組合わせて問題解決をするという研究分野は、まとめてVision & Languageと呼ばれており、世界的に盛り上がりを見せている研究トピックの一つとなっています。言葉でコミュニケーションをとれる、という要素は、将来的に機械が人間の役に立てる範囲を拡大するために、重要な要素だと考えられています。人間にとって最も頻繁に用いられる情報伝達の手段は言葉(言語情報)です。機械が言葉を理解し、扱えるようになれば、様々な作業を機械に言葉で頼むだけでできるようになる利点があります。

一方で、言葉というのは多様な表現が許されます。また、個人によっても、同じ言葉でも意図が異なる場合があります。たとえば、「この画像を格好良くしてほしい」というお願いをユーザが行った時、「格好良い」に紐づいている具体的な結果のイメージは、人によって様々です。人間同士の場合は、このような場合に「あなたの言う格好良いとはこういうことですか?」などと聞き返したり、対話することによってお互いの意図の擦り合わせを行えます。私は、このような対話の能力を機械が得られるようにし、個人に合わせて問題解決を行う機械を作りたいと考えています。

深層学習による、元画像と編集要求の文から目的の画像に編集するニューラル画像編集モデル

今回は、私の博士での研究と、その展望について簡単に紹介したいと思います。私が行った研究は、まさに図1にあるような、ユーザが言葉を使って、ユーザの思い浮かべている画像に向かって、段階的に画像を編集するシステムの研究です。編集する方法には、深層学習という方法を用いています。ニューラルネットワークという用語でも有名かと思います。深層学習では、画像と言葉のように、異なる情報源をベクトルとして表現し、ニューラルネットワークと呼ばれるネットワークを利用して、画像と言葉のデータからその対応関係を結びつけることができ、これを利用して、編集元の画像(元画像)と編集要求の文から、目的の画像への編集を行っています(図2)。

具体的には、画像を編集するのに向いている、敵対的生成ネットワーク(Generative Adversarial Networks; GAN)というニューラルネットワークを利用しました。編集要求の文の情報は、時系列情報を抽出するのに向いているLong-short term memory (LSTM)、編集対象の元画像の情報は、画像情報を抽出するのに向いているConvoluation Neural Networks (CNN)というニューラルネットワークを利用しました。元画像と編集要求の文の情報を組合わせて、GANで生成するという仕組みです。

図2:元画像と編集要求の文から目的の画像に編集するニューラル画像編集モデル

このモデルを学習するには、編集前の元画像、編集後の目標画像、そして両者の変換に対応する編集要求の文の3つの組で構成されるデータが必要になります。このようなデータはこれまでに存在しなかったので、アバター画像の作成が可能なウェブサイトを利用して、少し異なる画像の組をつくり、それぞれ元画像、目標画像とし、これらの画像の組をクラウドワーカーに見せて、2つの画像の違いを言葉で表現してもらいました(実際には英語を利用しています)(図3)。

図3:学習データ(元画像、目標画像、編集要求の文)の収集方法
図4:画像編集モデルによる編集で、編集要求の文にない編集が起きてしまった例

実際に画像編集モデルを学習させてみると、面白いことが分かりました(図4)。確かに入力である編集要求の文に沿った編集はできているものの、要求していない部分まで編集されてしまいました。多様な表現が許される言葉と画像の編集操作を結びつけることは、簡単にはいかなかったのです。この新たな問題に対して、本研究ではさらに、元画像のどの部分が編集するべき領域なのかを明示的に分けるマスク機構を提案して、マスク機構なしの場合より優れた編集が可能であることを明らかにしました(図5)。

図 5:マスク機構により、編集要求にない部分が意図せず変化してしまう問題を抑制した

システムからユーザへの確認戦略の導入

もう一つの研究は、システムが自信がない時に、ユーザに対して確認を行うという対話戦略をシステムに取り入れて、対話的に画像を編集するという研究に取り組みました。ユーザの多様な要求には、システムが苦手にしている入力も当然含まれます。深層学習のモデルは、限られたデータセットを用いて学習されるため、一つのモデルで多様な入力のすべてに対応することは困難です。例えばマスクありモデルは、髪の毛など大きな領域の編集を苦手としています。そのような場合に、複数のモデル(マスクあり・なし)による出力をユーザに見せて選んでもらい、より目標を達成できそうな方の画像を選んでもらうという対応策が考えられます。かといって、毎回確認するのはユーザの負担となります。そこで本研究では、生成されたマスクのエントロピーを基準として、必要な時だけユーザに確認することで、冗長な対話を削減できることを明らかにしました(図6)。

図6:システムが編集に自信のない時には、ユーザに確認をする対話戦略を導入して効率的に対話して画像を編集できるようになった

今後の展望

本研究では、「ユーザが言葉で画像を編集できる」という点に注目して研究を進めてきましたが、現実的に役に立つものを実現するには、まだまだたくさんの課題あります。例えば、実際のユーザは、一部なら自分で絵を描いたりできるかもしれません。言葉だけでなく、他の入力方法も考慮することで、どのような時に言葉を使うのが有用であるのか、明らかにしていく必要があります。また、どの編集も気に入らなかった場合に、どのようにユーザに働きかけると、ユーザにとって好ましいのかも、明らかにしていく必要があります。そして、言葉は本来、ユーザの文化的な背景などによって、指す意味が異なることが自然です。よって、対話を通して個人に適応するといった要素も必要になってきます。これらの面白い課題を一つ一つ解決していき、機械が様々な課題で人間とコミュニケーションをとりながら、より人間にとって心地よく、問題を解決できるような方法を模索していきたいと考えています。

著者紹介

品川 政太朗(しながわ せいたろう)

札幌出身。東北大学で学士・修士を取得後、博士後期課程から奈良先端大知能コミュニケーション研究室に所属。2020年9月に博士(工学)を取得後、現在は同研究室の助教として対話班を主導している。専門は画像と言語を組合わせて問題を解決するVision & Languageという分野で、特に対話的なコミュニケーションを行えるシステムの研究に従事。
🔗 Webサイト:
https://seitaroshinagawa.github.io/

固有表現を解析する | 自然言語処理学研究室

自然言語処理学研究室 教授の渡辺です。自然言語処理学研究室では、自然言語の構文構造や意味を解析し、知識を自動的に抽出するといった研究をしています。また、機械翻訳や画像キャプション、要約など、文章や画像を入力として別の文章を生成したり、文法誤りの訂正など言語習得の支援などの研究を行っています。

NAIST Edgeでは最先端の研究を紹介する、ということですので、今回は固有表現を含む、名詞句の抽出技術について紹介したいと思います。固有表現は、人名や地名などの固有名詞や日付、時間などでして、このような表現をテキストから自動的に抽出するタスクは検索や質問応答などさまざまな自然言語処理のアプリケーションに利用されています。辞書があれば簡単にできるのでは、と思われますが、知識は日々更新されていますので、新しいニュースや科学技術論文が出るたびに辞書を更新するのは現実的ではありません。また、単純に名詞句を並べただけでは、と思われがちですが、GENIAコーパスと呼ばれる、生命科学の分野を対象とした論文のアブストラクトのデータを眺めますと「Employing the [EBV – transformed [human B cell line] ] SKW6.4 , we demonstrate …」のように入れ子構造になったものや「prostate cancer and brest cancer cells」などのように、並列構造になったものがあります。特に並列構造では、この例のように「prostate cancer cells」から「cells」が省略され、解析を難しくしています。単純に「and」があれば並列にすれば良い、というものではなく、「Nara Inatitute of Science and Technology」のように、「Science」と「Technology」が並列ですが「NAIST」全体で一つの固有表現になります。

この問題に対してよく使われているのが「系列ラベリング」という手法です。例えばある入力文「… an increase in Ca2+ -dependent PKC isoforms in monocytes」に対して、下図のように、各単語にBおよびI、E、Oといったラベルを割り当てる、というものでして、各ラベルがそれぞれ「開始」「内部」「終了」「固有表現以外」のラベルになります。この例の場合「Ca2+ -dependent PKC isoforms」が固有表現になります。深層学習の技術を用いることで、テキストの各単語に対してラベルを予測する問題、として考え、このようなラベルが付けられた学習データからモデルを学習できます。ところがこの手法では、学習データが存在することを前提としていまして、科学技術の全ての分野でそのようなデータが存在するとは限りません。また、並列構造を発見するためには複雑なラベルを割り当てる必要があります。

計算言語学の国際会議COLING 2020で本研究室の澤田が発表した、名詞句の並列構造を解析する手法では、特定の分野の学習データがなくとも、高精度に解析できることを示しました。本研究では、並列構造を取る名詞句は意味的に近いだろうと仮定し、まず、文の中で並列構造を取りそうな単語列を全て列挙します。その後でfastTextELMoBERTなどを利用して、各単語のベクトル表現を求め、単語単位のペアに対して、意味的に近いかどうかをベクトル間の距離により計算します。さらに単語列単位の近さは動的計画法に基づいた編集距離で求めます。右の図の例では、「the retinoid-induced differentiation program」と「not the RARE-medicated signal」との近さを計算しています。この例では、「the ↔ the」および「retinoid-induced ↔ RARE-medicated」「program ↔ signal」が近いと計算され、対応付けられていますが、「differentiation」および「not」が対応付けられていません。この手法により、ラベル付き学習データにより訓練されたモデルに匹敵する性能で並列構造を解析できます。

計算機でも処理しやすい論文は人間でも読みやすい論文でもあります。たとえ冗長になったとしても、専門用語を複雑に組み合わせるような構造をなるべく避けるよう心がけてください。複雑な構造が増えると私達の仕事が増えてしまい、困ってしまいます。