グラフニューラルネットで手話通訳もAIにお任せか

画像認識 2019年02月12日

3つの要点
✔️ 手話認識問題は通常の視覚系AIでは解けない
✔️ 通常の空間を扱うGCNを拡張し、数10フレーム分まで扱えるように拡張
✔️ AIの正解率はまだ57%で、まだまだ改善が必要

Spatial-Temporal Graph Convolutional Networks for Sign Language Recognition
written by Cleison Correia de Amorim, David Macêdo, Cleber Zanchettin
(Submitted on 31 Jan 2019 (v1), last revised 20 May 2020 (this version, v2))
Comments: Published by ICANN.
Subjects: Machine Learning (cs.LG); Computer Vision and Pattern Recognition (cs.CV); Machine Learning (stat.ML)

はじめに

今回紹介するのは先週発表されたAI×手話通訳の論文です。聴覚障害者の増加に伴い手話通訳者の需要も高まっており、手話認識AIの登場が強く期待されています。論文では人の体や指の姿勢をグラフ構造と捉え、グラフニューラルネットで手話認識を行う新たな手法を提案しています。

増える聴覚障害者、足りない手話通訳者。
手話は通常の視覚AIではわからない
時空間GCN
骨格検出：OpenPose
実験結果と展望

増える聴覚障害者、足りない手話通訳者。

World Health Organizationによると、聴覚障害者は世界に4億人いるとされ2050年には9億人に登ると推測されています。特に発展途上国で聴覚障害者は多く、耳の病気が悪化して障害に至るケースが多いようなのですが、特にそのような地域では手話が理解できる聴覚健常者は少なく聴覚障害者と健常者との間のコミュニケーションの壁が深刻化しています。

このような現状を受け機械による手話認識の研究は1990年代からありますが、最近ではディープラーニングを用いた研究も始まっています。

続きを読むには

(3164文字画像8枚)

AI-SCHOLARに
登録いただく必要があります。

1分で無料で簡単登録する

または