音声認識市場No.1のアドバンスト・メディアが考える人とコンピューターの未来とは？

その他 2019年06月17日

音声認識の専業企業として20年以上の歴史を持つアドバンスト・メディア。彼らの思い描く、人とコンピューターの関わり方の未来について聞いてみました。

アドバンストメディアの事業内容

-事業内容を簡単に教えてください
音声認識技術をベースにした事業を行なっています。事業ドメインはコンタクトセンター、医療、議事録、製造・物流、建築・不動産など企業向けのビジネスを主に展開しています。

他にも音声翻訳を使ったインバウンド関連のビジネスや、海外事業などを展開しています。

-なぜ、この音声認識事業を始められたのですか？
もともと、創業者兼社長の鈴木は人工知能の研究を行なっていました。アメリカのカーネギーグループ主催の知識工学エンジニア養成プログラムに参加した際に、隣の研究室にいた音声認識の技術者達と知り合いました。コンピューターをキーボードで操作するよりも、人間に生来備わっている声を使う方がより自然ではないかと考え、まずはインターフェースとして音声認識技術に取り組み始めたそうです。

また人工知能は当時とても高価で、限られた人しか利用できませんでした。人工知能以前にまず、音声認識の方がビジネスとして広がりがあるのではないかと考え音声認識事業に着手しました。

機械学習が活用され始める前から音声認識に取り組まれていることに社長の先見の明を感じますね。20年来音声技術を研究されてきて今になって音声認識は一般にも広く認知されているものになりましたが、他社の音声認識と比較し何が強みでしょうか？

一般に使われている多く音声認識はtoCのものだと思いますが、私たちはtoBを主なビジネスとしています。toCでは汎用性の高い音声認識エンジンが用いられており、搭載されている語彙は広く浅く分布しているんですね。一方、私たちはビジネスや業界に合わせて狭く深い語彙を搭載した音声認識エンジンを提供しています。企業ごとに細かいカスタマイズやチューニングも可能です。

また、建築や製造などの現場で利用されることも多く、雑音に強いという点も他社に比べた強みと言えます。

音声認識技術の難しさ

-音声認識技術には、音声の認識そのものに利用する機械学習と、認識した言葉を意図理解する自然言語処理という二つの要素があると思うのですが、如何でしょうか？

音声認識そのものには、単語間のつながりを学習した言語モデルがありますが、自然言語処理は含まれておりません。弊社では、主に音声の認識そのものの機械学習に力を入れております。チャットボットなど自然言語処理技術の開発も行っており、今後は意図理解や要約などにも注力していきたいと考えています。

-なるほど、では音声認識を行う上で技術的に難しかった点はどこでしたでしょうか？

まず、リアルな音声データを集めるのが大変でした。さらに、リアルな音声データを認識結果の正解と結びつけなくてはAIに正しく学習させることができません。

ですので、最初は人が音声を聞き、人力で書き起こすというフェーズも苦労しました。最近はようやくDNN（Deep Neural Network）によってかなり良い精度が出るようになりつつあるため、大半のリアルな音声は修正するだけで済むようになり、大分楽になりました。

-声は個人差が非常に強く出ると思うのですが、どのように声を認識しているのか技術的な部分を伺ってもよろしいでしょうか？
確かに、男声、女声、口腔の違いなどでかなり個人差はあるのですが、「あ」や「い」などの音の作り方に関しては実はあまり違いがありません。個人の声質の差というよりは、声で表そうとしている音 (音素) の特徴に対象を絞ることで認識をしています。

-開発の際に所謂機械学習エンジニアを集めていらっしゃったと思うのですがこのエンジニアを集める方法などはどのようにしていましたか？

プロフェッショナルばかりを集めるのはやはり難しいので、アドバンスト・メディアでは基本的に自社教育をしてエンジニアを育てています。20年間培ってきた知見がありますので、コアな音声認識エンジンに関する技術職も、入社から1人前になるまでの教育制度を社内できちんと整えています。

日本社会と音声技術

-日本人の気質と音声認識の技術がマッチしていないとよく言われますが、それについてはいかがお考えでしょうか？

仰る通りで、toCであればそういった日本人の恥ずかしがる気質というのは大きなハードルになってしまうと思います。しかし、toBという私たちのフィールドではあまり大きなハードルにはなりません。というのも、仕事として使う必要があれば使うじゃないですか？ビジネスツールとして有効であれば、toBではあまり問題にはならないかと思います。

-確かにここ数年、音声認識の認知度が高くなってきていますよね。その中で顧客理解が深まってきたと感じることはありますか？
そうですね。確かにこの2~3年で顧客理解が非常に進んだと思います。その分競合も増えてきているので、その中でアドバンスト・メディアを選んで貰えるようにと頑張っています。創業して間もない頃などは、お客様に音声認識とは何かを理解してもらうこと自体が難しく、アドバンスト・メディアの製品の良さを伝えることに苦労しました。最近は次のフェーズに課題が進んでいて、とりあえず音声認識を導入したのはいいけれどどう運用するのかや、音声認識で継続的に効果を出し続けるためにはどうしたらいいのかなど、導入後にいかに活用して頂けるかという段階に移ってきました。

-toCに参入していくことは今のところ考えていらっしゃいますか？
今すぐには考えていません。toCだとどうしても流行に左右されてしまいビジネスとして安定しづらいのですが、toBならビジネスとしての継続性があります。そのため、安定的に成長できると考えています。

-アドバンスト・メディアが音声認識を用いて目指す未来について伺っても良いでしょうか？
「喋る」という人間にとって自然な行為を用いてコンピューターと人との自然なコミュニケーションを実現させることを目指しています。音声だからこれしかできない、キーボードだからこれしかできない、という境界線をなくしていきたいですね。

キーボードから始まってマウスが生まれ、今はタッチパネルがある。これらは今当たり前のコンピューターインターフェースになっています。これからは音声もこういった当たり前のインターフェースになってもらいたいですね。

この記事に関するカテゴリー

その他

和田吉平: 慶應義塾大学総合政策学部に在学する、大学四年生。趣味はスノボとサッカー・テニス・ブログ執筆。大学でTEDxKeioUSFCを開催したり、研究で乳児便の画像認識とライフログ作成を行ったりしている。多くの会社がAIの導入を目的化してしまっているなどの問題意識からAIをもっと身近にというコンセプトのAI-SCHOLARに参画。記事執筆・メルマガなどを担当。個人でもブログを執筆している。 https://myjourney.jp