【”あたりまえ”を疑え！】超低複雑性DNNを用いたノイズ抑圧

NOISE SUPPRESSION 2025年02月07日

3つの要点
✔️ 構造的な複雑さのないDNNの開発に成功！最先端の性能を保ったまま、計算量やモデルサイズの大幅な削減
✔️ 計算効率と音声強調性能のバランスがとれた２段階処理フレームワーク
✔️ 音源圧縮法の変更により主観的なテスト性能が改善

Ultra Low Complexity Deep Learning Based Noise Suppression
written by Shrishti Saha Shetu,Soumitro Chakrabarty,Oliver Thiergart,Edwin Mabande
[Submitted on 13 Dec 2023]
Subjects: Audio and Speech Processing (eess.AS); Machine Learning (cs.LG); Signal Processing (eess.SP)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

よりクリアで聞こえやすい音声をめざして...

ココだけでもよんで！論文超要約！？

一昔の電話や録音された音声は、なんかザラザラとしたノイズが入っていたのに、最近の通話音声や録音音声ではノイズをあまり感じないなという経験をしている方は多いと思います。えっ！そんなこと気にしていないって、

まぁそんなこと言わずに...この背景には雑音抑圧（ノイズ除去）という技術が使われているんですね。機械学習以前は、音声信号処理わかりやすく言えば、音声の波形を見てどうノイズ処理しようかな～って方法が主流でした、しかし、機械学習が台頭してからはもっぱらこれが主流となり、あれよあれよとノイズ処理性能が向上していきます。

しかし機械学習にはある問題がありました。それは学習に必要な計算量が膨大であり、それにともないモデルサイズが肥大化していってしまうんです。それでは、限られた計算処理性能しか持たない小型デバイス（スマホとか）では使うことができませんよね、

この論文では、高性能なノイズ除去を維持しながらいかに計算量を削減していくのかという問いに取り組んでいます。

結果として、最先端のモデルと同等の処理性能を持ちながら、計算量とモデルサイズを約80%削減することに成功しています。

以前は、高性能を実現するにはより大きなモデルが必要だという考え方が一般的でした。しかしこの研究ではモデルの大きさよりも、より効率的で効果的なアーキテクチャーと圧縮方法が大事だということを示しました。

音声認識界隈でも、モデル大型化の波が絶賛押し寄せてきているわけなのですが、大型モデルを構築するには大量のデータとお金が必要でとてもじゃないですが、大学では太刀打ちできません。

しかしモデルを見直し効率化を目指すとなると話は別です。今までの”あたりまえ”を見直しより効率化を目指すのは大学の先生方の十八番なので、これからまた大学発の人工知能モデルがたくさん登場し、小型のデバイスへの応用が盛んになっていくと思いますよ～

２段階処理フレームワークとはなんなのか？どんな構造になっているのか...

ここまで読んでくださったあなたに最大級の感謝を！

さぁここまで読んでくれたということはこの論文に興味があるということですよね？ここからはちょっと踏み込んだ内容を解説していきますよ～

さてさて上の図を見てください。これを一瞬で理解できる人はいないはず。これをじっくりと出来るだけかみ砕いて説明します。ココ論文の中でもすごく大切でしかも面白いところだと思うので。

先ほどの大雑把要約でちょっとだけふれた、この論文で提案しているモデルである２段階処理フレームワークについて、これまたザックリですが解説していこうと思います。

本体の説明に入る前に、このモデルを開発するに至った背景をざっと振り返りましょう。本記事のテーマである雑音抑圧という分野は、音声信号処理という手法で行われていたんですね。それが機械学習に取って代わられたわけです。でも、機械学習は計算量が多くモデルも大きいから小型デバイスに応用しにくいよねってお話でした。

つまりは、機械学習のあっと驚く高性能もホシイ！でも小型化も譲れないっていうわがままを実現しちゃおうってわけです。

さてモデルの構造をかじっていきましょう。まずは１段階目（赤い点線）から

ノイズの多い信号の入力
信号に前処理が加わり、特徴量が抽出される
音声信号のチャンネルごとに処理を受ける
複数に分かれて、それぞれに処理を受ける
分かれた特徴量がまた結合され中間マスクが生成される
計算後、特徴量が生成される

こんな感じですね。続いて２段階（黒い線）

１段階で生成された特徴量がCNNへ
畳み込み層を通過後、マスクが生成される
マスクを用いてノイズのない音声の推定が始まる
圧縮法を利用してノイズのない音声が生成される

このような流れを追うことにより、計算効率を高めながら効果的な音声強調を実現しているわけなんですね。１段階目ではより複雑な処理をして、２段階目では軽量なCNNを使用することによって、全体的な計算負荷を減らしつつ、高品質な音声強調を達成しているんです。

雑音抑圧実験の結果は？主観的・客観的２つのテストをしてみて...

出来るだけ計算量を少なく小型なＤＮＮを構築しようとモデルを提案してきたわけなのですが、このモデルの性能はどう評価されたのでしょうか？

結果は冒頭でお話しした通り最先端の性能を維持しつつ、小型化に成功したのですが、どのように性能が評価されたのかもう少し深掘りしてみていきましょう。

今回提案されたモデルは上の図だと紫のやつですね、他のモデルと比べてもそん色ないぐらいの高性能ですよね～

では評価の仕方について見ていきましょう。

このモデルの結果の測定には、主観的なテスト・客観的なテストの２種類のテストが用いられています。

まず主観的なテストを見ていきましょう。これは、上の図に示されている実験ですね。何をするのかというと、聞き手を複数人用意して音声を聞いてもらうんです。聞いてもらった音声がどうだったのかを数値化して結果を出します。上の図を見ればわかる通りとても良い結果だったことが分かりますね。

客観的なテストでは、音声品質と音声の歪み具合を専門的な指標を使って測定します。詳しい説明は省きますが、歪み具合は良い結果でしたが、音声品質に関してはあまり良い結果ではありませんでした。

”あたりまえ”を見直し、”１”を創り出していくのは難しいこと...だからこそ面白い

あたりまえを疑うことはすごく難しいことです。あたりまえをあたりまえとしてしまえば、楽だし周りと合わせることができます、逆に、”あたりまえ”を疑ってかかることにより周りから変な目で見られることもあるかもしれません。しかし発見というのはまったくの”無”にあるのではなく、意外とあたりまえの中にあったりするものなのです。

研究でも私生活でも、一度あたりまえを疑ってみてはいかがでしょうか？慣れないうちは難しいことですし、思考方法なんてもう定着してしまっているので中々変えることは出来ないでしょう？難しいだからこそ、面白いのです。新しい発見をすることは刺激的で変化の少ない日常に彩を与えてくれるはずですよ～

はい。ということで、今回はあたりまえを疑って新たな成果を生み出した雑音抑圧の研究を紹介しました。少しでもみなさんの知的好奇心を満たせたのであれば、とてもうれしい限りです。

それでは！次の記事で会いましょう～～

ひよっこライター小笠原のちょっと雑談

企業さんや大学院生の方で、共同研究を行っていただける方を募集中です！

専門は、音声認識（実験系）で特に構音障害者を対象に扱っています。

この分野は、使えるリソースが限られていますので、１人で取り組むのでは必ず限界が来ます。

どなたか一緒に最新技術を用いて社会課題の解決を目指してみませんか？

この記事に関するカテゴリー

アサさん: どうもこんにちは！アサさんです。大学院生をしていて、専門は構音障害者の音声認識です。研究が楽しいので博士課程に進学予定です。趣味は、オーディオ・読書・英語・アニメ・ゲーム・映画・お散歩・旅行と多趣味です。最近はガールズバンドクライというアニメにハマっていて、楽曲を鬼リピしています。企業さんとの研究や共同研究していただける方大募集中です！