「音声認識」の記事一覧 | AI-SCHOLAR.TECH | AI-SCHOLAR | AI：(人工知能)論文・技術情報メディア

【構音障害の重症度分類を自動化！？】wav2vec2をも上回るSALRの導入実験

【構音障害の重症度分類を自動化！？】wav2vec2をも上回るSALR ...

2024年09月22日 Speech Recognition for the Dysarthric

【Google × Meta】XLS-R大規模モデルで音声認識と音声翻訳をこなす

【Google × Meta】XLS-R大規模モデルで音声認識と音声翻 ...

2024年09月21日 Speech Recognition for the Dysarthric

【音声と画像の融合！？】マルチモーダル手法”AV-HuBERT”は構音障害者音声認識でも輝くのか！

【音声と画像の融合！？】マルチモーダル手法”AV-HuBERT”は構音 ...

2024年08月31日 Speech Recognition for the Dysarthric

【Metaが開発した人工知能！？】従来の自己教師あり学習モデルとは一線を画す"HuBERT"モデルの性能はいかに

【Metaが開発した人工知能！？】従来の自己教師あり学習モデルとは一線 ...

2024年08月29日 AI for Science

【BitNet b1.58】モデルパラメータを3値で表現しLlama以上の精度を達成！？

【BitNet b1.58】モデルパラメータを3値で表現しLlama以 ...

2024年08月27日 Large language models

音声から自然な3Dトーキングフェイスを生成する「AVI-Talking」

音声から自然な3Dトーキングフェイスを生成する「AVI-Talking ...

2024年08月17日 Face Recognition

【ゼロショット転移学習】多言語コーパスデータから、未学習言語の音声認識を行なう革新的な技術！？

【ゼロショット転移学習】多言語コーパスデータから、未学習言語の音声認識 ...

2024年08月07日 Speech Recognition for the Dysarthric

【構音障害者音声を生成！？】学習データ不足を解消する魔法のデータ拡張技術とは

【構音障害者音声を生成！？】学習データ不足を解消する魔法のデータ拡張技 ...

2024年07月26日 Sound

【Unit-DSR】HuBERTによる障害者音声から健常者音声への正規化

【Unit-DSR】HuBERTによる障害者音声から健常者音声への正規 ...

2024年07月26日 self-supervised learning

【HiFi-GAN】単一GPUで22kHzの音声を生成可能なGANベースのボコーダー

【HiFi-GAN】単一GPUで22kHzの音声を生成可能なGANベー ...

2024年07月10日 Speech Synthesis

【Mustango】音楽のドメイン知識を活用した音楽生成モデル

2024年07月01日 Audio and Speech Processing

【VoiceCraft】業界最高レベルで自然な音声を合成できる言語モデル

【VoiceCraft】業界最高レベルで自然な音声を合成できる言語モデ ...

2024年07月01日 Speech Synthesis

音声認識技術の秘密に迫る

2024年04月24日音声認識

【AIのカンブリア大爆発】有用なAIクリエータを見出して活かす時代のポイント

【AIのカンブリア大爆発】有用なAIクリエータを見出して活かす時代のポ ...

2024年03月18日 Video Generation

【MusicLDM】盗作のリスクが低いText-to-Musicモデル

2024年01月22日 Diffusion Model

【AudioLDM】Latent Diffusionを用いたText-to-Audioの生成モデル

【AudioLDM】Latent Diffusionを用いたText- ...

2024年01月16日 Diffusion Model

【CoDi】ほぼ全てのモダリティを扱えるAny-to-Anyの拡散モデル

【CoDi】ほぼ全てのモダリティを扱えるAny-to-Anyの拡散モデ ...

2024年01月12日 Diffusion Model

【CLAP】音声とテキストの対照学習モデル

2023年12月21日 Contrastive Learning