【音声と画像の融合!?】マルチモーダル手法”AV-HuBERT”は構音障害者音声認識でも輝くのか! 【音声と画像の融合!?】マルチモーダル手法”AV-HuBERT”は構音 ... 2024年08月31日 Speech Recognition for the Dysarthric
【Metaが開発した人工知能!?】従来の自己教師あり学習モデルとは一線を画す"HuBERT"モデルの性能はいかに 【Metaが開発した人工知能!?】従来の自己教師あり学習モデルとは一線 ... 2024年08月29日 AI for Science
【BitNet b1.58】モデルパラメータを3値で表現しLlama以上の精度を達成!? 【BitNet b1.58】モデルパラメータを3値で表現しLlama以 ... 2024年08月27日 Large language models
音声から自然な3Dトーキングフェイスを生成する「AVI-Talking」 音声から自然な3Dトーキングフェイスを生成する「AVI-Talking ... 2024年08月17日 Face Recognition
【ゼロショット転移学習】多言語コーパスデータから、未学習言語の音声認識を行なう革新的な技術!? 【ゼロショット転移学習】多言語コーパスデータから、未学習言語の音声認識 ... 2024年08月07日 Speech Recognition for the Dysarthric
【Unit-DSR】HuBERTによる障害者音声から健常者音声への正規化 【Unit-DSR】HuBERTによる障害者音声から健常者音声への正規 ... 2024年07月26日 self-supervised learning
【HiFi-GAN】単一GPUで22kHzの音声を生成可能なGANベースのボコーダー 【HiFi-GAN】単一GPUで22kHzの音声を生成可能なGANベー ... 2024年07月10日 Speech Synthesis
【Mustango】音楽のドメイン知識を活用した音楽生成モデル 【Mustango】音楽のドメイン知識を活用した音楽生成モデル 2024年07月01日 Audio and Speech Processing
【VoiceCraft】業界最高レベルで自然な音声を合成できる言語モデル 【VoiceCraft】業界最高レベルで自然な音声を合成できる言語モデ ... 2024年07月01日 Speech Synthesis
【AIのカンブリア大爆発】有用なAIクリエータを見出して活かす時代のポイント 【AIのカンブリア大爆発】有用なAIクリエータを見出して活かす時代のポ ... 2024年03月18日 Video Generation
【AudioLDM】Latent Diffusionを用いたText-to-Audioの生成モデル 【AudioLDM】Latent Diffusionを用いたText- ... 2024年01月16日 Diffusion Model
【CoDi】ほぼ全てのモダリティを扱えるAny-to-Anyの拡散モデル 【CoDi】ほぼ全てのモダリティを扱えるAny-to-Anyの拡散モデ ... 2024年01月12日 Diffusion Model
【LP-MusicCaps】LLMを用いた音楽キャプションの自動生成 【LP-MusicCaps】LLMを用いた音楽キャプションの自動生成 2023年11月20日 Contrastive Learning