最新AI論文をキャッチアップ

AI-SCHOLARとは？

MATE：マルチエージェントによるアクセシビリティ特化モダリティ変換フレームワーク

MATE：マルチエージェントによるアクセシビリティ特化モダリティ変換フ ...

2025年08月12日 LLM-Paper

【誰でも英語が話せる時代到来！？】多言語に対応したゼロショット音声合成技術により、誰でも簡単にネイティブ並みの発音を！

【誰でも英語が話せる時代到来！？】多言語に対応したゼロショット音声合成 ...

2025年02月04日 Speech Recognition for the Dysarthric

【愛犬も話したZero-shot Learning】AI音声クローンとリップシンキングの検証と解説

【愛犬も話したZero-shot Learning】AI音声クローンと ...

2025年01月29日 Neural Network

大規模言語モデルが変える音楽教育の未来、Flute X GPTとLAUIの可能性

大規模言語モデルが変える音楽教育の未来、Flute X GPTとLAU ...

2025年01月24日 Large language models

【HiFi-GAN】単一GPUで22kHzの音声を生成可能なGANベースのボコーダー

【HiFi-GAN】単一GPUで22kHzの音声を生成可能なGANベー ...

2024年07月10日 Speech Synthesis

【VoiceCraft】業界最高レベルで自然な音声を合成できる言語モデル

【VoiceCraft】業界最高レベルで自然な音声を合成できる言語モデ ...

2024年07月01日 Speech Synthesis

【MusicLDM】盗作のリスクが低いText-to-Musicモデル

【MusicLDM】盗作のリスクが低いText-to-Musicモデル

2024年01月22日 Diffusion Model

【CLAP】音声とテキストの対照学習モデル

【CLAP】音声とテキストの対照学習モデル

2023年12月21日 Contrastive Learning

【LP-MusicCaps】LLMを用いた音楽キャプションの自動生成

【LP-MusicCaps】LLMを用いた音楽キャプションの自動生成

2023年11月20日 Contrastive Learning

動画の登場人物の顔の動きを任意の感情に合わせて編集する手法が登場！

動画の登場人物の顔の動きを任意の感情に合わせて編集する手法が登場！

2022年08月05日 CVPR

スピーチに応じた上半身のジェスチャーを自動で生成するモデル、FreeMoが登場！

スピーチに応じた上半身のジェスチャーを自動で生成するモデル、FreeM ...

2022年07月19日 Speech Synthesis

データのアライメントも学習するEnd-To-End新音声合成、EATS!

データのアライメントも学習するEnd-To-End新音声合成、EATS ...

2020年06月19日 Speech Synthesis