【HiFi-GAN】単一GPUで22kHzの音声を生成可能なGANベースのボコーダー 【HiFi-GAN】単一GPUで22kHzの音声を生成可能なGANベー ... 2024年07月10日 Speech Synthesis
【Mustango】音楽のドメイン知識を活用した音楽生成モデル 【Mustango】音楽のドメイン知識を活用した音楽生成モデル 2024年07月01日 Audio and Speech Processing
【VoiceCraft】業界最高レベルで自然な音声を合成できる言語モデル 【VoiceCraft】業界最高レベルで自然な音声を合成できる言語モデ ... 2024年07月01日 Speech Synthesis
【AlphaCodium】プログラミングに特化した最高性能のコード生成手法 【AlphaCodium】プログラミングに特化した最高性能のコード生成 ... 2024年05月30日 Large language models
「BioinspiredLLM」大規模言語モデルを活用した生物学的材料研究の革新 「BioinspiredLLM」大規模言語モデルを活用した生物学的材料 ... 2024年05月24日 Large language models
【Diffusion Transformer】OpenAIのSoraにも使われた最新技術 【Diffusion Transformer】OpenAIのSoraに ... 2024年05月21日 Image generation
アップルがメモリ容量が限られたデバイス上で効率的な大規模言語モデルの推論を実現 アップルがメモリ容量が限られたデバイス上で効率的な大規模言語モデルの推 ... 2024年01月29日 Large language models
【AudioLDM】Latent Diffusionを用いたText-to-Audioの生成モデル 【AudioLDM】Latent Diffusionを用いたText- ... 2024年01月16日 Diffusion Model
【CoDi】ほぼ全てのモダリティを扱えるAny-to-Anyの拡散モデル 【CoDi】ほぼ全てのモダリティを扱えるAny-to-Anyの拡散モデ ... 2024年01月12日 Diffusion Model
【Versatile Diffusion】テキストと画像を統合的に扱う拡散モデル 【Versatile Diffusion】テキストと画像を統合的に扱う ... 2023年12月21日 Diffusion Model