Articles by Nakata

[VoiceCraft] A Language Model That Synthesizes Natural Speech At The Highest Level In The Industry

01/07/2024 Speech Synthesis

A Method To Automatically Evaluate "the Accuracy Of LLM's Output Of Long Sentences" Was Created

01/07/2024 Large Language Models

[AlphaCodium] Highest Performance Code Generation Method Specialized For Programming

30/05/2024 Large Language Models

[MusicLDM] Text-to-Music Model With Low Risk Of Plagiarism

22/01/2024 Diffusion Model

[Set-of-Mark Visual Prompting] Prompting Technology To Enhance GPT-4V's Image Recognition Capability

18/01/2024 Prompting Method

EmotionPrompt] Prompt Input With Emotion Improves LLM Performance

17/01/2024 Prompting Method

[AudioLDM] Text-to-Audio Generation Model Using Latent Diffusion

16/01/2024 Diffusion Model

[CoDi] Any-to-any Diffusion Model That Can Handle Almost Any Modality

12/01/2024 Diffusion Model

Versatile Diffusion] Diffusion Model That Integrates Text And Images

21/12/2023 Diffusion Model

CLAP] Contrastive Learning Model Of Speech And Text

21/12/2023 Contrastive Learning

UniD3] Multimodal Discrete Diffusion Model Integrating Image And Text

14/12/2023 Diffusion Model

Brain2Music] Automatic Music Generation Based On Brain Information

06/12/2023 Large Language Models

LP-MusicCaps] Automatic Generation Of Music Captions Using LLM

20/11/2023 Contrastive Learning

What Is Prompt Tuning To Optimize Prompts For High Performance?

25/10/2023 Prompting Method

MuLan] Multimodal Music-Text Using Contrastive Learning

24/10/2023 Contrastive Learning

[HiFi-GAN] GAN-based Vocoder Capable Of Generating 22 KHz Audio On A Single GPU

[HiFi-GAN] GAN-based Vocoder Capable Of Generating 22 KHz Audio On A Single GPU

Latent Diffusion Models Do Not Necessarily "increase In Size"

Latent Diffusion Models Do Not Necessarily "increase In Size"

[Mustango] Music Generation Model Utilizing Domain Knowledge Of Music

[Mustango] Music Generation Model Utilizing Domain Knowledge Of Music

[VoiceCraft] A Language Model That Synthesizes Natural Speech At The Highest Level In The Industry

[VoiceCraft] A Language Model That Synthesizes Natural Speech At The Highest Level In The Industry

A Method To Automatically Evaluate "the Accuracy Of LLM's Output Of Long Sentences" Was Created

A Method To Automatically Evaluate "the Accuracy Of LLM's Output Of Long Sentences" Was Created

[AlphaCodium] Highest Performance Code Generation Method Specialized For Programming

[AlphaCodium] Highest Performance Code Generation Method Specialized For Programming

[MusicLDM] Text-to-Music Model With Low Risk Of Plagiarism

[MusicLDM] Text-to-Music Model With Low Risk Of Plagiarism

[Set-of-Mark Visual Prompting] Prompting Technology To Enhance GPT-4V's Image Recognition Capability

[Set-of-Mark Visual Prompting] Prompting Technology To Enhance GPT-4V's Image Recognition Capability

EmotionPrompt] Prompt Input With Emotion Improves LLM Performance

EmotionPrompt] Prompt Input With Emotion Improves LLM Performance

[AudioLDM] Text-to-Audio Generation Model Using Latent Diffusion

[AudioLDM] Text-to-Audio Generation Model Using Latent Diffusion

[CoDi] Any-to-any Diffusion Model That Can Handle Almost Any Modality

[CoDi] Any-to-any Diffusion Model That Can Handle Almost Any Modality

Versatile Diffusion] Diffusion Model That Integrates Text And Images

Versatile Diffusion] Diffusion Model That Integrates Text And Images

CLAP] Contrastive Learning Model Of Speech And Text

CLAP] Contrastive Learning Model Of Speech And Text

UniD3] Multimodal Discrete Diffusion Model Integrating Image And Text

UniD3] Multimodal Discrete Diffusion Model Integrating Image And Text

Brain2Music] Automatic Music Generation Based On Brain Information

Brain2Music] Automatic Music Generation Based On Brain Information

LP-MusicCaps] Automatic Generation Of Music Captions Using LLM

LP-MusicCaps] Automatic Generation Of Music Captions Using LLM

What Is Prompt Tuning To Optimize Prompts For High Performance?

What Is Prompt Tuning To Optimize Prompts For High Performance?

MuLan] Multimodal Music-Text Using Contrastive Learning

MuLan] Multimodal Music-Text Using Contrastive Learning