[人工智能的寒武纪大爆发] 在人工智能时代找到并利用有用的人工智能创造者的关键在于

视频生成 18/03/2024

三个要点
✔️ 利用人工智能生成的 "跳舞"、"唱歌 "和 "说话 "宣传视频制作示例
✔️试用人工智能语音生成技术让您的狗用英语吼叫，并验证其可重复性
✔️ 与未使用人工智能的视频观看次数（PV）比较，并调查其效果

Prototype and discussion of singing and dancing videos using AI technology
written by Takahiro Yonemura
(Submitted on 5 Nov 2022)
Subjects: Motion & Dance

原文如下。(要放大，请点击右上角的符号）

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍

作者认为，自论文发表以来，各种人工智能的诞生类似于寒武纪大爆发，当时生命迅速多样化。这些不同的人工智能在论文中被定义为 "人工智能创造者"，并明确指出了它们的使用实例。与人工智能创造者合作完成的宣传视频（A）的浏览量大约是未合作的宣传视频（B）的 19 倍，并讨论了使用该视频的利弊。下表中的视频 A 是一个纯娱乐视频，省略了视频 C 中的产品宣传部分。

PV比較

本文探讨了 "人工智能创造者 "的创造力及其现实生活中的创作实例：人工智能技术的发展为用户提供了有用的技能，可用于将想法等无形事物转化为现实生活中的创作。

手書きイラストがAIにより3D化される表現 — 利用人工智能对二维图像进行 3DCG 处理《艺术科学》杂志 DiVA 第 55 期，第 16 页

正如史前寒武纪大爆发丰富了生命的多样性一样，在人工智能创造者蓬勃发展的时代，我们用户的知识和创造力也得到了扩展，梦想与现实之间的障碍也随之降低。下文概述了与人工智能创造者的合作、他们的能力和使用实例。

人工智能被称为 "生成 "而非 "合成"

声音、音乐、图像和文本等各种类型的人工智能通常被称为生成式人工智能。关键在于，它被称为生成式人工智能，而不是合成式人工智能。生成式人工智能可以根据学习到的资源（素材）从零开始生成。那么，与合成产品并不相似的生成输出（输出结果）会成为谁的财产呢？　有人提到对商业使用生成式人工智能输出结果的 "伦理、法律和社会问题"（ELSI）进行研究，但这些问题至今仍未解决。

筆者近影を生成AIによって3DCG化 — 作者最新图像的 3DCG，带有 AI TRIPO3D 生成的 "作者 " https://www.tripo3d.ai/

另一方面，也提出了技术方面的挑战。

在创造方面，本文认为与人类合作已经成为可能。不过，前提是仍需要人类对人工智能进行微调。

毫无疑问，在不久的将来，随着人工智能生成能力的不断发展，条件放宽或消失，这个问题就会迎刃而解。

补充创意资源和人工智能创作者

目前，本文介绍的一些视频合成资源可以通过人类向人工智能生成器输入文本指令（提示）来快速准备。我们已经进化到了这样一种环境，即我们只需想出生成所需资源的提示，就可以准备好资源。

关于创意（视频合成）资源

在各种资源中，音乐生成（1）因灵感因素较大而被认为难以实际应用，但随着苏诺等音乐生成人工智能的出现，音乐生成已达到实用水平。为了制作头像（4），3DCG 生成 AI（如作者近像的 3DCG）已经以呼之欲出的状态发布。歌词（2）可以用音乐生成人工智能的一函数代替，也可以由交互式生成人工智能设计。(5)中所示的背景（图像）可由许多图像生成人工智能（如DALL E3 ）承载。

人工智能创造者需要解读和利用模拟人类准备的资源。作者创建的资源如下。

(1) 音乐 [5]：44KHz，wav 格式文件 (2) 日语歌词 (3) 狗叫声：44Khz，3 秒 wav 格式文件） (4) 头像（VRM 格式） (5) 带版权的照片（书影、纸质工艺模型 [6]、背景）

[5] A-Rumenoy，《斯科比之歌（扩展版）》[歌曲]，ISRC SE-6HN-22-84796，由 Amuseio AB 提供，2022 年 4 月。
[6] T. Yonemura and K. Furukawa, Paper craft made with software "Paper Dragon", NICOGRAPH 2012, pp.

不过，也有一些缺点需要注意。通常情况下，生成的人工智能编制的资源不能用于商业用途，只能由私人使用，即使已作出安排。

另一方面的好处是，交互式生成人工智能的普及创造了一种创造性环境，在这种环境中，人类创作者即使不知道专业提示，也可以通过用日语解释所需内容来生成必要的资源。

关于人工智能创作者（制作团队）

这是对参与创作的人工智能创作者的一种补充。语音合成(2)现在变得越来越成问题，现在有许多性能更高的语音生成人工智能（如VALL-E-X ），以及深度伪造的创造。一些人工智能唱歌软件（3）已被整合为音乐生成人工智能的一个功能。同样，在翻译(4)方面，交互式生成人工智能（如 ChatGPT）现在已经能够完成母语级别的翻译任务。虽然这有失去原创性的缺点，但也有简化创作过程的优点，因为它减少了人类创作者使用不同类型生成式人工智能的需要。

以下 AI 创作者在制作时被允许用于商业用途，他们被指定为制作团队，对创意资源进行创造性的工作。

(1) Charamin Studio（AHS 公司）：分析音乐作品并使用人工智能生成头像动作和镜头工作的软件 (2) NarikiriVC（由 NON906 先生制作，2018-2021 年）：机器学习音频素材并根据文本合成语音的软件。(3) NarikiriVC ( 由 NON906 先生制作，2018-2021)(3) CeVIO Pro [7] ：人工智能唱歌软件 (4) DeepL ( DeepL SE ) ：利用人工智能进行翻译

试用语音生成人工智能，让声音说话

语音 "合成 "是在 20 世纪 80 年代实现的。这是一种机械方法，将几个操作员发出的波形合成并输出，使其类似于声音的波形。然而，这种方法无法将 "狗的吼叫"（声音）变成说话的声音。这是因为没有波形可以模仿（狗不会说话）。

生成式人工智能一方面通过语音 "生成 "来说话和唱歌，是一种智能方法。它能识别语音，提取 "声音 "信息，重复并分析频率成分和特征。这些信息在生成过程中被称为声纹的数字数据。不过，即使是最新的人工智能语音生成系统，有时也可能因为系统本身的原因，如在引用的部分中，因为语音不稳定或在训练过程中出现错误，而需要人为调整才能输出清晰的 "语音"。

建议进行几次机器学习，但由于该系统最初是以人声作为学习材料的，因此有必要对机器学习的结果进行再训练，将其反馈一百次左右，直到准确度至少可以识别为一个 "词 "为止。

此外，训练材料是无监督数据，因此机器学习的迭代次数较多。不过，只要训练数据（模型）准备就绪，语音生成人工智能就可以从头开始生成无限制的波形。因此，"A "和 "I "的语音输出可以从没有类似波形的声音资源中产生。A 的特征模式出现在 B 中。可以确认，这两种声音的特征几乎完全相同。

对无监督（标记数据）机器学习的影响

机器学习使用来自各种资源的数据，这些数据可分为两类。一类是带有代表正确答案标签的监督数据，另一类是未添加正确答案的无监督数据。使用无监督数据进行机器学习的目的是在训练过程中发现数据中可能存在的未知模式和特征，并将其转化为可用的模型。这是一个合适的选择，因为声音是以口语语音的形式生成的。不过，一般来说，有监督的机器学习通常用于现实问题，如数学公式，可以输出最佳解决方案。

通过反复试验和机器学习，我们在宣传视频中加入了狗狗说英语的场景，"如果我的狗狗说英语，听起来就会像这样"。

愛犬の咆哮を語りとして利用（動画から抜粋） — 将狗狗的吼声作为一种叙事方式（视频摘录）。

关于虚拟歌手（歌曲生成人工智能）

能唱歌的语音生成人工智能被称为虚拟歌手。这种会唱歌的人工智能基于文本到语音（TTS）技术，该技术可从文本生成语音。与普通语音不同，歌唱涉及旋律、节奏、音高和强度等要素。生成式人工智能将这些元素纳入语音生成过程，从而产生类似歌曲的声音。

为此，人工智能需要学习演唱风格和表达方式。一般来说，需要对大量的歌唱数据进行分析和注释（教师标注）。如果是歌唱数据，则需要标注歌词、音调、节奏和情感表达。经过预处理的监督学习会形成深度学习模型等。特殊的人工智能模型、GAN 和 VAE 也可能被纳入其中。基于这些学习和模型，生成歌唱的人工智能将继续发展到实用阶段。

人类创作者的工作就是调整模型的参数和生成方法，使歌唱更加完美。在制作宣传视频时，我们加入了呼吸声，并指定了滑音和领带。为了表现演唱的个性，我们还会进行调整，不仅在这方面，生成人工智能的准确度也在与日俱增。目前已经发布了一些无需调整就能生成逼真自然歌声的歌唱生成 AI。

VoiSona(Cevio pro)歌唱編集画面 — VoiSona（原 Cevio pro）歌曲编辑屏幕

与音乐同步自动生成动作

所使用的 "Charamin Studio"可以分析音乐的频率，并主要从鼓声和低音中获得节奏（节拍）。该软件使用某种机械方法来 "创造 "与节奏同步的头像舞蹈动作。

这项技术也在迅速发展。音乐世代人工智能和 3DCG 世代人工智能，以及直接将表演者的动作反映到二维图像运动中的Magic Animate等世代人工智能已被重新使用，而获得新技术的新一代人工智能也已开始发布。人类创作者将这些技术结合在一起，创造出了一个允许高度自由创作的环境。

Magic Animateで筆者を走らせる画像 — 作者的照片在 Magic Animate 中运行的图像。

头像和背景图片小技巧

有些软件允许您自己逐个设置头像（3DCG）和背景图片（2D）。在这种情况下，如果您想减少工时，可以使用天幕。这种方法是将图像 UV 扩展成一个（半）球体，就像一个天文馆，从而创建一个 3D 形状。背景图片可以使用图像生成 AI 来准备，但图像的两端必须相连，否则会出现明显的分割和隐藏。如果忽略这一点，就可以减少工时。

在制作宣传视频的过程中，人类创意人员执行了下图所示的任务。

アバターとスカイドームの関係 — UV 将 2D 图像扩展到 Skydome（3D）

广泛使用无标记动作捕捉

由于能够进行高精度图像识别的人工智能的出现，使用身体上的物理标记将运动转换成数据的大型系统现在可以由软件来处理。使用软件处理摄像机输入视频的动作捕捉通常被称为无标记动作捕捉。人工智能在此过程中的作用是识别每个输入帧的人体轮廓和特征部位，并将运动模式转换为数字数据。

人工智能要做到这一点，需要包含各种人体动作和姿势的大型数据集。不过，现在可以从研究机构和组织获得动作捕捉数据集，从而更容易在软件中实现这些数据集。

模式识别与机器学习的 "合作"

通过将模式识别与机器学习相结合，人工智能的图像识别精度得到了提高。机器学习型人工智能可弥补模式识别无法单独用符号和数学公式表示的复杂输入信息。在机器学习中，人工智能算法使用监督数据作为参考，人工智能自己发现和学习规律性。由于学习方法与模式识别相似，模式识别有时被描述为机器学习的一部分。

在制作宣传视频时，人类创意人员充当了表演者的角色，以突出化身的动作并增加独特的效果。

宣传视频原型的比较和效果

与人工智能创作者合作完成了包含娱乐元素的宣传视频，如上图。作为参考价值，还发布了三个视频并进行了比较。

本文讨论了作者在 YouTube 频道上发布创意视频一周期间获得的信息。由于人数有限，数值仅供参考。

图 10-1 是本文所述视频的日文版，在东京奥运会期间发布（约 1 分钟，定义为 A）；图 10-2 只是一系列产品促销的视频（15 秒，定义为 B）；图 10-3 是本文视频的反应（约 1 分钟，定义为 C），是改进后的日文版。

図10の動画PV

将评估作为娱乐

舞蹈视频在全世界都很流行。图中的参考值还显示，主要由舞蹈（娱乐）、A 和 C 组成的宣传视频的浏览量也很高。特别是视频 A，这是一个日语视频，其中的人工智能创作者的输出几乎没有经过任何处理，就及时地为东京奥运会提供了支持，因此它的浏览量非常突出。相比之下，由业余视频创作者制作的视频 B 并没有引起观众的兴趣。重复观看次数没有明显差异。

表１と２を示す画

作为商业促销活动进行评估

宣传视频的作用是引导观众了解产品信息和服务提供商。换句话说，网站链接的数量就是结果。在显示的数值（点击率）中，视频 A 和 C 的点击率较低，这可能是与人工智能创作者合作的结果。但是，如果用户在购买时必须在具有相同内容和功能的产品中做出选择，他们会怎么想呢？作者推测，这符合消费者的心理，他们会在过于独特的设计和简单沉稳的设计之间做出选择。

表３を示す画像