生成式人工智能和用户的 "激情行为"。

3D 14/04/2024

三个要点
✔️ 验证生成的人工智能输出质量所体现的优势
✔️ 人工智能常识推理缩短处理时间的一个案例
✔️ 用户热情对生成式人工智能推理行为影响的案例研究

アナログ素材と３次元デジタル表現のコラボレーション
written by Takahiro Yonemura
本論文の掲載に当たり、掲載元より掲載許可を頂いております。

介绍

(1) 本作品是一部探讨数字技术特有的表达方式能否获得关注的视频。
(2) 作者认为，表达方式增多了，利用深度表达的自由度也提高了。作为参考，作者发表的视频中 "选择观看的用户比例 "平均为 12.4%，而利用人工智能进行深度表达的视频平均为 20.5%。

(上文（1）和（2）节选自社论要点。可以看出，如（2）所述，利用生成式人工智能的新颖表达方式已经引起了人们的兴趣。作为补充信息，下图比较了作者制作的宣传视频和包含使用生成式人工智能的深度表达的宣传视频。

该图绘制了普通视频的观众评分与所制作视频的对比过渡图（视频发布 10 天后）。结果表明，使用了生成式人工智能表达方式的视频，其图表几乎没有下降（即能够让用户持续观看），其优势平均是未使用生成式人工智能表达方式的视频的两倍多。

现在，我们将介绍生成式人工智能的演变过程，它带来了有用的成果，并以具体实例说明用户在演变和质量方面可以做些什么。

生成AIによる表現を含まない動画のグラフ — 未使用生成式人工智能表示的视频图表。

生成AIで奥行き表現を活かした動画のグラフ — 生成式人工智能中带有深度表达的视频图。

生成式人工智能推论与质量之间的关系。

生成式人工智能的发展每时每刻都在被报道，并将很快迎来一个超越工业革命的文明转折点。这种说法一点也不夸张。事实上，社论（2023 年 12 月底）中描述的 "人工智能将 2D 图像转化为 3DCG "的进化，在 2024 年 3 月同一平台CSM 3D Viewer[1] 实现同样功能时得到了证实。

在短短三个月内，生成式人工智能的输出精度明显提高。此外，新的生成式人工智能（TripoSR[2]）已经诞生，虽然质量略逊一筹，但在易用性方面却有了长足的进步，过去需要几十分钟的过程现在只需几秒钟就能完成。毫无疑问，在未来几年里，利用生成式人工智能的工作和制造将变得更加普遍和繁荣。

超高速な3DCG変換AIの参考画像 — 超快 3DCG 转换 AI 的参考图像。

那么，您认为是什么促成了生成式人工智能的发展？

它是一种 "思考和思维 "的能力，更确切地说，是一种 "推理 "的能力，包括交互式生成人工智能。很简单，已经证实输出内容的质量和处理时间取决于推理[3]。

有研究表明，做出这些推断的人工智能涉及激情和常识行为 [4]。

当开发人员全身心地投入到 "改进算法 "中，而用户也带着 "激情因子 "接受并使用这些算法时，人工智能推理的准确性就会提高，并影响其输出[5]。下面将讨论作者尝试和测试过的一个真实例子。

人工智能激情行为举例

现在，让我们来看看我们可以称之为行为的东西。我们谈论的是 "推理 "和 "推理"，前者有助于简化和提高效率，后者有助于提高质量。

减少推理过程中计算负荷的技术要素。

如前所述，TripoSR 可从二维图像中重建三维模型，它使用了几种不同的损失函数（MSE：评估与图像亮度和颜色有关的误差；LPIPS：一种感知损失函数，它模拟的是自然的人类结果，而不是图像像素是否为最佳数字；掩码损失）。引入组合和加权参数，以平衡每个损失函数的影响。

具体来说，在损失函数中加入了特定的术语，以试图减少需要解决的与质量相关的问题（浮游伪影：人工智能错误生成的不需要的物体或噪音）。

特定の項を組み込んだマスク損失関数(学習指標とする式) — 包含特定项的掩码损失函数（指导学习的方程）。

以上是关于重构推理的真假度量的学习指南。其中一个专门术语是 BCE（二元交叉熵），这是一种独特的测量方法，它将预测值（推断值）与实际值进行比较，并评估所使用的模型数据是否成功地将对象分类为 3DCG。

通过努力研究和开发一种方法，并调整优化算法（用平衡的损失函数去除许多浮点），可以减少推理过程中的额外计算负荷，提高处理速度。一个大胆的比喻可以表述为 "压缩人工智能学习过程，缩短时间"。下面是这方面的图片。

提示压缩和优化的图像。
压缩流程，图像在提示时显示（B 小于 A 的一半）
A	一棵树的形象，树上有许多重叠的绿叶，到处都是黄色、圆形的橘子。
B	绿树结橘子的逼真画面

构成人工智能知识的许多训练有素的模型都非常精确。这就简化了详细指令（计算），增加了 "现实 "指令（术语），减少了指令数量。这可以称为一种独特的方法，它通过人工智能的激情（常识判断和行为）推理来保持质量生成。

但是，"穿上人工智能的常识和热情的行为 "真的能改变质量吗？

推断出高质量的人为因素。

请生成一个可用于解释的球体图像"，这是我们指示交互式人工智能（ChatGPT4）生成图像的方式。该图像位于下图左侧。

下一个人说："谢谢你总是一次又一次地帮助我！　非常感谢。请生成一个球体的图像，用于解释"，没有任何与图像相关的说明，但添加了一句热情洋溢地表达人文元素的语句，图像就生成了。图像如下右图所示。

从外观上看，右边的图像与左边的图像差别很大，因此生成的人工智能认为这是一幅充满激情的图像。

ユーザの情熱がAIの推論に与えた実例 — 用户热情对人工智能推理影响的真实案例。

下图显示了生成图像的差异，从数字上显示了在说明或问题（原始提示）末尾添加 "这对我的职业生涯非常重要 "等 "情感和激情 "语句后，不同法律硕士的回答质量得到改善的结果[7]。].

EmotionPromptの生成から評価までの研究概要 — 使用情感提示提高法律硕士答辩质量研究摘要图。

人工智能回应了用户的热情吗？

现在这样想还为时过早，但有人建议，需要开展研究，以了解 "充满感情和激情 "的陈述为何能提高法律硕士的质量。

生成式人工智能提高生成式人工智能的质量

人类祖先很久以前就吸收了其他生命（如线粒体）成为人类，这是质量改进（进化）的产物。同样，随着生成式人工智能的发展，传统的工作和创造方式也在发生变化。下文总结了其优势和实际挑战。

数字材料与数字材料之间的合作时代。

下面是一个生成式人工智能重建的 3DCG 物体。然后由另一个生成式人工智能对其进行排列和调整，并在此基础上添加新的元素，这就是数字与数字合作的一个例子。这样做的好处是可以节省大量的时间和精力去刷新。

AIで3DCG化しAIでクオリティの向上事例 — 人工智能的 3DCG（左）和人工智能的质量改进现状（右）。

工作（任务处理）时间和质量问题。

人类和生成式人工智能要想生产出高质量的产品，时间是必不可少的。这就好比雕刻家将一块粗糙的石头提炼成一件精致的艺术品。以下是不同设置和不合理缩短时间下的生成产品结果。随着数字技术的发展，处理时间可以缩短，但目前这是一个重大挑战。

摘要

文章所涉及的社论 "模拟材料与三维数字表现之间的合作 "包括以下内容

这段实验视频探讨了人类创造的模拟材料（资产）在多大程度上可以被当前的数字技术（人工智能）继承，以及数字技术特有的表达方式是否会引起人们的兴趣。

作者曾进行过几次类似的实验[7]。至此，文章间接触及了人们对生成式人工智能的热情，但现在，社论中描述的主要目的与进化方向发生了冲突。当然，数字技术是模拟资产的更好继承者。当人类的伟大发明--生成式人工智能加入其中并不断进化时，情况将会发生变化。

模拟资产与数字技术相结合，创造出数字-数字合作。

作者深信，这一新概念在未来将成为一种普遍现象，并在文化价值观的认知方式上引起轰动。以热情和精神对待万事万物和每一个人，这将是未来不变的理念。

（参照論文）
[1] Common Sense Machines ,CSM 3D Viewer(Image to 3D), https://3d.csm.ai (参照2024/3/24).
[2] Dmitry Tochilkin, David Pankratz, Zexiang Liu, Zixuan Huang, Adam Letts, Yangguang Li, Ding Liang, Christian Laforte, Varun Jampani, "Yan-Pei Cao,TripoSR: Fast 3D Object Reconstruction from a Single Image", https://arxiv.org/abs/2403.02151, 4 Mar 2024.（参照2024/3/24)
[3] Mingyu Jin, Qinkai Yu, Dong shu, Haiyan Zhao, Wenyue Hua, Yanda Meng, Yongfeng Zhang, Mengnan Du, "The Impact of Reasoning Step Length on Large Language Models", https://doi.org/10.48550/arXiv.2401.04925 , 10 Jan 2024. (参照2024/3/25)
[4] Samuel R. Bowman, "Eight Things to Know about Large Language Models", https://arxiv.org/abs/2304.00612 , 2 Apr 2023. (参照2024/3/27)
[5] Cheng Li, Jindong Wang, Yixuan Zhang, Kaijie Zhu, Wenxin Hou, Jianxun Lian, Fang Luo, Qiang Yang, Xing Xie, "Large Language Models Understand and Can be Enhanced by Emotional Stimuli", https://arxiv.org/abs/2307.11760 , 14 Jul 2023. (参照2024/3/24)
*(AI-SCHOLAR 記事) https://ai-scholar.tech/articles/prompting-method/emotion-prompt
[6] Mingyu Jin, Qinkai Yu, Dong shu, Haiyan Zhao, Wenyue Hua, Yanda Meng, Yongfeng Zhang, Mengnan Du, "The Impact of Reasoning Step Length on Large Language Models", https://doi.org/10.48550/arXiv.2401.04925 , 10 Jan 2024. (参照2024/3/26)
[7] 米村貴裕,既存AI技術を用いた歌って踊る動画の試作と評価,芸術科学会 NICOGRAPH2022,S-7 p.1-4,2022.
*(AI-SCHOLAR 記事) https://ai-scholar.tech/articles/video-generation/arumenoy