工学設計のためのビジョン言語モデルの評価（コンセプトから製造まで）

Large language models 2024年05月26日

3つの要点
✔️ GPT-4Vは設計スケッチからの記述生成において専門家評価と比較された。
✔️ モデルは3D空間理解のためのトポロジー最適化分析を評価・分析する。
✔️ 一方、特定のコンテキスト、特に、図面の境界条件の解釈において誤りが見られ、モデルが全体的な設計意図を完全には把握していないことを示している。

From Concept to Manufacturing: Evaluating Vision-Language Models for Engineering Design
written by Cyril Picard, Kristen M. Edwards, Anna C. Doris, Brandon Man, Giorgio Giannone, Md Ferdous Alam, Faez Ahmed
(Submitted on 21 Nov 2023)
Comments: Accepted on arXiv.
Subjects: Artificial Intelligence (cs.AI); Computational Engineering, Finance, and Science (cs.CE)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

エンジニアリング・デザインは、AIの登場により大きな変革期を迎えています。製品やシステム、サービスの企画・設計へのアプローチが新たな時代に突入しつつあるのです。この変革を牽引しているのが、大規模な言語モデルです。しかし、テキストのみを入力とするため、エンジニアが長年使い慣れてきた膨大な視覚的資料を活用できないという課題がありました。

この課題を解決したのが、GPT4Vのようなマルチモーダルな視覚言語モデルの登場です。これにより、AIがより多様な分野のタスクに対応できるようになりました。本論文では、このGPT-4Vの能力を、概念設計、システムレベルと詳細設計、製造と検査、工学教育の4つの主要分野に分類し、包括的に評価しています。

具体的には、スケッチの類似性分析、ピューチャートを用いたコンセプト選択、材料選択、工学図面分析、CAD生成、トポロジー最適化、3Dプリンティングや切削加工のための設計、空間推論課題、教科書問題などの設計タスクにおけるGPT-4Vの性能を検証しました。この体系的な評価を通じ、GPT-4Vが複雑な設計・製造の課題にどの程度対応できるのかを探るとともに、その限界も明らかにしています。

本研究は、今後の視覚言語モデルの評価手法の基礎を確立するとともに、エンジニアリング設計と製造の分野に革新をもたらす可能性を示唆しています。さらに、1000以上のクエリを含むベンチマークテストデータセットも提供することで、この分野の継続的な発展と応用に貢献しています。AIによるエンジニアリング・デザインの変革は、まさに始まったばかり。今後の展開から目が離せません。

図1：製品設計と開発プロセス、および各段階で評価するタスク。このプロセスはUlrichらにインスパイアされています。

はじめに

エンジニアリング・デザインの視覚的な性質を考えると、GPT-4Vはこの分野のタスクを効果的に実行したり、エンジニアをサポートしたりできるのでしょうか？本研究では、テキストと視覚入力を必要とするエンジニアリング設計タスクに関連するGPT-4Vの機能を予備的に調査しました。

様々なエンジニアリングタスクにおけるGPT-4Vの可能性について、定性的および定量的な分析を行いました。また、これらのタスクを評価するためのプロンプトを開発・テストしました。APIの不足により調査開始時は制約がありましたが、可能な限りサンプルサイズを大きくし、定量的な分析を行いました。

調査したタスク、実施した実験、使用したデータセットの詳細は以下の通りです：

I. GPT-4Vの評価と将来のVLMのベンチマーク作成のための定量実験

- スケッチの類似性評価とアイデアマップ生成に関する410のクエリ

- スケッチとデザイン記述のマッチングに関する90のクエリ（GPT-4VとLLaVA 1.5）

- 工学図面の理解とCADスクリプト生成に関する67のクエリ（3種類のスクリプト言語を使用）

- 積層造形の製造可能性に関する60のクエリ

- コンクリート画像の欠陥識別に関する69のクエリ

- 教科書問題に関する132のクエリ

- 空間推論テストに関する150のクエリ

II. GPT-4Vの性能に関する定性的ケーススタディ

- デザインスケッチからのテキスト記述生成

- 選択基準の生成とピューチャートの作成

- アシュビーチャートからの材料選択

- トポロジー最適化の理解度評価

- 流体力学シミュレーション結果の解釈と結論導出

III. 今後の評価用データセットの作成と公開

- 8つの定量実験の入力画像、プロンプト、解答のデータセットを公開

- 実験、画像、プロンプトの大部分は本研究のために生成されたものであり、GPT-4Vのトレーニングデータに含まれている可能性は低い

図2：GPT-4Vが、視覚情報と文字情報の両方を利用する数多くのエンジニアリング設計タスクを実行する能力を調査しました。

コンセプト・デザイン

概念設計は製品開発プロセスの初期段階であり、設計者はこの段階で顧客ニーズを特定し、目標仕様を設定し、多くのコンセプトを生成、選択、テストします。専門家は、製品のライフサイクルコストの70～80%がこの初期設計段階で決定されると見積もっており、この段階での意思決定の重要性を強調しています。コンセプト生成、創造性評価、コスト見積もりと環境評価、そして最近ではマルチモーダル機械学習など、概念設計に関する研究が数多く行われています。

概念設計では、手描きのスケッチとテキストによる説明という2つの主要な設計モダリティが用いられます。多くの場合、これらのモダリティは組み合わされ、初期段階のデザインはスケッチと付随するテキストとして表現されます。この段階特有のマルチモダリティは、GPT-4Vのような視覚言語モデル（VLM）の能力をテストするのに興味深い候補となります。さらに、VLMはコンセプト・デザイン中のツールとして大きな可能性を秘めています。概念設計の主なタスクには、設計アイデアのスケッチや説明の生成、アイデアの比較と反復、最終的な設計の選択が含まれます。

以下の実験では、GPT-4Vがこれらのタスクの補助としてどのように機能するかを探ります。具体的には、GPT-4Vのマルチモーダル機能により、デザインスケッチとテキストプロンプトの両方が入力された場合に、エンジニアリングタスクを実行できることを確認します。効果的なマルチモーダル学習のためには、画像とテキストの両方のモダリティを持つデザインと、これらのデザインの十分なデータセットを用意することが重要です。

以下の実験で使用するマルチモーダルなコンセプトデザインのデータセットは数多く存在しますが、工学分野の機械学習における包括的なテーマは、ほとんどのデータセットが小さいということであり、これはデータ駆動型モデルにとって課題となります。GPT-4Vのような大規模な事前学習済みモデルは、多くの情報に基づいて学習されているため、この課題を克服するのに役立ちます（GPT-4Vの正確な学習情報はまだ公開されていません）。

もうひとつの課題は、コンセプトの選定です。専門家は、多数のコンセプト・デザインを生成し、デザイン評価によって絞り込むことを推奨していますが、評価ステップは専門家によって行われることが多く、時間とリソースがかかります。GPT-4Vは、一般的な知識とスケッチ理解を活用して、デザインの解釈と比較、デザイン表現（テキストと画像）間の移動、コンセプト選択タスクを実行することで、コンセプト設計段階のエンジニアを支援できる可能性があります。著者らは、以下の実験でこれらの能力を評価することを目指しています。

評価以下は、GPT-4Vのコンセプトデザイン能力の評価領域と、それぞれの評価結果です：

(i) デザインの類似性の評価

- デザインスケッチの類似性を評価する際のGPT-4Vの一貫性は、人間のベンチマークと比較してどうですか？

著者らは、Ahmedらの研究で用いられた2つの尺度、すなわちスケッチトリプレットクエリを評価する際の自己矛盾と推移的違反を使用して一貫性を測定しました。その結果、GPT-4Vは人間の評価者よりも高い自己一貫性（人間の平均62.8％に対して94％）を示し、人間のトップ評価者と同程度の少ない推移的違反でデザインの類似性を評価できることがわかりました。

(ii) デザイン表現のマッチング

- GPT-4Vは様々な情報条件下でデザインスケッチとそのテキスト説明を正確にマッチングできるか？

3つの異なるケースについて、それぞれ10問の多肢選択問題からなる3つのトライアルを行い、合計90問のクエリーを実行しました。その結果、手書きの説明を含むデザインスケッチ全体が提供された場合、GPT-4Vは3つの試行すべてで10/10回、デザインスケッチとその適切なテキスト説明を正しく照合しました。しかし、手書きの説明を削除した場合、スコアは平均5.33/10に低下し、ランダムに照合した場合のスコア2.5/10と比較できるレベルでした。不正解の多くは「上記のどれにも当てはまらない」を選択していたため、この選択肢を除外して同じ課題を行ったところ、スコアは平均7/10に上昇しました。

(iii) 設計記述の生成

- GPT-4Vは初期段階の設計スケッチに対して効果的な記述を生成できますか？

定性的な評価では、GPT-4Vは手描きスケッチから正確で有用な設計記述を生成できることがわかりました。

(iv) 選択基準の生成

- GPT-4Vは、工学設計におけるコンセプト選択基準をどの程度効果的に生成できますか？

著者らのケーススタディでは、設計タスクが与えられた場合、GPT-4Vは設計専門家が生成したものと一致する有用な選択基準を生成できることが示されました。

(v) ピューチャートの生成

- GPT-4Vが概念設計評価用のピューチャートを生成できる範囲と限界は？

GPT-4Vはピューチャートの概念を理解し、そのフォーマットの例を提示できますが、多くの場合、ピューチャートに必要な情報を完全に埋めることはできませんでした。このモデルは、デザインに関する追加情報がなければピューチャートを完成できないことを指摘しており、より多くの情報が提供されれば可能になることを示唆しています。

デザインの類似性

コンセプチュアルデザインにおいて、二つのデザインが類似しているかどうかを判断することは重要な要素です。デザインの類似性を評価することは、コンセプト選択において一般的な基準であるデザインの新規性を評価するための代替指標として機能することができます。新規性とは、コンセプトが稀で、独創的で、想像力豊かであり、驚きを与えるものであると同時に、根本的または変革的であることを表します。しかし、新規性の評価はしばしば主観的になりがちです。人間は、なぜデザインが類似していると評価するかを説明する方が、一方のデザインを他方よりも新規であると評価する理由を述べるよりも簡単だと感じることが多いのです。

この理由から、過去の研究では、人間がコンセプトの類似性をどのように評価するかが、アイデアマップを構築し新規性を特定する方法として研究されてきました。類似性の比較は、類似したアイデアのクラスターを特定することで、デザイン空間の探索を助け、その探索を迅速に行うことができます。最近では、研究者たちが人間の類似性評価と計算上決定された類似性を比較し、製品の抽象度によってこれらが異なることを明らかにしました。

人間の類似性評価には3つの主な課題があります：

1. 評価の速度とコスト：人間の評価は非常に高価であり、デザインの数が増えるにつれて時間とコストが増加します。類似性クエリの数はデザイン数のn2でスケールします。

2. 自己一貫性：人間は同じ評価を繰り返すときに異なる類似性評価を行う場合があります。

3. 推移違反：与えられたデザインA、B、Cについて、AがBに似ており、BがCに似ているが、CもAに似ているとは言えません。これは不等式の推移性の原則に反します。AB < AC（ABはデザインAとBの類似度の尺度）かつBC < BAであれば、CB < CAでなければならないため、CA < CBと言うことは真実ではありません。このような違反は、同じ3つのデザイン（トリプレット）が複数回類似性評価された場合にテストできます。

以下の実験では、GPT-4Vがデザインの類似性を効果的に評価できるかどうか、つまり高い自己一貫性と少ない推移違反があるかどうかを評価します。著者らの方法論、プロンプトの例、および結果の表は以下に示されています。

方法論　Ahmedらが11人の人間の評価者に行ったのと同じ実験をGPT-4Vに対して実施しました。図3に示すように、Starkeyら、TohとMillerの初期段階のデザインスケッチを10個用意し、これらを3つのグループに分け、トリプレットと呼びました。コンテキスト2.1.1に示すように、A、B、Cとラベル付けされたデザインスケッチのトリプレットをGPT-4Vに提示し、どのデザインがAに最も似ているかを尋ねました。

10個のデザインがあるため、他の9個のデザインをデザインBとCとして36通りの組み合わせを作ることができます。そして、各デザインがデザインAとみなされるようなトリプレットを360個作成しました。これらのトリプレットの例を360個与えたとき、GPT-4Vが推移的違反を犯すかどうかを評価しました。

次に、GPT-4Vの自己一貫性を評価するために、50の例を繰り返し提示しました。この実験により、GPT-4Vがデザインの類似性を評価する際の推移的違反の有無と自己一貫性の度合いを測定することができます。

図3：新しいミルク泡立て器の10のコンセプトデザイン。GPT-4Vには、これらのデザインの類似性を評価することを課しています。

さらに、Agarwalらによって導入されたGNMDS（generalized non-metric multidimensional scaling）テクニックを使用して、トリプレット応答からデザインスケッチの2次元埋め込みを見つけ、互いに近いデザインがより類似しているとみなされる10個のデザインの視覚化を生成しました。この手法は、Ahmedらが人間の評価からこれらのデザインのマップを生成するために使用したものと同じです。GPT-4Vのアイデアマップと呼ばれる結果のマップを図4に示しています。

このアイデアマップは、文献で報告されている人間が生成したアイデアマップと驚くほど似ています。牛乳の入ったコップを示す3つのデザイン（デザイン2、5、6）と、自転車をベースとする2つのデザイン（デザイン3、4）がグループ化されていることがわかります。このような類似デザインのクラスタリングは、Ahmedらの図8に示されている、すべての人間の評価者を合わせたアイデアマップでも観察されました。

GPT-4Vのアイデア・マップでは、スケッチ0が他のすべてのスケッチから離れており、最も新規性が高いと認識されたことを示しています。偶然にも、人間の評価を集計して特定された最も新規性の高いスケッチもスケッチ0でした。ミルクを泡立てるためのカウンタートップ・ジェット・タービンを提案するスケッチ0は、彼らの研究で専門家によって評価された最も新規性の高いスケッチでもありました。これは、GPT-4Vがスケッチの類似性を意味のある方法で評価し、人間の評価と一致していることを示す、妥当性チェックの役割を果たします。

過去の研究では、人間の評価者はそれぞれ異なるマップを持っており、GPT-4Vも同様にユニークなマップを作成します。個々の人間のアイデアマップのばらつきは、類似性を判断するための多様な基準に影響されていると考えられます。従って、スケッチの類似性に関する決定的な基準を確立することは困難です。そこで、GPT-4Vの評価が人間の知恵にどの程度合致しているかを評価するために、11人の人間の評価者によるマップの集計結果と比較しました。

これらの最初の知見は、今後の研究の道を開くものです。第一に、GPT-4Vのアイデアマップ作成機能は、スケーラブルで多数のデザインアイテムの評価に理想的であるだけでなく、時間のかかる人間の評価に依存していた従来の研究が直面していた限界を克服しています。第二に、アイデアマップを生成するためのトリプレットクエリの使用は、スケッチだけでなく、プロトタイプ、3Dモデル、マルチメディアなどの他のデザイン形式にも拡張され、デザインの類似性を評価するための新しいアプローチを提供します。これらのマップはデザイナーにとって貴重なツールであり、デザイン領域をより深く理解し、デザイン空間をより効果的に探索するためにGPT-4Vを活用することを可能にします。

ディスカッション デザインの類似性　合計410のクエリを用いた定量的実験から、GPT-4Vは人間の評価者と同等以上の性能でデザインの類似性を評価できることがわかりました。360回の試行において、GPT-4Vが犯した推移的違反はわずか5回であり、これは11人の人間の評価者の中で最も少ない推移的違反の数でした。さらに、著者らの試行では、GPT-4Vは94％の確率で自己一貫性を保ちました。素朴なモデルであれば、デザインスケッチについてあまり理解していなくても、自己整合性を保つことができます。

そこで、GPT-4Vの類似性評価を理解するために、図4に示すGNMDS埋め込み技術を用いてデザインをプロットしました。主な特徴がミルク入りのコップである3つのデザインスケッチと、主な特徴が自転車である2つのデザインスケッチの賢明なクラスタリングが観察されました。今後の研究では、他のデータセットでVLMがこのタスクでどの程度の性能を発揮するかを調査する必要がありますが、これらの結果は、GPT-4Vが概念的なデザインスケッチの類似性を効果的に評価できるという有望な示唆を与えています。

将来のVLMは、GPT-4Vのこのバージョンと比較するために、これらの同じ方法を使用して評価することができます。この目的のために、すべてのトリプレットを含むデータセットを提供しました。これらの実験は、理解、分析、評価をテストするためのものです。その結果、GPT-4Vはデザインスケッチを理解し、類似性を評価するために分析できることが示唆されました。

さらに、デザイン3連の類似性を評価することは、ありふれた反復作業です。GPT-4Vがこのタスクを実行できることは、人間の評価者がこのタスクを実行する必要がないことを意味し、データセット作成とデザインプロセスの両方で時間とリソースを節約できる可能性があります。

デザインの説明

これらの実験を通じて、著者らの目的は、GPT-4Vがデザインの異なる表現、この場合はテキストとスケッチをどの程度理解しているかを評価することです。スケッチの理解は、それらを評価し比較する能力を持つための第一歩であり、これは概念設計段階の最終目標の一つです。著者らはGPT-4Vに、いくつかのオプションが与えられた中から正しいデザインの説明を選ぶ作業を与え、また、スケッチのみが与えられた場合にデザインのテキスト説明を生成する作業も与えました。

著者らは特に、選択問題の形式での説明の照合を実施することを選びました。これは定量的な分析を可能にするからです。さらに、将来のVLMが同様に評価されるように、正確な質問と結果を提供します。実際には、GPT-4VとLLaVA 1.5の両方をこの方法で評価し、結果は表2と表3に示されています。

これらの説明照合および生成タスクは、設計プロセス中の一般的なエンジニアリングタスクに直接対応しないかもしれませんが、GPT-4Vがそれらでどのようなパフォーマンスを示すかは、一つのモダリティ（スケッチ）から情報を理解し、別のモダリティ（テキスト生成）で情報を統合する能力についての洞察を提供すると著者らは信じています。

さらに、ツールが概念設計のスケッチの正確で有用なテキスト説明を自動生成できれば、エンジニアは以下のことが可能になります。

（1）初期段階の設計の簡単に検索可能なカタログを作成する

（2）スケッチとテキスト説明のペアの多モーダルデータセットを容易に生成する

これは、エンジニアリング分野における多モーダル機械学習に必要不可欠です。

手描きスケッチに関連するテキスト説明を自動生成することは、デザインチームのメンバーや潜在的なステークホルダーへのデザインアイデアの伝達にも役立ちます。これはスケッチの主要な役割の一つです。最後に、人間の評価者が創造性、新規性、品質、その他の一般的なデザイン指標でデザインアイデアを評価するのにも役立ちます。

・説明とデザインの一致

初期段階のデザインスケッチの画像と4つの異なるデザインの説明オプションが与えられた場合、GPT-4Vが正しい説明を特定できるかをテストしました。これらの単純なタスクでのGPT-4Vのパフォーマンスを分析することで、より挑戦的な説明生成タスクが可能かどうかについての基本的な理解を得ることを目指します。著者らの方法論、プロンプトの4つの例、および結果の表を以下に示します。

方法論

GPT-4Vがデザインスケッチをその正しいテキスト説明と照合できるかを3つの異なるケースで評価しました：

手書きのテキスト説明を含む全体の画像と、「上記のいずれでもない」を含む4つの説明オプションを提供します。コンテキスト2.2.1。

手書きのテキスト説明を削除した画像と、「上記のいずれでもない」を含む4つの説明オプションを提供します。コンテキスト2.2.2。

手書きのテキスト説明を削除した画像と、「上記のいずれでもない」オプションを削除した3つのテキスト説明オプションを提供します。コンテキスト2.2.3およびコンテキスト2.2.4。

著者らは合計90のクエリを実行しました：3つの異なるケースそれぞれについて10の選択問題で構成される3回の試行。これらの質問の例はコンテキスト2.2.1 - 2.2.4で示されています。回答オプションとして、著者らは10のデザインスケッチの中から3つのテキスト説明を提供しました。表2は3つのケースそれぞれの結果と、10点満点中の最終スコアを示しています。

他のVLMと比較してGPT-4Vの能力を理解するために、著者らは同じ実験をLLaVA 1.5でも行いました。結果は表3に示されています。LLaVA 1.5とGPT-4Vは、スケッチに手書きの説明が含まれている場合、デザインをその説明に完全に一致させます。手書きの説明が削除された場合、GPT-4VはLLaVA 1.5よりも優れていることが表2と表3でわかります。特に、GPT-4Vのエラーは通常「上記のいずれでもない」を選択する結果であり、そのオプションを削除して説明を選択するよう強制すると、そのパフォーマンスは向上します（5.33/10から7/10へ）。一方でLLaVA 1.5は解釈が難しいエラーを犯します。たとえば、手書きの説明が提供されない6回のうち、カップの画像（図3のデザイン5）を「B. ミキサーを牛乳で動かすフットペダル」と一貫して説明しています。

表2： 3つの多肢選択デザイン記述マッチング実験の結果。3つの試行で90のクエリーが実行され、3つのケースでそれぞれ10のクエリーが実行されました。トライアル1の全結果と、3つのトライアルすべてのスコアが表示されています。

表3：GPT-4VではなくLLaVA 1.5を使用した、3つの多肢選択式デザイン記述マッチング実験の結果。

この分析は、GPT-4VおよびLLaVA 1.5のようなビジョン言語モデル（VLM）がエンジニアリングデザインを解釈する際のいくつかの重要な側面を明らかにしています。まず、スケッチ内のテキストコンテキストの存在はモデルの精度を著しく向上させ、テキストデータと視覚データの統合の重要性を強調しています。特に手書きの説明がないシナリオにおけるGPT-4Vの優越性を示すモデルのパフォーマンスの変動性は、特定のタスク要件に合わせてモデル選択を調整するべきことを示唆しています。さらに、不確実な状況において「上記のいずれでもない」と選択するGPT-4Vの傾向は、不確実性を管理する戦略を反映した慎重なアプローチを示しています。この行動、およびGPT-4VとLLaVA 1.5のエラーパターンの対照的な点は、異なるモデルが視覚情報をどのように処理し解釈するかについての理解と改善が必要であることを示しています。特にテキストの手がかりがない場合です。これらの発見は、概念設計コンテキストにおけるVLMの使用を最適化するために不可欠です。

・スケッチからデザイン説明を生成

GPT-4Vは、初期段階のデザインスケッチの画像から、適切で正確なデザイン記述を生成できますか？

この実験は、描画スコアが異なる5つの初期段階のデザインスケッチに対して行いました。描画スコアは、学生のミルク泡立て器の設計のConsensual Assessment Technique評価に基づいています。スコアは1～7の範囲にわたりますが、スケッチのデータセット内では、スコアは1～6の範囲です。表4は、これらのデザインスケッチの結果を示しています。選択されたスケッチは、同じような描画スコアを持つすべてのスケッチの中からランダムに選ばれました。GPT-4Vは、単にデザインを記述するよう求められた場合と、学生に与えられたオリジナルのデザイン課題の説明を提供し、その後デザインを記述するよう求められた場合の反応を示しています。簡潔にするために、どちらの場合もGPT-4Vに3つの文で答えるように促します。正確なプロンプトは表4の列見出しに記載されています。

表4: デザインスケッチからGPT-4Vが生成した説明文。各スケッチの専門家評価による描画スコアも記載。スケッチは図面スコアの降順で並んでいます。

ディスカッション：デザインの説明

ここでは、GPT-4Vが初期段階のコンセプト・デザインの異なる表現をマッチングさせ、別の表現から1つの表現を生成する能力を評価することを目的としました。これらの能力を調査するために作成したタスクは、デザインスケッチとその正しいテキスト記述のマッチング、およびスケッチからテキストによるデザイン記述の生成です。これらのタスクのそれぞれについて、手書きテキストの量と各スケッチの描画スキルがこれらの結果にどのように影響するかを理解するために、さまざまな形のスケッチを与えました。表 2 に示す記述マッチング実験の定量的な結果は、後の記述生成タスクがまったく可能かどうかの基本的な理解を与えてくれました。その結果、手書きのテキスト説明を含むデザインスケッチ全体が与えられた場合、GPT-4Vは3つの試行すべてにおいて、10/10の質問でスケッチとテキスト説明を一致させることができました。この結果は、GPT-4Vが図面に書かれた手書きの文章を理解できることを保証するものです。この点が確認されたので、次に、画像から手書きテキストの説明を削除した場合の説明のマッチングをテストしました。この場合、GPT-4Vはスケッチとテキストの説明を平均5.33/10で一致させることができました。これは、ランダムな偶然の一致（平均2.5/10）よりはまだましですが、この結果は、テキストと画像の両方のモダリティを提供することが、この設計段階でいかに重要であるかを示しています。著者らは、不正解の多くがGPT-4Vで「上記のいずれでもない」を選択していることに気づきました。実際、試行1と試行2の不正解の4/5、試行3の不正解の3/4がこの方法でした。デザインスケッチは、文字による説明に比べ、視覚的にシンプルであることが多いので、これは理にかなっています。この例は図3のデザイン5で、視覚的には牛乳の入ったカップのように見えますが、テキストの説明は "牛乳の遠心分離機 "です。これらの結果を念頭に置いて、「上記のいずれでもない」オプションを削除した場合、GPT-4Vがスケッチと説明をどの程度一致させるかをテストしました。その結果、平均正解率は7/10に向上しました。興味深い例を文脈2.2.4に示します。この例では、スケッチが提供された選択肢のどれとも一致しないとモデルが判断したため、GPT-4Vは独自の選択肢を生成しました。

さらに、GPT-4Vがデザインスケッチからテキスト記述を生成する機能について検討しました。その結果を表4に示します。描画スコア、つまり認識された描画能力のレベルが異なる5つのデザインについて、モデルがどの程度デザイン説明を生成するかを調べました。それぞれのデザインについて、GPT-4Vに2つの異なるプロンプトを使用して説明を生成するようタスクを出しています：

1. このデザインを3文で説明してください。

2. ある学生は、牛乳を短時間で泡立てる革新的な新製品を開発するよう求められました。このデザインについて3つの文章で説明してください。

定性的には、描画スコアが非常に低いスケッチであっても、このモデルはデザインの有用で正確なテキスト説明を生成できると評価しています。説明文の中で、理解と妥当性があると思われる部分を緑色でハイライトしています。GPT-4Vは、与えられたテキストだけでなく、デザインの形と機能の両方を説明するために外挿します。生成された説明文は、スケッチを文脈化し、デザインがどのように機能するかを説明するために、手書きのテキストから多くを引き出しているからです。コンテキスト2.2.5は、スケッチからデザインに関する情報を理解し、推測し、推定し、生成するGPT-4Vの能力を示しています。例えば、スケッチにはラベル付きのベルトとプーリーのシステムが含まれており、GPT-4Vは生成された説明文にこれを含めています：「ベルトとプーリー：この部品はACモーターに接続されているようです。ベルトとプーリー：この部品はACモーターに接続されているようです。"ベルトとプーリーシステムは、おそらくタービン機構を駆動し、モーターの回転運動を所望の泡立て作用に変換します。" GPT-4Vは、手書きのテキストを含む詳細なスケッチが提供された場合、テキストによる説明を効果的に生成できると評価しています。GPT-4VのようなLLMは幻覚を見る可能性があることに注意することが重要です。つまり、GPT-4Vは、人間には知覚できないパターンやオブジェクトを入力に知覚し、意味のない出力を生成する可能性があります。エンジニアは生成された説明文のチェックを行うべきであり、多くのドメインにおけるスケッチのためのテキスト説明文の生成に関してさらなる研究がなされるべきです。しかし、今回の結果から、GPT-4Vは、初期段階のスケッチから意味のあるテキスト記述を生成することができます。この能力は、エンジニアが(1)初期段階の設計を簡単に検索できるカタログを作成し、(2)スケッチとテキスト記述のペアからなるマルチモーダルデータセットをより簡単に生成するのに役立つ可能性があります。

コンセプトの選択

概念設計の核となる要素はコンセプトの選択です。意思決定マトリクスに基づくものから、不確実性モデリング、ヒューリスティックまで、さまざまなコンセプト選択手法があります。エンジニアに最も広く使用されている概念選択法の1つは、ピュー評価マトリックスであり、ピューチャートと呼ばれることもあります。ピュー・マトリックスとしても知られるピュー・チャートは、エンジニアリングや設計で使用される意思決定ツールです。複数の選択肢を、基準となる基準を用いて比較し、最も適切な選択肢を決定します。各オプションは、ベースラインと比較して各基準をどの程度満たしているかに基づいて採点され、代替案の客観的な評価が容易になります。ピューチャートを作成する最初のステップは、コンセプトの評価と比較に使用する選択基準を定義することです。方法はさまざまですが、一般的な方法は、ベンチマークとなる設計を選択し、選択基準ごとにベンチマークとの比較に基づいて他のすべての設計を定性的に採点することです。以下の実験では、GPT-4Vがデザイン・プロンプトから選択基準を生成し、デザイン・スケッチにコンセプト選択メソッドを適用できることを検証します。Product Design and DevelopmentのConcept Selectionの章にあるケーススタディを利用します。このケーススタディでは、「ある医療用品会社が、外来患者用に正確な投与量を制御できる再使用可能な注射器を開発するために、製品デザイン会社に依頼した」というデザイン課題が提示されています。また、再使用可能な注射器の7つのデザインスケッチが、ピューチャートと選択基準とともに含まれています。著者らは、GPT-4Vの選択基準とピューチャートを生成する能力を比較するための定性的ベンチマークとして、これらを使用しています。

・選択基準の作成

GPT-4Vは、設計タスクの説明が与えられたときに、設計の評価に使用される選択基準を生成できますか？

・ピュー・チャートの作成

GPT-4Vは、選択基準が与えられた場合、設計を分析・評価し、その評価をピュー・チャートにまとめることができますか？

ディスカッション : コンセプトの選択

これらの実験を通して、GPT-4Vが2つの一般的なコンセプト選択タスクを実行する能力を探りました。それは、デザインタスクが与えられた場合の選択基準の生成と、複数のデザインコンセプトが与えられた場合のピューチャートの作成です。その結果、文脈2.3.1に示すように、GPT-4Vはデザインタスクを評価し、多くの関連する選択基準を生成できることがわかりました。

例えば、"A medical supply company retained a product design firm to develop a reusable syringe with precision dosage control for outpatient use "という設計課題に対して、GPT-4Vは、"Safety and Biocompatibility"、"Ease of Use"、"Precision and Accuracy "などの選択基準を生成しました。これらの基準は、医療現場においてユーザー中心で安全な設計でなければならないことを強調しています。

生成された基準を評価するためのベースラインとして、Ulrichらの論文で提供されている選択基準とピューチャートを利用しました。これらはこのデザインタスクのために作成され、著者らが使用したのと同じ7つのデザインコンセプトを使用しています。表5は、この設計タスクのために提供されたベースラインの選択基準と、GPT-4Vによって生成された同等の選択基準（該当する場合）を示しています。ベースラインのピュー・チャートが使用した7つの基準のそれぞれについて、GPT-4Vが同等の基準を出力していることがわかります。

GPT-4Vの同等基準のいくつかは、GPT-4Vの「使いやすさ」のようなサブカテゴリーであることに注意することが重要です。例えば、GPT-4Vの "使いやすさ：投与量の明確な表示 "は、教科書の "投与量設定の見やすさ "に相当します。これらの結果は、GPT-4Vが多くの関連する選択基準を生成できることを示していますが、エンジニアは生の出力を読み、関連する基準だけでなく、特定の基準のサブカテゴリーを分けて選択する必要があります。

GPT-4Vは、選択基準といくつかの設計が与えられたときに、ピューチャートを作成するタスクを与えられましたが、ピューチャートとは何か、ピューチャートを作成する方法は理解していましたが、コンテキスト2.3.2に示されているように、限られた情報の中では、ピューチャートを作成することに消極的でした。GPT-4Vは、正しいマトリックス形式（典型的な行と列を入れ替えたもの）で空のピューチャートを作成することができ、また、1つの参照概念を持つ概念の質的比較で埋められることも理解していました。しかし、各コンセプトに関する情報が不足しているため、ピューチャートを仮定の値で埋めるだけでした。

GPT-4Vは、各コンセプトに関する情報があれば、正確なピューチャートを作成することができたかもしれませんが、タスクのフォーマットではそれができませんでした。全体として、GPT-4Vは、設計者が設計プロセスで考慮すべき重要な要素を特定するのを支援するのに有効である可能性を示唆しています。しかし、GPT-4Vは、従来の手法と同等の基準を生成することができますが、その出力は、サブ基準を分類するなどの改良が必要かもしれません。

ピューチャートの作成に関しては、GPT-4Vはコンセプトを理解し、チャートを正しくフォーマットすることができますが、広範な情報がないとチャートに記入することに消極的であることが限界を示しています。このことは、GPT-4Vがコンセプトの選択プロセスを構造化し、開始するための有用なツールであることを示唆しています。GPT-4VのようなVLMは、デザイン・コンセプト評価の初期段階では貴重な助けとなりますが、より複雑な意思決定タスクでその潜在能力をフルに発揮させるには、注意深い監視と追加情報が必要になるかもしれません。

表5：「製品設計・開発」の教科書とGPT-4V相当の選択基準。

システムレベルと詳細設計

概要と動機

システムレベルおよび詳細設計の生成は、製品開発プロセスのフェーズであり、ここで完全な設計が実現され、反復され、評価され、製造の準備が行われます。この設計プロセスのフェーズは、製品アーキテクチャの概要作成、プロトタイピング、頑丈な設計の開発など、並行して行われるステップを包含しています。システムレベルおよび詳細設計の生成には、コンピュータモデリング、空間推理、物理ベースの知識など、多くのスキルセットと知識が求められます。GPT-4Vがこの設計プロセスのフェーズを支援する能力を包括的に評価することは難しいですが、著者らはテスト方法論を作成する際に以下のケーススタディを考慮しています。

サラは経験豊かな機械エンジニアであり、新しい軽量自転車フレームの設計に取り組んでいます。彼女は、強度、重量、持続可能性をバランスさせる材料を特定するために技術チャートを参照しながら、材料選択から始めます。次に、彼女は空間推理と物理知識が必要とされる詳細なCADモデルとエンジニアリング図面の作成に取り組みます。設計最適化における彼女の経験を活かし、サラはトポロジー最適化を通じて設計の代替案を探索し、最も効率的な材料レイアウトを求めます。最後に、特別な物理ベースのモデリングソフトウェアを使用してさまざまな条件で設計のパフォーマンスを評価します。彼女のプロジェクトは、システムレベルおよび詳細設計の本質を体現し、4つの重要なタスクでAIの役割を検討する必要性を浮き彫りにします：材料選択、CADおよびエンジニアリング図面の生成、トポロジー最適化、設計パフォーマンス評価。サラは、AIの能力が重要になる可能性のある課題に遭遇します。著者らはこのシナリオを使用して、システムレベルおよび詳細設計フェーズにおけるVLMの有効性を検討するためのテストベッドを構築しました。具体的には、サラのようなエンジニアが頻繁に行うシステムレベルおよび詳細設計フェーズの4つの主要なタスクに焦点を当てます。これらのタスクは、材料選択、CADおよびエンジニアリング図面の生成、設計代替案の探索のためのトポロジー最適化、設計パフォーマンス評価です。

評価

(i) 材料選定: GPT-4Vは特性図と設計要件に基づく材料選定を効果的に支援できますか？

- GPT-4Vは、一般的な仕様に合致する材料ファミリーの指摘には役立ちますが、具体的な数値要求に合致する材料の特定には苦戦することがわかります。

(ii) エンジニアリング図面解析 3.2.1 GPT-4V はエンジニアリング図面からどの程度正確に情報を抽出、解釈できますか？

- GPT-4Vは図面からどの程度正確に情報を抽出・解釈できるでしょうか？

GPT-4Vは、盲穴のあるブロックであることがわかると、設計図面からすべての寸法を抽出し、寸法に適切な名前を付けることができました。

(iii) CAD生成 3.2.2 エンジニアリング図面からCADスクリプトを生成し、反復的に改善するGPT-4Vの習熟度は？

- GPT-4V は，9 回の試行で 1 回しか正しい CAD を生成できませんでした．また、GPT-4VのCAD修正能力には限界があるようです。

(iv)トポロジー最適化: GPT-4Vがトポロジー最適化の原理をどの程度理解し、設計に適用しているか？

- ここでは、主に画像ベースの情報に依存して、GPT-4Vの構造トポロジー最適化の理解度を評価します。GPT-4Vの専門知識は、一般的な知識と具体的な知識、定量的な解析能力、トポロジー最適化の熟練度など、さまざまな側面からテストされます。著者らの評価では、GPT-4Vはトポロジー最適化の基本的な理解を持っています。GPT-4Vは、最適化された設計と制約構成の一般的な側面と微妙な側面の両方を明確に表現する能力を備えており、特に現場の専門家として関与した場合にその能力を発揮します。それにもかかわらず、このモデルの性能は、材料使用量の計算などの定量的推論タスクでは不足しています。

(v) 流体シミュレーション: GPT-4V は流体シミュレーション結果をどの程度解析・解釈できますか？

- ここでは、GPT-4V が流体力学シミュレーションをどの程度理解しているかを、最小限のテキストガイダンスで探ります。この評価では，層流，過渡流，乱流などの様々な流動レジームを区別する能力と，流体状態を特徴付ける主要な無次元量について議論するスキルに重点を置いています．分析の結果、GPT-4Vは流体力学の基本的な理解を持っていることが明らかになりました。計算流体力学（CFD）の結果を効果的に解釈し，レイノルズ数やマッハ数などの重要なパラメータを正確に特定します．また，このモデルは，流体の状態に関する微妙な理解を示しており，過渡（完全な乱流ではない）シミュレーションの出力に関する質問を正しく解釈して回答しています．

材料選択

多くの場合、材料の選択は詳細設計の初期段階で行われ、材料の選択は設計と使用する製造方法の両方に影響を与えます。材料の選択には、材料の強度、剛性、コスト、密度、体積エネルギー、電気抵抗率、熱伝導率など、さまざまな制約と要件のバランスを取る必要があります。広範な要件と制約のリストを満たす材料を選択するには、多くの場合、アシュビーチャートなどの複数の表やグラフを相互参照する必要があります。Ashbyチャートは、エンジニアが様々な材料ファミリーの様々な材料特性間のトレードオフを視覚的に表現することを可能にし、それによって課される制約を探索するために多くの計算手法が使用されています。LLMは、さまざまな材料特性に関するこれらのチャートを提供することで、材料情報を凝縮し、特定の基準を満たす材料を特定する可能性を持っています。いくつかのグループは、GPTが材料の検討を支援する能力について研究しています。Sakaらは、GPT APIを使用してChatGPTをビルディング・インフォメーション・モデリング・プロセスに統合し、ビルのコンポーネントの材料選択を支援しました。Makaturaらは、選択された材料に基づいて部品の製造プロセスを提案するGPT-4の機能に注目しました。Buehlerは、MeLM（Mechanics Language Model）というモデルを学習し、特定の応力-ひずみ応答を満たす微細構造設計の提案など、材料関連のタスクに使用しました。このセクションでは、アシュビーチャートと材料選択を含む3つの独立した実験を行います。応答の一貫性を分析するために、各実験は3回繰り返されます。

・アスビー・チャート・ルックアップ

この実験では、GPT-4Vに密度対ヤング率のアシュビー・チャートを与えます。GPT-4Vには、特定の密度とヤング率の要件を満たす材料を特定するよう依頼します。この実験の目的は、GPT-4Vがチャートから実行可能な材料の簡単な「ルックアップ」を実行できるかどうかを評価することです。この実験を3回繰り返します。そのうちの 1 回はコンテキスト 3.1.1 にあります。

・アシュビー・チャートの相互参照

この実験では、GPT-4Vに2つのアシュビー・チャート（密度対ヤング率、密度対強度）を渡します。そしてGPT-4Vに2つのグラフを相互参照し、3つの材料特性すべてについて特定の仕様を満たす材料を特定するよう求めます。この実験の目的は、GPT-4Vが2つの材料チャートから情報を合成できるかどうかを理解することです。この実験を3回繰り返します。繰り返しの 1 つはコンテキスト 3.1.2 にあります。

・梁の材料選択

この実験では、GPT-4Vに、一般的なビーム要件が与えられた場合に、仮想的なビームの材料を選択する手助けをしてもらいます。この実験の目的は、GPT-4Vが一般的な要件を材料要件に変換し、その要件に基づいて適切な材料ファミリーを提案できるかどうかを理解することです。この実験を3回繰り返します。そのうちの 1 回は Context 3.1.3 にあります。全ての材料選択実験の要約は表6にあります。

表6：GPT-4Vの材料選択実験の結果のまとめ。

ディスカッション:材料の選択

全体として、GPT-4Vは一般的な特性（例：低密度）を示す幅広い材料ファミリーを識別することではよく機能しますが、特定の要件や制約（例：1.0と3.0の間の密度）が与えられた場合にはあまり機能しないという結論に達しました。この発見は、3つの実験結果によって説明されます。すべての実験と繰り返しからの回答は表6で見ることができます。コンテクスト3.1.1、3.1.2、3.1.3には、各実験の繰り返しが1つずつ全文表示されています。

アシュビィ・チャート・ルックアップ実験（コンテクスト3.1.1参照）では、密度が7～10 Mg/m³でヤング率が100 GPaを超える材料、すなわち鋼、ニッケル合金、銅合金が正解であると予想されます（Zn合金とMo合金は実現可能領域の境界にあります）。GPT-4Vは、3回とも鋼が実現可能な材料であると正解しました。また、3回のうち2回は、ニッケル合金が指定された要件を満たすと回答しています。しかし、GPT-4Vは、3回の繰り返しのすべてにおいて、Ti合金またはWC-Co合金という、著者らの仕様を満たさない材料も回答に含めていました（Ti合金の密度は7 Mg/m³未満、WC-Coの密度は10 Mg/m³以上）。

GPT-4Vはアシュビィ・チャート相互参照実験（繰り返しの1つの全回答については、文脈3.1.2を参照）では悪い結果を示しました。問題の正解は、密度が1.0～3.0 Mg/m³、ヤング率が0.01～0.1 GPa、強度が3 MPaの軟質ブチルとエラストマー材料でした。3回の繰り返しで、GPT-4Vはこれらの材料が著者らの要求を満たしていると認識することはありませんでした。全体的に、ポリマーフォーム、発泡体、ポリマー、木材が適切な選択であると結論づけられる傾向がありますが、これらの材料は著者らの仕様を満たしていません。例えば、ポリマーフォームは密度の要求を満たしません。多くのポリマーフォームの密度は0.1～0.3 Mg/m³であり、GPT-4Vは1.0～3.0 Mg/m³の密度仕様をこの0.1～0.3の範囲と混同している可能性を示唆しています。この実験の3回の繰り返しのうち2回で、GPT-4Vは提供された画像の "解像度 "のために答えを出すのをためらったことに注意することが重要です。

アシュビィ・チャートのルックアップと相互参照実験により、正確な数値データと複雑な情報の統合を扱う上で、改善すべき点が明らかになりました。これらの2つの実験によって明らかになったように、数値制約を正確に解釈することにモデルが苦戦していることは、正確な数値範囲を適用することの不足を浮き彫りにしています。さらに、複数のソースからのデータを効果的に相互参照し、合成することができないことは、多次元情報の処理における課題を浮き彫りにしています。この問題は、精度と多面的なデータ分析が重要なエンジニアリングにおいて特に適切です。

GPT-4Vは、軽量性と剛性の両方が必要なビームの材料ファミリーの候補を提案するよう求められた場合に、はるかに優れた性能を発揮します（コンテキスト3.1.3を参照）。GPT-4Vは3回の実験すべてにおいて、剛性仕様を高ヤング率要件に、軽量仕様を低密度要件に正しく変換しました。すべての実験において、GPT-4Vは、検討したい材料が提供されたAshbyチャートの左上にあると正しく主張し、エンジニアリング複合材料とエンジニアリング合金を提案します（3回の繰り返しのうち2回については、エンジニアリングセラミックスと木製品も提案します）。

結論として、GPT-4Vは特定の数値要件を満たす材料を特定するのに苦労する一方で、一般的な仕様を満たす材料ファミリーを提案するのは非常に得意です。

全体として、工学設計における材料選択におけるGPT-4Vの使用は、意思決定の前段階における支援ツールとして、また材料科学の教育的支援としての可能性を示しています。一般的な要件に基づいて材料ファミリーを提案するその能力は、設計の初期段階を合理化し、エンジニアがより細かい部分に集中できるようにします。この統合は、AIが従来のエンジニアリング・ツールを補完し、設計ワークフローの効率を高める未来を指し示しています。しかし、VLMモデルの限界を知らずに過度に依存することや、AIが生成する推奨材料が安全基準や環境への配慮に沿ったものであることを保証することなど、倫理的かつ実用的な重要事項も提起しています。

材料選択におけるGPT-4Vの能力の探求から移行して、研究は工学設計の別の重要な側面に焦点を移します。VLMの能力は、複雑なエンジニアリング図面を解釈し、コンピュータ支援設計（CAD）モデルの生成に貢献します。

CADおよびエンジニアリング図面の生成

詳細設計プロセスの重要なステップは、3Dモデルの作成です。コンピュータ支援設計（CAD）ソフトウェアを使用すると、詳細なソリッドモデルを作成できるため、エンジニアは部品の寸法や部品間の組み立て関係を正確にコード化できます。通常、3Dモデルから製造仕様の詳細な設計図面が作成されるため、これらのCADモデルは製造のための設計への道を開きます。CADモデルは、設計や部品を視覚化するさまざまな方法（断面図、ワイヤーフレームビューなど）でも有用であり、エンジニアは設計のさまざまな側面を簡単に検討することができます。

CADモデルと工学図面という2つの設計形態は、本質的に視覚的な媒体であるため、視覚を備えたGPT-4は、GPT-4よりもCAD生成と工学図面解析を支援できるだろうという仮説を立てました。著者らは、テキストからCADへの変換を支援するGPTの可能性を追求した研究者たちの研究からインスピレーションを得ています。

たとえば、Makatura らは、テキストから CAD デザインを生成する GPT-4 の能力の探求に研究の大部分を割きました。彼らは、2D設計（DXFとSVG）を生成するスクリプトへのテキストを調べ、キャビネットの2D部品の設計で比較的成功したことを実証しました。その後、Makaturaらは、CSGベースのCAD言語とスケッチベースのCAD言語の両方を使用して、テキストを3D設計用のスクリプトに変換するGPT-4の能力を説明するために、いくつかのケーススタディを行いました。これらの実験では、プロンプトを特定の機能シグネチャで設計する必要がある場合が多く、成功はまちまちでした。著者らは、特に空間的推論に関する推論の課題を指摘しました。彼らはまた、GPT-4の能力と欠点の両方として反復能力を挙げており、チャットの反復を続けることでモデルがエラーを修正できる場合があることを発見しましたが、反復回数が多くなると、チャット内の以前の情報の記憶が制限されることもわかりました。

しかし、過去の研究の重要な限界は、テキストのみのLLMに依存していたことです。本研究では、VLMの能力を評価することに焦点を当てます。GPT-4Vが工学図面を解析し、CADを生成する能力を評価するために、2つの実験フレームワークを利用しました。完全な実験の例は、コンテキスト3.2.1で見ることができます。

各実験の最初のパートでは、GPT-4Vのエンジニアリング図面を解析する能力を評価します。この部分では、2つの側面からモデルをテストします：

1) 設計図面に基づいて部品を記述する能力

2) 設計図面から寸法を抽出する能力

各実験の第2部では、部品のCADをエンコードするスクリプトを生成するモデルの能力を評価します。事前に提供されたエンジニアリング図面、事前に抽出された部品の寸法、およびこちらが指定したCADスクリプト言語に基づいて、モデルにこれを実行させます。実験のこの部分では、スクリプトが生成したCADについてモデルを採点します。最初の試行でCADが正しくなかった場合は、生成されたCADのビューをフィードバックし、生成されたCADと元のエンジニアリング図面との間に見られる不一致を修正するよう反復させます。この繰り返しプロセスを、5回のCAD生成の試行が行われるまで行います。

合計で9つの実験を行い、それぞれ1つのチャット・コンテキストで順次実施しました。3つの実験グループは同じ（繰り返しのために実施）であり、3つの実験グループの違いは指定されたCADスクリプト言語にあります。次に、実験構成と各実験の採点方法についてさらに詳しく説明します。

・エンジニアリング図面分析

方法論 このパートのプロンプトは、9 つの実験すべてで同じです。

- エンジニアリング図面からの部品説明- プロンプト1(P1)。GPT-4Vには、文脈3.2.1 P1にあるように、盲穴のあるブロックの設計図が与えられます。この盲穴付きブロック部品は、CADを使用して作成できる最も基本的でありながら機能的な部品の1つであり、2つのスケッチと基本的な切断/押し出し操作しか必要としないため、実験対象として使用することにしました。この図面は典型的な工学図面の規則に従っており、学部レベルの工学コースで作成されました4。

- 採点（1点満点）： GPT-4Vが "穴あきブロック "または "盲穴付きブロック "であることを正しく述べていれば1点。貫通 "穴について言及した場合は、基本的な幾何学的形状を正しく理解していないことを示すため、無得点とします。

- エンジニアリング図面からの寸法抽出-プロンプト2(P2)。次に、GPT-4V に、エンジニアリング図面に示された寸法を抽出し、適切な名称を付けるよう求めます。特に、GPT-4V には、図面に明示されていない寸法を外挿して作成しないように求めます。

- 採点（10 点満点）： GPT-4Vが図面に示された5つの数値（8.00、5.00、12.00、4.00、5.00）の抽出に成功した場合、それぞれ1点が与えられます。また、5つの寸法に適切な名称が付けられると、それぞれ1ポイント加算されます。8.00、5.00、12.00のブロック寸法については、これらのラベルの割り当てがブロックの向きに依存するため、3つの寸法への[長さ、幅、高さ]または[奥行き、幅、高さ]の割り当てを受け入れます。4.00次元と5.00次元については、それぞれ "穴の深さ "と "穴の直径 "のラベル、または同等の名前を期待します。GPT-4Vが図面に記載されている以外の寸法を記載した場合、指示に従わなかったとして1点減点します。

技術図面分析の評価結果は表7にあります。

・CADQuery、FeatureScript、OpenSCADを使用したCAD生成

方法論 このパートのプロンプトは、以下に示すように9つの実験によって異なります。

- CADジェネレーション1 - プロンプト3（P3）。GPT-4Vが図面から間違って抽出した寸法を修正し、P1で提供されたエンジニアリング図面とP2で抽出した寸法に基づいて、穴あきブロック部品のCADスクリプトを生成するようにGPT-4Vに依頼します。3つの実験（実験1～3）では、GPT-4VにCadQueryスクリプト言語を使ってこれを実行するよう依頼し、別の3つの実験（実験4～6）では、GPT-4Vに別のスクリプト言語FeatureScriptを使ってこれを実行するよう依頼し、最後の3つの実験（実験7～9）では、GPT-4VにCADスクリプト言語OpenSCADを使ってこれを実行するよう依頼します。それぞれの言語には独自の機能と利点があることに注意してください：

- CadQuery： CadQuery：Pythonで構築されたオープンソースのCADスクリプトモジュールです。

- FeatureScript：無料のクラウドベースの CAD ソフトウェアである Onshape のスクリプト言語である FeatureScript は、Onshape に統合されており、従来の CAD モデリングと、スクリプトで定義されたカスタムのパラメトリックモデリングの両方が可能です。

- OpenSCAD： C++ で構築されたもう 1 つのオープンソース CAD スクリプト言語である OpenSCAD は、CAD ソフトウェア FreeCAD に統合されており、モデルに対するきめ細かな制御を提供します。

これら3つのスクリプト言語を活用することで、GPT-4Vの異なるCADスクリプト環境への適応能力を総合的に評価し、エンジニアリング図面を機能的なCADモデルに変換する汎用性を評価することを目的としています。

- 採点（6点満点）：生成されたスクリプトの実行時にエラーがなければ1点。生成されたCADが持つ次の各特徴に対して1点を与えます：ブロックが正しい寸法を持つ、CADが最大のブロック面に穴を持つ、穴が面の中央にある、穴の深さが正しい、穴の直径が正しい。生成されたCADに余分な不正確な特徴（例：2つ目の穴、ブロックの切り抜きなど）があるごとに1点減点します。

- CAD 生成 2 - 5：プロンプト 4 - 7（P4 - P7）。前のプロンプトで生成されたCADをコード実行した際に構文エラーがある場合は、GPT-4Vに提供し、スクリプトの修正を依頼します。スクリプトが実行されたにもかかわらず、生成されたCADが満点でない場合は、GPT-4Vに生成されたCADと設計図面との不一致を修正してもらいます。GPT-4Vに、先に提供したスクリプトから生成されたCADの4つのビューを含む画像を提供することで、これを行うよう依頼します（例として、3.2.1 P4を参照）。これらのビューは、それぞれのビューに対して非表示の線と座標系が表示されているCADを示しています。P7（CAD 生成 5）までに CAD がまだ満点でない場合は、実験を終了します。

- 採点（各プロンプトに対して6点、P4～P7）：これらのプロンプトの採点は P3 の採点と同じです。CAD Generationの評価結果は図5を参照してください。ここで使用された採点システムは、主に説明のためのものであることに注意してください。

ディスカッション : エンジニアリング図面の解析とCAD生成

表7の結果に基づき、GPT-4Vの工学図面解析能力を定量化した結果、GPT-4Vは図面の内容を概ね理解しているが、図面の細部の解釈に苦戦していると結論づけられました。GPT-4Vは、9回の実験のうち8回でP1について、部品を穴の開いたブロックと誤って表現しました。GPT-4Vは、穴のあいたブロックという部品は一般的に理解していますが、穴が貫通しているのではなく盲目であることを示す図面の表記を理解できていないのです。部品の説明で正しいスコアを獲得した1つの実験（実験4）では、部品を「円筒形の穴または凹みのある長方形のブロック」と呼び、"穴の開いた一般的なブロック "としました。これは正確な説明と言えますが、GPT-4Vが図面のブラインドホールを認識しているかどうかを示すものではありません。問題の部品が盲穴のあるブロックであることを告げられた後(P2)、GPT-4Vは図面から寸法を抽出するのが概して得意で、9回の実験のうち6回でP2スコアが満点でした(表7参照)。9つの実験すべてにおいて、GPT-4Vは常に図面から5つの寸法をすべて抽出します。GPT-4Vは3分の2の時間ですべての寸法に適切なラベルを割り当て、その結果、P2の平均性能スコアは96%と高くなりました。穴の深さの寸法を命名するのが最も難しく、実験1では "ブロックの高さ（右下からの図）"と呼び、実験9では "ブロックの幅 "と呼んでいます。4.0の寸法が図面の中で何を表しているかを理解するのが比較的難しいのは、図面が盲穴のあるブロックを表していることを（P1で）最初に理解できなかったことと一致しています。また、GPT-4Vは3ブロックの寸法のラベルに一貫性がなく、高さ/幅/長さ、奥行き/高さ/幅、高さ/奥行き/幅、奥行き/高さ/長さの間で変化していることも興味深いです。CAD生成の評価から、GPT-4Vが最初の試行（P3）で正確なCADを生成することはほとんどなく、CADの反復（P4-P7）でもCADは改善されないことが観察されました（図5参照）。P3では、9つの実験のうち1つ（CadQueryを使用した実験3）だけが、最初の試行で正しくCADを生成しました。FeatureScriptでは、GPT-4Vは、5回のCAD生成の繰り返しすべてにおいて、構文と関数の実装エラーから抜け出すことができません。P3の最も一般的な問題は、穴が正しい面に配置されていないことです。これは、穴の押し出し方向が、GPT-4Vが「高さ」ラベルを割り当てる寸法と常にリンクしているためであることに気づきました。5.0ブロック寸法に高さラベルが割り当てられるのは3回だけで、そのうちの1回はP3で満点CADが生成された唯一の実験（実験3）です。P4-P7の結果から、GPT-4VのCADスクリプト能力は、前のプロンプトから生成されたデザインの視覚的フィードバックでは向上しないと結論づけられます。実際、GPT-4VがP3で誤ったCADを生成した場合、P4-P7では問題のあるCADを完全に修正することはできず、CADジェネレーション5（P7）のスコアはCADジェネレーション1（P3）よりも悪くなります。この結果を視覚化したものが図5です。CadQueryとOpenSCADの実験では、CADのスコアが全般的に低下するのはCADジェネレーション3（P5）で、GPT-4Vは元のエンジニアリング図面で抽出した寸法を一貫して忘れます。

要約すると、GPT-4Vは、提供されたエンジニアリング図面の多くの側面（例えば、描かれた一般的な部分、示された寸法の多くなど）を拾うことができますが、詳細（例えば、貫通穴を認識する、貫通穴の寸法をラベル付けする、など）を理解することになると苦労することがわかります。GPT-4Vは、CAD生成に関しては性能が低く、視覚的、反復的な改良を試みてもうまくいかないことを実証しています。これらの結果は、GPT-4Vが予備的な設計作業ではある程度の支援を提供できるものの、詳細で精密なCAD作業には現在の能力ではまだ不十分であることを示唆しています。GPT-4Vの評価から得られた知見に基づき、今後の研究では、詳細なエンジニアリング情報を解釈し処理するモデルの能力を向上させることに焦点を当てる必要があります。また、GPT-4Vの限界であるCADの生成も重要な開発分野です。将来的には、高度なトレーニング技術や特殊なCADソフトウェアとの統合によって、モデルの精度と詳細なCADモデルの作成効率を向上させる方法を探る必要があります。さらに、GPT-4Vの反復フィードバックメカニズムをどのように活用すれば、設計の反復において意味のある修正と改善を行うことができるかを調査する必要があります。GPT-4Vや類似のVLMツールが、エンジニアリング設計プロセスのより高度で精度に依存する段階において適用可能性を拡大するためには、これらの分野に取り組むことが極めて重要です。エンジニアは、CAD の作成や設計図の作成と並行して、反復最適化アプローチ（nTop や SOLIDWORKS Simulation などの市販ツールを使用）を使用して、部品の設計を改善することがよくあります。一般的に使用される反復最適化アプローチの1つは、構造トポロジーの最適化であり、設計者が一部の設計要件を満たしながら材料の使用量を削減するのに役立ちます。

表7：3.2節の結果のまとめ。

設計代替案の探索のためのトポロジー最適化

トポロジー最適化（Topology Optimization：TO）とは、ある荷重と制約の下で、与えられた設計空間内で材料の最良の幾何学的レイアウトを見つけるために工学で使用される数学的アプローチです。特に、構造力学や熱伝導のような分野で重要です。TOの主な目的は、剛性と柔軟性の両方の制約を順守しながら、強度、剛性、熱放散、またはその他の目的のいずれであっても、最大の性能を達成するために設計内の材料の分布を最適化することです。エンジニアリング設計プロセスにおいて、トポロジー最適化は重要な役割を果たします。トポロジー最適化により、エンジニアはより幅広い設計の可能性を追求し、より効率的で効果的な軽量構造を革新することができます。これは、材料の節約や性能向上が重要なシナリオにおいて特に価値があります。しかし、TOは本質的に複雑であり、しばしば多大な計算資源を必要とします。エンジニアは通常、この最適化に伴う複雑な計算を簡素化し管理するために、様々な近似手法に頼っています。このプロセスは、設計効率を高めるだけでなく、エンジニアリング設計で可能なことの限界を押し広げるものでもあります。

概要と動機

構造トポロジーの最適化は、指定された制約条件の下で、与えられた構造に対して最適な材料の分布を見つけるために使用される数値手法です。その目的は、性能目標を満たしながら、材料が効率的に使用されるようにすることです。この分野で一般的な手法は、SIMP（Solid Isotropic Material with Penalization）アプローチで、構造体のさまざまな領域における材料量を表す密度場を使用して材料特性をモデル化します。この方法は、応力や変形に関連する制約を守りながら、設計を最適化するために密度を反復的に調整します。機械システムにおける最小コンプライアンス問題では、加えられる力と境界条件下で構造の変形を最小化する材料密度分布x∈Rnを決定することが課題です。問題の定式化は以下の通りです：

この方程式において、目的はコンプライアンスc(x)を最小化することであり、Fは外力、U(x)は節点の変位、平衡方程式K(x)U(x)=Fの解、K(x)は材料分布に依存する剛性マトリックスです。制約には、体積分率v(x)を指定の限界値v̄以下に維持すること、および設計変数xを0と1の境界内に維持することが含まれ、ボイドからソリッドへの材料分布の勾配を許容します。

トポロジー最適化には、特定の機能要件を満たすように最適に構成された設計を作成できるという利点があります。しかし、このプロセスは計算負荷が高く、多大なリソースを必要とします。また、複雑な形状を生成するのに適しているとは限らず、局所最適にとらわれて最適な解が得られない可能性もあります。このような理由から、近年、直接設計を高速化するために視覚ベースの生成モデルが採用されています。

しかし、最適なトポロジーは、人間の専門家にとって分析が困難なことがよくあります。最適化プロセスの結果得られる構成は、数学的には最適であっても、製造性や解析の面で大きな課題をもたらすことがよくあります。これらの設計は、シミュレーションでは効率的ですが、オーバーハングや内部空洞など、現在の製造プロセスでは製造できない複雑な要素を含んでいる場合があります。さらに、このようなアルゴリズムによって生成される抽象的で直感的でない形状は、人間の設計者が理解し、実用的な設計に反映させることが難しい場合があります。

最適な構造設計と実用化の間のこのギャップは、溝を埋める高度なツールの必要性を提起します。複雑なトポロジーを解釈し、修正を提案できる視覚言語モデルの開発は、必要不可欠なものとなるでしょう。このようなツールは、トポロジー最適化の数学的基礎を理解するだけでなく、製造上の制約や人間のエンジニアが理解しやすい設計原則に関する知識も組み込む必要があります。そうすることで、最適性をある程度犠牲にする可能性はあるものの、現実世界での実現可能性が高く、人間の共同作業者にとって解釈しやすい代替ソリューションを提供することができます。

図 5: CAD Generation プロンプトの結果、CAD Generation 1 - CAD Generation 5 (P3 - P7)。実験 1 ～ 3 は CadQuery を使用して生成され、実験 7 ～ 9 は OpenSCAD を使用して生成されました。実験3は、最初の反復で満点のCADを生成した唯一の実験でした。フィーチャースクリプトの実験である実験4～6は、コードエラーが続き、実行可能なCADが生成されなかったため、ここでは示していません。

評価

評価は、いくつかの重要な分野でGPT-4Vの能力を評価することを目的としています：

(i)一般的な理解力のテスト(3.3.1) GPT-4Vは、特にトポロジー最適化において、様々なトピックや領域にわたって、どの程度理解し、有用な情報を提供できるか？

- 著者らは、このモデルがTOに関する一般的な問い合わせに対して知識があり、有用であると評価しています。

(ii) 入力制約の下での複雑な設計の理解(3.3.2). GPT-4Vは、指定された入力制約を守りながら、複雑な設計を効果的に理解し、解析できますか？

- このモデルは制約のある設計を解析し、部分的に実行可能な構成を特定し、プロンプトの特殊化の助けを借りて改善することができます。

(iii) 与えられた設計に対する制約の推論(3.3.3). GPT-4Vは与えられた設計から体積率などの制約を正確に推測できますか？

- このモデルは、コード・インタープリタの助けなしにVFを正しく推定することができません。

(iv) 技術的知識(3.3.4). GPT-4Vの技術的な知識、特に複雑なトポロジーイメージや技術的なダイアグラムに関する正確な回答はどの程度深いですか？

- GPT-4Vは、技術的な詳細について知識があり、複雑な画像や技術的なダイアグラムを理解することができます。

(v) 設計の妥当性の評価（3.3.5）。GPT-4Vは、与えられた設計の実現可能性、妥当性、製造可能性をどの程度評価できますか？

- GPT-4Vは定性的な評価には役立ちますが、浮遊材料（FM）が存在する場合の設計の妥当性については一貫性がありません。このモデルはFMの発見と位置決めに失敗します。一般的に、空間的推論はGPT-4Vモデルの弱点です。このモデルは、複数の実験とシナリオにわたって、ほとんどランダムな出力を返します。

(vi) 3D空間理解(3.3.6)。GPT-4Vは、トポロジー最適化における3次元空間の概念と設計を理解し、支援することにどの程度習熟していますか？

- GPT-4Vは一般的な3次元トポロジーを理解し、解析のスピードアップに役立ちます。

GPT-4Vの回答の長所と短所を、より適切で質の高い部分を緑色で、不正確な部分、文脈から外れている部分、質の低い部分を茶色で示します。

・基本的な理解

一般知識　特にトポロジー最適化に重点を置いて、制約設計原則の適用に関するモデルの習熟度を評価します。この評価では、左側に境界条件、荷重、体積率、初期領域を示し、右側に最終的に最適化されたトポロジーを並べた、典型的なシナリオを示す図を解釈します。さらに、コンプライアンスを最小化することを目的とした最適化プロセスの視覚化も示します。このプロセスでは、指定された制約を遵守しながら、最大の剛性を持つ構造を作成することを目指します。応答を評価するために、応答に関連する部分を緑色で、関連しない部分を黄色でハイライトしていま。

制約の特定　このタスクでは、GPT-4Vにテキストプロンプトと2次元最適設計を提示し、与えられた設計に適合する潜在的な制約構成を提案するよう求めます。特に機械設計の領域に重点を置いており、荷重と境界条件の特定に重点を置いています。この問題は本質的に曖昧であり、多くの有効な応答が可能であることに注意することが重要です。次に、問題を特定するために、特定の荷重構成を導入します。このステップでは、潜在的な制約構成の範囲を絞り込み、より的を絞った解法の指針を提供します。最適化されたトポロジーの計算には、Topy とSolid Isotropic Material with Penalization (SIMP)アルゴリズムを採用します。

体積分率の推定　この実験では、画像に描かれた最適化されたトポロジーから体積分率を計算することをモデルに課します。これは、与えられた領域内の黒い材料の割合を測定し、関連する比率を決定することを含みます。この課題は、まずGPT-4Vの視覚的解析機能だけで行われます。その後、GPT-4Vのコード解釈能力を用いて課題に取り組みます。著者らは、5％の誤差閾値内で正確な答えを得ることを目指しています。

技術的なキャプション付け　このタスクでは、Woldsethらの図7の実験にインスパイアされた図を使用して、基本的なプロンプトを使用して技術的な図にキャプションを付けるためにモデルを使用します。最初は、キャプション付けに一般的なプロンプトを採用します。次に、システムの技術的な専門知識に関する詳細を組み込むことによってタスクを強化し、図のより詳細で知識豊富な説明を提供します。著者らは、制約構成（この場合は負荷方向）の小さな変化が最適化されたトポロジーを大きく変える可能性があることをモデルが理解することを望みます。

・無効なデザイン

このタスクは、与えられたプロンプトに基づき、無効な設計、特に浮遊材料を特定するものです。その目的は、低解像度の設計（64x64）内に切断されたコンポーネントが存在することを、モデルが事前情報なしに単独で認識することです。この認識後、モデルは設計の全体的な妥当性と低解像度グリッドの品質を評価することが期待されます。最後に、識別された問題を修正するための潜在的な改善策をモデルが提案できるかどうかをテストします。

・3D構造

このタスクでは、3次元トポロジーを評価・解析します。トポロジー最適化解析を通じて、GPT-4Vが3次元空間を解釈・理解する能力を定性的に評価することが目的です。

ディスカッション

概要このモデルはトポロジー最適化の基本的な理解を示し、工学における関連概念と問題の膨大なデータベースから引用しています。この理解は、境界条件、荷重、メトリックス、およびそれらがどのように相互作用するかを包含する語彙にまで及びます。さらに、視覚的な情報を処理する能力により、結果やダイアグラムの定性的な分析を行うことができます。

タスク

- コンテキスト3.3.1では、このモデルはTOの原理の知識を示し、体積分率を "設計空間全体に対する固体材料の比率 "と結びつけ、境界条件を "設計がどのように制約されているか "と理解し、制約付き最適化を "材料の制約の中で最良の設計を見つける "と認識します。また、図の右側を "最適化プロセスの可能な結果 "と認識しています。しかし、このモデルは、ダイアグラムの3つのセクションの関係を十分に把握していません。性能の最大化」という一般的な目標を正しく認識しながらも、中央の図がコンプライアンスを最小化すること、あるいは剛性を同等に最大化することに焦点を当てていることを見落としています。さらに、左側に荷重が明確に示されており、左から右へ制約設定、最適化ルーチン、最適化されたトポロジーが描写されているにもかかわらず、左側の緑色の矢印と荷重条件とを結びつけておらず、図が「荷重が適用される場所を明示的に示していない」と誤解しています。

- コンテキスト 3.3.2では、モデルは、特定の設計の背後にある潜在的な制約について尋ねるという曖昧さをナビゲートします。不確実性を認識し、「より具体的な文脈や詳細がなければ」、「荷重と境界条件を明確に指定する」ことの難しさを強調しています。にもかかわらず、このモデルは、利用可能な限られた情報に基づいて、「構造の左下端と右下端」のような可能性の高い境界条件と、「設計の上部とより拡張された部分」のような潜在的な荷重領域を思慮深く提案しています。さらに、「具体的な荷重や境界条件は、正確な使用目的によって異なるだろう」と繰り返し、より詳細な説明が必要であることを強調して締めくくっています。この回答は、解決策を提供するだけでなく、逆問題に欠けている情報を強調するものであり、効果的であると考えられます。このシナリオは1つの物体に焦点を当てており、構造画像を含む前のケースとは対照的であることが観察され、視覚エンコーダは単一焦点のシナリオにおいて、グローバル情報とローカル情報をより容易に解釈できる可能性が示唆されます。コンテキスト3.3.2の後半では、荷重条件に関する追加情報を紹介します。この情報により、モデルは "設計が安定を保ち、垂直荷重によって単純に回転したり動いたりしないためには、この荷重に対抗するために少なくとも1つの固定またはクランプされた境界条件が必要である "と推論します。この仮定は正しいです。このモデルは、構造的なバランスを取るために、これらの拘束条件が「設計の左下、場合によっては左上付近に配置される」可能性が高いことを示唆しています。全体として、モデルは新しい荷重情報を効果的に利用して、回転、運動量、安定性についての結論を導き出します。

- コンテキスト 3.3.3では、最適化されたトポロジーの体積率を定量的に推定するようモデルに求めます。モデルはこのタスクを「正方形の総面積に対する黒い部分（材料の存在）の割合を評価する」と正確に定義しています。しかし、黒いピクセルを数えて材料の割合を計算する最初の試みは、非常に不正確な結果をもたらします。この矛盾は複数の試行にわたって続き、それぞれが異なる不正確な答えを出します。これに対処するため、コードインタプリタを導入し（コンテキスト3.3.3の3番目）、モデルがPythonスクリプトを使用して推定できるようにしました。このアプローチにより精度が大幅に向上し、合理的な誤差の範囲内で推定値を目標値に近づけることができます。この実験は、2つの重要な洞察を浮き彫りにしました：第一に、画像に基づく正確な定量的評価を扱う上でのビジョンエンコーダ（少なくとも本研究で使用したGPT-4Vのバージョン）の限界を強調しています。第二に、これらの限界を克服するためにコーディングツールを統合することの有効性を示し、より正確で信頼性の高い結果を得るために、AIの解釈能力と正確なコードベースの計算を組み合わせることの相乗的な可能性を示しています。

- コンテキスト3.3.4では、複雑な図を解釈するモデルの能力を評価します。このモデルは包括的で正確な分析を行い、力、その適用角度、最適化されたトポロジーを巧みに結びつけます。このモデルは、画像を「構造的または機械的な解析であり、構造または材料がさまざまな荷重角度に対してどのように応答するかを示すもの」と正確に識別します。荷重の方向がトポロジーにどのように影響するかについてのこの洞察は、困難な物理的問題の正しい推論であり、境界条件、荷重、およびそれらが構造に与える影響を理解するモデルの熟練度を示しています。しかし、このモデルは図の中央下と右下にある境界条件で困難にぶつかり、それを「2つのぶら下がった重り」と誤って解釈しました。特に、全体的に質の高い回答であり、問題の本質を正確に把握していることを考えると、この誤った解釈は予想外でした。工学的概念を強調するためにプロンプトにさらに磨きをかけると、このモデルは再び、荷重、体積分率、フィルタリング半径などのトピックを深く掘り下げて、ほぼ正確な回答を提供します。しかし、境界条件に関しては同じ間違いを繰り返し、"重りで表される2つの外部点荷重が底の角にかかる "と示唆しています。この永続的な間違いは、モデルのシナリオに対するグローバルな理解におけるギャップを示しており、特定の文脈における誤解に対する脆弱性を明らかにしています。

- コンテキスト 3.3.5では、デザイン内の浮遊物、特に右上隅の切り離された三角形の存在を特定することをモデルに課しています。モデルはこの問題をトポロジー最適化プロセスの結果として正確に認識し、右上の「孤立した三角形の形状が主構造から切り離されている」ことを正しく認識します。構造の妥当性について質問されたとき、モデルは浮遊材料を特定しますが、その応答はそのような欠陥の意味について完全な明確さを欠いています。この孤立した特徴は製造に問題があるかもしれず、その切り離された性質が荷重を支える役割を果たせなくするかもしれない」と正しく指摘していますが、切り離された部品が必ず構造の完全性と製造性を損なうことを強調して述べていません。設計の最適化目標について、モデルは "最小限の材料使用 "に焦点を当てることを提案しています。これはトポロジー最適化では一般的な要件ですが、このようなプロセスで通常必要とされる幅広い性能要件を単純化しすぎています。設計の改善について尋ねられると、このモデルは "孤立した三角形を主構造に統合するか、機能的な利点がない場合は取り除く "ことを賢明にも提案しています。これは、浮遊材料の問題に対処するための有効な解決策です。しかし、その後に続く「境界条件と荷重ケースを再評価する」という推奨は、切り離されたコンポーネントを排除する方法としてはいささか見当違いです。より適切なアプローチは、洗練された最適化戦略とポスト処理技術を含むでしょう。まとめると、GPT-4Vは効果的に浮遊材料を特定し、実行可能な解決策を提供する一方で、断線部品の重要性を完全に理解するには不十分です。トポロジー最適化された設計における浮遊材料や断線部品は、必ず工学的見地から構造的に不健全になるか、さらなる最適化や加工を行わなければ製造不可能になります。

- コンテキスト 3.3.6では、3D構造のモデルを提示し、基本的な説明を求めています。モデルの応答は、やや一般的ではありますが、ほぼ適切です。記述のわずかな不正確さは、遠近法の問題や、著者らの評価で視覚エンコーダが示した限定的な空間理解から生じているようです。このことは、複雑な3次元構造を解釈し、記述するモデルの能力に改善の余地があることを示唆しています。

GPT-4Vは、エンジニアリングにおける詳細設計フェーズの効率を高めるために使用できます。エンジニアリングチームが、さまざまな境界条件や荷重条件を含む大規模なトポロジー最適化シミュレーションから出力される多数の結果を選別するというシナリオでは、GPT-4Vの能力が特に明らかになります。チームの課題は、残留物（浮遊物など）がなく、高性能を示す最適化されたトポロジーを選択することです。各トポロジーを手作業で検査することは、熟練したエンジニアのチームにとって、膨大な時間とリソースを必要とします。

そこでGPT-4Vの出番です。このモデルは、設定された制約に従わないトポロジーをフィルタリングするために使用できます。GPT-4Vは、トポロジーを制約条件と共に入力することで、準拠しない設計を特定することができます。さらに、GPT-4Vのコード解釈能力により、材料の使用量を見積もり、規定の体積率を超えないようにすることができます。

また、GPT-4Vは、設計の妥当性に対するそのような問題の影響の理解は限定的かもしれませんが、設計の切断されたコンポーネントを検出することに長けています。これらのタスクはすべて、視覚コンポーネントを含まない標準的なテキストベースの言語モデルを使用して定義することは不可能ではないにしても困難であり、VLMが詳細設計段階における視覚ベースの反復タスクに特に有用であることを示しています。

限界　工学設計の妥当性の評価に踏み込むとき、GPT-4Vは明確な洞察を提供するのに苦労することがあります。GPT-4Vは設計内の浮遊物を特定することはできますが、この観察結果を設計の無効性に結びつけるとは限りません。さらに、トポロジーを定性的なレベルで識別し、記述することはできますが、トポロジーに関する定量的な推論には課題が残ります。例えば、コード・インタープリタの助けなしには、このモデルは体積分率を推定したり、切断されたコンポーネントや浮遊材料の位置を正確に特定することはできません。

結論著者らの分析では、GPT-4Vは多くの点で詳細設計プロセスにおいて有用なツールであることが示唆されましたが、トポロジー最適化のコンテキストにおいてユーザーが認識すべき特定の制約があります。特に、定量的推論と空間的推論は、現時点では限定的であり、完全には信頼できないため、専門家である人間の監督なしにモデルを使用することは困難です。

全体として、GPT-4Vはエンジニアがトポロジー最適化を使用し理解するための補助的な役割を果たす可能性を示していますが、構造、境界条件、荷重の相互作用を理解するためには、まだ大幅な改善が必要です。また、トポロジー最適化の実務家にとって、現在のツールは部分的にしか役立っていません。

次節では、計算流体力学（CFD）の領域に踏み込みます。この探索は、構造シミュレーションとトポロジー最適化（TO）において以前に議論した研究を基礎としています。著者らの目的は、一般的なTOの知識やTOのイメージを正確に解釈する能力など、TOのセクションで特定したGPT-4Vの能力がCFDの領域に拡張されるかどうかを観察することです。

流体シミュレーション

数値流体力学（CFD）は，その解の視覚的な性質とともに広く適用されているため，流体力学領域における VLM の予備的な検討が必要です。CFD は，航空学から天気予報に至るまで，様々な工学分野の詳細設計段階で不可欠なものです。CFD では，流体の挙動や抗力、揚力などの主要パラメータに関する重要な定量的知見を得ることができるため，効果的な設計決定に不可欠です。このようなシミュレーションは，流体力学が関与する多くの場面で設計プロセスの重要な要素となっています．また，理解を深めるために，前述の出典に詳細に記載されているように，円柱周りの層流や翼形上の過渡流れなど，教科書に掲載されている標準的なシナリオを検討しました．これらの例は、流体力学の基礎知識を固めるだけでなく、現実の状況における著者らの方法論の適用可能性と有効性を評価するための実用的なベンチマークとしても役立ちます。

概要と動機

物理学と工学の重要な一分野である流体力学は、運動する液体と気体の研究に焦点を当てています。流体力学では、層流と乱流の2つの主要な流れのタイプを区別します。層流は、滑らかで整然とした流体運動が特徴で、多くの場合、低速度と粘性で発生します。乱流は、逆にカオス的で不規則な動きを特徴とし、大気流のような高速の状況でよく見られます。これらの流れタイプの間の移行は、レイノルズ数によって記述されることが多く、これは異なる流体流れの状況における流れのパターンを予測する無次元量です。同様に、マッハ数は航空学において極めて重要であり、物体の速度と音速の比を示し、超音速や超音速の空気力学を理解するために不可欠です。流体力学は、効率的な配管システムの設計、航空機の翼上の空気の流れの理解、人体内の血流のモデル化に不可欠であり、工学や医学の進歩に大きく貢献しています。機械学習は、シミュレーションを強化し高速化するために流体力学でしばしば使用されており、定量的な分析を支援し促進します。これは、航空工学や天気予報のような、集中的な計算を必要とするシナリオにおいて極めて重要です。視覚のみやテキストのみのモデルとは異なり、VLMはより全体的な視点を提供し、詳細設計プロセスにおいて異なるデータモダリティを統合することで、複雑な流体力学現象の解釈を支援します。この包括的なアプローチは、単一モダルの解析や純粋な数値解析では見落とされる可能性のあるパターンや異常の特定に役立ちます。さらに、これらのモデルは、乱流強度や流速プロファイルなどの流体挙動を理解するための迅速な評価を提供し、定量的な解析に役立つ可能性があります。

評価

(i)一般的な理解力の評価

GPT-4Vが層流、過渡、乱流シナリオをどの程度効果的に評価し、区別できるか？

- このモデルがテストされた流れの状態のいくつかの側面に関する問い合わせに対して知識があり、有用であることを発見しました。

(ii) 定量解析

GPT-4Vは、レイノルズ数やマッハ数のような一般的に使用される量と流体状態の間の関係を理解することにどの程度精通していますか？

- モデルは関連する量を操作し、流体の状態や可能な代替案に関する簡単な推論を行うためにそれらを使用することができます。

層流

このタスクでは、GPT-4Vを基本的な計算流体力学の課題に導入します。特に、低いレイノルズ数で、層流領域内の2D円柱を取り巻く速度場と圧力パターンを決定します。これらのシミュレーションを収集するために、SU2ソフトウェアスイートのドキュメントを利用します。GPT-4Vの課題は、シミュレーション結果の幅広い解釈と、主要な流体力学パラメータの詳細な定量分析を提供することです。

・乱流への移行

目的は、標準的なNACA0012翼の周りに乱流モデルを採用して、粘性、非定常、周期的な流れの結果を調べることです。主な焦点は、完全には発達していないものの、乱流領域への移行を視覚的に示す渦と剥離流です。この解析では，レイノルズ数（Re）などの具体的な詳細はモデルには公開していません．これらのシミュレーションの収集には，SU2 ソフトウェアスイートのドキュメントを利用しています。

議論

概要

GPT-4Vはビジョン機能を統合することで、流体力学のいくつかの視覚的側面を理解することができます。GPT-4Vは、提供されたCFDシミュレーション出力を層流および非定常乱流シナリオで解析できることがわかります。この解析は，テキストや記述的な理解にとどまらず、視覚的な情報の処理にも及んでおり、流体シミュレーションを定量的に解析することができます。また、GPT-4V はレイノルズ数やマッハ数のような重要なパラメータの理解にも優れており、様々な流れ領域(層流と乱流，過渡領域，流れの圧縮性の役割)におけるそれらの相互作用や意味合いに光を当てています。テスト問題では、GPT-4V は層流と乱流を効果的に区別し、それぞれの基本的なパターンと挙動を認識し、過渡領域を特定することができました。全体として、このモデルは、ヒートマップを解釈し、円柱や翼形など，流体力学で一般的に検討される対象物を識別することができます。問題を解決するのに十分な情報がない場合、モデルは流体（空気）について妥当な仮定を行い、粘度について妥当な値を取得します。レイノルズの大きさがないために乱流の発生レベルに関する判断が難しくなる他のシナリオでは、モデルは不正確な答えを出す代わりに、より定量的な情報を明示的に要求します。このようなタスクは、将来のVLMのベンチマークに使用することができます。特に、このような出力を視覚エンコーダなしで言語モデルを使って解析可能なテキスト形式で表現することは、不可能ではないにしても面倒であるため、VLMは詳細設計プロセスにおける視覚ベースのエンジニアリングタスクにとって特に魅力的です。

タスク

- コンテキスト3.4.1では，CFDシミュレーションで描かれたような円柱周りの層流を解析するようモデルに求めています．GPT-4V では，これをマッハ数が関係するケースと認識し，マッハ数を「媒体中の音速に対する流速の尺度」と正確に定義しました．初期解析は一貫性があり，品質も高いようです．しかし、シミュレーションでは最大マッハ数が約0.3であり、衝撃波形成のしきい値よりもはるかに低いにもかかわらず、モデルは「衝撃波（流速が音速に達するか、音速を超えるときに発生する圧力と密度の急激な跳ね上がり）」の存在を誤って示唆しています。この誤った解釈は，流体力学の理論的な理解と，特定のシミュレーション状況への実用的な適用との間の断絶を浮き彫りにしています．肯定的な面では、モデルは画像の右側の流れを正確に記述し、"より遅い流れ（青色で表示）と渦パターンの形成 "を指摘しています。しかし、このシミュレーションには当てはまらない「衝撃波、境界層の発達、乱流後流」の存在を誤って再記述しています。この矛盾は、流体力学の知識を正確に文脈化するモデルの能力にギャップがあることを示しています。レイノルズ数の計算を依頼された場合，このモデルは見事に正しい計算式を特定し，妥当な数値を割り当てて，正確な推定値を提供します．また、与えられたマッハ数と特定の温度における空気の推定音速を使用して、流速を巧みに推測します。この回答は、モデルが流体力学を深く理解していることを示すものですが、以前の物理的な根拠のなさとは対照的です。最後に、低レイノルズ数の流れにおける空気の圧縮性の影響について、モデルは「層流はそのような状況では典型的である」と正しく述べ、「低マッハ数では、流体の圧縮性は大きな影響を与えない」と指摘しています。この評価は正確で、低速領域における流体力学の基本原理と一致しています。全体として，このモデルは流体力学に関する広範な知識を示していますが，この知識を文脈に即して適用する能力はまちまちです．理論的な理解と定量的な解析には優れていますが、シミュレーション特有の条件とその意味を正しく解釈することには限界があります。

- コンテキスト 3.4.2 では，不安定性，乱流への進行，時間依存性，渦形成を特徴とする複雑な過渡領域における流体解析という課題をこのモデルに与えました．GPT-4Vは、この課題において素晴らしい性能を発揮します。GPT-4Vは、"渦の存在"、"主に回転流を伴う流体中の領域 "を即座に識別し、"翼形または翼の形状 "として研究対象の物体を正確に認識します。これは、流体力学シミュレーションにおける重要な特徴を識別するモデルの能力を示しています。さらに，このモデルは，遷移流解析の重要な側面である「粘性の影響が大きい境界層の存在」を正しく認識します．過渡的な挙動や時間依存的な挙動を示す複数の画像」から推測される時間依存的な挙動の特定は，提供されたシミュレーションデータの構造に基づいてインテリジェントな推論を行うモデルの能力を示しています．このモデルが流体を「層流と乱流の組み合わせ」と評価しているのは，乱流に移行しつつある流れの状態を一般的でありながら正確に表現しているためです．これは、ビジョンエンコーダから得られる情報が限られているにもかかわらず、流体力学の原理を正しく理解していることを反映しています。重要なことは、このモデルは不確実性を認め、より詳細な解析のためにはレイノルズ数などの追加情報が必要であることを表明することで、自己認識と慎重さのレベルを示していることです。このような慎重なアプローチは、コンテキストやデータが不完全な状況において望ましいものです。

全体として、GPT-4Vは過渡的な流れの複雑な挙動を解析するのに有効であり、技術的な理解と解析における適切な注意の両方を示しています。しかし、これらのテストでは単純な問題を使用しており、多様な条件下での包括的なテストにはさらなる研究が必要です。詳細設計のパイプラインに VLM を統合することで，材料特性，マッハ数，寸法など，さまざまなパラメータにわたるシミュレーション解析を大幅に高速化できる可能性があります．このアプローチは，層流（3.4.1）や過渡流（3.4.2）など，流況に基づいてソリューションを分類する際に特に効果的です．このようなモデルを活用することで、エンジニアリングチームは、非定常流の領域を事前に特定するのに役立つ可能性のある、過渡領域に関する初期の表面的な理解を得ることができます。これによって、各解法に対する専門家による目視検査への依存をいくらか減らすことができます。VLMを使用することで、初期解析段階の時間を短縮できる可能性があります。ただし、これらは予備的な知見であり、モデルは慎重に使用する必要があることに留意することが重要です。現在のVLMは、特に複雑なシミュレーション段階において、エンジニアが行う詳細な専門知識と重要な設計上の意思決定に取って代わるものではありません。これらのモデルの使用は、現実世界のエンジニアリングの課題に対する正確で詳細な洞察ではなく、一般的な概要を提供する補助的なツールとして考慮されるべきです。限界前述の例では，流体力学シミュレーションにおける高度なモデルの実用的な応用例を紹介しましたが，これらのシナリオは，流体力学を扱う際に産業界と学界の両方で遭遇する多様で複雑な課題のごく一部に過ぎないことに注意することが重要です．シミュレーション結果の解釈におけるこれらのモデルの性能と有効性は、いくつかの要因によって大きく異なります。シミュレーションプログラムが異なれば，モデルの有効性に影響を与える詳細さや複雑さのレベルも異なります．可視化の品質と解像度は非常に重要です。高品質で高解像度の画像であれば、より正確な解釈が可能になりますが、低品質であれば信頼性の低い結果となる可能性があります。最後に、シミュレーションの複雑さ（カップリング、マルチフィジックス）、形状構造、解析対象の流体力学はすべて重要な要素です。より複雑な設計や動的な流れは、解析や解釈に大きな課題をもたらします。結論結論として，GPT-4V や類似のモデルは，流体力学を学ぶ学生や研究者にとって，シミュレーション結果を理解するための基本的なフレームワークを提供する教育ツールとして有用である可能性があり，VLM が工学や技術者にとって有用な副操縦士になり得るという考えを改めて裏付けるものです．これらのモデルは、流体力学シミュレーションの特定の側面を簡素化し、高速化する上で大きな利点を提供することができますが、その限界を認識する必要があります。VLMの性能は、視覚的な入力の質や、多様な環境における研究や応用のためのシミュレーション自体の複雑さによって左右されます。

製造と検査

概要と動機

ここでは、製造関連のタスクにおけるGPT-4Vの性能評価に焦点を当てます。著者らの動機は、エンジニアが複雑な幾何学的人工物の製造の実用的な側面を理解するためにしばしば使用する視覚的な手がかりに依存しています。このようなマルチモーダルな情報には、製造の知識だけでなく、画像を理解する専門知識が必要です。GPT-4Vはタスクに特化した画像解析の可能性を示しているため、製造と検査における可能性を評価します。製造の分野は広く、すべての製造タスクに対するマルチモーダルLLMの完全な可能性を議論することは、著者らの研究の範囲外です。このため、マルチモーダルLLMの能力を評価する上で有用な洞察を提供できる製造タスクに焦点を当てます。具体的には、製造のための設計（DfM）と製造後の検査タスクに焦点を当てます。この2つのトピックは、産業界における製造アプリケーションにとって重要であり、広範なドメイン固有の知識が要求されます。特に、画像のみから3D CADモデルの製造可能性を理解することに注目します。製造可能性とは、伝統的に部品の製造が相対的に容易であることを意味します。新しい部品の製造性を確保することは大きな課題であり、慎重な分析と専門知識が必要です。この目的のための自動化ツールの可能性は、製造生産性を大きく向上させるでしょう。マルチモーダルLLMは、産業界がこの種の作業を自動化する次世代ツールを構築するのに役立つ可能性があります。著者らの分析は、マルチモーダルLLMとその製造知識と推論の初期評価と考えることができます。簡潔にするために、製造のための設計のセクションを、付加製造と減算製造の2つのパートに分けます。既存の文献に基づき、GPT-4Vに3D CADモデルの画像を照会し、グランドトゥルースに対する製造性応答を評価します。

評価

GPT-4Vの製造関連の知識を評価するために、3種類の実験を行います。

(i) 積層造形のための設計 : 積層造形の領域において，GPT-4Vは提供された設計ルールに基づいて設計の3Dプリント可能性を一貫して予測できるか？

- GPT-4Vは一様に（すべてのケースで）、デザインは3Dプリントに適さないと示しました。この結論は、デザインが指定された付加製造ルールに実際に適合しているかどうかに関係なく導き出されました。

(ii) サブトラクティブ製造のための設計 : GPT-4V はサブトラクティブ製造設計の製造特徴を識別できますか？

- GPT-4V はフィーチャー形状の基本的な把握を示しましたが、応答に一貫性がありませんでした。GPT-4V は、基本的な形状を把握していますが、応答には一貫性がなく、類似した形状の区別に苦戦し、恣意的な推測に頼ることが多くなっています。

(iii) 製造後の検査 : GPT-4Vは画像中の様々な種類の欠陥をどの程度正確に分類できますか？

- 具体的な欠陥分類の実験によると、GPT-4Vは欠陥のある画像とない画像を区別できる可能性があります。しかし、異なるタイプのコンクリート欠陥を一貫して正確に分類することはできませんでした。

・製造のための設計

製造のための設計（DfM）は、工学設計の製造可能性を研究する一般的な概念です。製造可能性は、使用される材料、採用される特定の製造方法（アディティブ、サブトラクティブなど）、および製造に使用される特定のツール（どのタイプの3Dプリンタなど）に依存するため、DfM分野は広いです。ここでは、GPT-4Vが2つの一般的な製造方法であるアディティブとサブトラクティブのDfMを支援する能力を探ります。

加法的製造のための設計

加法的製造（AM）は近年、製造方法としてますます人気が高まっています。AMが最初に普及したのは、ラピッドプロトタイピングにおけるその有用性によるものですが、航空宇宙や自動車部品製造における少量の設計変更部品にも活用されています。AMの設計制約は、使用する積層造形システムによって大きく異なります。オンデマンド製造を提供するProtoLabs社のHubsは、プリンターの種類に基づくAMの一般的な設計ルールを符号化した「3Dプリンティングの設計ルール」と題するチャートを作成しました。たとえば、あるルールでは、FDMプリンターのサポートされる壁の最小厚さは0.8 mmです。製造のための設計には、実験的な試行錯誤や、特定の製造プロセス用に設計を微調整するためのキャリブレーションが含まれることが多いため、これらのルールはヒューリスティックであり、例外が見つかることもあります。しかし、このチャートにより、GPT-4Vが一般的な製造ルールを設計に適用する能力を評価することができます。

方法論

さまざまなデザインの3Dプリントの成功を予測するようモデルに求めることで、AMデザインルールを理解し適用するGPT-4Vの能力を評価します。このタスクのために、20のデザイン・セットを作成し、問題のあるデザイン・セット（図6参照）と製造可能なデザイン・セット（図7参照）の2つに分けました。FDM製造に関連するThe Hubsチャートの10個のデザインルールごとに、それぞれ10個のルールのいずれかに違反する10個の問題デザインを作成しました。製造可能なデザインセットを構成する他の10個のデザインは、問題のあるデザインと似ていますが、実際にはThe HubsチャートのすべてのFDMルールをパスしています。製造可能な10個のデザインの意図された製造可能性を確認するため、Carbon X1 Bambuプリンターを使用してそれらを3Dプリントしました。図8に示すように、10個のデザインはすべて正常にプリントされました。20のクエリを実行し、それぞれ新しいコンテキスト・ウィンドウで、20のデザインのうちの1つに対応するクエリを実行しました。各クエリに対して、GPT-4Vにデザインルールのチャートと、印刷したいデザインの寸法画像（図6または図7に示す20の画像のうちの1つ）を提供しました。次に、GPT-4Vに、提供された設計ルールに基づいて、FDMプリンターでその部品を3Dプリントする際の成功率を予測するよう依頼しました。部品がうまくプリントできないと思われる場合、GPT-4Vに、違反している特定の設計ルールを示すよう求めました。クエリのサンプルは、コンテキスト4.1.1とコンテキスト4.1.2にあります。再現性を確認するため、これらのクエリーをそれぞれ3回繰り返し、合計60回のクエリーを行いました。各回答を以下のように採点しました：

1. 製造可能か？(最大スコア 1）： 1.製造可能か（最大スコア1）：GPT-4Vが製造可能か否かを正しく回答した場合は1、そうでない場合は0としました。

2.正しいルール（最大スコア1）：この採点指標は、問題のある設計セットの設計にのみ適用されます。違反したルールがGPT-4Vの回答に記載されていた場合は1、そうでない場合は0とします。

3. # ルール違反（最大スコア 0）：このスコアリング指標は問題のあるデザインセットのデザインにのみ適用されます。GPT-4Vが違反したと思われるが、実際には違反しなかったルールの数が、このスコアの負の値に対応します。例えば、GPT-4Vが3つのルールについて言及し、そのデザインが違反していなかった場合、この評価基準のスコアは-3となります。

すべての結果の要約は表8をご覧ください。

図6：問題のある10種類のデザイン。各デザインは、The Hubの "Design rules for 3D printing "のチャートにあるFDM AMルールのいずれかに違反しています。違反した特定のルールは、各デザインの下に記載されています。

図7：製造可能な10種類の設計。各設計は、問題のある設計の1つをベースに、問題を修正したもの。

図8：Carbon X1 Bambuプリンターで3Dプリントした図7の部品。

・サブトラクティブ・マンファクチュアリングの設計

サブトラクティブ工法は、複雑な部品を製造するために、産業界で最も広く使用されている製造技術です。この設計プロセスでは、部品の製造可能性に細心の注意を払う必要があり、一般的にこのプロセスは反復的です。これは、相互作用する特徴を持つ部品にとって特に困難です。残念ながら、このタスクのためのデータセットの数は文献上非常に限られています。最近では、合成CADデータセットを使用して加工フィーチャーを識別するために、ディープラーニングベースのアプローチが実装されています。

これらのデータセットは、厳選された設計原則のセットを使用して作成されます。このため、MFCADデータセットを利用して、GPT-4VにCADモデルの画像からの製造特徴認識を問い合わせます。方法論 GPT-4Vへの複数のクエリに基づく定量的研究を実施します。MFCADデータセットからランダムに20サンプルを選び、それぞれのCADモデルの画像を作成します。これらの画像の各々は、CADモデルの各表面に加工特徴を割り当てるグランドトゥルースに対応します。一般的に、すべての実験でテストする加工フィーチャは15種類あります。長方形貫通溝、三角形貫通溝、長方形通路、三角形通路、6面通路、長方形貫通段差、2面貫通段差、斜め貫通段差、長方形ブラインド段差、三角形ブラインド段差、長方形ブラインドスロット、長方形ポケット、三角形ポケット、6面ポケット、面取り。これらの各画像をGPT-4Vに問い合わせ、デザインに存在する加工フィーチャーを要求します。まず、製造のための設計に集中するように最初のプロンプトを表示します。次に、図9に示すように、GPT-4Vに各画像を順次問い合わせます。コンテキスト4.1.3と4.1.4は、2つのプロンプトの例とGPT-4Vからの対応する応答を示しています。データセット本実験で使用したデータセットは、視覚言語LLMのためのオープンソースの小規模評価データセットとして本書で提供します。このサブトラクティブ・マニュファクチャリング・データセットは、主にCaoらによるMFCADデータセットに基づくもので、CADモデルの50枚の画像と、それに対応する加工特徴をラベルとして含んでいます。本書では、報告された20のペアに加え、さらに30の画像とラベルのペアを追加しています。

- 最初のプロンプトこれから、材料ストック画像からの加工特徴認識に関する一連の質問をします。

- 画像プロンプト：ここに加工特徴があります。画像から、画像に写っている材料のストックにどの加工特徴があるかを識別してください。

-- 加工特徴のリスト

長方形貫通スロット、三角形貫通スロット、長方形通路、三角形通路、6面通路、長方形貫通ステップ、2面貫通ステップ、斜め貫通ステップ、長方形ブラインドステップ、三角形ブラインドステップ、長方形ブラインドスロット、長方形ポケット、三角形ポケット、6面ポケット、面取り、ストック

表8：GPT-4Vが3つの試験で達成した積層造形実験の設計に関するスコア。

再現性：これらの20のクエリを3回繰り返し、同様の回答を得ました。GPT-4Vはほとんどの画像で少なくとも1つの特徴を識別しますが、一貫して特徴を識別することはできません。

考察 GPT-4Vは、製造のための設計（DfM）に関する質問に完全に正確に答えることはできません。GPT-4Vは、設計がアディティブ・マニュファクチャリング（AM）のルールに違反しているかどうか、設計に特定の加工フィーチャーが含まれているかどうかなど、質問の一部には正しく答えることができますが、その答えは完全に正確ではありません。特に、GPT-4Vは、プロンプトで指定された指示に従うのに苦労したり、忘れたりすることがあります。

積層造形（AM）の成功可能性を予測する能力に関しては、GPT-4Vは常に、提供された設計はAMで適切に製造できないと述べています。これは、問題のある設計と製造可能な設計の両方で一貫しています。つまり、GPT-4Vは、実際には製造可能で、設計ルールに違反していない設計でも、3Dプリント設計ルールのいずれかに違反していると仮定しています。この印刷可能性に対する一貫した否定的な反応は、モデルの慎重な姿勢を反映していると考えられます。

GPT-4Vは、設計が複数の設計ルールに違反していると主張する傾向がありますが、問題のある設計セットのすべての設計は、実際には1つのルールにのみ違反しています。GPT-4Vが問題のある設計の違反ルールを正しく特定できたのは、半分以下のクエリでした。また、GPT-4Vは、プロンプトで各ルールに割り当てられた番号でルールを指定するように求められたときに、混乱したり忘れたりすることがあります。

全体として、GPT-4Vは、実際の製造可能性に関係なく、AMでは適切に製造できないと一貫して予測するため、AMタスクの文脈では使用するのが微妙です。この一様な否定は、慎重なアプローチを示していますが、製造上の課題を過大評価する可能性があります。GPT-4Vは、詳細なAMクエリを処理し、それに応答する能力をさらに開発する必要があります。

減法的製造タスクでは、GPT-4Vはほとんどの画像で少なくとも1つの加工フィーチャーを識別できますが、その性能は一貫しておらず、特に複雑な設計では顕著です。GPT-4Vは、明確なフィーチャーの識別を誤ったり、より複雑な幾何学的フィーチャーの理解に課題を示したりします。このような特徴識別の不整合は、減算製造の精度が不可欠なシナリオでは、信頼性の低い評価につながる可能性があります。

GPT-4Vは、より単純な幾何学的対象には適しているようですが、複雑な対象には困難が伴うため、現在の使用は、詳細な技術的製造評価よりも、予備的な評価や教育目的に適している可能性があります。GPT-4Vが減法的製造タスクで独立したツールとして機能するには、大幅な改良が必要です。

今後の研究では、AMとサブトラクティブ製造の両方で、GPT-4Vの精度と理解の深さを向上させることに焦点を当てる必要があります。AMでは、GPT-4Vの慎重なアプローチを調整し、製造可能な設計と不可能な設計をより正確に区別し、特定のガイドラインにより正確に従うことができるようにすべきです。サブトラクティブ製造では、GPT-4Vが複雑な加工フィーチャーを一貫して正しく識別できるようにする必要があります。

AIモデルが3D形状をより良く理解する方法を開発することで、GPT-4Vの解釈能力が強化され、製造分野でのより信頼性の高い実用的なアプリケーションにつながる可能性があります。これらの進歩は、GPT-4Vを製造設計のためのより強固なツールにし、自動化された製造プロセスへの幅広い応用への道を開くでしょう。

製造後の検査

エンジニアリング検査は、それ自体が一つの領域を構成しています。部品は、特定の技術要件を満たしていることを確認するために、製造後に検査されなければなりません。検査は、次の設計の改善に役立つ可能性があるため、エンジニアリング設計プロセスの重要な側面です。多くの場合、検査には視覚的な要素（画像、X線、収集データのグラフなどによる欠陥の検出）と、エンジニアリング規格などの詳細文書に関する広範な工学的知識が必要です。そのため、マルチモーダルな機能を持つGPT-4Vが、画像の欠陥検出においてエンジニアを支援できるかどうかを理解したいと考えています。

手法

分析には、Mundtらが公開したCODEBRIM（Concrete DEfect BRidge IMage）データセットを使用します。このデータセットには、ひび割れ、剥落、エフロレッセンス、露出した鉄筋、腐食ひずみなどの欠陥を含む、または含まない橋の構造コンクリートの画像が含まれています。このデータセットからのサンプル画像は図10にあります。

実験には、CODEBRIMデータセットから23の画像のサブセットを選びました。この画像は、5つの欠陥タイプがそれぞれ少なくとも5つの画像に存在するように選ばれました。23枚のうち5枚は欠陥のない「背景」画像です。

GPT-4Vに各画像を別のコンテキストウィンドウで表示させ、モデルに5つの欠陥のいずれかを特定するよう求めました。画像の解像度や安全上の懸念からモデルが回答をためらい、それでも特定の欠陥を示唆した場合は、それを回答としてカウントしました。

再現性を理解するために、23の画像実験をそれぞれ3回ずつ繰り返し、合計69回のクエリーを行いました。２つのクエリと応答は、コンテキスト4.2.1とコンテキスト4.2.2で見ることができます。すべての実験の結果は表9-13で見ることができます。

図9：CAD画像からの加工特徴認識：20サンプルの結果を示し、GPT-4Vの応答に対応する各グランドトゥルース（GT）も示しています。

図10：CODEBRIMデータセット［Mundt et al.］左から右へ、元のデータセットで命名された通り： 1) image_0000005_crop_0000001.png-エフロレッセンスと腐食染みの欠陥を含むもの。2) image_0000046_crop_0000001.png-クラック欠陥を含むもの。3) image_0000109_crop_0000003.png - 欠陥と腐食ひずみを含みます。4) image_0001189_crop_0000004.png - 露出した棒鋼の欠陥を含みます。

考察

GPT-4Vの構造コンクリートの欠陥検出能力について、混同マトリックス（表9-13）から以下のような洞察が得られました。

1. GPT-4Vは、12の実験（8つの異なる画像）で、解像度の問題、安全性の懸念、またはリクエストに対応できないことを理由に、質問に回答しませんでした。

2. GPT-4Vが回答した場合、各欠陥クラスのF1スコアが比較的低いことから、欠陥の種類を予測する上で特に優れた結果を示さなかったことがわかります。

3. GPT-4Vはクラック欠陥を過剰に予測する傾向があり、これは高い再現性（真陽性率）スコア（0.79）と低い特異性（真陰性率）スコア（0.44）によって裏付けられています。GPT-4Vは、ひび割れ欠陥で最もよく知られているため、慎重さのあまり、ひび割れを過剰に予測している可能性があります。

4. 69のクエリのうち14のクエリで、GPT-4Vは画像内のすべての欠陥クラスについて完璧な欠陥予測を行いました。これは、GPT-4Vが欠陥の種類を正確に分類するよりも、欠陥がないことを見分ける能力に長けている可能性を示唆しています。

これらの知見は、エンジニアリング検査業務におけるAIの応用に重要な意味を持ちます。GPT-4Vは構造物コンクリートの欠陥を識別する可能性を示していますが、その性能は中程度であるため、モデルをさらに改良し、人間の専門知識やより専門的な機械学習ツールに引き続き依存する必要があります。

欠陥がないことを識別するモデルの能力は、プロセスを合理化するための予備検査で活用できますが、特にセーフティクリティカルな評価では、人間による検証が依然として最も重要です。

今後の研究では、多様なトレーニングデータセットと専門家によるフィードバックのアプローチを通じてAIの精度を向上させることに焦点を当てるべきです。

エンジニアリング教育の課題

概要と動機

最後に、製品開発プロセスから一歩引いて、工学教育カリキュラムに存在する問題を解決するためのGPT-4Vの能力を調査します。その根底にある考え方は、人間がエンジニアになるための準備態勢を評価するためのタスクや課題であるということです。そのため、GPT-4Vの工学的課題への対応能力と比較することができます。教科書の問題、試験問題、標準化されたテストは、LLM を評価する方法として非常に一般的です。これらの問題は、よく定義され、自己完結的で、ほとんどが閉形式の問題であることが多く、再現性があります。例えば、テキスト入力のみのSciBench には、物理、化学、数学から選ばれた695の大学レベルの教科書問題があります。このベンチマークを使用して、Wang et al. 同様のアプローチで、著者らは、視覚情報を必要とする工学教科書の問題と空間推論テストを用いて、GPT-4Vの視覚情報とテキスト情報の理解とペアリング、および空間推論能力を評価することを提案します。具体的には、(i)工学設計の教科書問題 5.1 工学設計の教科書問題で、視覚情報と文字情報の解析が必要な問題を解くことができるか？- 3つのコースから、文字情報と異なる視覚情報（図、3Dモデル、写真など）を組み合わせた問題を44問抽出し、GPT-4Vに解いてもらいました。3回の繰り返しで、GPT-4Vは16問（36%）を確実に解きました。説明が必要な問題や、表や3Dモデルについて質問する問題でより役立つようです。(ii) 空間推論能力の評価 5.2 人間の空間推論テストに基づき、GPT-4Vは空間演算を行い、物体が互いにどのように関連しているかを理解できますか？- 3つの空間推論テストで得られたスコアを測定します。GPT-4Vの平均得点は、パッキングテスト36％、MechE回転テスト16％、修正MechE回転テスト20％で、理系学部生の平均得点を大きく下回っています。

教科書問題

概要と動機

工学カリキュラムの中で、学生はスケッチ、グラフ、表、画像を解釈して関連する質問に答える必要のある工学設計問題を解くよう定期的に求められます。このような問題を解くためには、学生は自然言語処理と視覚的情報理解のスキルをドメイン知識と統合する必要があります。このような問題を解くことで、GPT-4Vが質問と与えられた画像の間のクロスモーダルな相互作用を捉える能力を評価することができます。さらに、GPT-4Vがこのような問題に答える際に、ドメイン固有の知識を統合する能力も評価したいと思います。さらに、自由記述、多肢選択、数値、スケッチなどの質問に対するGPT-4Vの問題解決能力、図、写真、グラフ、3Dモデル、表などの処理能力を評価します。

方法

著者らのモデルを評価するために、MIT OpenCourseWareのCC-BY-NC-SAで公開されている2つの工学設計の学部授業から問題を集めました。授業で使用する教材には問題集と試験が含まれます。すべての授業教材にはモデル解答が付属しており、これをグランドトゥルースとして使用します。GPT-4Vのマルチモーダル能力を確実に評価するために、問題のプロンプトで1つ以上の画像を参照する問題を選択します。GPT-4Vは画像を生成することができないため、学生に画像の注釈を要求する問題は無視します。しかし、もしスケッチを生成するような問題があれば、GPT-4Vはスケッチを生成するコードを生成します。実際、スケッチはコーディング言語によってパラメータ化できますが、画像はパラメータ化できません。独立性を確保するために、複数パートの問題を除いて、各問題でGPT-4Vのコンテキストウィンドウをリセットします。マルチパート問題では、各パートの順番でGPT-4Vを促します。複数の画像があるマルチパート問題では、余分な情報でGPT-4Vを混乱させないために、各サブ質問にその特定の問題を解くのに必要な画像だけを補足します。例えば、マルチパートの問題が2つの画像XとYを持ち、パート(a)は解くためにXだけを必要とし、パート(b)は解くためにYを必要とし、パート(c)は解くためにXとYの両方を必要とするとします。著者らはGPT-4Vの正しさを2値で評価し、問題が完全に正しければ1を、そうでなければ0を与えます。完全に正しい」とは、フリーテキストの質問に対して、グランドトゥルースと意味的に類似した答えを出力することを意味します。計算を含む問題については、GPT-4Vが問題に対して正しい数値解答を出力するかどうかをチェックし、中間ステップが合理的に正しい解答を導くことができるかどうかをチェックします。例えば、GPT-4Vが正しい方法論を持っているにもかかわらず、最後に計算ミスをした場合、GPT-4Vの出力は真実の解答と一致しないので、0点を与えます。複数のパートからなる問題では、それぞれの正しいパートに1点を与えます。エラーを3つのカテゴリーに分類します：

- 根拠：提供された説明または計算が間違っている場合。

- 推論：モデルが画像から情報を正しく抽出できなかった場合。

- 不正確：提供された回答が曖昧すぎるか、タスクを実行せずに説明するだけ。

複数のパートからなる質問の各パートを個別の質問としてカウントし、44以上の異なるエンジニアリングの質問に対するGPT-4Vの解答能力を評価しました。各複数パートの質問を1回だけ数えた場合、合計で21の質問を評価しました。問題はモデルのばらつきを考慮して3回繰り返され、全体として、少なくとも2回の繰り返しが正しければ、その問題は正解とみなされました。

教科書問題の得点

GPT-4Vは44問中16問を正解し、平均36%の精度を示しました。問題の画像の種類と形式を考慮した場合の正解率は、それぞれ表14と表15に示されています。すべてのリピートと質問の概要は表16に示されています。画像の種類に関連して、GPT-4Vは3Dモデルや表を含む問題のほとんど（それぞれ63％、67％）に正解しましたが、写真（33％）、図（29％）、グラフ（0％）では正解率が低くなりました。問題形式では、GPT-4Vは自由記述問題（44%）で他の形式よりわずかに良い結果を得ました。全体として、GPT-4Vは推論ミスが多く（20問）、次に不正確な解答（5問）、推論ミス（3問）でした。

空間推理

空間的推論とは、人間が精神的な空間操作（回転、平行移動、投影、方位）を行う能力のことです。空間的推論は、人間が地図を読んだり、明かりのない夜間に家をナビゲートしたり、科学、技術、工学、数学（STEM）の分野でほとんどすべての問題を解決したりするときに使用されます。空間的推論のスキルは、グラフ、図、プロット、3Dオブジェクト、および表現を理解するために不可欠なスキルと考えられています。実際、複数の研究が、空間的能力が学業成功の良い予測因子であることを発見しています。その結果、空間的推論能力はヒトにおいてよく研究されており、多くの標準化されたテストが存在し、例えばThe Revised Purdue Spatial Visualization Test：回転の視覚化（PSVT:R）、メンタルカッティングテスト「シュニッテ」、または新規空間能力テスト、空間理解に関するGPT-4Vの明らかな苦労に関するいくつかの観察に続いて、著者らは、さらなる洞察を提供するために、その空間能力を特にテストしました。空間推論テストは視覚言語モデルを評価するのに適しています。そのため、訓練データの一部となる可能性は低い。

方法著者らはGPT-4Vの空間推論能力を、一般に公開されているパッキングテスト（Novel Spatial Ability Tests の一部）とMechE Rotation Test を用いて評価しました。前者は一般に公開されていますが、後者は本研究と並行して初めて一般に公開されました。MechE Rotation TestはPSVT:Rの一般的な原理を踏襲していますが、機械部品によく見られる特徴を持つ物体を使用します。このテストは、参照物体に適用された1つまたは2つの回転を視覚化し、それを別の物体に適用する能力を測定します。各問題に対して、5つの可能な物体の構成が示され、参加者は正しいものを選択します。テストは、参加者に正解が与えられる例題と、難易度の高い10問の問題で構成されます。パッキングテストでは、図形がより小さな部分図形から構成されるか、またはより小さな部分図形に分解されるかを評価します。パッキングテストは、パッキングとアンパッキングの2つのパートに分かれています。最初のパートでは、参加者は4つの選択肢の中から、より大きな図形を形成するためにどの部分図形のセットを一緒に詰め込むことができるかを選択しなければなりません。2番目のパートでは、参加者はその逆を行い、4つの大きな図形の中から、提供された小さな図形に分解できるものを選びます。これらのテストの問題例を図11に示します。

図11：空間推理テストの問題例。

このワークでは、GPT-4Vに人間の被験者と同じようにテストを受けさせます。各問題は1つのコンテクストで行われ、例題と問題を順次通過し、指示と画像が提供されます。確率を考慮し、各質問は5回繰り返されます。さらに、Yangらに触発され、視覚的マーク（参照座標と顔の色付け）を追加することで、MechE回転テストでのモデルの性能が向上したかどうかを評価します。このプロンプトのフルセットは将来の視覚言語モデルのベンチマークとして利用可能です。

GPT-4VのパッキングテストとMechE回転テストの解答をそれぞれ表17と表17に示します。パッキングテストから始めると、GPT-4Vの5回の平均得点は36%で、ランダムに解答した場合に予想される平均得点(25%)よりもわずかに高い。興味深いことに、正解した5問はすべて少なくとも2回の実行で正解しており、GPT-4Vが無作為に解答していないことをさらに示唆しています。しかし、人間との比較では、Berkowitzらが報告した学部生(66%)と大学院生(73%)の平均点よりかなり低いままです。MechEのローテーションテストでは、平均スコア（16%と20%）は低く、ランダム解答の期待スコア（20%）に近いです。わずかに高いものの、視覚的プロンプトがGPT-4Vをサポートしているかどうかは不明です。このテストに関する人間の結果は公表されていませんが、内部テストや改訂版PSVT:Rテストとの比較から、平均スコアは60%～70%と予想されます。

図12：モデルをサポートする視覚的プロンプトを追加したMechE回転テストの例。

表17：パッキング・テストの解答と得点［Berkowitz et al.］正解は太字。各実験は同じ状況で実施。

表18：MechE回転テストの解答と得点。正解は太字。各試験は同じ状況で実施。

より深く理解するために、ラン P1 をコンテキスト 5.2.1 で再現しています。GPT-4V の回答は、テストの性質と課題をよく理解しているように見えます。しかし、回答は正しいのですが、推論が間違っています。提供された座標系に基づけば、参照オブジェクトは GPT-4V が述べているように Z 軸ではなく X 軸を中心に 90◦回転しています。この種の動作は、数値推論に関してすでに報告されています。このように、空間システム内にモデルを適切に根付かせるためには、視覚的またはテキストによる追加の指示が必要なようです。

GPT-4Vの空間能力を標準化された（人間による）試験で評価した結果、GPT-4Vは人間と比較して、限定的ではありますが、ある程度の空間推論能力を持っていることが示唆されました。実際、これらの視覚化タスクは難しく、多少欺くように作られていますが、科学や技術分野の訓練を受けていない学部生のほとんどは、少なくとも問題の半分を正解しています[Yoon, 2011, Berkowitz et al.］残念なことに、このように見える欠点は、GPT-4VがCAD生成のような工学設計タスクを実行する際の限界の一端を説明している可能性があります。

議論

本論文では、概念設計から製造に至るまでの幅広いエンジニアリングデザインタスクにおいて、GPT-4Vの能力を評価することを目的としました。

概念設計

著者らはデザインの類似性分析、スケッチの説明、コンセプト選択を調査しました。GPT-4Vはデザインの類似性を高い自己一貫性と低い推移違反で評価することができました。また、ユニークなスケッチや類似したスケッチのグループを識別する際に、人間が生成したアイデアマップと一致していました。さらに、完全なスケッチ（手書きの説明を含む）が提供された場合、効果的にデザインスケッチをそれらの説明に照合しましたが（平均スコア10/10）、説明がない場合は「上記のいずれでもない」を選択することが多く、その結果、性能が低下しました（平均スコア5.33/10）。「上記のいずれでもない」が選択肢にない場合、GPT-4Vのパフォーマンスは向上しました（平均スコア7/10）。これは、GPT-4Vが誤りの可能性を避けるための「慎重さ」を示唆しています。GPT-4Vは、描画スコアが非常に低いスケッチに対しても、有用で正確なテキスト説明を生成することができました。最後に、モデルは適切な選択基準を生成しましたが、デザインスケッチのみが提供された場合にPughチャートを生成することはありませんでした。全体的に、GPT-4Vは、以前の研究で特定されたものを超えて、デザインスケッチの分析と概念設計段階のサポートにおいてVLMの大きな可能性を示しています。

システムレベルおよび詳細設計

著者らは、GPT-4Vがいくつかのアシュビー図を使用して適切な材料を提案し、エンジニアリング図面を分析し、CADスクリプトを生成し、トポロジー最適化（TO）から得られた構造を理解・分析し、CFDシミュレーションの結果を分析する能力を調査しました。GPT-4Vは、アシュビー図で材料を探す場所について正確に回答することができましたが、具体的に求められたときには誤りを犯しました。モデルはブロックウィズブラインドホールエンジニアリング図面のニュアンスを理解するのに苦労しましたが、ほとんどの寸法を抽出し、それに適切なラベルを割り当てることができました。CAD生成能力に関しては、GPT-4Vは最初の試行で正しいCADスクリプトを生成することに限定的な成功を収めましたが、スクリプトを修正するための反復は結果を改善しませんでした。TOおよびCFDの一般的な理解に関しては、示された画像上の特定の特徴に関連付けることができましたが、TOにおける浮遊材料の特定に苦労し、CFDに対しては視覚的入力と理論的情報を誤って一致させました。たとえば、GPT-4Vはマッハ数が閾値を大幅に下回っているにもかかわらず、1つの画像が衝撃波を示していると解釈しました。全体的に、ビジョンの追加により、GPT-4Vは一般的な詳細設計タスクに対して関連する説明を提供することができますが、精度に欠けます。

製造と検査

製造段階では、GPT-4Vが減算および加算製造操作に対する設計の製造（DfM）を理解する能力をテストしました。GPT-4Vは、著者らが解釈するに、慎重であり、提供されたガイドラインの範囲内であっても、加算製造部品が印刷可能ではないと提案しました。減算製造のための特徴識別タスクでは、GPT-4Vは20回中12回少なくとも1つの特徴を特定することができましたが、すべてを特定することはありませんでした。提供された説明はほとんどの場合一貫性がなく、異なる技術用語を混同していました。さらに、GPT-4Vの画像検査能力を評価し、欠陥を見つけて特定することができるかを評価しました。評価されたケースでは、GPT-4Vは欠陥の存在を過剰に予測し、欠陥の種類の特定において一貫性がありませんでした。詳細設計段階以上に、製造および検査は精度に関するものであり、GPT-4Vは評価されたタスクにおいて信頼性のある一貫したパフォーマンスを提供することに失敗しています。

教育タスク

最後に、著者らは教育タスクにおけるGPT-4Vの能力を評価しました。具体的には、教科書の問題を解決し、空間推理評価を実施することです。全体的に、GPT-4Vは教科書の問題で36%、パッキングテストで36%、MechE回転テストで18%の精度を達成しています。説明を求める教科書の問題では最も良いパフォーマンスを示しましたが、数値の質問では、推論と提供された画像からの数値の抽出の両方で苦戦しました。空間推理テストにおいては、GPT-4Vのスコアはランダムに答えを選ぶことと区別がつかず、提供された説明は視覚表現と一致しませんでした。低いスコアを考えると、教科書の問題と空間推理テストは、将来の多モーダルLLMを評価するための競争力のあるベンチマークになる可能性があります。

包括的なテーマ

著者らの実験全体でいくつかの包括的なテーマに注目しました：

追加のテキストコンテキストを提供することは通常、モデルが提供された画像を理解するのに役立ちます。
GPT-4Vは不確実な場合に情報を要求することができます。
GPT-4Vはより慎重な側面を持ちます。
一般的で説明的なタスクは、具体的なタスクよりも通常よく解決されます。
GPT-4Vは空間推理能力に限界があります。

他のビジョン言語モデルへの適用性

この研究はGPT-4Vを特に調査していますが、他の現在および将来のモデルを評価するために使用できる一連のベンチマークケースを提案しています。

この研究の限界

本研究のGPT-4Vのパフォーマンスに関連する部分は、以前のLLM（大規模言語モデル）に関する研究で提起された同様の課題と懸念に直面しています。以下に、いくつかの主な限界を強調します。

エンジニアリング問題の特定性：幅広いエンジニアリングタスクをカバーしようと試みたものの、この研究は限定的な範囲のエンジニアリングデザイン問題に焦点を当てており、フィールドで遭遇する広範な課題を代表していない可能性があります。これは、他のタイプのエンジニアリングタスクに対する所見の適用性を制限する可能性があります。

プロンプトエンジニアリングへの依存：結果は、プロンプトの工夫の仕方に大きく影響される可能性があります。プロンプトの構造や言葉遣いの微妙な変化によって、モデルからの反応が大きく異なり、評価の信頼性に影響を与える可能性があります。

データセットの代表性：結果は、ベンチマークデータセットの選択にも依存します。使用されるデータセットの品質、多様性、代表性は、モデルのパフォーマンスに大きく影響を与える可能性があります。ビジョン言語モデルのための大規模な評価問題セットを作成しましたが、これらのデータセットが実世界のエンジニアリングシナリオの多様性と複雑さを完全に捉えていない可能性があることを認識しています。これは、実際のエンジニアリングアプリケーションへの結果の一般化に影響を与える可能性があります。

ブラックボックスと進化するモデル：モデルの変更、データ漏洩、チャットインターフェースの使用時の制御不足により、実験環境を完全に定義することはできず、再評価された場合、結果が異なる可能性があります。ただし、評価のために、チャットインターフェースの制限内でより大きなベンチマークを作成し、モデルのパフォーマンスのより良いサンプルを得るために実験を繰り返しました。

モデル更新の影響：AIモデルは頻繁に更新されるため、この研究の結果はすぐに時代遅れになり、長期的な関連性が制限される可能性があります。新しいビジョン言語モデルのリリースにより新しい機能が可能になりますが、この研究は、将来のモデルが評価されるべきタスクを示すことにより、およびこれらのタスクをデータセットで提供することにより、多くの価値を提供すると考えています。著者らは、将来のモデルが異なるエンジニアリング問題に対してどれだけ改善されるかを測定するために、すべての定量的データセットを公開します。

人間とAIの相互作用：エンジニアリングデザインプロセスの重要な部分には、人間がデザインとどのように相互作用するかが含まれます。この研究では、人間のデザイナーがビジョン言語モデルとどのように相互作用し、この相互作用が問題解決プロセスにどのように影響を与えるかをテストしませんでした。人間の偏見、信頼、解釈が結果に影響を与える可能性があるため、この相互作用がどのように問題解決プロセスに影響を与えるかを理解することは重要です。

結論として、この研究はエンジニアリングデザインの問題に対処するGPT-4Vの能力について貴重な洞察を提供しますが、これらの限界を研究の不可欠な部分として認識することが重要です。これらはさらなる探求が必要な領域を強調し、AIの能力をより広範な実世界の応用に一般化する際に必要な慎重なアプローチを思い出させます。著者らの研究は、エンジニアリングデザインのような複雑な多面的分野におけるAIの役割と効果に関する進化する対話に貢献する、進行中の旅の一歩です。

結論と今後の課題

この研究を発展させるには、主に2つの方向性があります。

1つ目は、評価する工学的問題の範囲と深さを拡大することです。特に最初の研究であまり取り上げられなかった分野の、より多様な工学的課題を取り入れることが重要です。産業界が直面するさまざまなタイプの工学設計タスクの代表的な問題を提供することで、工学設計プロセス全体にわたるVLMの能力をより包括的に理解できます。

また、複雑な実世界のエンジニアリングシナリオを忠実に反映した、よりロバストなデータセットを開発することで、モデルの評価を大幅に向上させることができます。これらのデータセットは、エンジニアリングタスクの多面的かつ多次元的な性質を捉え、マルチモーダルLLMの適用性と有効性をより細かく評価できるようにする必要があります。ただし、評価データが将来のモデルトレーニングに流出する問題を抑えるため、一般に公開されているデータセットは避けるべきです。

2つ目の重要な領域は、人間とAIのコラボレーションです。実際の設計シナリオにおいて、エンジニアがLLMとどのように相互作用するかを研究することが不可欠です。これにより、実用的な有用性、ユーザーの信頼、エンジニアリングワークフローへのAIの統合について理解を深めることができます。また、エンジニアのバイアスや意思決定プロセスが、AIが生成したソリューションとどのように相互作用するかを理解することも含まれます。

さらに、AIの急速な発展を考えると、更新や変更がその適用性や有効性にどのような影響を与えるかを理解することが極めて重要です。経時的なモデルの進化がエンジニアリングタスクにおけるパフォーマンスに与える影響を監視するための縦断的研究を実施することは、工学におけるAIアプリケーションを最新かつ適切な状態に保ち、この分野の進化する要求に応え続けることを保証するのに役立ちます。