新しいデータセットを導入した継続的認証のための機械学習システム

機械学習 2024年05月17日

3つの要点
✔️ この研究は、行動生体認証を用いた継続的認証についての理解を深めることを目的としている
✔️ 最も堅牢なモデルはSVCであり、平均精度が約90％であることが示された
✔️ 結果より、タッチダイナミクスがユーザーを効果的に識別できることが示された

Your device may know you better than you know yourself -- continuous authentication on novel dataset using machine learning
written by Pedro Gomes do Nascimento, Pidge Witiak, Tucker MacCallum, Zachary Winterfeldt, Rushit Dave
(Submitted on 6 Mar 2024)
Comments: Published on arxiv.
Subjects: Artificial Intelligence (cs.AI)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

この研究は、行動生体認証を用いた継続的認証についての理解を深めることを目的としています。

行動生体認証は、個人がデバイスやシステムにアクセスする際に、その人の行動パターンや特徴を使って本人確認を行う技術です。継続的認証は、一度ログインしただけでなく、その後もユーザーが操作している間に認証を続ける仕組みです。これにより、セキュリティを強化し、不正なアクセスを防ぐことができます。たとえば、スマートフォンのロックを解除する際に指紋認証や顔認証を使用することがあります。これは、生体認証の一種であり、指紋や顔の特徴を使って本人確認を行います。継続的認証では、一度指紋や顔を使ってロックを解除した後も、ユーザーの行動パターンを監視し続けて本人であることを確認します。たとえば、タイピングの速度やスワイプの仕方、画面のタッチの仕方などが監視され、それがユーザーの特徴と一致するかどうかが確認されます。

これにより、万が一他人がスマートフォンを持ち去ったり、ログインしたりした場合でも、その人の行動パターンが異なることが検知され、不正なアクセスを防ぐことができます。継続的認証は、単一の認証手法よりもセキュリティを強化し、ユーザーの安全を守るための重要な技術です。

研究チームは、SamsungタブレットでMinecraftをプレイする15人のユーザーについて、それぞれ15分間のジェスチャーデータを含む新しいデータセットを提供しました。このデータセットを用いて、ランダムフォレスト（RF）、K最近傍法（KNN）、サポートベクター分類器（SVC）などの機械学習バイナリ分類器を使用し、特定のユーザーアクションの信頼性を評価しました。

提案手法

この研究では、倫理的なトレーニングと承認が重要な役割を果たしました。研究チームは、共同機関的トレーニングイニシアチブ（CITI）プログラムを通じて、倫理原則、インフォームド・コンセント、プライバシーと機密保持などのトピックをカバーしました。さらに、マンケート州立大学のキャンパスでデータ収集を行うための治験審査委員会（IRB）の承認を取得しました。以下の表は、実験のエンドツーエンドのプロセスを示しています。この図は、研究がどのように実施され、データがどのように処理され、モデルがトレーニングおよびテストされたかを示しています。

データ収集プロセスでは、Android Debug Bridge（ADB）ツールを使用してデバイスのタッチスクリーンメトリクスにアクセスし、Pythonスクリプトを実行してデータを収集しました。15人のボランティアがSamsung A8タブレットで15分間Minecraftをプレイする際の生のタッチダイナミクスデータが収集されました。これにより、現実の利用環境におけるデータの実在性が確保されました。

データのクリーニングと処理では、厳格なフィルタリング手法が適用され、デフォルト値を持つ行の除外や欠損値を含む行の削除、数値列の標準化などの処理が行われました。これらのステップにより、分析の信頼性が確保され、後続の機械学習モデルのトレーニングに優れたデータセットが提供されました。

特徴抽出のプロセスでは、クリーニングおよび前処理されたデータセットから、タッチの瞬間速度、加速度、ジャーク、パス角度などの主要な特徴が選択されました。これらの特徴は、ユーザーのタッチパターンをより詳細に理解し、継続的認証システムのトレーニングに役立ちました。

実験

この研究では、主に真陽性、偽陽性、真陰性、偽陰性の結果に基づいてモデルの評価を行いました。真陽性（TP）は本物のユーザーが正しく分類された場合、真陰性（TN）は詐欺者が正しく分類された場合を指し、偽陽性（FP）は偽者が本物のユーザーとして誤って分類された場合を意味し、偽陰性（FN）は本物のユーザーが偽者として誤って分類された場合を指します。

モデルの評価には、精度、適合率、再現率、F1スコア、および曲線下面積（AUC）などの指標が使用されました。これらの指標は、表2で示される方程式に基づいて計算されます。

モデルの評価から、KNNが平均以上の結果を生成し、SVCが例外的な結果を示し、RFが良すぎる結果を示したことが明らかになりました。

特に、RFモデルは過学習の兆候を示しました。モデルはトレーニングデータのノイズに非常によく適応していますが、新しいデータではうまく機能しない可能性があります。この過剰適合に対処するために、複数の手法が採用されましたが、RFモデルの結果は無視されることになりました。

精度、適合率、再現率、F1スコア、およびAUCは、モデルの性能を特定するための基準として使用されました。これらの基準に基づいて、モデルの性能が評価され、適切な調整が行われました。

結論

表5は、異なる研究論文と現在の研究で使用されている機械学習手法のパフォーマンスを比較分析しています。この中には、シャム再帰型ニューラルネットワーク（RNN）、多層パーセプトロン（MLP）、サポートベクターマシン（SVC）、KMeans、ランダムフォレスト、K最近傍法（KNN）、およびサポートベクター分類子（SVC）が含まれます。

表のパフォーマンス指標には、精度、エラー率、および他人受入率が含まれています。この表によると、最も堅牢なモデルはSVCであり、平均精度が約90％であることが示されています。これは、SVCがMinecraftのプレイ中のタッチダイナミクスに基づいてユーザーを効果的に区別できることを示しています。

他の手法も高い精度率を示しており、RNN、MLP、SVC、K-Means、ランダムフォレストなどの手法が86％から97.7％の範囲での精度を達成しています。これらの結果は、タッチダイナミクスが継続的な認証のための信頼できるソースであることを示唆しています。

しかし、表にはSiamese RNNの高い誤り率（13％）や多層パーセプトロンの高い誤受入率（6.94％）など、いくつかの手法の制限も明らかにされています。これらの制限は、一部の手法がユーザーを誤って分類したり、なりすまし者を受け入れたりする可能性が高く、認証システムのセキュリティを損なう可能性があることを意味します。したがって、これらの手法のパフォーマンスと堅牢性を向上させるためには、さらなる研究が必要です。