利用机器学习对新数据集进行持续验证

机器学习 17/05/2024

三个要点
✔️ 这项研究旨在让人们更好地了解使用行为生物识别技术进行连续身份验证的情况。
✔️ 最稳健的模型是 SVC，其平均准确率约为 90%。
✔️ 结果表明，触摸动态能有效识别用户。

Your device may know you better than you know yourself -- continuous authentication on novel dataset using machine learning
written by Pedro Gomes do Nascimento, Pidge Witiak, Tucker MacCallum, Zachary Winterfeldt, Rushit Dave
(Submitted on 6 Mar 2024)
Comments: Published on arxiv.
Subjects: Artificial Intelligence (cs.AI)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

概述

本研究旨在加深我们对使用行为生物识别技术进行连续身份验证的理解。

行为生物识别技术是一种利用个人行为模式和特征来验证其访问设备或系统时身份的技术。持续身份验证是一种机制，它不仅可以登录一次，而且还可以在用户操作系统后继续进行身份验证。这可以增强安全性，防止未经授权的访问。例如，指纹或面部识别可用于解锁智能手机。这是一种生物识别身份验证，使用指纹或面部特征来验证身份。指纹或面部识别用于解锁手机后，持续认证会继续监控用户的行为模式，从而确认身份。例如，输入速度、轻扫和屏幕触摸都会受到监控，看是否与用户的特征相符。

这样可以确保在他人拿走智能手机或登录时，检测到不同的行为模式，防止未经授权的访问。与任何单一的身份验证方法相比，持续身份验证是一项重要的技术，它能增强安全性，使用户更加安全。

研究团队提供了一个新的数据集，其中包含 15 名用户在三星平板电脑上玩 Minecraft 时每人 15 分钟的手势数据。利用该数据集，随机森林（RF）、K 近邻（KNN）和支持向量分类器（SVC）等机器学习二元分类器被用来评估特定用户动作的可靠性。

建议方法

伦理培训和审批在这项研究中发挥了重要作用。通过 "合作机构培训计划"（CITI），研究团队学习了伦理原则、知情同意、隐私和保密等内容。此外，他们还获得了调查审查委员会 (IRB) 的批准，可以在曼卡托州立大学校园内进行数据收集。下表说明了实验的端到端过程。它显示了研究是如何进行的，数据是如何处理的，以及模型是如何训练和测试的。

数据收集过程包括使用 Android 调试桥（ADB）工具访问设备的触摸屏指标，并运行 Python 脚本收集数据。原始触摸动态数据是在他们玩 Minecraft 的过程中收集的。这确保了数据在真实世界使用环境中的真实性。

在数据清理和处理过程中，我们采用了严格的过滤技术，包括排除默认值的行，删除包含缺失值的行，以及对数字列进行标准化处理。这些步骤确保了分析的可靠性，并为后续机器学习模型的训练提供了极佳的数据集。

在特征提取过程中，从经过清理和预处理的数据集中选取了一些关键特征，如瞬时触摸速度、加速度、抽搐和路径角度。这些特征提供了对用户触摸模式的更详细了解，并有助于训练连续身份验证系统。

试验

本研究主要根据真阳性、假阳性、真阴性和假阴性结果对模型进行评估。真阳性（TP）指正确分类真实用户的情况，真阴性（TN）指正确分类欺诈者的情况，假阳性（FP）指将冒名顶替者误分类为真实用户的情况，假阴性（FN）指将真实用户误分类为冒名顶替者的情况。

准确度、拟合度、重现性、F1 分数和曲线下面积（AUC）等指标用于评估模型。这些指标是根据表 2 中的公式计算得出的。

对模型的评估结果显示，KNN 的结果高于平均水平，SVC 的结果出类拔萃，而 RF 的结果好得不真实。

特别是射频模型出现了过度训练的迹象。模型很好地适应了训练数据中的噪声，但在新数据中可能表现不佳。我们采用了多种技术来解决这种过度适应的问题，但射频模型的结果却被忽略了。

准确度、拟合度、可重复性、F1 分数和 AUC 被用作确定模型性能的标准。根据这些标准，对模型的性能进行了评估，并做出了适当的调整。

结论

表 5 对不同研究论文和当前研究中使用的机器学习方法的性能进行了比较分析。这些方法包括 Siamese Recurrent Neural Networks (RNNs)、Multilayer Perceptrons (MLPs)、Support Vector Machines (SVCs)、KMeans、Random Forest、K Nearest Neighbour (KNN) 和 Support Vector Classifier (SVC)。

表中的性能指标包括准确率、错误率和陌生人接受率。从表中可以看出，最稳健的模型是 SVC，平均准确率约为 90%。这表明 SVC 可以根据用户在 Minecraft 游戏过程中的触摸动态有效区分用户。

其他方法也显示出很高的准确率，RNN、MLP、SVC、K-Means 和随机森林的准确率从 86% 到 97.7% 不等。这些结果表明，触摸动态是连续身份验证的可靠来源。

不过，表中也显示了一些方法的局限性，如连体 RNN 的错误率较高（13%），多层感知器的错误接受率较高（6.94%）。这些局限性意味着有些方法很可能会误判用户或接受冒名顶替者，这可能会损害身份验证系统的安全性。因此，需要进一步研究来提高这些方法的性能和稳健性。