データ駆動型アルゴリズム割り当てによる難民問題の改善

第二次世界大戦以来、世界中で難民が増加傾向にありますが、スタンフォードの研究者によって開発されたアルゴリズムは、政府や定住機関が難民の定住先に最適な場所を見つけるのに役立つ可能性があります。論文では、個人の特徴と定住先をアルゴリズムで最適化させることにより難民の雇用率が最大75%改善される見込みであると示されています。

論文Improving refugee integration through data-driven algorithmic assignment

雇用を最適化するためのアルゴリズム

StanfordのImmigration Policy Labが率いるこのグループは、米国とスイスの難民の再定住に関する過去のデータを分析するために機械学習アルゴリズムを使用しました。彼らは、難民の最終的な経済的自立は、教育レベルや英語の知識、そして彼らが国内のどこに定住したかといった個人の特性の組み合わせに依存していることを見出し、特定の背景やスキルを持つ難民は、ある場所では他の場所よりも良い結果を達成したことがわかりました。このように個人の特性に関連した予想雇用リターンは、定住先によって異なる可能性があります。

個人の特性と定住先をマッチングさせる事が大事

論文内では、地理的背景、個人的特徴、および地理と個人的特徴の相乗効果という3つの要素が難民の統合に影響を与えるとし、例えば、米国のいくつかの定住拠点は、より高いレベルの難民雇用をもたらす可能性があり、より良い経済的および社会的機会を提供しています。さらに、言語や教育スキルなどの特定の特徴を持つ難民は、派遣先の定住地にかかわらず、経済的に成功する可能性が高くなります。
また、個人の特性に関連した予想雇用リターンは、定住先によって異なる可能性があります。個人の特性により、適した定住先も異なってくるのです。

しかし、定住地を難民にどのように配分するかを決定するための受入国の現在の手続きは、難民と地理的な場所の間の相乗効果を十分に活用していません。

例えば、米国では、既存の米国との関係を持たない難民は、到着時の地域の事務所に応じてランダムに定住地に割り当てられますが、同様のプロファイルや難民の地方雇用率は体系的に評価項目に入れられてません。

また、ほとんどの難民が最初に庇護希望者として入国するスイスでは、難民を各地域へランダムかつ地域人口に比例して振り分けることによって、各地域に対する財政的負担を軽減しようとしています。

アルゴリズムの最適化により雇用率が40%〜75%改善

 米国におけるデータ主導型難民の割り当てによる雇用の増加。 (A)実際の割り当てとアルゴリズムの割り当ての下での難民の予測90日雇用確率の経験累積分布関数(ECDF)。(B)再定住地別の実際およびアルゴリズム上の雇用率。

そこでチームらは難民を地理的に配置して全体の雇用率を最適化するための柔軟なデータ駆動型アルゴリズムを開発しました。
この機械学習アルゴリズムは、教師付き機械学習と最適マッチングの組み合わせを使用して、難民の特徴と定住先の間の相乗効果を生み出します。

著者らは米国とスイスのレジストリデータのセグメントでアルゴリズムを開発し、テストしました。結果、米国では難民の雇用見込み40%、スイスでは75%改善するだろうと示されています。

具体的には、2011年から2016年にかけて米国で大規模な第三国定住機関によって配置された、18歳から64歳までの3万人以上の難民の社会的、経済的なデータに基づいてアルゴリズムを開発しました。このデータには、これらの難民が再定住した場所と最終的な雇用状況も含まれています。

このデータに基づいて、チームは2016年末に到着した難民グループの雇用確率と最適な立地をアルゴリズムに予測させ、それらの予測を実際にどのように採用するかで雇用率がどう変わるか調査しました。研究チームは、現在の任務慣行と比較し、アルゴリズムによる最適化の方が、難民の間の平均雇用率はおよそ41%より高いということを発見しました。また、スイスにおいても1999年から2013年の間に再定住した庇護希望者からのデータを使用して、同じプロセスを経た結果、2013年に到着した庇護希望者の雇用率が73%高くなると予測しました。

 教師付き学習モデルで構築

彼らの開発したアルゴリズムは、モデリング、マッピング、マッチングという3つの段階を持っています。モデリング段階では、すべての再定住地に渡る新規難民の到着についての定量化可能な測定基準(たとえば、早期雇用)についての成功を予測する監視付きの機械学習プロセスが必要です。

難民の経歴特性(出身国、語学力、性別、年齢など)や、到着時刻に関する情報を含むモデル訓練のための過去の定住データを指定し、場所を割り当て、雇用成功を測定しました。その後、これらの訓練データを使用して、難民の予想される雇用の成功を彼らの背景特性の関数として予測する一連の教師付き学習モデルを構築しました。

それぞれの場所に割り当てられた難民のサブグループには別々のモデルが適していたため、場所ごとに異なるモデルが得られ、難民と場所の相乗効果の発見が可能になりました。次に、これらの適合モデルを新しいサンプル外の難民到着データに適用して、可能性のある各再定住地での各新規到着の予想雇用成功を予測しました。

行政上のハードルを下げる経済的なメリットも

このアルゴリズムはデータ駆動型学習能力のために、政策立案者はそれらを利用するための 地域の経済状況、社会環境、第三国定住事務所の有効性など  を調査することに投資する必要がありません。難民が到着してからずっと後に実施されることが多い(言語や職業訓練プログラムなどの)より高価な介入とは対照的に、彼らのアプローチは費用効率が圧倒的に良いです。さらに、このアプローチは既存の政策プロセスを修正し、即時実施を促進します。

このアルゴリズムは既存のデータを使用して既存のプロセスを改善することによって、他の政策革新をしばしば妨げることがある多くの財政上および行政上のハードルを下げる事ができる画期的なものだと研究チームは述べます。彼らが予測している雇用の増加はかなり大きなものであり、これらは政府や定住機関にほとんど追加費用をかけずに達成できる利益です。