「AI (人工知能) 教師データの最前線!データ作成の大切さを語る」 ブライセンに意地悪な質問を投げてみた
皆さんはアノテーション作業をしたことがあるでしょうか?
画像をはじめとしたあらゆる種類のデータにタグ付けをする"アノテーション" すなわち、AIの教師データ作り。機械学習モデルに画像の教師あり学習をさせるためには、正確にタグ付けされた大量のデータが必要となります。
昨今オープンソースで提供されているデータセットはいくつか存在しますが、データセットが充実していない領域やタグ付けの質の悪さなどが問題として挙がります。さらに、オープンソースのデータが必ず、実社会に適応できるわけではありません。クラスの数やどこまでの質にするのか、どこまでを許容するのか実社会に応用しようと思えば思うほど、ここは社会実装の障害になります。
独自の画像認識モデルを学習させるために、自分でアノテーション作業をしたことがある人も少なくないのではないでしょうか。ある程度の精度で十分満足できるのであれば、独自でアノテーション作業を行ったデータセットでも事足りるかもしれませんが、社会実装するとなると”大量のデータ”と”正確なタグ付け”が必要になってしまいます。これを企業の従業員でやるのでしょうか?どういった基準でやる?許容はどこまで?やり直しになったら?到底、無理な話です。
では、社会実装へ向けた画像認識をはじめとする学習済みモデルを作成するためには、正確無比なタグ付きデータセットをどのように確保すれば良いのでしょうか。
今回は、"アノテーションマネージメントサービス"を展開する株式会社ブライセンにて、営業本部エンベデッドシステム営業部の部長を務める芥川 公文さんと、開発本部BPOサービス部の部長を務める志田 由雄さんにインタビューしました。
(左)エンベデッドシステム営業部 田子 知実さん (中) BPOサービス部 志田 由雄さん (右) エンベデッドシステム営業部 芥川 公文さん
株式会社ブライセンとは
今年で35期目となるブライセンですが、元々は組み込みソフトウェアから始まって、管理システムを始めとする、総合的なシステム開発に携わっていました。
それから、企業としての特色を生み出すために、カメラや画像に焦点を当てていきました。それ以降、カメラや画像に関する知識と経験を蓄え、ベトナムにオフショアを設立するなどして、領域を広げていくことになりました。
そんな中画像認識を始めとしたAIが注目され始め、次第にクライアントの企業から、今でいう"アノテーション"につながる"タグ付け"ができないかどうか、打診を受けたそうです。それからアノテーションの需要が高まっていったので、オフショアを中心にリソースを増強し、本格的に"アノテーション"をはじめました。
"タグ付け"という言葉からAIの"アノテーション"という言葉になったのも、ほんの4,5年のこと。2015年からアノテーションをしており、あの世界中にAIという言葉を爆発的に広めたAlphaGoが2016年なので、かなり早い段階でタグ付けやアノテーションを行っていたということになります。
アノテーションマネージメントサービスについて
AIモデル開発者の要望としては、要件の正確な理解ができ、高品質なデータを低コストで提供してもらうことです。
ブライセンは、課題抽出から要件定義、アノテーション、データ運用、それにかかわる必要なツールの開発まで幅広いマネジメントをすることができます。
サービスの強みとしては、以下の3つ挙げられます。
- トリプルチェック体制、アノテータとの調整力、完全ハンドメイドによる高い品質
- 変更に対応できる柔軟性を持ちながらも、オフショア子会社を活用しQCDで満足のいくコスト感
- 定まりにくい目的の設計と、課題解決に向けたソリューションの提供
AI-SCHOLAR編集部から、こんな意地悪な質問をしてみました。
A. タグ付け時代からのメンバーが残っているので、ノウハウが蓄積されています。さらに、常にアノテーターとコミュニケーションを取り、信頼関係を構築した上で徹底した認識合わせを行いました。それだけではなく、自社&エンドクライアントによる抜き打ちチェックまであります。
A.定期的にデータの提供と進捗及び見込みを報告することで、クライアントからは品質且つ納期に関して大変満足頂けています。
A.より良いAIモデルを作成するためにはアノテーション作業の仕様変更はやむを得ないと考えていますが、変更・修正が極力発生しないように仕様策定段階での確認を重視しております。それでも変更が必要な場合は都度柔軟に対応し、修正します。驚くかもしれませんが、正しい教師データで無ければ意味がないので実応用を考えれば、手を抜くことはできません。
A.クライアントの要件ごとに設計され、画像枚数で設計することはありません。とにかく、クライアントの要望に都度合わせて作業し、成果物を見ていただいて納得いく値段設計となります。
A.元々専門が組み込みシステムなので、どんなものにも対応できますし、特殊なものが必要なら開発します。AIの技術だけではなく、そういった基盤となる技術がサービスを利用して頂ける理由の1つかもしれません。
AIによる自動化が実社会に進む中、アノテーション作業にはとりわけ精度が求められます。実社会での応用は誤認識する要因が多く、学習も難しいとされています。そんな中、教師データが間違っていては話にならないので、完全手作業でチェック体制を整えてアノテーションを行っているそうです。
上記の強みを裏付けるように、5年以上契約している企業があるなど、確かな実績を誇っていますね。
(提供:ブライセン)
(提供:ブライセン)
GDPR対応の新サービス
こんな話を聞いたことはありませんか?
250億円の違反金!
これはGDPR(EU一般データ保護規則)という個人情報保護の規則に違反したために科された罰金額です。AIは急速な発展により、まだまだ個人情報保護の観点は遅れていますが、必ず個人情報保護の話は出てきます。すでにAIも例外なく対象になり始めています。そのため、今まで普通に使用していたデータも法律に違反するかもしれません。GDPR以外にも個人情報保護の規則は存在します。今後、AIを使ったソリューションに必要なデータも厳しく取り扱われていきます。実際、GDPRはEU域外である日本にも広く影響があり、GDPR対応を検討する日本企業は増えています。
※GDPR・・・EUにおける個人データ保護に関する法律です。ビッグデータ時代になりデータを活用するにあたって2018年に施行された法律です。
ブライセンではそれに先駆け、個人情報保護が強化される中で、個人を識別できるような画像データをアノテーション向けに効率良く・高品質で正しく取り扱うサービスを展開しています。
(提供:ブライセン)
詳しくブライセンのアノテーションを見たい人はコチラ。ぜひ一度、見てください!
この記事に関するカテゴリー