データ分析のためのデータ前処理研究会

イベント概要

日程

2019/12/02

時間

19:30〜21:30

会場

Team AI Base
東京都渋谷区宇田川町36-17 ニューシブヤマンション202

対象

データサイエンティスト
データ分析に興味のあるエンジニア

定員

15人

参加料

無料

主催

TEAM AI

*This event is in Japanese only

こんにちは、TeamAIの宮崎です。
データサイエンスの現場において、「前処理」(データの整形)には多くの時間を費やしますよね? 前処理の良し悪しで、予測モデルの構築やデータモデリングといったデータサイエンス業務の精度が変わります。ただし、体系だって手法をまとめてあるサイトや書籍は非常に少ないです。 我々はこの問題をコミュニティの集合知で解決しようとしています。

もくもく会・ディスカッション形式で前処理に関する研究会を進めていき、 体系的な部分はどんどんQiita等の記事としてアウトプットしていきましょう。初心者/中級者/上級者スキルは問いません。

流れ

前処理の情報交換会

対象

データサイエンティスト
データ分析に興味のあるエンジニア

前処理の代表的な手法

*データクリーニング – これはデータ前処理で実装される最初のステップです。このステップでは、主な焦点は、欠落データ、ノイズの多いデータ、検出、および外れ値の除去、データ内の重複および計算バイアスの最小化の処理です。

*データ統合 – このプロセスは、さまざまなデータソースからデータを収集し、データを結合して一貫性のあるデータを形成する場合に使用されます。データクリーニングを実行した後のこの一貫したデータは、分析に使用されます。

*データ変換 – このステップは、モデルの必要に応じて生データを指定されたフォーマットに変換するために使用されます。データの変換に使用されるオプションは次のとおりです。

*正規化 – この方法では、データのスケーリングを実行できるように数値データを指定された範囲、つまり0と1の間に変換します。

*集約 – コンセプトは単語そのものから派生することができます。この方法は、フィーチャを1つにまとめるために使用されます。例えば、2つのカテゴリーを組み合わせて新しいカテゴリーを形成することができる。

*一般化 – この場合、下位レベルの属性は上位レベルに変換されます。

*データ削減 – データ複製の変換とスケーリング、すなわちデータ内の冗長性が除去され、データを効率的に整理した後。

この勉強会は外国人・日本人交え、技術情報を交換する刺激ある場にしたいと思っております。 オープンデータ、API、ライブラリ、ツール、論文、コンペ等、どんどん情報交換して、業界を一緒に発展させましょう!

ここからデータサイエンティストを始めたい方、もう一度基礎から復習してみたい方、経験は問いませんのでぜひお越し下さい!

データ前処理に関するブログ記事

「前処理」のフォーマット共通化やOSS化はできないんだろうか
http://tjo.hatenablog.com/entry/2013/12/17/201529

WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
https://www.slideshare.net/hajimesasaki1/wi2-55598897

Pythonで機械学習はじめました データ前処理編
https://qiita.com/yuuki_1204_/items/c26cb09fba8aad35dc0a

自然言語処理における前処理の種類とその威力
https://qiita.com/Hironsan/items/2466fe0f344115aff177

長岡技術科学大学 自然言語処理チーム
https://www.youtube.com/watch?v=I02cX-uZtzM

Team AIとは?

2016年7月発祥のコミュニティです。2019年6月時点で会員6000人以上います。
渋谷の拠点でAI教育イベントを通算500回実施、日本最大級のAIコミュニティです。
代表の石井は、翔泳社から”AIエンジニアになりたい人の為の本”を出版し、1万部を販売してます。
-web
https://www.team-ai.com/

-Facebook
人工知能 研究会グループ Team AI
https://www.facebook.com/groups/teamaisupporters/?ref=bookmarks

-Slack
https://ai-university.slack.com/

プレゼンター

司会 : 宮崎 翼 Twitter:tsubasatwi
1982年愛媛県出身、新居浜工業高等専門学校卒業後、大手商社に入社、その後通信業界にてSIerとしてアカウントセールス担当

代表者情報

100万人の機械学習コミュニティを東京に創る Team AI
http://www.team-ai.com/
代表 : 石井 大輔
経歴:https://www.ishiid.com
株式会社ジェニオ代表取締役 1975年岡山県生まれ。 京都大学卒業後、伊藤忠商事にて欧州駐在しアパレルの知的財産と事業開発担当。2011年ジェニオを創業。 ファッション通販BUYMAの海外事業開発(欧州・米国)を受注。 2015年、シリコンバレーの起業家育成組織OneTractionの指導のもと米国で事業推進。 2016年、AI開発案件に特化したクラウドソーシングサービスTeam AIを立ち上げる。 TBS”AI共存ラジオ 好奇心家族”火曜日コメンテーター。