こんにちは、採用広報のやざわです。
今回は、4月11日から早稲田大学の学生を対象に行われている寄附講座、「株式会社Gunosy 寄附講座インターネットサービスにおけるデータ分析と機械学習」(春学期/全15回)の様子を先日の初回講座に続き第7回目をお送りします。
これまでの講義を通して、SQLを使った収集や加工方法などデータ分析の基礎をお伝えしてきました。そして本日は、データ分析においてより実践的な内容をご紹介します。今回、特別ゲストとして、データ活用の促進と情報推薦を研究する専門組織 Gunosy Tech Lab で部長を務める小出が講師を担当しました。
講義内容
はじめに: 大規模データの分析における課題
1: データ処理の種別と方法
2: 多種多様なデータソースと加工
3:低遅延で行うフィードバック

はじめに: 大規模データの分析における課題
データ分析において、課題となるVolume(量)・Variety(多様性)・Velocity(速度)の紹介と、それを乗り越えるためのテクノロジーについてご説明しました。実際の現場での事例を踏まえるなど、実践的な説明となりました。
1: データ処理の種別と方法
まずはじめは「Volume」についてです。データベースは、ミリ数秒単位での結果返却や一貫性のあるデータ担保を得意とする「オンライントランザクション処理向けのデータベース」と、大きいサイズのデータ集約など分析において適している「オンライン分析処理向けのデータベース」に大別されるとお話しました。
そのほか、オンライン分析処理における、分散処理のアーキテクチャやアルゴリズムの基本をはじめとして、処理の過程において使われる技術や手法をご紹介しました。
2: 多種多様なデータソースと加工
続いては「Variety」、分析する上で課題となる多種多様なデータをどう対処するかについてです。分析する対象のデータはOLTPデータベースに保存されているものもあれば、ログとして保存されているものもあります。そのような多岐にわたるデータを加工して使いやすくするETL(Extract, Transform, Load)について、具体的な例も交えて紹介をしました。
また、データ加工の状態はData Lake、Data Warehouse、Data Martと大きく3ステージに分けることができ、その一連の流れについても解説いたしました。ここでも実際にGunosyで行っている処理の流れを踏まえてご紹介したので、質疑応答や講義後のアンケートでもたくさんの意見を学生さんからいただきました。
3: 低遅延で行うフィードバック
最後に「Velocity」です。無限に発生し続けるデータ処理において低遅延でサービス改善に生かすために行われる処理についてご紹介しました。
実際にGunosyではマイクロバッチやストリーム処理を利用しており、様々なサービスから発生するデータを抱えるGunosyだからこそ、これまでの経験を踏まえた実装例や注意点を含めてお伝えできました。
Gunosiruでは今後も寄附講座のレポートを予定しております。寄附講座の詳細についてはプレスリリースまたは下記概要をご覧ください。
寄附講座概要
科目名:株式会社Gunosy寄附講座 インターネットサービスにおけるデータ分析と機械学習
開催期間:2019年4月11日~(全15回)
開催場所:早稲田大学
※秋期にはビジネス向けの寄附講座(早稲田大学グローバルエデュケーションセンター設置科目「Gunosy寄附講座インターネットビジネス企業におけるキャリアデザイン」/秋クォーター/全8回)も予定しております。
Gunosyでは、一緒に働くメンバーを募集しています。
ご興味がある方、ぜひカジュアルにお話しませんか?下記リンクより、ご連絡お待ちしております。