データ分析基盤を支える技術

Technologies for Data Analytics Platform Accepted #yapcasiaD Vote!

Abstract

データ分析の話はそこかしこで行われてますが，それを俯瞰する話はあまりないようなので，ここらで一つ色々とまとめて喋りたいと思います．また，Treasure Dataで得た経験をもとに，機能だけでなくデータ分析基盤でよく要求される要素についても，いくつかの視点を交えて言及したいと思います．話したいトピックリスト．

データ分析の需要
データ分析の流れ
データ分析基盤に使われるソフトウェア / サービス
- オンプレミス: Hadoop, Spark, Presto, Impala, etc
- クラウド: Treasure Data, BigQuery, Redshift, EMR, etc
- データ収集/同期: Fluentd, Embulk, Sqoop, etc
- ストリーム処理系: Storm, Norikra, Dataflow, etc
- キュー: Kafka, Amazon Kinesis, etc
- データパイプライン/ワークフロー: Luigi, Oozie, Airflow, etc
- 機械学習: Hivemall, Spark MLlib, etc
- 可視化: Tableau, Metric Insights, Chartio, etc
データ分析基盤をどう構築するか
データ分析基盤の今後

各ソフトウェアは実装とかまで深く掘り下げず，概要や使い所・比較が中心になります．ただ，Hadoopなどは未だ誤解があったりするので，必要なソフトウェアに関しては，いくつかアドヴァンスドなトピックを入れる予定です．

Talk Details

-pc.html

Venue	トラックD (605-606)
Starts On	2015-08-22 13:10:00
Talk Category	Infrastructure / Operations
Language	Japanese
Interpretation (En→Ja)	NO
Slide Subtitles	English
Talk Duration	60 minutes
Material (Difficulty) Level	Regular
May we take your photo?	allow
May we record your talk?	allow

Video

Slide

Technologies for Data Analytics Platform from N Masahiro