Talk Information

Technologies for Data Analytics Platform Accepted #yapcasiaD Vote!

このエントリーをはてなブックマークに追加

Abstract

データ分析の話はそこかしこで行われてますが,それを俯瞰する話はあまりないようなので,ここらで一つ色々とまとめて喋りたいと思います.また,Treasure Dataで得た経験をもとに,機能だけでなくデータ分析基盤でよく要求される要素についても,いくつかの視点を交えて言及したいと思います. 話したいトピックリスト.

  • データ分析の需要
  • データ分析の流れ
  • データ分析基盤に使われるソフトウェア / サービス
    • オンプレミス: Hadoop, Spark, Presto, Impala, etc
    • クラウド: Treasure Data, BigQuery, Redshift, EMR, etc
    • データ収集/同期: Fluentd, Embulk, Sqoop, etc
    • ストリーム処理系: Storm, Norikra, Dataflow, etc
    • キュー: Kafka, Amazon Kinesis, etc
    • データパイプライン/ワークフロー: Luigi, Oozie, Airflow, etc
    • 機械学習: Hivemall, Spark MLlib, etc
    • 可視化: Tableau, Metric Insights, Chartio, etc
  • データ分析基盤をどう構築するか
  • データ分析基盤の今後

各ソフトウェアは実装とかまで深く掘り下げず,概要や使い所・比較が中心になります.ただ,Hadoopなどは未だ誤解があったりするので,必要なソフトウェアに関しては,いくつかアドヴァンスドなトピックを入れる予定です.

Talk Details

-pc.html
Venue トラックD (605-606)
Starts On 2015-08-22 13:10:00
Talk Category Infrastructure / Operations
Language Japanese
Interpretation (En→Ja) NO
Slide Subtitles English
Talk Duration 60 minutes
Material (Difficulty) Level Regular
May we take your photo? allow
May we record your talk? allow

Video

Slide