「Jubatus Casual Talks #2 異常検知編」に参加してきました
このところリアルタイム処理が盛り上がってきつつあり、心躍る日々です。そんな中、Jubatus Casual Talks #2 異常検知編に参加してきました。
Jubatus Casual Talks #1が6月だったので、半年ぶりですね。
Jubatus Casual Talks #1に行ってきました & Jubabaは便利! - snuffkinの遊び場
スライドはすぐに公開されると思いますが、私が気になった発表の紹介や簡単な感想等を書きます。
前回のCasual Talkでいただいたご要望に対する進捗状況
NTTの小田哲さん(@oda_satoshi)による発表。
前回のCasual TalkでJubatusに対して多くの要望が挙がったので、その対応の進捗状況の説明。Javaのclient APIの改善、jubadump、エラーメッセージや依存パッケージの見直し等。利用者からの要望に応えて、改善している姿勢は好きです。
0.5.0の新機能(クラスタリング)の紹介
東大M2の村下瑛さん(@akirakiron)による発表。
PFIでJubaclusteringを開発していた方。
Jubatus 0.5.0でクラスタリングが入ったが、アルゴリズムを工夫していて、大量データをクラスタリングできるようにしている。メモリ量はデータサイズnに対してlog(n)、Mixも効果が出るようにしている。
Multiple Seasonal Holt-Wintersを実装した話
ニフティの@muddydixonさんによる発表。
サーバリソースの推定等、実際に業務で使っている話が興味深かったです。時系列データをベースライン、トレンド、季節性に分けて変化点検知するとのこと。第x月曜日を考えたりとか、現実データは扱いが難しそうですね。
Jubatus/Storm/Kafkaによるエラー予測システムの検証
キヤノンの松井佑馬さんによる発表。
Kafka+Storm+Jubatusを使い、1万件/秒のエラー予測システムの検証を行ったPoC事例。
ボトルネックはJubatusのRPCを呼び出す部分だそうです。このくらいの件数だと、Storm自体がボトルネックになることはないと思うので、納得。
組み合わせて動かすだけなら簡単だけれど、性能を出すにはプロダクト特性を踏まえた性能チューニングが必要とのこと。チューニングに必要な情報は可視化したいですね。
A use case of online machine learning using Jubatus
NTTデータの下垣徹さん(@shimtoru)による発表。
SUUMOのデモムービーがあって雰囲気が伝わってきました。Jubatusの実案件はこれから増えていくのではないでしょうか。
最後に
Jubatusチームのみなさん、楽しい会をありがとうございました。また、会場を提供してくださった。IIJさんありがとうございました。
第3回も期待しています!