snuffkinの遊び場

IT関係、スポーツ、数学等に関することを、気が向いたときに書いてます。

「Jubatus Casual Talks #2 異常検知編」に参加してきました

このところリアルタイム処理が盛り上がってきつつあり、心躍る日々です。そんな中、Jubatus Casual Talks #2 異常検知編に参加してきました。

Jubatus Casual Talks #1が6月だったので、半年ぶりですね。
Jubatus Casual Talks #1に行ってきました & Jubabaは便利! - snuffkinの遊び場

スライドはすぐに公開されると思いますが、私が気になった発表の紹介や簡単な感想等を書きます。

前回のCasual Talkでいただいたご要望に対する進捗状況

NTTの小田哲さん(@oda_satoshi)による発表。
前回のCasual TalkでJubatusに対して多くの要望が挙がったので、その対応の進捗状況の説明。Javaのclient APIの改善、jubadump、エラーメッセージや依存パッケージの見直し等。利用者からの要望に応えて、改善している姿勢は好きです。

0.5.0の新機能(クラスタリング)の紹介

東大M2の村下瑛さん(@akirakiron)による発表。
PFIでJubaclusteringを開発していた方。
Jubatus 0.5.0でクラスタリングが入ったが、アルゴリズムを工夫していて、大量データをクラスタリングできるようにしている。メモリ量はデータサイズnに対してlog(n)、Mixも効果が出るようにしている。

異常検知入門

PFIの比戸将平さん(@sla)による発表。
異常検知の考え方の解説。入門的な話を中心に分かりやすく紹介されていて、私みたいな素人にも面白い内容でした。

Multiple Seasonal Holt-Wintersを実装した話

ニフティ@muddydixonさんによる発表。
サーバリソースの推定等、実際に業務で使っている話が興味深かったです。時系列データをベースライン、トレンド、季節性に分けて変化点検知するとのこと。第x月曜日を考えたりとか、現実データは扱いが難しそうですね。

Jubatus/Storm/Kafkaによるエラー予測システムの検証

キヤノンの松井佑馬さんによる発表。
Kafka+Storm+Jubatusを使い、1万件/秒のエラー予測システムの検証を行ったPoC事例。
ボトルネックはJubatusのRPCを呼び出す部分だそうです。このくらいの件数だと、Storm自体がボトルネックになることはないと思うので、納得。
組み合わせて動かすだけなら簡単だけれど、性能を出すにはプロダクト特性を踏まえた性能チューニングが必要とのこと。チューニングに必要な情報は可視化したいですね。

A use case of online machine learning using Jubatus

NTTデータの下垣徹さん(@shimtoru)による発表。
SUUMOのデモムービーがあって雰囲気が伝わってきました。Jubatusの実案件はこれから増えていくのではないでしょうか。

最後に

Jubatusチームのみなさん、楽しい会をありがとうございました。また、会場を提供してくださった。IIJさんありがとうございました。
第3回も期待しています!