snuffkinの遊び場

IT関係、スポーツ、数学等に関することを、気が向いたときに書いてます。

第7回Hadoopソースコードリーディングに参加してきました。

11/28に豊洲のNTTデータさんのところで行われた、第7回Hadoopソースコードリーディングに参加してきました。その感想等をまとめておきます。

全体的な雰囲気

今回の内容はソースコードリーディングはなく、Hadoopカンファレンス・フィードバック会。第7回のためか、知り合い同士、という方は結構多かった感じ。(私は初参加でした)
会場に行くと、机で島を8個くらい作ってあり、机の周りに座った。正面向きに座るわけではないので、かしこまった感じはなく、ざっくばらんな感じで良かったと思います。お酒やピザも出たため、このレイアウトは食べやすいかったです。
また、会の最後には、ニューヨーク土産の争奪戦などでも、盛り上がっていました。

講演その1

最初は、NTTデータさんのフィードバック。
前半は「Hadoop徹底入門」の著者の一人の下垣さんから、基調講演を中心としたフィードバック。全体的な傾向の分析として、以下のような3層構成で考えているアーキテクチャが多いとの事。

  • リアルタイム処理(NoSQL)
  • 大量データ処理(Hadoop、ハードウェア)
  • 分散処理(BI、DWH)

上記のそれぞれの特徴に合った技術解を選択するのが大切。どこかの層に特化したもの(特化型)が多い中、Oracleは全部の層に対して製品を提供している(全方位型)。今後のHadoop周りは、全方位型vs特化型になるのではないか、とのこと。 
下垣さんのフィードバックは、講演スライドの英語部分の日本語訳がパワーポイントに書いてあったので、頭に入りやすかった。
また、The Walt Disney Companyでテーマパークの交通流解析に取り組んでいるのは面白い。待ち時間が短くなったり、多くの人が幸せにテーマパークを回れるようになって欲しい。
NTTデータ後半戦は、政谷さん。自身がHadoopカンファレンスで発表した内容のサマリをフィードバックしていました。私はGPGPUで処理を高速化する話に興味を持ちました。やっぱり、Hadoop+αが大切ですね。

講演その2

次は、Clouderaのサポートエンジニアの嶋内さんから、実例を分析したHadoopトラブルシュート話のフィードバック。
問題原因で一番多いのは設定ミスで35%を占める、とのこと。バグはコミュニティがサポートするけれど、設定は利用者が責任を持つ必要がある。
デフォルト値では危険なパラメータなど、結構マニアックな設定の話だった。知らない設定も多く出てきたので、勉強しておいた方が良さそう。メモリを3GBとっておく話、Reduceをゆっくりスタートさせる設定(メモリ不足対策)、ReduceがMapの結果をコピーするスレッド数はノード数の平方根にしろ、とか。マニアックですが、正しく使うには必要な話。

講演その3

Acroquestからは阪本、落合の二名がフィードバックを行いました。二人でやるのが新鮮で、反応が良かったですね。
冒頭に紹介があったアフリカのお酒Amarulaは面白かった。像を始めとした動物たちがフラフラに酔っ払っているのは、不思議な映像でした。内容としては、RとHadoopの連携など。Rに多少興味はあるので、こういう話は好き。

最後に

次回は1月開催予定。内容も雰囲気も良かったので、また参加したいです。
運営してくださった方々、本当にありがとうございました。