したらばTOP ■掲示板に戻る■ 全部 1-100 最新50 | |

Hadoop: The Definitive Guide, 4th Edition

1karino2:2015/10/12(月) 13:35:04
http://shop.oreilly.com/product/0636920033448.do

Hadoopを勉強しようと読み始めた。PDF版を買ったが、物理本は相当分厚かった記憶がある。
現在3章の途中だが、ここまでの所特に前提知識無く読めて、大変分かりやすい。

2karino2:2015/10/12(月) 13:38:51
1章は概要的な話。

- データがどんどん増えているが読み出し速度はあんまり増えてない
- だから複数ディスクに分散して全なめするようなシステムがMapReduceだ
- 他のシステムとの比較
- Hadoopの歴史
- この本の構成

という感じ。特にコードとかは出てこない。

3karino2:2015/10/12(月) 13:43:37
2章は天気のデータセットを使ってMapReduceの例を見る。
単純なawkとshで最大温度を列挙するスクリプトを提示して、それをMapReduceにする。
言語もJava、Ruby、Pythonでやってみて、そこでStreamingという物も紹介する。
Reduceの前のCombinerとかいうのも出て来る。等べきなReduce関数のような物をノード内で必要に応じて掛けてくれる、という仕組み。

その過程でラック内、ラック外の違いとかデータの位置と計算するCPUの位置などの話が出て来る。
おぉ、これがMapReduceか。早そうだな。

StreamingはUnixださいなぁ、とPowerShellユーザーなら思わずには居られない感じだが、それでもこうやって普通のスクリプトで書けるのは面白いね。
catやsortでエミュレート出来るのも開発生産性は高そう。

4karino:2015/11/02(月) 18:29:31
p177に出てきた参考文献。
Data-Intensive Text Processing with MapReduce

5karino2:2015/11/08(日) 17:38:09
軽くまとめ。

3章: HDFSの話。MapReduce的には肝になってる所だと思う。
4章: YARNの話。トピック的にはどこまでも深くなりそうだが、この章ではとりあえずはリソースのクォータ的なレベルの話が主。
5章: Hadoop I/O 圧縮とかSplitとかシリアライズとかの話。読んでて3章と混ざる、、、

ここまででHadoop FoundamentalとサブタイトルのついているPart1が終わる。
Part 2はMapReduce。

6章: MapReduceのアプリを下からどうやって書いていくか。
MRUnitでMapとReduceのテストを書いて、デバッグにはこんなの使って、Workflowとかもあって、、、みたいな話。

7章: 各構成要素の説明とその設定とか。
Job, Task, ShuffleやSort、プログレスの監視等。
なんか各章でちょっとずつしか新しい要素が出てこなくて、読んでて飽きてくる。

8章: InputFormatとOutputFormatの話。
これまで何度か出てきている物も多く、名前からだいたい予想出来る事しか無い割にだらだらと記述が続いて読んでて辛い。
途中からクラス名を読んで内容が予想出来そうな物は読み飛ばす事にした。
あとで使う時にそのクラスの説明読む時には良いと思うが、カバーtoカバーで読むには辛い。

なんかもうちょっと要点だけ書いてinternalな深い話に進む、とかの方がいいなぁ、と思った。
読む側が飛ばせば良いとは思うのだが、そう割り切るまでにずいぶん時間をかけてしまった。

6karino:2015/11/15(日) 11:42:03
9章はMapReduce Featuresという名前で
カウンターとかsortとかjoinの話。
なかなか具体的で良かった

Part3の10章、11章はsetupとかadminの話だが、さしあたって私はEMRなので飛ばす。

Part4は関連プロジェクトの紹介で、Arvo、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeperが出てくる。
全体的に中途半端で、読むには結構長いけど、これだけじゃ結局何をしたいのか分からなくて各プロジェクトのドキュメント読む方が良い、という感じだった。
これなら概要とリンクだけ貼って終わり、の方が一覧性も良くて使いやすかったなぁ。

Part5はCase Study。
ただどれも問題設定が複雑すぎて、それを理解するのが無理ゲー。コードは少ないし。
似たようなのを作る時が来たら真面目に読めば参考になることも多そう。
最後のCascadingはPart4と同じで、そこそこ読むのが大変なページ数のくせに結局は本家のドキュメント読む方が早い、という感じだった。

7karino:2015/11/15(日) 11:49:44
三章くらいまで凄い良く書けてるのに、そのあとはグダグダで、同じような話ばかり出てくるし、そんなのリファレンス読めばいいよ、って話もえんえん続くし、全然深く理解出来る感じに進まないし、この本には要らないよ、という中途半端な関連プロジェクトは異様なページ数の割かれ方で、そのくせHello World程度しか出てこないのでありがたみはさっぱり分からない。
もっと実際のコードがどんな感じになるのかとか一杯見せてよ、、、

そういう点であまり良い本では無い。

ただ、この本一冊持っておいて3章まで真面目に読んだ後に、必要そうな所だけ飛ばし読みしておいて、あとは必要になった時に関連する章を読む、という使い方は良いと思う。
この本をざっと目を通しておけば、Hadoop良く分からない、とかいう印象は無くなった。
それはこの本に期待していた事なので、期待には答えた。
読み方を気をつければ、他に良い本が無ければこの本で良い気がした。


新着レスの表示


名前: E-mail(省略可)

※書き込む際の注意事項はこちら

※画像アップローダーはこちら

(画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります)

掲示板管理者へ連絡 無料レンタル掲示板