「Apache Spark入門 動かして学ぶ最新並列分散処理フレームワーク」を読んだ

 

Apache Spark入門 動かして学ぶ最新並列分散処理フレームワーク (NEXT ONE)

Apache Spark入門 動かして学ぶ最新並列分散処理フレームワーク (NEXT ONE)

 

 

scalaを勉強してきたし、Hadoopもかかわってるから
sparkのことを知りたいと思いました。

たまたま8月に翔泳社のセールがやっててkindleだと
半額だったので、さっそくポチりました。

内容的には

  • RDDの概念、sparkの特徴、構成、アプリケーションの使い方など、基礎的知識
  • 実践編として実際にファイルから単語の数をカウントしてみたり
  • SparkSQL、Spark streaming、機械学習のための使い方

などが書かれてました。

感想としては、基礎的な知識がわかった感じですが
入り口を広く浅くという感じで物足りなさの印象もぬぐえません。

ちょっと読者層を想像してみたんですが
sparkとかを読む人って、わりと中級以上くらいの人が
読もうとするのではと思います。

  • すでにHadoopを使ってる人がsparkも知りたい
  • データ分析をやってる人がインフラの知識もつけたい
  • ビッグデータのトレンドを追ってて、sparkが流行ってるから知りたい

とかでしょうか。

「プログラミングを最近始めて、sparkにも興味持った」
なんて人は、皆無でしょう。

そうなると、網羅的、基礎的にわかるのもいいのですが
がっつり運用上のところとか、深いアーキテクチャとか、ソースコードたっぷり
とかの内容で、初心者は無視、みたいになってもいいのかなと思いました。

まあ、そもそもタイトルに入門って書いてあるからねえ…。


「詳解 Apache Spark」にも手を出したいなと思ってます。

 


あと個人的な事情ですが、やっぱ技術書はkindleで読むべきじゃないな。
ぜんぜん頭に入ってこないし、どこまで(触った感じ)読んだかわからないし
ちょっと画面触っただけでページがめくれてしまって、読みにくい。。。
kindlはビジネス書だといいんだよな。