Adentrándonos en el Big Data, hoy revisaremos el libro “Spark – The Definitive Guide: Big data processing made simple“.
De los autores Bill Chambers y Matei Zaharia, dos grandes de big data, los cuales han estado involucrados desde sus inicios en proyectos Spark. Además Bill es Product Manager en la compañia de Datos e Inteligencia Artificial Databricks.
Matei, por otro lado, inició el proyecto Spark en UC Berkeley y se desempeña como vicepresidente en la Fundación Apache. Además es uno de los Co-fundadores de Databricks.
Bueno, a lo que vinimos, veamos un resumen del contenido del libro (que en está solamente en Inglés por ahora):
Part I – Gentle Overview of Big Data and Spark
- What is Apache Spark?
- Introduction to Spark
- A tour of Spark’s toolset
Part II – Structured APIs – Dataframes, SQL & Datasets
- Structured API overview
- Basic structured operations
- Working with different types of data
- Aggregations
- Joins
- Data Sources
- Spark SQL
- Datasets
Part III – Low-level APIs
- Resilient distributed datasets(RDDs)
- Advanced RDDs
- Distributed shared variables
Part IV – Production Applications
- How Spark runs on a cluster
- Developing Spark applications
- Deploying Spark
- Monitoring and debugging
- Performance tuning
Part V – Streaming
- Stream processing fundamentals
- Structured streaming basics
- Event-time and stateful processing
- Structured streaming in production
Part VI – Advanced Analytics and Machine Learning
- Advanced analytics and machine learning overview
- Preprocessing and feature engineering
- Classification
- Regression
- Recommendation
- Unsupervised learning
- Graph analytics
- Deep learning
Part VII – Ecosystem
- Language specifics: Python (PySpark) and R (SparkR and sparklyr)
- Ecosystem and community
Algunos detalles del volumen físico:
Detalles del producto
- Editorial : O’Reilly Media, Inc, USA (31 marzo 2018)
- Idioma : Inglés
- Tapa blanda : 606 páginas
- ISBN-13 : 978-1491912218
- Peso del producto : 1.02 kg
- Dimensiones : 17.53 x 3.05 x 23.11 cm