🔹 1. O que é o Apache Spark?

O Apache Spark é um framework open-source de processamento de dados distribuído que permite analisar grandes volumes de dados (Big Data) de forma rápida, escalável e versátil.

Ele surgiu em 2009 no laboratório AMPLab da Universidade de Berkeley (EUA), e em 2014 se tornou um projeto oficial da Apache Software Foundation. Hoje, é um dos frameworks mais usados em Engenharia de Dados, Data Science e Machine Learning.

👉 Diferencial: o Spark usa in-memory computing, ou seja, processa os dados na memória RAM, evitando escritas constantes em disco. Isso o torna até 100x mais rápido que o Hadoop MapReduce em certas tarefas.


🔹 2. Problema que o Spark resolve

Antes do Spark, o Hadoop MapReduce era o padrão para Big Data. Porém:

O Spark surgiu para resolver isso:

✅ Trabalha na memória.

✅ Oferece APIs em Python, Scala, Java, R e SQL.

✅ É mais simples de programar.

✅ Funciona em batch (lotes) e streaming (tempo real).


🔹 3. Principais Componentes do Spark

O Spark não é apenas um “motor de processamento”, ele é um ecossistema completo:

  1. Spark Core
  2. Spark SQL