O Apache Spark é um framework open-source de processamento de dados distribuído que permite analisar grandes volumes de dados (Big Data) de forma rápida, escalável e versátil.
Ele surgiu em 2009 no laboratório AMPLab da Universidade de Berkeley (EUA), e em 2014 se tornou um projeto oficial da Apache Software Foundation. Hoje, é um dos frameworks mais usados em Engenharia de Dados, Data Science e Machine Learning.
👉 Diferencial: o Spark usa in-memory computing, ou seja, processa os dados na memória RAM, evitando escritas constantes em disco. Isso o torna até 100x mais rápido que o Hadoop MapReduce em certas tarefas.
Antes do Spark, o Hadoop MapReduce era o padrão para Big Data. Porém:
O Spark surgiu para resolver isso:
✅ Trabalha na memória.
✅ Oferece APIs em Python, Scala, Java, R e SQL.
✅ É mais simples de programar.
✅ Funciona em batch (lotes) e streaming (tempo real).
O Spark não é apenas um “motor de processamento”, ele é um ecossistema completo: