Ementa Completa · 20 horas · 5 módulos · autoguiado

Tudo que você vai construir no Lakehouse: Pipeline na Prática

Módulo a módulo: os slides e vídeos da pré-aula, a demonstração gravada em que o professor constrói o pipeline passo a passo, o desafio assíncrono e o entregável de cada módulo. Você entra quando quiser e segue no seu ritmo, com encontros temáticos ao vivo e mentorias 1:1 pra destravar. Metodologia ativa do começo ao fim — sem mistério, sem letra miúda.

20h totais 5 módulos Gravadas + ao vivo 1:1 mentorias

Sumário

Navegue pela ementa

01 · Identificação

Os dados do curso

Curso	Lakehouse — Pipeline na Prática
Modalidade	Curso livre, online, em andamento (autoguiado + encontros ao vivo)
Carga horária	20 horas
Duração	Autoguiado · ~5 semanas no seu ritmo · entre quando quiser
Público-alvo	Profissionais de TI já atuando com dados — analistas, devs backend, engenheiros juniors, DBAs em migração
Pré-requisitos	Python intermediário · SQL básico-intermediário · linha de comando Linux · Docker Desktop instalado · máquina com 16GB de RAM e 50GB livres
Formato das aulas	Pré-aula gravada (~15min) + demonstração gravada passo a passo (~3h) + desafio assíncrono (~30min) · encontros temáticos ao vivo e mentorias 1:1 agendáveis
Entrega final	Pipeline Lakehouse end-to-end rodando + repositório GitHub público

02 · Objetivos do curso

Ao final, você será capaz de:

Subir uma stack Lakehouse completa via Docker Compose na própria máquina.
Estruturar um Data Lake no MinIO seguindo a Medallion Architecture (Bronze / Silver / Gold).
Criar e gerenciar tabelas Apache Iceberg com ACID, time travel e schema evolution.
Escrever transformações PySpark para limpar, juntar e modelar dados em estrelas dimensionais.
Orquestrar um pipeline diário no Airflow com retry, sensors e observabilidade básica.
Conectar Apache Superset diretamente nas tabelas Iceberg via Spark Thrift Server.
Construir um dashboard analítico de negócio publicável.
Versionar todo o pipeline (DAGs, notebooks, configurações) em repositório Git público.

03 · Cenário do curso

Olakehouse — marketplace brasileiro fictício

Tabelas relacionadas

~100MB

Dados sintéticos

pt-BR

CPF · CEP · UF · categorias

Semanas, mesmo cenário

pedidos clientes itens produtos pagamentos avaliações sellers geolocalização categorias

Dados gerados via Python + Faker pt-BR com lógica brasileira: CPFs válidos, CEPs reais, UFs, categorias de mercado. Sujeira pedagógica controlada — nulos, duplicados, encoding misto, timestamps em fuso errado — vira exercício na camada Silver.

Módulo 1

Setup + Fundamentos do Lakehouse

Módulo 1

Setup + Fundamentos do Lakehouse

Ao final deste módulo, você terá a stack inteira de 5 ferramentas rodando na sua máquina e entendendo onde cada uma se encaixa na arquitetura Medallion — pronto pra começar a ingerir dados reais na próxima aula.

Pré-aula gravada ~15min

Por que "Lakehouse" e não Data Warehouse ou Data Lake puro: limitações de cada um
A Medallion Architecture explicada em 3 caixas: Bronze (cru), Silver (limpo), Gold (analítico)
O que cada ferramenta da stack faz em uma linha
Diagrama final que você vai construir ao longo dos 5 módulos
Pré-requisitos da máquina: Docker Desktop, RAM, disco

Demonstração gravada ~3h

Setup do projeto — clonar o repositório base com docker-compose.yml da turma, estrutura de pastas, .env template
Subir MinIO — docker compose up minio, acessar console em localhost:9001, criar buckets bronze, silver, gold
Subir Spark + Iceberg — container tabulario/spark-iceberg, validar com pyspark interativo, criar primeiro catálogo Iceberg apontando pro MinIO
Subir Airflow — docker compose up airflow-webserver airflow-scheduler, acessar UI em localhost:8080, login admin/admin, ver DAGs de exemplo
Subir Superset — docker compose up superset, acessar em localhost:8088, criar conta admin, deixar conexão pra Spark Thrift configurada (sem dados ainda)
Teste smoke — criar uma tabela Iceberg vazia, escrever 3 linhas, ler de volta, ver o arquivo Parquet no MinIO
Tour rápido dos UIs — onde olhar quando algo quebrar: MinIO logs, Spark UI, Airflow logs

Desafio assíncrono ~30min

Mudar a porta padrão do Superset para localhost:8090 e validar que continua funcionando
Criar mais um bucket no MinIO chamado staging e tirar screenshot
Postar no canal da turma um print do docker compose ps mostrando todos os containers em estado running

Entregável do módulo Screenshot dos 4 UIs abertos lado a lado (MinIO, Spark UI, Airflow, Superset) + saída do comando docker compose ps colada no canal da turma. Marco zero do portfólio — comprova ambiente pronto.

Módulo 2

Bronze — Ingestão no MinIO + Iceberg

Módulo 2

Bronze — Ingestão no MinIO + Iceberg

Ao final deste módulo, os 9 CSVs do Olakehouse estarão no MinIO como tabelas Iceberg Bronze versionadas — e você terá visto na prática o que é ACID e time travel num Data Lake.

Pré-aula gravada ~15min

O dataset Olakehouse: o que cada CSV contém e como se relacionam (diagrama ER simplificado)
Bronze ≠ "jogar CSV no S3": qual é a regra do jogo da camada cru
Por que Iceberg e não Parquet puro: ACID, time travel, schema evolution em 3 exemplos visuais
Conceito de "catalog" no Iceberg — onde mora o metadado

Demonstração gravada ~3h

Baixar o dataset Olakehouse — script que pega os 9 CSVs e coloca em data/raw/
Subir os CSVs pro MinIO — usando mc (MinIO client) ou boto3, copiar pra bucket bronze/_raw/olakehouse/
Criar o catálogo Iceberg — configuração Spark apontando catalog olakehouse pro warehouse no MinIO bucket bronze
Ler primeiro CSV via PySpark — spark.read.csv("s3a://bronze/_raw/olakehouse/orders.csv"), inspecionar schema, mostrar problemas óbvios (datas como string, valores nulos)
Escrever como tabela Iceberg — df.writeTo("olakehouse.bronze.orders").create(), ver no MinIO os arquivos Parquet + pasta metadata/
Repetir pros 9 CSVs — em loop ou um por um, na prática é mecânico
Demo de time travel — re-ingerir orders.csv adulterado (apagar 10 linhas), depois recuperar a versão anterior com VERSION AS OF
Demo de schema evolution — adicionar coluna nova em orders, ver que as queries antigas não quebram

Desafio assíncrono ~30min

Adicionar uma 10ª "tabela" Bronze sintética chamada evento_curso com os campos aluno, data, evento — popular com 3 linhas reais (seu nome, a data de hoje, "ingestao_concluida")
Apagar a versão atual e usar time travel pra recuperar
Postar no canal o snippet SQL/PySpark do time travel funcionando

Entregável do módulo Print do MinIO console mostrando o bucket bronze com as 9 tabelas + saída do comando SHOW TABLES IN olakehouse.bronze listando as 9. Vai pro repo do aluno num arquivo entregas/semana-02.md.

Módulo 3

Silver + Gold — Transformações com Spark

Módulo 3

Silver + Gold — Transformações com Spark

Ao final deste módulo, você terá o modelo dimensional pronto na camada Gold — uma tabela fato de vendas e 4 dimensões — usando PySpark e Iceberg. É a partir daqui que análise de negócio vira viável.

Pré-aula gravada ~15min

Silver vs Gold: o que muda em cada camada e por quê
Modelagem dimensional na unha — fato e dimensão em 1 slide (estrela)
PySpark essencial que vai aparecer hoje: select, withColumn, join, groupBy, window
Decisões de modelagem que vamos tomar pro Olakehouse (qual é a tabela fato, quais dimensões)

Demonstração gravada — Camada Silver ~1h30

Limpar orders — tipos corretos (datas como timestamp), filtrar status válidos, remover duplicatas
Limpar customers — normalizar UF e cidade (uppercase, sem acentos)
Limpar order_items — tipos numéricos corretos, validar valores não-negativos
Limpar products — fazer join com product_category_name_translation pra ter categoria em inglês
Limpar payments — agregar formas de pagamento múltiplas por pedido
Cada Silver é escrita como tabela Iceberg olakehouse.silver.{nome}

Demonstração gravada — Camada Gold (modelo estrela) ~1h30

fato_vendas — granularidade item de pedido. Colunas: order_id, item_id, customer_key, product_key, tempo_key, geo_key, valor, frete, dias_entrega, nota_review
dim_cliente — 1 linha por customer_unique_id, com UF e cidade
dim_produto — 1 linha por produto, com categoria traduzida
dim_tempo — calendário 2016–2018 com dia, mês, trimestre, dia da semana
dim_geografia — UF + região (Sul, Sudeste, etc.) construída na unha
Validações — COUNT(*) em cada Gold, conferir se totais batem com Silver

Desafio assíncrono ~30min

Adicionar uma coluna calculada em fato_vendas chamada entregou_atrasado (boolean, comparando order_estimated_delivery_date com order_delivered_customer_date)
Rodar uma query agregada: percentual de pedidos atrasados por UF
Postar o resultado top-5 no canal da turma

Entregável do módulo Notebook PySpark (ou script .py) com toda a transformação Bronze→Silver→Gold + saída de DESCRIBE das 5 tabelas Gold. Commitado no repo do aluno em transformacoes/.

Módulo 4

Airflow — Orquestração end-to-end

Módulo 4

Airflow — Orquestração end-to-end

Ao final deste módulo, todo o pipeline Bronze→Silver→Gold roda sozinho, agendado, com retry automático em caso de falha. Você sai daqui sabendo escrever uma DAG de verdade — não DAG de tutorial.

Pré-aula gravada ~15min

Por que orquestrador e não cron + script: dependência, retry, observabilidade
Anatomia de uma DAG: tasks, dependências, schedule, retries
Operators que vamos usar hoje: BashOperator, PythonOperator, SparkSubmitOperator
O que NÃO colocar dentro da DAG: lógica de transformação pesada (essa fica nos scripts Spark)

Demonstração gravada ~3h

Estrutura do diretório — dags/, dags/scripts/, dags/sql/. Mostrar como o Airflow lê DAGs do filesystem
DAG esqueleto — olakehouse_daily.py com schedule @daily, sem tasks ainda; ver no Airflow UI
Task 1 — ingest_bronze — PythonOperator que executa o script de ingestão dos CSVs pro MinIO
Task 2 — transform_silver — BashOperator rodando spark-submit do script Silver da semana passada
Task 3 — build_gold — outro spark-submit pro script de Gold
Task 4 — validate_gold — PythonOperator que confere COUNT(*) mínimo nas tabelas Gold e falha se zero
Dependências — ingest_bronze >> transform_silver >> build_gold >> validate_gold
Configurar retry — default_args com retries=2, retry_delay=timedelta(minutes=5)
Simular falha — adulterar credencial do MinIO, ver task ingest_bronze falhar, ver retry automático, ver e-mail/notificação no log
Sensor + reprocesso — adicionar FileSensor que espera novo lote chegar em s3a://bronze/_landing/
Reprocessar dia anterior — pelo UI, clicar em "Trigger DAG" com execution_date retroativo, ver Airflow respeitando idempotência

Desafio assíncrono ~30min

Adicionar uma 5ª task notify_done que escreve no log (ou posta no Slack via webhook, se já tiver) "pipeline OK em {ds}"
Mudar o schedule pra rodar de hora em hora apenas das 9h às 18h em dias úteis (cron expression)
Postar o trecho de cron no canal da turma

Entregável do módulo Print do Airflow UI mostrando a DAG olakehouse_daily verde, com 5 tasks executadas, em pelo menos 2 execuções históricas. Arquivo dags/olakehouse_daily.py commitado no repo.

Módulo 5

Superset — Dashboard + Apresentação Final

Módulo 5

Superset — Dashboard + Apresentação Final

Módulo final. Você conecta o Superset diretamente nas suas tabelas Iceberg, monta um dashboard de negócio publicável e apresenta o pipeline inteiro funcionando. Sai do curso com portfólio público e tudo no GitHub.

Pré-aula gravada ~15min

Como o Superset se conecta a Iceberg via Spark Thrift Server (arquitetura em 1 slide)
Diferença entre dataset, chart e dashboard no Superset
5 perguntas de negócio típicas que o Olakehouse permite responder — e que vão virar nossos gráficos hoje
O que faz um dashboard ser "bom": menos é mais

Demonstração gravada · Parte 1 — Conectar Superset ao Lakehouse ~45min

Subir o Spark Thrift Server — start-thriftserver.sh no container Spark, expondo porta 10000
Configurar database no Superset — driver pyhive ou sqlalchemy-trino, URL hive://spark:10000/olakehouse
Validar conexão — rodar SELECT COUNT(*) FROM olakehouse.gold.fato_vendas no SQL Lab do Superset
Registrar datasets — gold.fato_vendas + 4 dimensões como datasets no Superset

Demonstração gravada · Parte 2 — Dashboard "Visão de Vendas Olakehouse" ~1h30

Chart 1 — Big Number — receita total
Chart 2 — Time series — receita diária ao longo de 2017–2018
Chart 3 — Bar chart — top 10 categorias por receita
Chart 4 — Mapa do Brasil — receita por UF
Chart 5 — Scatter — dias de entrega vs nota média da review
Montar o dashboard — arrastar os 5 charts, adicionar filtros (período, UF, categoria), salvar como Visão de Vendas Olakehouse
Compartilhar — gerar link público (read-only) ou exportar PDF

Encontro ao vivo · Apresentação final ~30min, agendada

Você tem 3min pra: subir o docker compose up, rodar a DAG, mostrar o dashboard, apontar uma insight de negócio que descobriu nos dados
Feedback rápido dos colegas + professor
Entrega oficial dos certificados de conclusão

Não há desafio assíncrono — módulo final

Em vez de desafio, a tarefa é finalizar o repo GitHub durante a semana:

README explicando como subir e rodar o pipeline
Pasta dags/ com a DAG
Pasta transformacoes/ com os scripts Spark
Pasta dashboards/ com o JSON exportado do dashboard Superset
Screenshot do dashboard no README

Entregável final do curso 1. Repositório GitHub público com o pipeline completo + instruções de execução. 2. Dashboard Superset com mínimo 4 charts e 1 filtro funcional. 3. Apresentação ao vivo de 3min mostrando o pipeline rodando. 4. Certificado de conclusão (emitido após entrega aprovada).

04 · Metodologia

Como o curso funciona na prática

Onboarding · entre quando quiser

Assim que você entra. Recebe os materiais na sequência de estudo e um guia de setup do Docker e pré-requisitos. Curso em andamento, sala invertida: começa pelo Módulo 1 com tudo rodando.

Pré-aula gravada

~15min · assíncrono. Contexto e conceitos-chave antes da demonstração de cada módulo.

Demonstração gravada

~3h · no seu ritmo. Professor constrói o código passo a passo em vídeo. Você acompanha no seu Docker e revê quantas vezes quiser.

Encontros temáticos ao vivo

Recorrentes · agenda na comunidade. Sessões pra aprofundar temas e resolver dúvidas em grupo. Ficam gravadas.

Mentorias 1:1

Agendáveis. Sessões individuais com o professor pra destravar seu pipeline e tirar dúvidas específicas.

Desafio assíncrono

~30min · no seu ritmo. Tarefa individual para fixar e adaptar o conteúdo do módulo ao seu próprio repo.

Técnicas pedagógicas aplicadas. O método combina quatro abordagens consagradas de educação técnica — cada uma já embutida no ritmo do curso.

Baseada em Problemas · PBL

Cada módulo abre com uma situação-problema real — ex.: gargalo de performance num Data Lake. Você pesquisa, discute e propõe a solução.

Baseada em Projetos

Project-Based Learning. Ao longo dos 5 módulos você constrói um projeto completo: a arquitetura Lakehouse ponta a ponta, que vira seu portfólio.

Sala de Aula Invertida

Flipped Classroom. Vídeos pré-gravados, slides, apostilas e material indicado na internet como apoio.

Aprendizagem Experiencial

Learning by Doing. Você aprende fazendo: acompanha a demonstração e constrói no seu ambiente, do laboratório à entrega final.

Demonstração guiada · como funciona

Professor constrói o código passo a passo em vídeo e explica cada etapa; você acompanha no seu Docker e pausa/revê quando precisar. Nada de ficar pra trás — você vai no seu ritmo.

Suporte contínuo

Canal Discord — perguntas escritas, resposta em até 24h úteis. Mais mentorias 1:1 agendáveis e encontros temáticos ao vivo pra dúvidas.

05 · Avaliação

Critérios da entrega final

Avaliação é prática e única: no Módulo 5 você entrega o pipeline rodando. Não há prova, não há nota mínima — é um curso livre. O que você leva é o certificado de conclusão e o portfólio público.

40%

Pipeline executa

DAG completa roda do início ao fim sem erro.

25%

Modelagem Gold

Tabela fato + dimensões fazem sentido analítico.

25%

Dashboard Superset

Mínimo 4 visões respondendo perguntas de negócio reais.

10%

Repositório GitHub

Código versionado, README explicando como subir e rodar.

06 · Cronograma

20 horas distribuídas em 5 módulos

Ritmo sugerido de ~5 semanas — mas o curso é autoguiado: você entra quando quiser e avança módulo a módulo, no seu tempo.

Ordem	Módulo	Tema	Gravadas	Entregável
1	M1	Setup + Fundamentos do Lakehouse	3h	Stack rodando + screenshots
2	M2	Bronze — MinIO + Iceberg	3h	9 tabelas Bronze consultáveis
3	M3	Silver + Gold — Spark	3h	Modelo dimensional Gold pronto
4	M4	Airflow — Orquestração	3h	DAG ponta-a-ponta agendada
5	M5	Superset — Dashboard final	3h	Dashboard publicado + apresentação
Total de aulas gravadas			15h
+ pré-aulas e desafios assíncronos			5h
Total da carga horária			20h

07 · Leitura sugerida

Pra ir além — opcional, não obrigatório

Fundamentals of Data Engineering · Joe Reis & Matt Housley (O'Reilly, 2022) — visão geral do campo, capítulos sobre Lakehouse e arquitetura batch.
Spark: The Definitive Guide · Bill Chambers & Matei Zaharia (O'Reilly, 2018) — referência sobre o motor que usamos.
Documentação Apache Iceberg · iceberg.apache.org/docs
Documentação Apache Airflow · airflow.apache.org/docs
Documentação Apache Superset · superset.apache.org/docs
Documentação MinIO · min.io/docs
Olist Brazilian E-commerce (Kaggle, CC BY-NC-SA 4.0) — dataset público que inspirou estruturalmente o Olakehouse. kaggle.com/datasets/olistbr

Convencido? Hora de garantir sua vaga.

Curso em andamento — entre quando quiser e comece pelo Módulo 1. Membros do GU BigData IA / ex-DSSBR: R$ 550; não-membros: R$ 750 — sempre com ingresso DSSBR 2026 incluso.

Preço de comunidade (R$ 550): exclusivo para membros do GU BigData IA e ex-participantes do DSSBR. Não é membro? O investimento é R$ 750.

Empresas e times de dados: consulte condições especiais para grupos de desenvolvedores, turmas fechadas e venda corporativa. Montamos turma dedicada com nota fiscal e ementa ajustada ao seu stack. Falar com a Azuris no WhatsApp →

Garantir minha vaga → ← Voltar à página inicial