MinIO · Iceberg · Nessie · Spark · Trino · Superset


🎯 Objetivo do tutorial

Demonstrar, de forma prática, como funciona uma arquitetura Lakehouse moderna, explicando:

O foco está em ingestão, transformação e ativação de dados, e não em detalhes excessivos de infraestrutura.


📦 Repositório GitHub


1️⃣ O que será construído

📌 Resultado final do tutorial

Ao final, teremos um Lakehouse completo com:

Tudo usando ferramentas open source.


2️⃣ Arquitetura da Solução — Visão Geral

📐 Visão lógica da arquitetura

│            Usuários           │
│   Analistas BI | Eng. Dados   │
└───────────────┬───────────────┘
                │
                ▼
┌───────────────────────────────┐
│            Superset           │
│             Consumo BI        │
└───────────────┬───────────────┘
                │ SQL
                ▼
┌───────────────┬───────────────┐
│     Trino     │     Spark     │
│   (Query)     │  (Batch/ETL)  │
└───────────────┴───────────────┘
                │
                ▼
┌───────────────────────────────┐
│            Nessie             │
│    Catálogo / Versionamento   │
└───────────────┬───────────────┘
                │
                ▼
┌───────────────────────────────┐
│             MinIO             │
│    Object Storage (Parquet)   │
└───────────────────────────────┘

──────── Iceberg (Table Format / ACID / Snapshots) ────────