🎯 Objetivo do vídeo

Demonstrar como funciona uma aplicação de IA generativa com RAG (Retrieval-Augmented Generation) rodando 100% local, explicando primeiro a arquitetura, o papel de cada componente e, só então, a implementação prática.

📚 Conceitos

O problema

LLM não conhece seus dados
Não pode acessar dados privados
Alucina quando não sabe

RAG

RAG é um padrão arquitetural onde, antes de perguntar algo para a LLM, eu busco informações relevantes em uma base externa e coloco esse conteúdo dentro do prompt.

Trazer conhecimento externo de forma controlada
Sem treinar modelo
Com fontes confiáveis

Embeddings

Um embedding é uma forma de transformar texto em números que representam significado. Textos parecidos ficam próximos nesse espaço.

Busca Semântica

Não é palavra-chave, é proximidade de significado.

Prompt Aumentado

Prompt = pergunta + contexto recuperado
A LLM só responde com base nisso