skills/data-pipelining-modern/SKILL.md
Engenharia de Dados Moderna. Diretrizes de alto desempenho para pipelines usando Polars, DuckDB, Apache Arrow e dbt. Use para ETL/ELT, modelagem dimensional e processamento de grandes volumes de dados.
npx skillsauth add lucasfdigital/orchard data-pipelining-modernInstall this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.
3 of 9 scanners reported clean
Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.
SKILL DE DADOS - Transforme dados em inteligência com velocidade, precisão e baixo custo.
| Princípio | Regra | | :--- | :--- | | Idempotência | Pipelines devem poder ser reexecutados sem duplicidade. | | Modelagem OBT | One Big Table para performance em BI. | | Data Contracts | Schemas definidos e validados entre Produtor e Consumidor. | | Colunar > Linha | Parquet, Arrow e Polars para eficiência de leitura. |
| Ferramenta | Por que usar no Orchard? | | :--- | :--- | | Polars | Melhores benchmarks in-memory. Substitua o Pandas. | | DuckDB | O "SQLite dos dados". Ideal para OLAP local e transformações leves. | | Apache Arrow | Formato universal para zero-copy data exchange. | | dbt | Módulos SQL, versionamento e documentação em um só lugar. |
| Camada | Missão | | :--- | :--- | | Bronze (Raw) | Carregamento bruto da origem. Preserve o histórico. | | Silver (Cleaned) | Desduplicação, normalização e tratamento de nulos. | | Gold (Business) | Agregações, KPIs e visões de negócio (Data Marts). |
| Cenário | Estratégia Recomendada |
| :--- | :--- |
| Processamento Local | Use Polars .lazy() para otimização automática de queries. |
| Dados que Excedem RAM | Use DuckDB com leitura direta de arquivos Parquet em disco. |
| Incremental Loading | Carregue apenas os novos registros (timestamp da última carga). |
| Partitioning | Particione por Data/Ano no S3/GCS para queries rápidas. |
| Ação | Ferramenta/Padrão |
| :--- | :--- |
| Testes de Schema | Use pydantic ou pandera para validar tipos e ranges. |
| Data Lineage | Mantenha o gráfico de dependência visual do dbt sempre atualizado. |
| Documentação AI-ready | Descreva cada coluna no YAML para que a IA possa analisar os dados. |
| Anonymization | Mascare PII (RG, CPF, Email) conforme a LGPD. |
| ❌ Padrão | ✅ Correção | | :--- | :--- | | Processar tudo em Loop For | Use operações vetorizadas (Pandas/Polars). | | Chamar API dentro do Loop | Faça chamadas em batch (em massa). | | Usar CSV para Big Data | Use Parquet ou Avro para compressão e performance. | | Senha hardcoded no script | Use variáveis de ambiente (.env). |
import polars as pl
def process_gold_layer():
# Lazy evaluation = performance máxima
df = pl.scan_parquet("silver/orders.parquet") \
.filter(pl.col("status") == "delivered") \
.group_by("customer_id") \
.agg(pl.sum("total_amount").alias("lifetime_value")) \
.collect() # Executa a query otimizada
df.write_parquet("gold/customer_ltv.parquet")
🔴 "Se o seu pipeline de dados demora mais que 30s para processar 1M de linhas, você precisa otimizar."
Transformando dados em valor no projeto Orchard. Licença MIT.
development
Princípios de teste de aplicações web. E2E, Playwright, estratégias de auditoria profunda.
development
Revisar o código da UI para conformidade com as Web Interface Guidelines. Use quando solicitado para "revisar minha UI", "checar acessibilidade", "auditar design", "revisar UX" ou "verificar meu site em relação às melhores práticas".
testing
Princípios avançados de análise de vulnerabilidade. OWASP 2025, Segurança da Cadeia de Suprimentos (Supply Chain), mapeamento de superfície de ataque e priorização de riscos.
testing
Padrões e princípios de teste. Estratégias de testes unitários, de integração e mocking.