Introdução aos Serviços de Dados da AWS
Conceitos principais (essencial para tudo):
-
IAM (Identity and Access Management): Gerencia usuários e permissões.
Ex: Um usuário pode ter acesso ao S3, mas não ao Redshift. -
EC2 (Elastic Compute Cloud): Máquinas virtuais.
Ex: Rodar um script Python manualmente em uma instância. -
VPC (Virtual Private Cloud): Rede virtual isolada na AWS.
Ex: Criar sub-redes públicas/privadas e controlar tráfego entre elas. -
S3 (Simple Storage Service): Armazenamento de objetos, base de um Data Lake.
Ex: Guardar arquivos CSV para consulta posterior. -
SNS (Simple Notification Service): Envio de mensagens (push, e-mail, SMS).
Ex: Enviar alerta por e-mail quando um arquivo chega no S3. -
SQS (Simple Queue Service): Fila de mensagens.
Ex: Processar eventos de forma assíncrona com consumidores em paralelo.
Introdução aos Serviços de Dados da AWS
🔹 S3 – Data Lake
Central de armazenamento para dados brutos e processados.
Ex: CSVs de vendas, logs de aplicações, JSONs de APIs.
🔹 Redshift – Data Warehouse
Banco de dados em coluna para análise rápida.
Ex: Consultar milhões de registros com agregações e joins complexos.
🔹 Glue – ETL Serverless
Executa transformação de dados sem gerenciar servidores.
Ex: Conectar no S3, limpar dados com PySpark e salvar no Redshift.
🔹 Athena – SQL sobre S3
Consulta dados diretamente do S3 usando SQL.
Ex: SELECT * FROM vendas_parquet WHERE ano = 2025.
🔹 Kinesis – Streaming de Dados
Processa dados em tempo real (streaming).
Ex: Ler cliques de um site e gravar no S3 ou Redshift em tempo real.
🔹 EMR – Big Data (Spark, Hadoop)
Cluster gerenciado para Big Data com Spark ou Hadoop.
Ex: Processar grandes volumes de dados de logs e aplicar machine learning.
Por enquanto não há comentários.