Pular para o conteúdo

Introdução aos Serviços de Dados da AWS

Conceitos principais (essencial para tudo):

  • IAM (Identity and Access Management): Gerencia usuários e permissões.
    Ex: Um usuário pode ter acesso ao S3, mas não ao Redshift.
  • EC2 (Elastic Compute Cloud): Máquinas virtuais.
    Ex: Rodar um script Python manualmente em uma instância.
  • VPC (Virtual Private Cloud): Rede virtual isolada na AWS.
    Ex: Criar sub-redes públicas/privadas e controlar tráfego entre elas.
  • S3 (Simple Storage Service): Armazenamento de objetos, base de um Data Lake.
    Ex: Guardar arquivos CSV para consulta posterior.
  • SNS (Simple Notification Service): Envio de mensagens (push, e-mail, SMS).
    Ex: Enviar alerta por e-mail quando um arquivo chega no S3.
  • SQS (Simple Queue Service): Fila de mensagens.
    Ex: Processar eventos de forma assíncrona com consumidores em paralelo.

Introdução aos Serviços de Dados da AWS

🔹 S3 – Data Lake

Central de armazenamento para dados brutos e processados.

Ex: CSVs de vendas, logs de aplicações, JSONs de APIs.

🔹 Redshift – Data Warehouse

Banco de dados em coluna para análise rápida.

Ex: Consultar milhões de registros com agregações e joins complexos.

🔹 Glue – ETL Serverless

Executa transformação de dados sem gerenciar servidores.

Ex: Conectar no S3, limpar dados com PySpark e salvar no Redshift.

🔹 Athena – SQL sobre S3

Consulta dados diretamente do S3 usando SQL.

Ex: SELECT * FROM vendas_parquet WHERE ano = 2025.

🔹 Kinesis – Streaming de Dados

Processa dados em tempo real (streaming).

Ex: Ler cliques de um site e gravar no S3 ou Redshift em tempo real.

🔹 EMR – Big Data (Spark, Hadoop)

Cluster gerenciado para Big Data com Spark ou Hadoop.

Ex: Processar grandes volumes de dados de logs e aplicar machine learning.

Avaliação
0 0

Por enquanto não há comentários.

para ser o primeiro a comentar.