Documentação do Dataproc
Com o Dataproc, um serviço Apache Spark e Hadoop gerenciado, você pode usar ferramentas de dados de código aberto para processamento em lote, consultas, streaming e machine learning. A automação do Dataproc ajuda a criar clusters rapidamente, gerenciá-los com facilidade e economizar dinheiro desativando os clusters quando não são necessários. Com menos tempo e dinheiro gastos com administração, você pode se concentrar nos jobs e dados. Saiba mais
Comece sua prova de conceito com US $300 em crédito sem custos financeiros
- Acessar o Gemini 2.0 Flash Thinking
- Uso mensal gratuito de produtos conhecidos, incluindo APIs de IA e BigQuery
- Sem cobranças automáticas, sem compromisso
Continue explorando com mais de 20 produtos sempre gratuitos
Acesse mais de 20 produtos gratuitos para casos de uso comuns, incluindo APIs de IA, VMs, data warehouses e muito mais.
Recursos de documentação
Guias
-
Guias de início rápido: Console, Linha de comando, Bibliotecas de cliente, APIs Explorer: crie um cluster, ou APIs Explorer: envie um job do Spark
Recursos relacionados
Executar um job do Spark no Google Kubernetes Engine
Envie jobs do Spark para um cluster do Google Kubernetes Engine em execução na API Dataproc Jobs.
Introdução ao Cloud Dataproc: Hadoop e Spark no Google Cloud
Este curso apresenta uma combinação de palestras, demonstrações e laboratórios práticos para criar um cluster do Dataproc, enviar um job do Spark e, em seguida, encerrar o cluster.
Machine learning com Spark no Dataproc
Este curso apresenta uma combinação de palestras, demonstrações e laboratórios práticos para implementar a regressão logística usando uma biblioteca de machine learning do Apache Spark em um cluster do Dataproc para desenvolver um modelo com dados de um conjunto de dados multivariável.
Soluções de programação de fluxo de trabalho
Programe fluxos de trabalho no Google Cloud.
Como migrar dados do HDFS do local para o Google Cloud
Como mover dados do Hadoop Distributed File System (HDFS) para o Google Cloud.
Gerenciar dependências Java e Scala para o Apache Spark
Abordagens recomendadas para incluir dependências ao enviar um job do Spark para um cluster do Dataproc.
Amostras da API Python
Chamar APIs do Dataproc a partir do Python.
Amostras da API Java
Chame APIs do Dataproc do Java.
Amostras da API Node.js
Chame APIs do Dataproc a partir do Node.js.
Amostras da API Go
Chame APIs do Dataproc do Go.