GoGPT Best VPN GoSearch

favicon do OnWorks

download do osDQ do pipeline de dados do apache spark para Linux

Baixe grátis apache spark pipeline de dados do aplicativo osDQ Linux para rodar online no Ubuntu online, Fedora online ou Debian online

Este é o aplicativo Linux denominado apache spark data pipeline osDQ, cuja versão mais recente pode ser baixada como osdq-spark_0.0.1.zip. Ele pode ser executado online no provedor de hospedagem gratuita OnWorks para estações de trabalho.

Baixe e execute online este aplicativo chamado apache spark data pipeline osDQ com OnWorks gratuitamente.

Siga estas instruções para executar este aplicativo:

- 1. Baixe este aplicativo em seu PC.

- 2. Entre em nosso gerenciador de arquivos https://www.onworks.net/myfiles.php?username=XXXXX com o nome de usuário que você deseja.

- 3. Carregue este aplicativo em tal gerenciador de arquivos.

- 4. Inicie o emulador OnWorks Linux online ou Windows online ou emulador MACOS online a partir deste site.

- 5. No sistema operacional OnWorks Linux que você acabou de iniciar, acesse nosso gerenciador de arquivos https://www.onworks.net/myfiles.php?username=XXXXX com o nome de usuário que deseja.

- 6. Baixe o aplicativo, instale-o e execute-o.

SCREENSHOTS

Ad


osDQ do pipeline de dados do apache Spark


DESCRIÇÃO

Este é um projeto derivado do projeto de qualidade de dados de código aberto (osDQ) https://sourceforge.net/projects/dataquality/

Este subprojeto criará um pipeline de dados baseado em Apache Spark, onde metadados baseados em JSON (arquivo) serão usados ​​para executar processamento de dados, pipeline de dados, qualidade de dados e preparação de dados e recursos de modelagem de dados para big data. Isso usa a API java do apache spark. Ele também pode ser executado no modo local.

Obtenha um exemplo json em https://github.com/arrahtech/osdq-spark

Como executar

Descompacte o arquivo zip

Windows: java -cp. \ Lib \ *; osdq-spark-0.0.1.jar org.arrah.framework.spark.run.TransformRunner -c. \ Example \ samplerun.json

Mac UNIX
java -cp ./lib/*:./osdq-spark-0.0.1.jar org.arrah.framework.spark.run.TransformRunner -c ./example/samplerun.json

Para aqueles no Windows, você precisa ter a distribuição hadoop descompactada na unidade local e HADOOP_HOME definido. Copie também winutils.exe daqui para HADOOP_HOME \ bin



Recursos

  • Crie pipeline de dados usando Join, Filter, Aggregate, Case declaração
  • Use qualidade de dados - substituir, descartar, juntar,
  • Criação de Perfil de Dados, Criação de Perfil de Base em Coluna
  • Fuzzy Join - distância cosseno e outros
  • classificação e amostragem - floresta aleatória, rede neural multiclasse
  • normalização de dados - zscore, desvio padrão, pontuação de proporção,
  • Amostragem aleatória, estratificada, baseada em chave


Público

Tecnologia da Informação, Outro Público, Arquitetos


Interface com o usuário

Console / Terminal


Linguagem de Programação

Java, Escala


Categorias

Data Warehouse, Business Intelligence, ETL

Este é um aplicativo que também pode ser obtido em https://sourceforge.net/projects/apache-spark-osdq/. Ele foi hospedado no OnWorks para ser executado online da maneira mais fácil a partir de um de nossos Sistemas Operativos gratuitos.


Servidores e estações de trabalho gratuitos

Baixar aplicativos Windows e Linux

Comandos Linux

Ad




×
Anúncios
❤ ️Compre, reserve ou compre aqui — sem custos, ajuda a manter os serviços gratuitos.