Este é o aplicativo Linux denominado apache spark data pipeline osDQ, cuja versão mais recente pode ser baixada como osdq-spark_0.0.1.zip. Ele pode ser executado online no provedor de hospedagem gratuita OnWorks para estações de trabalho.
Baixe e execute online este aplicativo chamado apache spark data pipeline osDQ com OnWorks gratuitamente.
Siga estas instruções para executar este aplicativo:
- 1. Baixe este aplicativo em seu PC.
- 2. Entre em nosso gerenciador de arquivos https://www.onworks.net/myfiles.php?username=XXXXX com o nome de usuário que você deseja.
- 3. Carregue este aplicativo em tal gerenciador de arquivos.
- 4. Inicie o emulador OnWorks Linux online ou Windows online ou emulador MACOS online a partir deste site.
- 5. No sistema operacional OnWorks Linux que você acabou de iniciar, acesse nosso gerenciador de arquivos https://www.onworks.net/myfiles.php?username=XXXXX com o nome de usuário que deseja.
- 6. Baixe o aplicativo, instale-o e execute-o.
SCREENSHOTS
Ad
osDQ do pipeline de dados do apache Spark
DESCRIÇÃO
Este é um projeto derivado do projeto de qualidade de dados de código aberto (osDQ) https://sourceforge.net/projects/dataquality/
Este subprojeto criará um pipeline de dados baseado em Apache Spark, onde metadados baseados em JSON (arquivo) serão usados para executar processamento de dados, pipeline de dados, qualidade de dados e preparação de dados e recursos de modelagem de dados para big data. Isso usa a API java do apache spark. Ele também pode ser executado no modo local.
Obtenha um exemplo json em https://github.com/arrahtech/osdq-spark
Como executar
Descompacte o arquivo zip
Windows: java -cp. \ Lib \ *; osdq-spark-0.0.1.jar org.arrah.framework.spark.run.TransformRunner -c. \ Example \ samplerun.json
Mac UNIX
java -cp ./lib/*:./osdq-spark-0.0.1.jar org.arrah.framework.spark.run.TransformRunner -c ./example/samplerun.json
Para aqueles no Windows, você precisa ter a distribuição hadoop descompactada na unidade local e HADOOP_HOME definido. Copie também winutils.exe daqui para HADOOP_HOME \ bin
Recursos
- Crie pipeline de dados usando Join, Filter, Aggregate, Case declaração
- Use qualidade de dados - substituir, descartar, juntar,
- Criação de Perfil de Dados, Criação de Perfil de Base em Coluna
- Fuzzy Join - distância cosseno e outros
- classificação e amostragem - floresta aleatória, rede neural multiclasse
- normalização de dados - zscore, desvio padrão, pontuação de proporção,
- Amostragem aleatória, estratificada, baseada em chave
Público
Tecnologia da Informação, Outro Público, Arquitetos
Interface com o usuário
Console / Terminal
Linguagem de Programação
Java, Escala
Categorias
Este é um aplicativo que também pode ser obtido em https://sourceforge.net/projects/apache-spark-osdq/. Ele foi hospedado no OnWorks para ser executado online da maneira mais fácil a partir de um de nossos Sistemas Operativos gratuitos.