Amazon Best VPN GoSearch

Icône de favori OnWorks

téléchargement osDQ du pipeline de données apache spark pour Linux

Téléchargement gratuit de l'application Linux OSDQ du pipeline de données Apache Spark pour s'exécuter en ligne dans Ubuntu en ligne, Fedora en ligne ou Debian en ligne

Il s'agit de l'application Linux nommée Apache Spark Data Pipeline osDQ dont la dernière version peut être téléchargée sous le nom osdq-spark_0.0.1.zip. Il peut être exécuté en ligne sur le fournisseur d'hébergement gratuit OnWorks pour les postes de travail.

Téléchargez et exécutez en ligne cette application nommée Apache Spark Data Pipeline osDQ avec OnWorks gratuitement.

Suivez ces instructions pour exécuter cette application :

- 1. Téléchargé cette application sur votre PC.

- 2. Entrez dans notre gestionnaire de fichiers https://www.onworks.net/myfiles.php?username=XXXXX avec le nom d'utilisateur que vous voulez.

- 3. Téléchargez cette application dans ce gestionnaire de fichiers.

- 4. Démarrez l'émulateur en ligne OnWorks Linux ou Windows en ligne ou l'émulateur en ligne MACOS à partir de ce site Web.

- 5. Depuis le système d'exploitation OnWorks Linux que vous venez de démarrer, accédez à notre gestionnaire de fichiers https://www.onworks.net/myfiles.php?username=XXXXX avec le nom d'utilisateur que vous souhaitez.

- 6. Téléchargez l'application, installez-la et exécutez-la.

CAPTURES D'ÉCRAN

Ad


pipeline de données Apache Spark osDQ


DESCRIPTION

Il s'agit d'un projet dérivé du projet de qualité des données open source (osDQ) https://sourceforge.net/projects/dataquality/

Ce sous-projet créera un pipeline de données basé sur Apache Spark où les métadonnées (fichier) basées sur JSON seront utilisées pour exécuter le traitement des données, le pipeline de données, la qualité des données et la préparation des données et les fonctionnalités de modélisation des données pour le Big Data. Cela utilise l'API Java d'Apache Spark. Il peut également fonctionner en mode local.

Obtenez un exemple json sur https://github.com/arrahtech/osdq-spark

Comment courir

Décompressez le fichier zip

Windows : java -cp .\lib\*;osdq-spark-0.0.1.jar org.arrah.framework.spark.run.TransformRunner -c .\example\samplerun.json

Mac-UNIX
java -cp ./lib/*:./osdq-spark-0.0.1.jar org.arrah.framework.spark.run.TransformRunner -c ./example/samplerun.json

Pour ceux sur Windows, vous devez avoir décompressé la distribution hadoop sur le lecteur local et HADOOP_HOME défini. Copiez également winutils.exe d'ici dans HADOOP_HOME\bin



Features

  • Créer un pipeline de données en utilisant l'instruction Join, Filter, Aggregate, Case
  • Utiliser la qualité des données - remplacer, supprimer, joindre,
  • Profilage de données, profilage de base de colonne
  • Jointure floue - distance cosinus et autres
  • classification et échantillonnage - forêt aléatoire, réseau de neurones multi-classes
  • normalisation des données - zscore, écart standard, score de ratio,
  • Échantillonnage aléatoire, stratifié, basé sur des clés


Audience

Technologies de l'information, Autre public, Architectes


Interface utilisateur

Console/Terminal


Langage de programmation

Java, Scala


Catégories

Entreposage de données, Intelligence d'affaires, ETL

Il s'agit d'une application qui peut également être récupérée à partir de https://sourceforge.net/projects/apache-spark-osdq/. Il a été hébergé dans OnWorks afin d'être exécuté en ligne de la manière la plus simple à partir de l'un de nos systèmes d'exploitation gratuits.


Serveurs et postes de travail gratuits

Télécharger des applications Windows et Linux

Commandes Linux

Ad




×
Publicité
❤ ️Achetez, réservez ou achetez ici — gratuitement, contribue à maintenir la gratuité des services.