Name: Apache Spark Data Pipeline OSDQ-Download für Linux
Brand: OnWorks
SKU: acfc7cb1252902b3ee4b2d25293d5885
Availability: OnlineOnly
Rating: 4.63 (2072 reviews)

Dies ist die Linux-App namens Apache Spark Data Pipeline osDQ, deren neueste Version als osdq-spark_0.0.1.zip heruntergeladen werden kann. Es kann online im kostenlosen Hosting-Anbieter OnWorks für Workstations ausgeführt werden.

Laden Sie diese App namens Apache Spark Data Pipeline osDQ mit OnWorks kostenlos herunter und führen Sie sie online aus.

Befolgen Sie diese Anweisungen, um diese App auszuführen:

- 1. Diese Anwendung auf Ihren PC heruntergeladen.

- 2. Geben Sie in unserem Dateimanager https://www.onworks.net/myfiles.php?username=XXXXX den gewünschten Benutzernamen ein.

- 3. Laden Sie diese Anwendung in einem solchen Dateimanager hoch.

- 4. Starten Sie den OnWorks Linux-Online- oder Windows-Online-Emulator oder den MACOS-Online-Emulator von dieser Website.

- 5. Rufen Sie vom gerade gestarteten OnWorks Linux-Betriebssystem aus unseren Dateimanager https://www.onworks.net/myfiles.php?username=XXXXX mit dem gewünschten Benutzernamen auf.

- 6. Laden Sie die Anwendung herunter, installieren Sie sie und führen Sie sie aus.

App downloaden Unter Ubuntu ausführen Lauf in Fedora In Windows Sim ausführen In MACOS Sim ausführen

SCREENSHOTS

Laden Sie das Web-Tool oder die Web-App Apache Spark Data Pipeline osDQ herunter

Apache Spark-Datenpipeline osDQ

BESCHREIBUNG

Dies ist ein Ablegerprojekt des Open Source Data Quality (osDQ) Projekts https://sourceforge.net/projects/dataquality/

Dieses Unterprojekt wird eine Apache Spark-basierte Datenpipeline erstellen, in der JSON-basierte Metadaten (Datei) verwendet werden, um Datenverarbeitung, Datenpipeline, Datenqualität und Datenvorbereitung sowie Datenmodellierungsfunktionen für Big Data auszuführen. Dies verwendet die Java-API von Apache Spark. Es kann auch im lokalen Modus ausgeführt werden.

Holen Sie sich ein Json-Beispiel unter https://github.com/arrahtech/osdq-spark

Wie läuft man?

Entpacken Sie die Zip-Datei

Windows: java -cp .\lib\*;osdq-spark-0.0.1.jar org.arrah.framework.spark.run.TransformRunner -c .\example\samplerun.json

Mac-UNIX
java -cp ./lib/*:./osdq-spark-0.0.1.jar org.arrah.framework.spark.run.TransformRunner -c ./example/samplerun.json

Für Windows-Benutzer muss die Hadoop-Distribution auf dem lokalen Laufwerk entpackt und HADOOP_HOME festgelegt sein. Kopieren Sie auch winutils.exe von hier nach HADOOP_HOME\bin

Eigenschaften

Erstellen Sie eine Datenpipeline wie mit Join, Filter, Aggregate, Case-Anweisung
Datenqualität verwenden - ersetzen, löschen, beitreten,
Datenprofilerstellung, Spaltenbasis-Profilerstellung
Fuzzy Join - Kosinusdistanz und andere
Klassifizierung und Stichprobenziehung - Random Forest, Neuronales Netzwerk mit mehreren Klassen
Datennormalisierung - Zscore, Standardabweichung, Ratio-Score,
Sampling zufällig, geschichtet, schlüsselbasiert

Publikum

Informationstechnologie, Sonstiges Publikum, Architekten

Benutzeroberfläche

Konsole/Terminal

Programmiersprache

Java, Skala

Kategorien

Data Warehousing, Business Intelligence, ETL

Dies ist eine Anwendung, die auch von https://sourceforge.net/projects/apache-spark-osdq/ abgerufen werden kann. Es wurde in OnWorks gehostet, um auf einfachste Weise online von einem unserer kostenlosen Betriebssysteme ausgeführt zu werden.