GoGPT Best VPN GoSearch

OnWorks-Favicon

Apache Spark Data Pipeline OSDQ-Download für Linux

Laden Sie die Apache Spark Data Pipeline osDQ Linux-App kostenlos herunter, um online in Ubuntu online, Fedora online oder Debian online ausgeführt zu werden

Dies ist die Linux-App namens Apache Spark Data Pipeline osDQ, deren neueste Version als osdq-spark_0.0.1.zip heruntergeladen werden kann. Es kann online im kostenlosen Hosting-Anbieter OnWorks für Workstations ausgeführt werden.

Laden Sie diese App namens Apache Spark Data Pipeline osDQ mit OnWorks kostenlos herunter und führen Sie sie online aus.

Befolgen Sie diese Anweisungen, um diese App auszuführen:

- 1. Diese Anwendung auf Ihren PC heruntergeladen.

- 2. Geben Sie in unserem Dateimanager https://www.onworks.net/myfiles.php?username=XXXXX den gewünschten Benutzernamen ein.

- 3. Laden Sie diese Anwendung in einem solchen Dateimanager hoch.

- 4. Starten Sie den OnWorks Linux-Online- oder Windows-Online-Emulator oder den MACOS-Online-Emulator von dieser Website.

- 5. Rufen Sie vom gerade gestarteten OnWorks Linux-Betriebssystem aus unseren Dateimanager https://www.onworks.net/myfiles.php?username=XXXXX mit dem gewünschten Benutzernamen auf.

- 6. Laden Sie die Anwendung herunter, installieren Sie sie und führen Sie sie aus.

SCREENSHOTS

Ad


Apache Spark-Datenpipeline osDQ


BESCHREIBUNG

Dies ist ein Ablegerprojekt des Open Source Data Quality (osDQ) Projekts https://sourceforge.net/projects/dataquality/

Dieses Unterprojekt wird eine Apache Spark-basierte Datenpipeline erstellen, in der JSON-basierte Metadaten (Datei) verwendet werden, um Datenverarbeitung, Datenpipeline, Datenqualität und Datenvorbereitung sowie Datenmodellierungsfunktionen für Big Data auszuführen. Dies verwendet die Java-API von Apache Spark. Es kann auch im lokalen Modus ausgeführt werden.

Holen Sie sich ein Json-Beispiel unter https://github.com/arrahtech/osdq-spark

Wie läuft man?

Entpacken Sie die Zip-Datei

Windows: java -cp .\lib\*;osdq-spark-0.0.1.jar org.arrah.framework.spark.run.TransformRunner -c .\example\samplerun.json

Mac-UNIX
java -cp ./lib/*:./osdq-spark-0.0.1.jar org.arrah.framework.spark.run.TransformRunner -c ./example/samplerun.json

Für Windows-Benutzer muss die Hadoop-Distribution auf dem lokalen Laufwerk entpackt und HADOOP_HOME festgelegt sein. Kopieren Sie auch winutils.exe von hier nach HADOOP_HOME\bin



Eigenschaften

  • Erstellen Sie eine Datenpipeline wie mit Join, Filter, Aggregate, Case-Anweisung
  • Datenqualität verwenden - ersetzen, löschen, beitreten,
  • Datenprofilerstellung, Spaltenbasis-Profilerstellung
  • Fuzzy Join - Kosinusdistanz und andere
  • Klassifizierung und Stichprobenziehung - Random Forest, Neuronales Netzwerk mit mehreren Klassen
  • Datennormalisierung - Zscore, Standardabweichung, Ratio-Score,
  • Sampling zufällig, geschichtet, schlüsselbasiert


Publikum

Informationstechnologie, Sonstiges Publikum, Architekten


Benutzeroberfläche

Konsole/Terminal


Programmiersprache

Java, Skala


Kategorien

Data Warehousing, Business Intelligence, ETL

Dies ist eine Anwendung, die auch von https://sourceforge.net/projects/apache-spark-osdq/ abgerufen werden kann. Es wurde in OnWorks gehostet, um auf einfachste Weise online von einem unserer kostenlosen Betriebssysteme ausgeführt zu werden.


Kostenlose Server & Workstations

Laden Sie Windows- und Linux-Apps herunter

Linux-Befehle

Ad




×
Werbung
❤ ️Hier einkaufen, buchen oder kaufen – kostenlos, damit die Dienste kostenlos bleiben.