Dies ist die Linux-App namens Apache Spark Data Pipeline osDQ, deren neueste Version als osdq-spark_0.0.1.zip heruntergeladen werden kann. Es kann online im kostenlosen Hosting-Anbieter OnWorks für Workstations ausgeführt werden.
Laden Sie diese App namens Apache Spark Data Pipeline osDQ mit OnWorks kostenlos herunter und führen Sie sie online aus.
Befolgen Sie diese Anweisungen, um diese App auszuführen:
- 1. Diese Anwendung auf Ihren PC heruntergeladen.
- 2. Geben Sie in unserem Dateimanager https://www.onworks.net/myfiles.php?username=XXXXX den gewünschten Benutzernamen ein.
- 3. Laden Sie diese Anwendung in einem solchen Dateimanager hoch.
- 4. Starten Sie den OnWorks Linux-Online- oder Windows-Online-Emulator oder den MACOS-Online-Emulator von dieser Website.
- 5. Rufen Sie vom gerade gestarteten OnWorks Linux-Betriebssystem aus unseren Dateimanager https://www.onworks.net/myfiles.php?username=XXXXX mit dem gewünschten Benutzernamen auf.
- 6. Laden Sie die Anwendung herunter, installieren Sie sie und führen Sie sie aus.
SCREENSHOTS
Ad
Apache Spark-Datenpipeline osDQ
BESCHREIBUNG
Dies ist ein Ablegerprojekt des Open Source Data Quality (osDQ) Projekts https://sourceforge.net/projects/dataquality/
Dieses Unterprojekt wird eine Apache Spark-basierte Datenpipeline erstellen, in der JSON-basierte Metadaten (Datei) verwendet werden, um Datenverarbeitung, Datenpipeline, Datenqualität und Datenvorbereitung sowie Datenmodellierungsfunktionen für Big Data auszuführen. Dies verwendet die Java-API von Apache Spark. Es kann auch im lokalen Modus ausgeführt werden.
Holen Sie sich ein Json-Beispiel unter https://github.com/arrahtech/osdq-spark
Wie läuft man?
Entpacken Sie die Zip-Datei
Windows: java -cp .\lib\*;osdq-spark-0.0.1.jar org.arrah.framework.spark.run.TransformRunner -c .\example\samplerun.json
Mac-UNIX
java -cp ./lib/*:./osdq-spark-0.0.1.jar org.arrah.framework.spark.run.TransformRunner -c ./example/samplerun.json
Für Windows-Benutzer muss die Hadoop-Distribution auf dem lokalen Laufwerk entpackt und HADOOP_HOME festgelegt sein. Kopieren Sie auch winutils.exe von hier nach HADOOP_HOME\bin
Eigenschaften
- Erstellen Sie eine Datenpipeline wie mit Join, Filter, Aggregate, Case-Anweisung
- Datenqualität verwenden - ersetzen, löschen, beitreten,
- Datenprofilerstellung, Spaltenbasis-Profilerstellung
- Fuzzy Join - Kosinusdistanz und andere
- Klassifizierung und Stichprobenziehung - Random Forest, Neuronales Netzwerk mit mehreren Klassen
- Datennormalisierung - Zscore, Standardabweichung, Ratio-Score,
- Sampling zufällig, geschichtet, schlüsselbasiert
Publikum
Informationstechnologie, Sonstiges Publikum, Architekten
Benutzeroberfläche
Konsole/Terminal
Programmiersprache
Java, Skala
Kategorien
Dies ist eine Anwendung, die auch von https://sourceforge.net/projects/apache-spark-osdq/ abgerufen werden kann. Es wurde in OnWorks gehostet, um auf einfachste Weise online von einem unserer kostenlosen Betriebssysteme ausgeführt zu werden.