Ito ang Linux app na pinangalanang apache spark data pipeline osDQ na ang pinakabagong release ay maaaring ma-download bilang osdq-spark_0.0.1.zip. Maaari itong patakbuhin online sa libreng hosting provider na OnWorks para sa mga workstation.
I-download at patakbuhin online ang app na ito na pinangalanang apache spark data pipeline osDQ gamit ang OnWorks nang libre.
Sundin ang mga tagubiling ito upang patakbuhin ang app na ito:
- 1. Na-download ang application na ito sa iyong PC.
- 2. Ipasok sa aming file manager https://www.onworks.net/myfiles.php?username=XXXXX kasama ang username na gusto mo.
- 3. I-upload ang application na ito sa naturang filemanager.
- 4. Simulan ang OnWorks Linux online o Windows online emulator o MACOS online emulator mula sa website na ito.
- 5. Mula sa OnWorks Linux OS na kasisimula mo pa lang, pumunta sa aming file manager https://www.onworks.net/myfiles.php?username=XXXX gamit ang username na gusto mo.
- 6. I-download ang application, i-install ito at patakbuhin ito.
MGA LALAKI
Ad
apache spark data pipeline osDQ
DESCRIPTION
Ito ay isang offshoot na proyekto ng open source data quality (osDQ) na proyekto https://sourceforge.net/projects/dataquality/
Ang sub project na ito ay lilikha ng apache spark based na data pipeline kung saan ang JSON based metadata (file) ay gagamitin upang patakbuhin ang pagpoproseso ng data , data pipeline , kalidad ng data at paghahanda ng data at mga feature sa pagmomodelo ng data para sa malaking data. Gumagamit ito ng java API ng apache spark. Maaari rin itong tumakbo sa lokal na mode.
Kumuha ng halimbawa ng json sa https://github.com/arrahtech/osdq-spark
Paano tumakbo
I-unzip ang zip file
Windows : java -cp .\lib\*;osdq-spark-0.0.1.jar org.arrah.framework.spark.run.TransformRunner -c .\example\samplerun.json
Mac UNIX
java -cp ./lib/*:./osdq-spark-0.0.1.jar org.arrah.framework.spark.run.TransformRunner -c ./example/samplerun.json
Para sa mga nasa windows, kailangan mong i-unzip ang hadoop distribtion sa local drive at HADOOP_HOME set. Kopyahin din ang winutils.exe mula dito sa HADOOP_HOME\bin
Mga tampok
- Gumawa ng pipeline ng data tulad ng paggamit ng Join, Filter, Aggregate, Case statement
- Gamitin ang Kalidad ng Data - palitan, i-drop, sumali,
- Data Profiling, Column base Profiling
- Fuzzy Join - cosine distance at iba pa
- klasipikasyon at sampling - random na kagubatan, Multi class neural network
- normalization ng data - zscore, std deviation, ratio score,
- Sampling Random, Stratified , Key based
Audience
Information Technology, Iba Pang Madla, Arkitekto
Interface ng gumagamit
Console/Terminal
Wika ng Programming
Java, Scala
Kategorya
Ito ay isang application na maaari ding makuha mula sa https://sourceforge.net/projects/apache-spark-osdq/. Na-host ito sa OnWorks upang mapatakbo online sa pinakamadaling paraan mula sa isa sa aming mga libreng Operative System.