InglesPransesEspanyol

OnWorks favicon

download ng apache spark data pipeline osDQ para sa Linux

Libreng pag-download ng apache spark data pipeline osDQ Linux app para tumakbo online sa Ubuntu online, Fedora online o Debian online

Ito ang Linux app na pinangalanang apache spark data pipeline osDQ na ang pinakabagong release ay maaaring ma-download bilang osdq-spark_0.0.1.zip. Maaari itong patakbuhin online sa libreng hosting provider na OnWorks para sa mga workstation.

I-download at patakbuhin online ang app na ito na pinangalanang apache spark data pipeline osDQ gamit ang OnWorks nang libre.

Sundin ang mga tagubiling ito upang patakbuhin ang app na ito:

- 1. Na-download ang application na ito sa iyong PC.

- 2. Ipasok sa aming file manager https://www.onworks.net/myfiles.php?username=XXXXX kasama ang username na gusto mo.

- 3. I-upload ang application na ito sa naturang filemanager.

- 4. Simulan ang OnWorks Linux online o Windows online emulator o MACOS online emulator mula sa website na ito.

- 5. Mula sa OnWorks Linux OS na kasisimula mo pa lang, pumunta sa aming file manager https://www.onworks.net/myfiles.php?username=XXXX gamit ang username na gusto mo.

- 6. I-download ang application, i-install ito at patakbuhin ito.

MGA LALAKI

Ad


apache spark data pipeline osDQ


DESCRIPTION

Ito ay isang offshoot na proyekto ng open source data quality (osDQ) na proyekto https://sourceforge.net/projects/dataquality/

Ang sub project na ito ay lilikha ng apache spark based na data pipeline kung saan ang JSON based metadata (file) ay gagamitin upang patakbuhin ang pagpoproseso ng data , data pipeline , kalidad ng data at paghahanda ng data at mga feature sa pagmomodelo ng data para sa malaking data. Gumagamit ito ng java API ng apache spark. Maaari rin itong tumakbo sa lokal na mode.

Kumuha ng halimbawa ng json sa https://github.com/arrahtech/osdq-spark

Paano tumakbo

I-unzip ang zip file

Windows : java -cp .\lib\*;osdq-spark-0.0.1.jar org.arrah.framework.spark.run.TransformRunner -c .\example\samplerun.json

Mac UNIX
java -cp ./lib/*:./osdq-spark-0.0.1.jar org.arrah.framework.spark.run.TransformRunner -c ./example/samplerun.json

Para sa mga nasa windows, kailangan mong i-unzip ang hadoop distribtion sa local drive at HADOOP_HOME set. Kopyahin din ang winutils.exe mula dito sa HADOOP_HOME\bin



Mga tampok

  • Gumawa ng pipeline ng data tulad ng paggamit ng Join, Filter, Aggregate, Case statement
  • Gamitin ang Kalidad ng Data - palitan, i-drop, sumali,
  • Data Profiling, Column base Profiling
  • Fuzzy Join - cosine distance at iba pa
  • klasipikasyon at sampling - random na kagubatan, Multi class neural network
  • normalization ng data - zscore, std deviation, ratio score,
  • Sampling Random, Stratified , Key based


Audience

Information Technology, Iba Pang Madla, Arkitekto


Interface ng gumagamit

Console/Terminal


Wika ng Programming

Java, Scala


Kategorya

Data Warehousing, Business Intelligence, ETL

Ito ay isang application na maaari ding makuha mula sa https://sourceforge.net/projects/apache-spark-osdq/. Na-host ito sa OnWorks upang mapatakbo online sa pinakamadaling paraan mula sa isa sa aming mga libreng Operative System.


Ad


Ad