അപ്പാച്ചെ സ്പാർക്ക് ഡാറ്റ പൈപ്പ്ലൈൻ osDQ എന്ന് പേരിട്ടിരിക്കുന്ന Linux ആപ്പാണിത്, ഇതിന്റെ ഏറ്റവും പുതിയ പതിപ്പ് osdq-spark_0.0.1.zip ആയി ഡൗൺലോഡ് ചെയ്യാം. വർക്ക്സ്റ്റേഷനുകൾക്കായുള്ള സൗജന്യ ഹോസ്റ്റിംഗ് ദാതാവായ OnWorks-ൽ ഇത് ഓൺലൈനായി പ്രവർത്തിപ്പിക്കാം.
apache spark data pipeline osDQ എന്ന് പേരിട്ടിരിക്കുന്ന ഈ ആപ്പ് OnWorks-നൊപ്പം സൗജന്യമായി ഡൗൺലോഡ് ചെയ്ത് ഓൺലൈനിൽ പ്രവർത്തിപ്പിക്കുക.
ഈ ആപ്പ് പ്രവർത്തിപ്പിക്കുന്നതിന് ഈ നിർദ്ദേശങ്ങൾ പാലിക്കുക:
- 1. നിങ്ങളുടെ പിസിയിൽ ഈ ആപ്ലിക്കേഷൻ ഡൗൺലോഡ് ചെയ്തു.
- 2. ഞങ്ങളുടെ ഫയൽ മാനേജറിൽ https://www.onworks.net/myfiles.php?username=XXXXX എന്നതിൽ നിങ്ങൾക്ക് ആവശ്യമുള്ള ഉപയോക്തൃനാമം നൽകുക.
- 3. അത്തരം ഫയൽമാനേജറിൽ ഈ ആപ്ലിക്കേഷൻ അപ്ലോഡ് ചെയ്യുക.
- 4. ഈ വെബ്സൈറ്റിൽ നിന്ന് OnWorks Linux ഓൺലൈനോ Windows ഓൺലൈൻ എമുലേറ്ററോ MACOS ഓൺലൈൻ എമുലേറ്ററോ ആരംഭിക്കുക.
- 5. നിങ്ങൾ ഇപ്പോൾ ആരംഭിച്ച OnWorks Linux OS-ൽ നിന്ന്, നിങ്ങൾക്ക് ആവശ്യമുള്ള ഉപയോക്തൃനാമത്തോടുകൂടിയ ഞങ്ങളുടെ ഫയൽ മാനേജർ https://www.onworks.net/myfiles.php?username=XXXXX എന്നതിലേക്ക് പോകുക.
- 6. ആപ്ലിക്കേഷൻ ഡൌൺലോഡ് ചെയ്യുക, അത് ഇൻസ്റ്റാൾ ചെയ്ത് പ്രവർത്തിപ്പിക്കുക.
സ്ക്രീൻഷോട്ടുകൾ
Ad
അപ്പാച്ചെ സ്പാർക്ക് ഡാറ്റ പൈപ്പ്ലൈൻ osDQ
വിവരണം
ഓപ്പൺ സോഴ്സ് ഡാറ്റ ക്വാളിറ്റി (osDQ) പ്രോജക്റ്റിന്റെ ഒരു ഓഫ്ഷൂട്ട് പ്രോജക്റ്റാണിത് https://sourceforge.net/projects/dataquality/
ഈ ഉപ പ്രോജക്റ്റ് അപ്പാച്ചെ സ്പാർക്ക് അധിഷ്ഠിത ഡാറ്റാ പൈപ്പ്ലൈൻ സൃഷ്ടിക്കും, അവിടെ JSON അടിസ്ഥാനമാക്കിയുള്ള മെറ്റാഡാറ്റ (ഫയൽ) ഡാറ്റ പ്രോസസ്സിംഗ്, ഡാറ്റ പൈപ്പ്ലൈൻ, ഡാറ്റ ഗുണനിലവാരം, ഡാറ്റ തയ്യാറാക്കൽ, ബിഗ് ഡാറ്റയ്ക്കായി ഡാറ്റ മോഡലിംഗ് സവിശേഷതകൾ എന്നിവ പ്രവർത്തിപ്പിക്കാൻ ഉപയോഗിക്കുന്നു. ഇത് അപ്പാച്ചെ സ്പാർക്കിന്റെ ജാവ API ഉപയോഗിക്കുന്നു. ഇത് ലോക്കൽ മോഡിലും പ്രവർത്തിപ്പിക്കാം.
json ഉദാഹരണം ഇവിടെ നേടുക https://github.com/arrahtech/osdq-spark
എങ്ങനെ ഓടാം
zip ഫയൽ അൺസിപ്പ് ചെയ്യുക
Windows : java -cp .\lib\*;osdq-spark-0.0.1.jar org.arrah.framework.spark.run.TransformRunner -c .\example\samplerun.json
മാക് യുണിക്സ്
java -cp ./lib/*:./osdq-spark-0.0.1.jar org.arrah.framework.spark.run.TransformRunner -c ./example/samplerun.json
വിൻഡോസിൽ ഉള്ളവർക്ക്, ലോക്കൽ ഡ്രൈവിൽ ഹഡൂപ്പ് ഡിസ്ട്രിബ്ഷൻ അൺസിപ്പ് ചെയ്ത് HADOOP_HOME സെറ്റ് ചെയ്യേണ്ടതുണ്ട്. കൂടാതെ winutils.exe ഇവിടെ നിന്നും HADOOP_HOME\bin-ലേക്ക് പകർത്തുക
സവിശേഷതകൾ
- ജോയിൻ, ഫിൽട്ടർ, അഗ്രഗേറ്റ്, കേസ് സ്റ്റേറ്റ്മെന്റ് എന്നിവ പോലുള്ള ഡാറ്റ പൈപ്പ്ലൈൻ സൃഷ്ടിക്കുക
- ഡാറ്റ ഗുണനിലവാരം ഉപയോഗിക്കുക - മാറ്റിസ്ഥാപിക്കുക, ഉപേക്ഷിക്കുക, ചേരുക,
- ഡാറ്റ പ്രൊഫൈലിംഗ്, കോളം ബേസ് പ്രൊഫൈലിംഗ്
- ഫസി ജോയിൻ - കോസൈൻ ദൂരവും മറ്റുള്ളവയും
- വർഗ്ഗീകരണവും സാമ്പിളും - ക്രമരഹിത വനം, മൾട്ടി ക്ലാസ് ന്യൂറൽ നെറ്റ്വർക്ക്
- ഡാറ്റ നോർമലൈസേഷൻ - zscore, std വ്യതിയാനം, അനുപാത സ്കോർ,
- സാമ്പിൾ റാൻഡം, സ്ട്രാറ്റിഫൈഡ്, കീ അടിസ്ഥാനമാക്കിയുള്ളത്
പ്രേക്ഷകർ
ഇൻഫർമേഷൻ ടെക്നോളജി, മറ്റ് പ്രേക്ഷകർ, ആർക്കിടെക്റ്റുകൾ
ഉപയോക്തൃ ഇന്റർഫേസ്
കൺസോൾ/ടെർമിനൽ
പ്രോഗ്രാമിംഗ് ഭാഷ
ജാവ, സ്കാല
Categories
ഇത് https://sourceforge.net/projects/apache-spark-osdq/ എന്നതിൽ നിന്നും ലഭിക്കാവുന്ന ഒരു ആപ്ലിക്കേഷനാണ്. ഞങ്ങളുടെ സൗജന്യ ഓപ്പറേറ്റീവ് സിസ്റ്റങ്ങളിലൊന്നിൽ നിന്ന് ഏറ്റവും എളുപ്പമുള്ള രീതിയിൽ ഓൺലൈനിൽ പ്രവർത്തിപ്പിക്കുന്നതിനായി ഇത് OnWorks-ൽ ഹോസ്റ്റ് ചെയ്തിരിക്കുന്നു.