Загрузка конвейера данных apache spark osDQ для Linux

Это приложение для Linux под названием apache spark data pipeline osDQ, последний выпуск которого можно загрузить как osdq-spark_0.0.1.zip. Его можно запустить онлайн в бесплатном хостинг-провайдере OnWorks для рабочих станций.

 
 

Загрузите и запустите онлайн это приложение под названием apache Spark Data pipeline osDQ с OnWorks бесплатно.

Следуйте этим инструкциям, чтобы запустить это приложение:

- 1. Загрузил это приложение на свой компьютер.

- 2. Введите в нашем файловом менеджере https://www.onworks.net/myfiles.php?username=XXXXX с желаемым именем пользователя.

- 3. Загрузите это приложение в такой файловый менеджер.

- 4. Запустите онлайн-эмулятор OnWorks Linux или Windows или онлайн-эмулятор MACOS с этого веб-сайта.

- 5. В только что запущенной ОС OnWorks Linux перейдите в наш файловый менеджер https://www.onworks.net/myfiles.php?username=XXXXX с желаемым именем пользователя.

- 6. Скачайте приложение, установите его и запустите.

СКРИНШОТЫ:


Apache Spark конвейер данных osDQ


ОПИСАНИЕ:

Это ответвление проекта качества данных с открытым исходным кодом (osDQ). https://sourceforge.net/projects/dataquality/

Этот подпроект создаст конвейер данных на основе Apache Spark, в котором метаданные (файл) на основе JSON будут использоваться для обработки данных, конвейера данных, качества данных и функций подготовки данных и моделирования данных для больших данных. Это использует Java API Apache Spark. Он также может работать в локальном режиме.

Получить пример json на https://github.com/arrahtech/osdq-spark

Как запустить

Разархивируйте zip-файл

Windows: java -cp. \ Lib \ *; osdq-spark-0.0.1.jar org.arrah.framework.spark.run.TransformRunner -c. \ Example \ samplerun.json

Mac UNIX
java -cp ./lib/*:./osdq-spark-0.0.1.jar org.arrah.framework.spark.run.TransformRunner -c ./example/samplerun.json

Для тех, кто работает в Windows, вам необходимо, чтобы распространение hadoop было распаковано на локальном диске и установлено HADOOP_HOME. Также скопируйте winutils.exe отсюда в HADOOP_HOME \ bin



Особенности

  • Создайте конвейер данных, например, с помощью оператора Join, Filter, Aggregate, Case.
  • Использовать качество данных - заменить, отбросить, присоединиться,
  • Профилирование данных, профилирование по столбцам
  • Нечеткое соединение - косинусное расстояние и другие
  • классификация и выборка - случайный лес, многоклассовая нейронная сеть
  • нормализация данных - zscore, стандартное отклонение, коэффициент соотношения,
  • Выборка случайная, стратифицированная, на основе ключа


Аудитория

Информационные технологии, Другая аудитория, Архитекторы


Интерфейс пользователя

Консоль / Терминал


Язык программирования

Ява, Скала


Категории

Хранилище данных, бизнес-аналитика, ETL

Это приложение также можно загрузить с https://sourceforge.net/projects/apache-spark-osdq/. Он размещен в OnWorks, чтобы его можно было легко запускать в Интернете с помощью одной из наших бесплатных операционных систем.



Новейшие онлайн-программы для Linux и Windows


Категории для загрузки Программное обеспечение и программы для Windows и Linux