Это приложение для Linux под названием apache spark data pipeline osDQ, последний выпуск которого можно загрузить как osdq-spark_0.0.1.zip. Его можно запустить онлайн в бесплатном хостинг-провайдере OnWorks для рабочих станций.
Загрузите и запустите онлайн это приложение под названием apache Spark Data pipeline osDQ с OnWorks бесплатно.
Следуйте этим инструкциям, чтобы запустить это приложение:
- 1. Загрузил это приложение на свой компьютер.
- 2. Введите в нашем файловом менеджере https://www.onworks.net/myfiles.php?username=XXXXX с желаемым именем пользователя.
- 3. Загрузите это приложение в такой файловый менеджер.
- 4. Запустите онлайн-эмулятор OnWorks Linux или Windows или онлайн-эмулятор MACOS с этого веб-сайта.
- 5. В только что запущенной ОС OnWorks Linux перейдите в наш файловый менеджер https://www.onworks.net/myfiles.php?username=XXXXX с желаемым именем пользователя.
- 6. Скачайте приложение, установите его и запустите.
СКРИНШОТЫ:
Apache Spark конвейер данных osDQ
ОПИСАНИЕ:
Это ответвление проекта качества данных с открытым исходным кодом (osDQ). https://sourceforge.net/projects/dataquality/
Этот подпроект создаст конвейер данных на основе Apache Spark, в котором метаданные (файл) на основе JSON будут использоваться для обработки данных, конвейера данных, качества данных и функций подготовки данных и моделирования данных для больших данных. Это использует Java API Apache Spark. Он также может работать в локальном режиме.
Получить пример json на https://github.com/arrahtech/osdq-spark
Как запустить
Разархивируйте zip-файл
Windows: java -cp. \ Lib \ *; osdq-spark-0.0.1.jar org.arrah.framework.spark.run.TransformRunner -c. \ Example \ samplerun.json
Mac UNIX
java -cp ./lib/*:./osdq-spark-0.0.1.jar org.arrah.framework.spark.run.TransformRunner -c ./example/samplerun.json
Для тех, кто работает в Windows, вам необходимо, чтобы распространение hadoop было распаковано на локальном диске и установлено HADOOP_HOME. Также скопируйте winutils.exe отсюда в HADOOP_HOME \ bin
Особенности
- Создайте конвейер данных, например, с помощью оператора Join, Filter, Aggregate, Case.
 - Использовать качество данных - заменить, отбросить, присоединиться,
 - Профилирование данных, профилирование по столбцам
 - Нечеткое соединение - косинусное расстояние и другие
 - классификация и выборка - случайный лес, многоклассовая нейронная сеть
 - нормализация данных - zscore, стандартное отклонение, коэффициент соотношения,
 - Выборка случайная, стратифицированная, на основе ключа
 
Аудитория
Информационные технологии, Другая аудитория, Архитекторы
Интерфейс пользователя
Консоль / Терминал
Язык программирования
Ява, Скала
Категории
Это приложение также можно загрузить с https://sourceforge.net/projects/apache-spark-osdq/. Он размещен в OnWorks, чтобы его можно было легко запускать в Интернете с помощью одной из наших бесплатных операционных систем.