Это приложение для Linux под названием «Качество и профилирование данных с открытым исходным кодом», последний выпуск которого можно загрузить как ProfileV6.3.3.zip. Его можно запустить онлайн в бесплатном хостинг-провайдере OnWorks для рабочих станций.
Загрузите и запустите онлайн это приложение под названием Open Source Data Quality and Profiling with OnWorks бесплатно.
Следуйте этим инструкциям, чтобы запустить это приложение:
- 1. Загрузил это приложение на свой компьютер.
- 2. Введите в нашем файловом менеджере https://www.onworks.net/myfiles.php?username=XXXXX с желаемым именем пользователя.
- 3. Загрузите это приложение в такой файловый менеджер.
- 4. Запустите онлайн-эмулятор OnWorks Linux или Windows или онлайн-эмулятор MACOS с этого веб-сайта.
- 5. В только что запущенной ОС OnWorks Linux перейдите в наш файловый менеджер https://www.onworks.net/myfiles.php?username=XXXXX с желаемым именем пользователя.
- 6. Скачайте приложение, установите его и запустите.
СКРИНШОТЫ:
Качество и профилирование данных с открытым исходным кодом
ОПИСАНИЕ:
Этот проект посвящен решениям для качества данных с открытым исходным кодом и их подготовки. Качество данных включает профилирование, фильтрацию, управление, проверку сходства, изменение обогащения данных, оповещение в режиме реального времени, анализ корзины, проверку хранилища пузырьковой диаграммы, просмотр единого клиента и т. Д., Определяемые стратегией.
Этот инструмент разрабатывает высокопроизводительную интегрированную платформу управления данными, которая будет беспрепятственно выполнять интеграцию данных, профилирование данных, качество данных, подготовку данных, создание фиктивных данных, обнаружение метаданных, обнаружение аномалий, очистку данных, отчетность и аналитику.
Он также поддерживает Hadoop (большие данные) для перемещения файлов в / из Hadoop Grid, создания, загрузки и профилирования таблиц Hive. Этот проект также известен как «Aggregate Profiler».
Resful API для этого проекта создается как (бета-версия) https://sourceforge.net/projects/restful-api-for-osdq/
Качество данных, основанное на apache Spark, улучшается https://sourceforge.net/projects/apache-spark-osdq/
Особенности
- Сертифицированная поддержка больших данных Teiid, Mysql, Oracle, Postgres, Access, Db2, SQL Server - HIVE
- Создание таблицы Hive, таблицы Profile Hive, перемещения файла в / из Profiler System и Hadoop Grid
- Проверка схожести на основе нечеткой логики, проверка на соответствие между таблицами и файлами
- Экспорт и импорт из формата XML, XLS или CSV, экспорт в PDF
- Анализ файлов, поиск по регулярным выражениям, стандартизация, поиск в БД
- Полное сканирование БД, интерфейс SQL, словарь данных, сравнение схем
- Статистический анализ, отчетность (на основе измерений и показателей), специальные отчеты и аналитика
- Сопоставление с образцом, дедупликация, сопоставление регистра, анализ корзины, диаграмма распределения
- Функции генерации данных, подготовки данных и маскирования данных
- Информация о метаданных, обратный инжиниринг модели данных
- Анализ своевременности, анализ длины строки, KMean, прогнозирование, регрессия
- Коррекция адреса, единое представление о клиенте, продукте, золотое слияние для записей
- Запись совпадения, связывания и слияния добавлены на основе нечеткой логики
- Создание формата, соответствие формата (телефон, дата, строка и число), стандартизация формата
- Подготовка данных: порядковый номер, нормализация, сегментирование, регрессия
- маскировка данных, шифрование, рандомизация данных
Аудитория
Продвинутые конечные пользователи, разработчики, инженеры по качеству, менеджмент
Интерфейс пользователя
Java-свинг
Язык программирования
Java
Среда базы данных
JDBC, ОДБК
Категории
Это приложение также можно загрузить с https://sourceforge.net/projects/dataquality/. Он размещен в OnWorks, чтобы его можно было легко запускать в Интернете с помощью одной из наших бесплатных операционных систем.