Комплекс инструментов для проектирования и разработки корпоративных хранилищ данных (data warehouse) и хранилищ Big Data на технологиях международных и российских производителей, а также на решения на основе открытого кода (open source).
Построение корпоративных хранилищ данных (KXД)
- Обследование: сбор, анализ, формализация бизнес-требований и технологических требований, источников данных и информационного ландшафта для создания КХД
- Разработка концепции и стратегии развития корпоративных хранилищ данных, оценка вариантов реализации, выбор технологической платформы
- Проектирование хранилищ данных:
- определение архитектуры потоков данных, определение интерфейсов и стадий преобразования данных
- определение компонентного состава и разработка архитектуры хранилища (Data Warehouse)
- разработка модели данных
- разработка решений по обеспечению надежности и отказоустойчивости хранилища данных
- Разработка хранилища данных:
- развертывание технологической платформы
- настройка точек интеграции
- настройка модели данных
- разработка ETL-компонент, инструментов консолидации данных из различных источников, инструментов обогащения и проверки данных
- Техническая поддержка и аудит хранилищ данных:
- анализ и предоставление инструкций по устранению ошибок в системе
- анализ и исправление ошибок пользователей системы или ошибок, допущенных при конфигурировании системы
- модификации системы, документирование модификаций
- разработка и актуализация документации
- мониторинг и выявление «узких мест» в производительности хранилищ данных
- оптимизация архитектуры с целью повышения производительности (на уровне ETL, модели данных, расчетов, архитектуры)
- перевод хранилищ данных на новые версии ПО
Обработка больших массивов данных
- Обследование: изучение источников данных, определение объемов и структуры данных (которые необходимо анализировать), определение целей и функциональных требований для анализа данных, определение сценариев работы с данными (интегрированный подход с заданной структурой данных или использование Data Lake для решения широкого спектра задач обработки данных)
- Разработка архитектуры аналитического решения для обработки Big Data:
- определение типа архитектуры (облачная, on-premise, гибридная)
- определение способов получения данных из источников (потоковая, пакетная передача, mini-batch) и способов хранения данных (распределенное хранение, способы структурирования, партиционирования, резервирования)
- проектирование потоков взаимодействия с внутренними и внешними системами определение необходимых стадий консолидации, обогащения и преобразования данных
- разработка решений для обеспечения надежности и отказоустойчивости аналитического решения
- Выбор компонент для построения аналитического решения и обработки Big Data:
- DWH-компоненты (стек Hadoop, Greenplum, PostreSQL и пр.)
- ETL-инструменты (Informatica, IBM DataStage, Pentaho, Microsoft и др.)
- инструменты управления корпоративными данными / Data Governance (Юнидата, HFLabs и др.)
- Разработка и развертывание аналитических решений для анализа Big Data:
- развертывание технологических платформ
- разработка и настройка необходимых инструментов, моделей данных, точек интеграции
- обеспечение взаимодействия между компонентами