Комплекс инструментов для проектирования и разработки корпоративных хранилищ данных (data warehouse) и хранилищ Big Data на технологиях международных и российских производителей, а также на решения на основе открытого кода (open source).

Построение корпоративных хранилищ данных (KXД)

  • Обследование: сбор, анализ, формализация бизнес-требований и технологических требований, источников данных и информационного ландшафта для создания КХД
  • Разработка концепции и стратегии развития корпоративных хранилищ данных, оценка вариантов реализации, выбор технологической платформы
  • Проектирование хранилищ данных:
    • определение архитектуры потоков данных, определение интерфейсов и стадий преобразования данных
    • определение компонентного состава и разработка архитектуры хранилища (Data Warehouse)
    • разработка модели данных
    • разработка решений по обеспечению надежности и отказоустойчивости хранилища данных
  • Разработка хранилища данных:
    • развертывание технологической платформы
    • настройка точек интеграции
    • настройка модели данных
    • разработка ETL-компонент, инструментов консолидации данных из различных источников, инструментов обогащения и проверки данных
  • Техническая поддержка и аудит хранилищ данных:
    • анализ и предоставление инструкций по устранению ошибок в системе
    • анализ и исправление ошибок пользователей системы или ошибок, допущенных при конфигурировании системы
    • модификации системы, документирование модификаций
    • разработка и актуализация документации
    • мониторинг и выявление «узких мест» в производительности хранилищ данных
    • оптимизация архитектуры с целью повышения производительности (на уровне ETL, модели данных, расчетов, архитектуры)
    • перевод хранилищ данных на новые версии ПО

Обработка больших массивов данных

  • Обследование: изучение источников данных, определение объемов и структуры данных (которые необходимо анализировать), определение целей и функциональных требований для анализа данных, определение сценариев работы с данными (интегрированный подход с заданной структурой данных или использование Data Lake для решения широкого спектра задач обработки данных)
  • Разработка архитектуры аналитического решения для обработки Big Data:
    • определение типа архитектуры (облачная, on-premise, гибридная)
    • определение способов получения данных из источников (потоковая, пакетная передача, mini-batch) и способов хранения данных (распределенное хранение, способы структурирования, партиционирования, резервирования)
    • проектирование потоков взаимодействия с внутренними и внешними системами определение необходимых стадий консолидации, обогащения и преобразования данных
    • разработка решений для обеспечения надежности и отказоустойчивости аналитического решения
  • Выбор компонент для построения аналитического решения и обработки Big Data:
    • DWH-компоненты (стек Hadoop, Greenplum, PostreSQL и пр.)
    • ETL-инструменты (Informatica, IBM DataStage, Pentaho, Microsoft и др.)
    • инструменты управления корпоративными данными / Data Governance (Юнидата, HFLabs и др.)
  • Разработка и развертывание аналитических решений для анализа Big Data:
    • развертывание технологических платформ
    • разработка и настройка необходимых инструментов, моделей данных, точек интеграции
    • обеспечение взаимодействия между компонентами