Что такое виртуализация данных?

Перейти к навигации Перейти к поиску

База знаний

Материалы статьи предоставлены компанией DataFabric

Виртуализация данных — способ организации доступа к данным, при котором не требуется информация об их структуре и принадлежности к конкретной информационной системе.

Хотя виртуализация данных имеет множество применений, данная статья ориентирована прежде всего на задачу интеграции корпоративных источников данных. Исторически такая задача решалась через преобразование сырых данных в единый формат и перенос их в корпоративные хранилища (EDW), а оттуда — в витрины данных (Data Marts). Такие системы весьма дороги в развертывании и обслуживании и требуют тщательного предварительного планирования. С развитием Hadoop выкристаллизовалась концепция озера данных (Data Lake), вмещающего в себя как структурированные так и неструктурированные данные. Такой подход также предполагает перемещение данных в единое корпоративное хранилище (более дешевое в сравнении с EDW) и смещает акцент с преобразования данных в момент записи в хранилище на преобразование в момент чтения. Основной риск — превращение озера в болото (Data Swamp), что практически гарантировано при отсутствии у компании выверенных практик по работе с данными и метаданными.

Интеграция через виртуализацию позволяет работать с данными на основе концептуальной модели предметной области, при этом, данные не перемещаются в новое хранилище, как в случае с EDW / Data Lake подходами, а остаются в существующих информационных системах. Метаинформация об источниках, структурах и способах подъёма данных (Data Lifting) до концептуального уровня хранится в корпоративной базе знаний.

Зачем и для чего она нужна?

Цель внедрения системы виртуализации данных — упрощения доступа к данным, а также унификация и стандартизация принятых в компании подходов к работе с информацией. Создаётся общая для всех потребителей данных концептуальная схема, отражающее содержимое востребованных информационных систем компании (в идеале — всех корпоративных источников информации).

За счёт наличия единой концептуальной схемы и организованного однообразного доступа к данным, повышается их доступность, а также сокращается время необходимое для преобразования данных в нужную для принятия бизнес-решений форму.

Какие дает преимущества по сравнению с другими подходами интеграции данных?

Способы сбора и агрегации данных

Техническое преимущество заключается в том, что не требуется создавать новое хранилище данных и поддерживать его синхронизацию с первоисточниками. В этом фундаментальное отличие от подходов EDW и Data Lake.

Организационное преимущество — в повышении культуры работы с данными. Стандартизация процессов (в том числе по работе с метаданными) и актуализация концептуальной модели становятся постоянными задачами, что позволяет компании расширять базу знаний и использовать её для построения новых сервисов. В итоге, снижается стоимость хранения и использования данных.

Виртуализация данных на основе семантического стека технологий. Зачем и почему?

Семантический стек технологий позволяет создать систему виртуализации данных полностью опираясь на открытые стандарты и продукты с открытым исходным кодом. Отсутствие привязки к проприетарным продуктам делает возможным менять каждый компонент системы и тем самым достигать оптимальной конфигурации, удовлетворяющей потребности компании.

Например, мы (DataFabric) в своих решениях по виртуализации данных использует Apache Kafka, Drools, Postgresql, MongoDB, ScyllaDB, Apache Flink, Blazegraph и другие открытые компоненты. При этом ядро системы включает в себя ключевые компоненты семантического стека: RDF, SPARQL и OWL.

Шаблон.png

Ключевая особенность семантического подхода заключается в требовании к формальной интерпретируемости (концепция “знания как код”) концептуальной схемы. Для эксплуатации это является плюсом, т.к. позволяет без усилий интегрировать схему во все программные решения компании, что является драйвером роста уровня стандартизации и цифровизации.

Формализованная концептуальная модель позволяет создавать различные специализированные решения, упрощающие работу с данными. Например, “интеллектуальные” графические интерфейсы позволяющие конструировать согласованные с моделью запросы методами визуального программирования, без использования SQL и необходимости привлекать IT-специалистов. Такие интерфейсы снижают требования к технической подкованности пользователя и еще более сокращают дистанцию между данными и их потребителями.

Пример проекта, где центральным компонентом является система виртуализации.

Другим примером является проект, в котором перед DataFabric стояла задача разработать скоринг-систему оценки заёмщика с условием, что правила скоринга должны описываться в терминах концептуальной модели. Для движка исполнения правил был выбран Drools, а возможность использования в правилах концептуальной модели достигалась за счёт кодогенерации. Таким образом, оператор системы освобождается от использования специального языка запросов к базе знаний (SPARQL в нашем случае) и не имеет представления о количестве и содержании таблиц нижележащей базы данных, что позволяет ему писать простые, проверяемые правила.

Автор: Евгений Хлызов

Источники