Анализировать такие объемы информации и принимать на ее основе качественные управленческие решения становится сложной задачей. Одной из возможностей ее выполнения является переход на датацентрическую архитектуру информационных систем, обрабатывающих большие объемы данных и, в целом, на использование датацентрического подхода к работе с информацией внутри компании.
Датацентрический подход подразумевает такую организацию работы с данными, при которой они первичны, доступны на всех стадиях их жизненного цикла, а разнообразные документы являются вторичными, производными от данных. Эта концепция радикально отличается от сложившейся на практике ситуации, когда наличие собственной базы данных у каждого приложения порождает необходимость в сложных интеграционных решениях. При датацентрическом подходе, напротив, каждый бизнес-объект имеет только одно отражение в корпоративном облаке данных, а приложения используют одну и ту же информацию о бизнес-объекте из этого облака.
Актуальность использования датацентрического подхода в работе с данными стала основанием для целого ряда мероприятий, обеспечивающих последовательное его внедрение. Так, в рамках работы Координационной группы, созданной в 2016 году Департаментом ПАО Газпром (С.Н. Меньшиков), специалистами Газпром недра разработана концепция, описывающая общую систему принципов организации, хранения и предоставления информации, полученной при проведении геологоразведочных работ и освоении месторождений на лицензионных участках Группы Газпром. Еще одним целенаправленным шагом стало введение в промышленную эксплуатацию автоматизированной системы, реализующей основные положения вышеуказанной концепции и функционирующей по принципу логической витрины данных, обеспечивающей поиск структурированной и неструктурированной информации в разрозненных источниках информации компании. В настоящее время в Газпром недра организована работа по внедрению и масштабированию технологии консолидации, внесенной в Реестр инновационной продукции, в деятельность Администрации ПАО Газпром и его дочерних обществ.
В ходе выполнения проекта была разработана уникальная комплексная онтологическая (семантическая) модель геолого-геофизической информации с учетом лучшей мировой практики, международных стандартов и отечественной нормативной базы. В настоящий момент эта модель содержит более 2 тыс. классов объектов, более 11 тыс. правил соответствий элементов модели и элементов источников данных, а количество информационных объектов, доступных для поиска превышает 12 млн.
Интересной особенностью использования такого типа архитектуры информационной модели является генерация новых фактов, ранее не существовавших в системе. К примеру, система содержит два факта – первый – в отчете о лабораторном исследовании керна содержится информация о проницаемости пород, второй – на лицензионном участке N проведен отбор керна для лабораторного исследования. В классической (реляционной) модели эти два факта так и останутся существовать раздельно. Модель на основе онтологий в процессе логического вывода может сгенерировать новый факт о том, что для пород на лицензионном участке N измерена проницаемость, и показать этот факт пользователю в качестве результата поиска.
Применение такого класса моделей позволит нам уже в ближайшее время создать инструменты интеграции и поиска отраслевых данных совершенно иного технологического уровня, повысить качество и уровень доверия к данным, упростить анализ информации и формирование отчетности, а в конечном итоге перейти к использованию в производственной деятельности систем поддержки принятия решений и стать по-настоящему data-driven-компанией.
Автор: А. Ходяев, начальник Центра по управлению цифровой трансформацией геологоразведочных работ