29 октября 2018 г.

Основные принципы метода Кимбалла

Большинство рекомендаций в методе Кимбалла для проектирования, разработки и развертывания системы DW/BI состоит именно в этом: руководство. Есть сотни или тысячи правил во многих книгах Kimball Group, и я признаю, что на протяжении десятилетий нарушала многие из них, сталкиваясь с противоречивыми целями или неприятными политическими реалиями.

Размерная модель – это ключевое преимущество

Метод Кимбалла, описанный во втором издании книги «Инструментарий жизненного цикла данных», ориентирован на размерную модель. Принципы размерного моделирования являются наиболее известным вкладом Ральфа Кимбалла и Kimball Group в мир бизнес-аналитики. Наше внимание сосредоточено на этом, потому что хорошая размерная модель абсолютно необходима для успеха вашего предприятия DW/BI. Если вы правильно подберете модель и правильно произведете ее интеграцию, все остальное – просто.

Размерное моделирование – это групповая деятельность

Даже лучший специалист по размерному моделированию создаст плохую размерную модель, если он работает в одиночку. Многомерное моделирование – это не просто групповое действие, а групповое действие, в котором должно участвовать сообщество бизнес-пользователей. За прошедшие годы мы бесчисленное количество раз отказывались от консалтинговых запросов на разработку модели без учета бизнеса. Или, что еще хуже, боролись за мучительные проекты, когда обещанное участие бизнес-пользователей так и не состоялось.
Это, несомненно, важнейшее требование пользовательского сообщества. Наш процесс проектирования обычно занимает 50-60 часов в течение 4-6 недель (или более, в зависимости от сложности проекта). Люди, участие которых необходимо в проектных сессиях, чрезвычайно важны для получения положительного результата. Но если их не убедить вложить время и энергию, полученная система в итоге не сможет работать эффективно.

Размерная модель самая лучшая спецификация для системы DW/BI

15 октября 2018 г.

Светлое будущее

Хранение данных никогда не было более ценным и интересным занятием, чем сейчас.

 Принятие решений на основе данных настолько фундаментально и очевидно, что нынешнее поколение бизнес-пользователей и разработчиков/конструкторов хранилищ данных не может представить себе мир без доступа к данным. Я все время подавляю в себе желание рассказывать истории о том, как это было до 1980 года.
Но это время перемен в практике хранения данных. Важно, чтобы «хранение данных» всегда охватывало сбор бизнес-потребностей и перечисление всех информационных активов организации в самом широком смысле. Если хранение данных когда-либо будет сводиться только к представлению текстовых и числовых данных из транзакционных систем записи, то будут потеряны огромные возможности.
Хранение данных определило архитектуру для публикации необходимых данных лицам, принимающим решения, и эта архитектура имеет имена: размерное моделирование, таблицы фактов, таблицы измерений, суррогатные ключи, медленно меняющиеся измерения, согласованные измерения и многое другое.
Большие изменения происходят сегодня в деловом мире: новые потоки данных из социальных сетей, бесплатные сообщения, датчики и счетчики, устройства геопозиционирования, спутники, камеры и другие записывающие устройства. Бизнес-пользователи ожидают принятия решений на основе...

9 октября 2018 г.

Медленно меняющиеся измерения (часть 2)

Владелец хранилища данных должен решить, как реагировать на изменения в описаниях размерных сущностей, таких как «Сотрудник», «Клиент», «Продукт», «Поставщик», «Местоположение» и другие. За 30 лет изучения этого вопроса, я обнаружил, что необходимы только три различных типа реакций. Я называл эти медленно меняющиеся размеры (SCD) типами 1, 2 и 3. В прошлой статье, я описал Тип 1 (SCD Type 1), который перезаписывает измененные данные в измерении. В этой статье я разберу типы 2 и 3 (SCD Type 2 и SCD Type 3).

Тип 2 (SCD Type 2): добавление новой записи измерения
Давайте изменим сценарий предыдущей статьи, где я переписал поле «Город проживания» в записи сотрудника Ральфа Кимбалла, и предположим, что Ральф Кимбалл действительно переехал из Санта-Крус в Боулдер-Крик 18 июля 2008 года. Предположим, что наша политика заключается в точном отслеживании домашних адресов сотрудников в хранилище данных. Это классическое изменение SCD Type 2.
SCD Type 2 требует, чтобы мы выпустили новую запись сотрудника для Ральфа Кимбалла с 18 июля 2008 года. Это имеет много интересных побочных эффектов, а каких - узнаете у нас на сайте! Продолжение

3 октября 2018 г.

Медленно меняющиеся измерения (часть 1)

Понятие времени пронизывает каждый уголок хранилища данных.

Большинство фундаментальных мер, которые мы храним в наших таблицах фактов, являются временными рядами, которые мы тщательно аннотируем метками времени и внешними ключами, соединяющимися с измерениями календарных дат. Но эффект времени не ограничивается только временными метками активностей. Все другие измерения, связанные с таблицами фактов, включая фундаментальные сущности, такие, как «Клиент», «Продукт», «Услуга», «Условия», «Местоположение» и «Сотрудник», также зависят от времени.
Как администраторы хранилищ данных, мы регулярно сталкиваемся с откорректированными описаниями этих объектов. Иногда откорректированное описание просто исправляет ошибку в данных. Но часто оно представляет собой настоящее изменение в определенный момент времени какого-либо элемента, например, «Клиента» или «Продукта». Поскольку эти изменения поступают неожиданно, от случая к случаю, и гораздо реже, чем изменения в таблице фактов, мы называем этот раздел – разделом медленно меняющихся измерений (SCDs).

Три типа

Удивительно, но за более чем 30 лет изучения временной дисперсии измерений, я обнаружил, что хранилище данных нуждается только в трех основных реакциях, когда сталкивается с откорректированным или обновленным описанием элемента измерения.