Аналитическая культура. От сбора данных до бизнес-результатов. Карл Андерсон (в кратком изложении, конспект)

Это практическое пошаговое руководство по внедрению в вашей организации управления на основе данных. Карл Андерсон, директор по аналитике в компании Warby Parker, провел интервью с ведущими аналитиками и учеными и собрал кейсы, которые и легли в основу данной книги. Вы узнаете, какие процессы следует ввести на всех уровнях и как именно это сделать, с какими трудностями можно столкнуться на этом пути и как их преодолеть. Автор рассказывает об аналитической цепочке ценностей, которая поможет принимать правильные решения и достигать лучших бизнес-результатов.Книга будет интересна CEO и владельцам бизнеса, менеджерам, аналитикам.На русском языке публикуется впервые.



Глава 1. Что значит «на основе данных»?

Управление на основе данных – формирование инструментов, способностей и корпоративной культуры, которая опирается на данные.

Сбор данных

Требование №1: сбор данных должен быть
Данные — ключевой компонент. При этом речь идет не о любых данных, а о правильных. Необходимо, чтобы данные соответствовали вопросу, который требуется решить. Данные должны быть своевременными, точными, чистыми, объективными и заслуживающими доверия.
Требование №2: данные должны быть общедоступными
- Данные могут быть объединены. Их формат должен допускать объединение с другими данными компании. Варианты разные: реляционные базы данных, хранилища NoSQL или Hadoop.
- Данные можно использовать совместно. Внутри организации следует развивать культуру обмена данными для их сопоставления  и объединения. Когда больший объем данных доступен для большего количества частей системы, целое всегда лучше суммы частей.
- Данные доступны по запросу. Необходимы инструменты для работы с данными и предоставления информации по запросу. Например, мне нужно увидеть тренд или понять разницу между сегментами покупателей. У специалистов по работе с данными должны быть инструменты, позволяющие сделать это просто.
Требование №3: нужны квалифицированные специалисты по работе с данными
Важны не только механизмы сортировки и систематизации данных, например, посредством языка запросов или макросов Excel, но и специалисты, которые выбирают показатели.
Человеческий фактор в управлении компанией на основе данных — важнейший:
- необходимы люди, способные задавать правильные вопросы
- люди с нужными навыками для получения нужных данных и показателей
- люди, использующие данные для планирования следующих шагов.

Отчеты

О чем говорит рост продаж на 5%? Практически ни о чем. Цифра в отчете без контекста – это лишь числовой показатель. Возможны разные причины роста объема продаж:
- Предположим, вы продаете сезонный товар, например купальные костюмы. Может быть, рост в 5% — это гораздо ниже, чем обычно. Может быть, в предыдущие годы рост объема продаж в мае составлял более 7%, а в этом году он ниже обычного.
- Возможно, директор по маркетингу потратил кучу денег на кампанию по повышению узнаваемости бренда. Какой процент роста из этих 5% обусловлен проведенной кампанией? Насколько эффективным оказалось вложение средств?
- Может быть, директор компании выступил в телешоу или ваш продукт упомянули в известном блоге, или ваше видео стало «вирусным», и это послужило фактором роста продаж. То есть причина — конкретное событие, обеспечивающее временный или устойчивый рост.
- Возможно, продажи за месяц характеризуются низким объемом и широким ассортиментом.
- Возможно, это было лишь удачным стечением обстоятельств, а общая тенденция — нисходящая.
- Может быть, ошибка в самих данных. Если уровень продаж относительно стабилен и вы видите резкий скачок без предпосылок к тому, возможно, все дело в качестве данных.

Оповещения

Оповещения – отчеты о том, что происходит в настоящее время. Они обеспечивают конкретные данные в рамках разработанных показателей, например, отчёт о загрузке центрального процессора (ЦП). Как и отчеты, они не сообщают, почему наблюдается рост загрузки ЦП, и не говорят, что следует предпринять для решения проблемы, то есть они не дают контекста.

От отчетов и оповещений к анализу

Отчеты и оповещения необходимы для управления на основе данных, но недостаточны. Они показывают, что произошло в прошлом. Для управления на основе данных нужно прогнозировать развитие ситуации, понять, почему меняются показатели, и проводить эксперименты для сбора данных, которые помогут понять причины.
Отчетность — организация данных в информационные сводки для отслеживания функционирования разных сфер бизнеса.
Анализ — преобразование данных в выводы, на основе которых принимаются решения и осуществляются действия.
Отчет показывает, что произошло: в четверг в 10:03 на сайте наблюдалось максимальное число посетителей — 63 000 человек. Он дает конкретные цифры.
Анализ показывает, почему это произошло: в 10:01 о компании упомянули в ТВ-шоу, — и рекомендует, что делать, чтобы оставаться на этом же уровне.
Отчеты ретроспективны, анализ дает рекомендации.

Таблица 1.1. Основные характеристики отчета и анализа
Отчет
Анализ
Описательный
Дает рекомендации
Что?
Почему?
Ретроспективный
Перспективный
Поднимает вопросы
Отвечает на вопросы
Данные → информация
Данные + информация → выводы
Отчеты, дашборды, оповещения
Наблюдения, рекомендации, прогнозы
Отсутствие контекста
Контекст + история

Таблица 1.2. Основные вопросы, на которые отвечает аналитика, по Дэвенпорту.
Про­шлое
На­сто­я­щее
Бу­ду­щее
Ин­фор­ма­ция
A) Что слу­чи­лось?
От­чет
B) Что про­ис­хо­дит сей­час?
Опо­ве­ще­ние
C) Что прои­зой­дет?
Экстра­по­ля­ция
Вы­во­ды
D) Как и по­че­му это прои­зо­шло?
Мо­де­ли­ро­ва­ние, экс­пе­ри­мен­таль­ное пла­ни­ро­ва­ние
E) Ка­кой сле­дую­щий оп­ти­маль­ный шаг?
Ре­ко­мен­да­ции
F) Что са­мое хо­ро­шее / пло­хое мо­жет прои­зой­ти?
Про­гноз, оп­ти­ми­за­ция, си­му­ля­ция

В нижнем ряду таблицы отражены действия, приводящие к выводам. Составление отчетов (А) и оповещение (В) — не управление на основе данных: они отмечают, что уже произошло или что происходит сейчас, но при этом не дают объяснений, почему это произошло или происходит, и не дают рекомендаций по улучшению ситуации.
Предвестник управления на основе данных – изучение причинно-следственных связей с помощью моделей или экспериментов (D). Пункт D – ценная аналитика: только понимая причины произошедшего, можно сформулировать план действий или рекомендации (Е).
Пункты E и F обеспечивают управление на основе данных, но только если полученная информация стимулирует конкретные действия. Т.е. если специалисты по работе с данными проводят анализ, но никто не обращает на него внимания, и если результаты этого анализа никак не отражаются на процессе принятия решений, то это не управление на основе данных.

Критерии управления на основе данных

Характеристики компаний с управлением на основе данных:
- Постоянно проводят различные тестирования, например A/B-тестирование
- Тестирования направлены на совершенствование деятельности компании и ее сотрудников. Например, сокращение производственного процесса
- Проводят прогнозное моделирование, прогнозируют объем продаж, курс акций или выручки
- Используют собственные прогнозные ошибки для улучшения моделей
- Выбирают варианты действий на основе взвешенных показателей.

Аналитическая цепочка ценности

Аналитическая цепочка ценности (рис. 1.3) предполагает, что данные ложатся в основу отчетов для последующего анализа. Результаты анализа используются при принятии решений. Это ключевой шаг.
Рис. 1.3. Аналитическая цепочка ценности

Технологии и обучение обеспечат первую часть цепочки (данные-отчеты-анализ): помочь специалистам по работе с данными с проведением анализа. Однако вторая часть (действия) зависит от корпоративной культуры: обратят ли на данные и результаты анализа внимание, будут ли им доверять и предпринимать на их основе действия.

Зрелость аналитических данных

Существует восемь уровней аналитических данных.
1) Стандартные отчеты. Что произошло? Когда произошло? Например, ежемесячные финансовые отчеты.
2) Ad hoc отчеты. Как много? Как часто? Например, специальные отчеты.
3) Детализация по запросу (или интерактивная аналитическая обработка, OLAP). В чем конкретно проблема? Как найти ответы? Например, исследование данных о типах сотовых телефонов и поведении их пользователей.
4) Оповещения. Когда нужно действовать? Какие действия нужно предпринять немедленно? Например, загрузка ЦП, о которой говорилось ранее.
5) Статистический анализ. Почему это происходит? Какие возможности я упускаю? Например, почему все больше клиентов банков перекредитовываются для выплаты ипотеки.
6) Прогнозирование. Что, если этот тренд продолжится? Какой объем потребуется? Когда он потребуется? Например, компании, работающие в розничной торговле, прогнозируют спрос на продукты в зависимости от магазина.
7) Прогнозное моделирование. Что произойдет дальше? Как это повлияет на бизнес?
8) Оптимизация. Как улучшить наши процессы? Какое решение проблемы будет самым эффективным?
Рис. 1.4. Уровни аналитических данных Джима Дэвиса

Можно интерпретировать эти уровни как иерархию, где подняться на следующий уровень можно только при условии прохождения предыдущего. Эту псевдопрогрессию называют зрелостью аналитических данных.
Но аналитическая работа отличается от этого представления: в одно и то же время разные подразделения компании могут проводить анализ разной степени сложности. Нет причин, почему компания не может прогнозировать, например, объем продаж («уровень» 6), не зная, в чем конкретно «проблема» с продажами («уровень» 3).
Верный способ интерпретации графика — уровень развития аналитики положительно коррелирует с уровнем инвестиций в аналитику и использованием данных.
Например, если аналитическая команда состоит из кандидатов и докторов наук, перед которыми поставлена задача оптимизировать глобальную цепочку сбыта, значит, компания серьезно инвестирует в направление работы с данными. Если в компании работают только с оповещениями и специальными отчетами, значит, она в меньшей степени инвестирует в аналитическое направление и для нее в меньшей степени характерно управление на основе данных.
Что мешает компаниям активно применять аналитические инструменты? (рис. 1.5).

В этих ответах перечислены причины, с которыми может справиться любой аналитик. Например, аналитики могут помочь сотрудникам «прокачать» необходимые навыки, и они сами могут активнее доносить ценность аналитической работы до руководителей.

Глава 2. Качество данных

Аспекты качества данных

Доступность. У аналитика есть доступ к данным: разрешение на их получение, наличие инструментов для их использования и анализа.
Точность. Данные отражают истинное положение дел
Полнота. Неполные данные – отсутствие части информации (например, в сведениях о клиенте не указано его имя) или полное отсутствие информации (например, в результате ошибки при сохранении в базу данных потерялась вся информация о клиенте)
Надежность. Данные одновременно точные и полные.
Взаимосвязанность. Можно точно связать одни данные с другими. Например, заказ клиента связан с информацией о нем самом. Взаимосвязь обеспечивается идентификационными кодами или ключами.
Непротиворечивость. Данные синхронизированы. Например, адрес клиента в одной базе данных совпадает с его адресом в другой базе. При наличии разногласий один из источников следует считать основным.
Однозначность. Каждое поле, содержащее индивидуальные данные, имеет определенное, недвусмысленное значение.
Релевантность. Данные соответствуют характеру анализа.
Своевременность. Данные получены как раз вовремя, чтобы завершить анализ к необходимому сроку.
Ошибка всего в одном из этих аспектов приводит к тому, что данные окажутся непригодными к использованию или будут казаться достоверными, но приведут к неправильным выводам.

Данные с ошибками

Ошибки появляются в данных по многим причинам и на любом этапе сбора информации.
Ошибки генерации и ввода данных
Причина  ошибок:
1) Запись. Введенные слова или показатели не те, что были в оригинале.
2) Вставка. Появление дополнительного символа: 56,789 → 564,789.
3) Удаление. Один или несколько символов теряются: 56,789 → 56,89.
4) Перемена мест. Два или более символов меняются местами: 56,789 → 56,798.
5) Значения по умолчанию могут быть равны вводимым данным
6) Пропуск данных
7) Дублирование данных
8) Усечение данных при загрузке из-за недостаточной длины поля в таблице базы данных: Anderson → anders или 5456757865 → 54567578
9) Различные наименования единиц измерения
10) Технологический (приборы), программный (сбои) или человеческий факторы
Как бороться с ошибками:
1) сокращение количества этапов от генерации данных до ввода: лучше сразу вносить данные в компьютер.
2) добавьте проверку значения каждого поля в электронную форму (рис. 2.1). Если данные имеют установленный формат (например, почтовый индекс в США 5-9 цифр), проверяйте данные на соответствие этому формату. Процесс проверки не ограничен только числовыми значениями. Например, можно проверять, чтобы дата или время вылета «обратно» были позже, чем вылета «туда».
Рис. 2.1. Пример проверки значений в онлайновой регистрационной форме

3) для ограниченного набора допустимых значений, например аббревиатуры штатов США, используйте выпадающий список, автозаполнение или варианты ответа на выбор.
В целом стремитесь, чтобы пользователю пришлось вводить как можно меньше данных.
4) Метод «Принцип двойной записи»
Если у вас есть время и ресурсы, поручите двум сотрудникам независимо друг от друга расшифровывать данные (или пусть это дважды делает один сотрудник), сравнить результаты и перепроверить данные в случае расхождений.
5) Метод «Контрольное число»
Метод применяется при передаче важных данных в цифровой форме, например номеров банковских счетов, номеров социальной страховки. После передаваемого номера добавляется число, которое представляет собой определенную функцию остальных цифр номера, и это число используется для проверки того, что предыдущие цифры были переданы из системы в систему без ошибок.
6) Разведочный анализ данных
При получении любой информации аналитику в первую очередь следует провести разведочный анализ данных (глава 5) для оценки их качества. Простой способ проверки на вопиющие ошибки — сделать сводку из данных. Для каждого показателя можно составить пятичисловую сводку: два крайних значения 1) максимальное и 2) минимальное, 3) нижний (25-й процентиль) и 4) верхний (75-й процентиль) квартили и 5) медиану.
Посмотрите на крайние значения. Насколько они адекватны? Они выше или ниже значений, которые вы могли ожидать?
Эту информацию можно представить в виде коробчатой диаграммы (рис. 2.2).

На рис. 2.3 отражены некоторые ошибки, которые можно определить с помощью представления данных в виде простой гистограммы.

Ошибки значений по умолчанию
Причина  ошибок:
При неудачном значении по умолчанию можно перестать различать пропущенные и актуальные данные. Например, если вы устанавливаете «0» как значение по умолчанию для пропущенных данных, а значение актуальных данных тоже может быть «0», вы не сможете определить, в какой ячейке отражены результаты измерения, а в какой пропущены данные.
Как бороться с ошибками:
Провести анализ значений по умолчанию
Пропущенные данные
Причина  ошибок:
- при проведении опроса респондент может не понять или пропустить вопрос
- человек, обрабатывающий анкеты, может не разобрать почерк
- респондент может «на полпути» отказаться от участия в опросе
- подводят технические средства: выходит из строя сервер или датчик
Как бороться с ошибками:
Важно выяснить, почему данные отсутствуют, и устранить причины.
Дублирование данных
Причина  ошибок:
- слу­чай­но заг­ру­зили один файл дваж­ды,
- при заг­рузке фай­ла воз­ни­кала ошиб­ка, вы ос­та­нови­ли про­цесс, ус­тра­нили ошиб­ку и пов­то­рили заг­рузку, но при этом пер­вая по­лови­на дан­ных заг­ру­зилась в  ба­зу дваж­ды.
- пов­торная регистрация. Нап­ри­мер, поль­зо­ватель про­шел ре­гис­тра­цию нес­коль­ко раз, ука­зал тот же са­мый или дру­гой ад­рес элек­трон­ной поч­ты, в ре­зуль­та­те че­го у не­го по­яви­лась дру­гая учет­ная за­пись с той же са­мой пер­со­наль­ной ин­форма­ци­ей. 
Как бороться с ошибками:
1) Наиболее эффективный — добавление ограничений в таблицу с базой данных. Создайте составной ключ, который определяет одно или несколько полей и делает запись уникальной. После добавления этого ограничения будет появляться оповещение, если вводимая комбинация данных совпадет с существующей
2) Загрузки данных по принципу «все или ничего». Если в момент загрузки данных обнаруживается проблема, происходит откат на изначальные позиции, а новая информация в базе данных не сохраняется.
Усечение данных при загрузке из-за недостаточной длины поля в таблице базы данных
Причина  ошибок:
Не всегда заранее известно максимальное количество символов или максимальное значение идентификатора.
Как бороться с ошибками:
Возможно, вы получите образец данных, рассчитаете длину ячейки и для подстраховки увеличите это значение в два раза. Но вы никогда не узнаете наверняка, достаточно ли этого, пока не начнете работать с реальными данными.
Различные наименования единиц измерения
Причина  ошибок:
Отсутствие  регламентации
Как бороться с ошибками:
Разработайте нормативный документ, утверждающий процедуру всех проводимых измерений, то, как они должны выполняться, и в каких единицах измерения должен указываться результат.
Краткий обзор проблем с данными и варианты их решения
Ас­пект
Про­бле­ма
Ре­ше­ние
Точ­ность
Ввод дан­ных: встав­ка уда­ле­ние, из­ме­не­ние сим­во­ла, пе­ре­ста­нов­ка сим­во­лов ме­ста­ми
Веб: вы­па­даю­щее ме­ню, ав­то­за­пол­не­ние. 
Ана­лог: двой­ной ввод
Ввод дан­ных: не­до­пу­сти­мые зна­че­ния
Веб: про­вер­ка фор­мы на со­от­вет­ствие. Ба­за дан­ных: огра­ни­че­ние ячей­ки
Ввод дан­ных: фор­мат да­ты
Веб:ав­то­ма­ти­че­ская встав­ка фор­ма­та да­ты.
Ба­за дан­ных: сло­варь ба­зы дан­ных, уни­фи­ка­ция (на­при­мер, в фор­ма­те ГГГГ-ММ-ДД)
Дуб­ли­ру­ю­щи­е­ся за­пи­си
Ба­за дан­ных: огра­ни­че­ния в ви­де ком­би­на­ции кла­виш, устра­не­ние по­вто­ров
По­вре­жде­ние дан­ных
Кон­троль­ная циф­ра или сум­ма
Раз­ная ко­ди­ров­ка дан­ных (на­при­мер, в од­ной таб­ли­це дан­ные в ко­ди­ров­ке UTF-8, а в дру­гой — в ASCII) или ошиб­ки при сме­не ко­ди­ров­ки (на­при­мер, в ко­ди­ров­ке ASCII имя Jose мо­жет со­хра­нить­ся как Jos)
Ба­за дан­ных: стан­дар­ти­за­ция на ба­зе од­ной ши­ро­ко при­ня­той ко­ди­ров­ки, на­при­мер Latin1 или UTF-16
Точ­ность / вза­и­мо­свя­зан­ность
Усе­че­ние зна­че­ния
Ба­за дан­ных: уве­ли­че­ние по­ля для вво­да дан­ных, сме­на ста­ту­са пре­ду­пре­жде­ний на ошиб­ки
Вза­и­мо­свя­зан­ность
Объ­еди­не­ние яче­ек (на­при­мер, «Doe, Joe» мо­жет быть слож­но вста­вить в дру­гую таб­ли­цу, где этот же че­ло­век за­пи­сан как «Joe Doe»)
При­ло­же­ние или ба­за дан­ных: ис­поль­зуй­те от­дель­ные ячей­ки
Раз­ные пер­вич­ные клю­чи для од­ной ин­фор­ма­ци­он­ной еди­ни­цы в раз­ных си­сте­мах ослож­ня­ют пра­виль­ное объ­еди­не­ние дан­ных
При­ло­же­ние или ба­за дан­ных: уни­фи­ци­ро­ван­ная сис­те­ма иден­ти­фи­ка­ции
Не­про­ти­во­ре­чи­вость
Про­ти­во­ре­чи­вые дан­ные (на­при­мер, раз­ные ад­ре­са од­но­го че­ло­ве­ка в раз­ных си­сте­мах)
Ба­за дан­ных: цент­раль­ная поль­зо­ва­тельс­кая сис­те­ма, ре­ше­ние на ос­но­ве ус­та­нов­лен­но­го пра­ви­ла «ка­кой источник бо­лее надежен»
Пу­та­ни­ца
Про­ти­во­ре­чи­вые вре­мен­ные зо­ны
Веб: ав­то­ма­ти­че­ский вы­бор вре­ме­ни.
Ба­за дан­ных: сло­варь ба­зы дан­ных, уни­фи­ка­ция (на­при­мер, на ос­но­ве все­мир­но­го ко­ор­ди­ни­ро­ван­но­го вре­ме­ни (UTC)
За­пол­не­ние яче­ек дру­ги­ми дан­ны­ми (на­при­мер, ис­поль­зо­ва­ние пус­той ячей­ки middle_name для со­хра­не­ния ста­ту­са за­ка­за)
При­ло­же­ние или ба­за дан­ных: наи­бо­лее эф­фек­тив­ные ме­то­ды, чет­кая, про­пи­сан­ная схе­ма ра­бо­ты
Пу­та­ни­ца с ко­ди­ров­кой (на­при­мер, Hi­Low­Range­TZ3)
Ба­за дан­ных: сло­варь ба­зы дан­ных
Дву­смыс­лен­ные про­пу­щен­ные дан­ные (на­при­мер, озна­ча­ет ли зна­че­ние «0» про­пу­щен­ные дан­ные или ак­ту­аль­ное зна­че­ние «0»?)
При­ло­же­ние или ба­за дан­ных: вы­бор ра­зум­ных зна­че­ний по умол­ча­нию вне пре­де­лов воз­мож­ных зна­че­ний
Пол­но­та
Ча­стич­ные ошиб­ки при за­груз­ке
Ба­за дан­ных: опо­ве­ще­ния (воз­вра­ще­ние к на­чаль­ной ста­дии до за­груз­ки)
Про­пус­ки со­вер­шен­но слу­чай­ны (MCAR)
Ана­лиз: вы­бор­ка с за­па­сом, ве­са для ка­те­го­рий
Про­пус­ки слу­чай­ны, но есть за­ко­но­мер­но­сти (MAR): дан­ные про­пу­ще­ны как функ­ция на­блю­да­е­мых или не­про­пу­щен­ных дан­ных
Ана­лиз: огра­ни­че­ние ана­ли­за до то­го, ко­гда дан­ные мож­но ис­поль­зо­вать без­опас­но
Про­пус­ки не­слу­чай­ны (MNAR): про­пу­щен­ные дан­ные — функ­ция дру­гих про­пу­щен­ных дан­ных
Ана­лиз: из­ме­не­ние или по­вто­ре­ние про­цес­са сбо­ра дан­ных
Не­пра­виль­ное чис­ло или раз­де­ли­тель дан­ных, вы­зы­ва­ю­щие по­яв­ле­ние до­пол­ни­тель­ных столб­цов или уда­ле­ние
По­ля дан­ных (Quote fields), про­вер­ка ка­че­ства ис­точ­ни­ка дан­ных
Свое­вре­мен­ность
Уста­рев­шие дан­ные из-за мед­лен­ных об­нов­ле­ний (на­при­мер, жур­нал из­ме­не­ний ад­ре­сов)
Бо­лее быст­рая и ка­че­ствен­ная об­ра­бот­ка дан­ных
Про­ис­хож­де­ние
Слож­ность в опре­де­ле­нии, ко­гда или по­че­му бы­ло из­ме­не­но зна­че­ние
При­ло­же­ние или ба­за дан­ных: бо­лее ка­че­ствен­ное от­сле­жи­ва­ние из­ме­не­ний, до­бав­ле­ние в ба­зу дан­ных яче­ек для фик­си­ро­ва­ния про­ис­хож­де­ния

Происхождение данных

При обнаружении проблемы с качеством данных важно отследить источник данных. В этом случае можно будет извлечь из анализа проблемную выборку или предложить более эффективные процессы и протоколы работы с этими данными.

Качество данных как совместная ответственность

Качеством данных должны заниматься все сотрудники компании:
Разработчик внешнего интерфейса может добавить в форму на сайте функцию контроля правильности ввода информации.
Специалист по обработке данных может добавить контрольную цифру при передаче данных в другое хранилище.
Администратор базы данных может проверить и предотвратить дублирование информации или отследить ошибки при загрузке данных.
Руководители подразделений, эксперты в предметных областях и аналитики должны задавать допустимые границы ввода данных.
Руководители направлений и эксперты в предметных областях должны проверить качество данных.
Аналитики должны провести разведочный анализ: находятся ли значения в допустимых границах, соблюдаются ли ожидаемые закономерности, оценить объем пропущенных данных и т.д.

Глава 3. Сбор данных

Собирайте все что можно

Собирайте все доступные данные. Чем больше данных, тем лучше. Никогда не знаешь, какая информация может понадобиться, а шанс собрать данные часто выдается только один.
Однако процесс сбора данных требует финансовых затрат:
1) На создание инфраструктуры для сбора, очистки, трансформации и хранения данных.
2) На поддержание работоспособности инфраструктуры, резервное копирование данных, интеграцию источников данных.
3) На обеспечение инструментария для специалистов по анализу данных.

Расстановка приоритетов при выборе источников данных

В малых или средних компаниях, ограниченных в ресурсах, специалист по работе с данными выбирает ограниченное количество источником данных. Определяя приоритеты при выборе источников данных, компания должна сосредоточиться на ценности данных для бизнеса.
Основная цель команды по работе с данными заключается в том, чтобы предоставлять данные, отвечающие потребностям определенных подразделений компании и их аналитиков, и помогать оказывать влияние на эффективность деятельности компании. У каждой команды или подразделения, как правило, имеется набор «основных» данных.
Проблема компании с ограниченными ресурсами в том, что разным подразделениям нужные разные данные. Специалист по работе с данными вынужден уравновешивать их запросы.
Таблица 3.1. Чем руководствоваться при выборе новых источников данных в условиях ограниченности ресурсов
При­о­ри­тет­ность
При­чи­на
Объ­яс­не­ние
Вы­со­кая
Дан­ные нуж­ны не­за­мед­ли­тель­но
Ес­ли у ка­ко­го-то под­раз­де­ле­ния ком­па­нии есть ост­рая по­треб­ность в дан­ных и жест­ко уста­нов­лен­ный срок, дан­ные для это­го под­раз­де­ле­ния нуж­но под­го­то­вить в первую оче­редь и как мож­но быст­рее
Дан­ные обес­пе­чат вы­со­кую цен­ность
На­при­мер, ес­ли дан­ные мо­гут по­мочь зна­чи­тель­но уве­ли­чить при­быль или сни­зить из­держ­ки, обес­пе­чив та­ким об­ра­зом вы­со­кую ROI, то этот ис­точ­ник дан­ных дол­жен иметь вы­со­кий при­о­ри­тет
Раз­ным ко­ман­дам тре­бу­ют­ся од­ни и те же дан­ные
ROI по­вы­ша­ет­ся, ес­ли вы од­но­вре­мен­но в со­сто­я­нии удо­вле­тво­рить за­про­сы не­сколь­ких на­прав­ле­ний биз­не­са
Дан­ные име­ют крат­ко­сроч­ный или по­то­ко­вый ха­рак­тер
Не­ко­то­рые ин­тер­фей­сы API по­то­ко­вых со­ци­аль­ных ме­диа или ап­па­рат­ных устройств обес­пе­чи­ва­ют лишь крат­ко­вре­мен­ное ок­но для по­лу­че­ния дан­ных, по­сле ко­то­ро­го дан­ные утра­чи­ва­ют­ся на­все­гда
Сред­няя
До­пол­не­ние су­ще­ству­ю­ще­го на­бо­ра дан­ных для по­вы­ше­ния его ка­че­ства
Но­вые дан­ные до­пол­ня­ют су­ще­ству­ю­щий на­бор дан­ных и обес­пе­чи­ва­ют зна­чи­тель­но бо­лее бо­га­тый кон­текст
Спе­ци­а­ли­сты по ра­бо­те с дан­ны­ми мо­гут по­втор­но ис­поль­зо­вать код об­ра­бот­ки су­ще­ству­ю­щих дан­ных
Ес­ли ко­ман­да зна­ко­ма с ис­точ­ни­ком или его ин­тер­фей­сом при­клад­но­го про­грам­ми­ро­ва­ния (API) и спо­соб­на ис­поль­зо­вать су­ще­ству­ю­щий код, это сни­жа­ет ве­ро­ят­ность не­из­вест­ных пе­ре­мен­ных или не­ожи­дан­но­стей
Дан­ные лег­ко до­ступ­ны
Ино­гда за­прос на по­лу­че­ние дан­ных мо­жет воз­ник­нуть про­сто по­то­му, что удобный клиент Python или API де­ла­ют про­цесс сбо­ра дан­ных очень про­стым, или дан­ные об­ла­да­ют чет­кой и про­стой струк­ту­рой. Ес­ли с этим ис­точ­ни­ком дан­ных мож­но разо­брать­ся быст­ро и он об­ла­да­ет цен­но­стью, сто­ит вос­поль­зо­вать­ся им по-быст­ро­му
Удоб­ный ин­тер­фейс при­клад­но­го про­грам­ми­ро­ва­ния (API) поз­во­ля­ет со­брать дан­ные за про­шлые пе­ри­о­ды
Ес­ли дан­ные не тре­бу­ют­ся сроч­но и вы зна­е­те, что все­гда смо­же­те по­лу­чить к ним до­ступ, то­гда сто­ит об­ра­тить вни­ма­ние на бо­лее важ­ные ис­точ­ни­ки дан­ных. На­при­мер, ес­ли вам по­тре­бу­ют­ся не­об­ра­бо­тан­ные дан­ные Google Analytics для со­зда­ния ар­хи­ва, вы все­гда смо­же­те их по­лу­чить
Низ­кая
У ана­ли­ти­ков ест до­ступ к дан­ным и об­ход­ные пу­ти для их по­лу­че­ния
Ес­ли у ана­ли­ти­ков есть до­ступ к дан­ным, пусть не иде­аль­ный, на­при­мер че­рез даш­борд, и есть воз­мож­ность вы­гру­зить эти дан­ные че­рез CSV или дру­ги­ми спо­со­ба­ми, то­гда при­о­ри­тет­ность это­го ис­точ­ни­ка низ­кая. Ве­ро­ят­но, есть дру­гие ис­точ­ни­ки дан­ных, к ко­то­рым у ком­па­нии по­ка нет до­сту­па, но ко­то­рые мо­гут иметь для ком­па­нии боль­шую цен­ность
Низ­кое ка­че­ство дан­ных
Ес­ли в ка­че­стве дан­ных есть со­мне­ния, то их ис­поль­зо­ва­ние в луч­шем слу­чае ни­че­го не даст, а в худ­шем бу­дет контр­про­дук­тив­ным
Дан­ные не­об­хо­ди­мо из­вле­кать из веб-стра­ниц
Так как вла­дель­цы сай­тов ча­сто из­ме­ня­ют HTML и CSS веб-стра­ниц и они не все­гда хо­ро­шо струк­ту­ри­ро­ва­ны, по­доб­ная об­ра­бот­ка дан­ных мо­жет ока­зать­ся до­воль­но слож­ной и по­тре­бо­вать уси­лий
Низ­кая ве­ро­ят­ность, что дан­ные бу­дут ис­поль­зо­вать­ся
Ес­ли это дан­ные из ка­те­го­рии тех, ко­то­рые «хо­ро­шо бы­ло бы иметь», и для них нет чет­ко­го при­ме­не­ния, это не са­мый хо­ро­ший вы­бор

Сбор данных

Как обновлять данные?
При частом обновлении данных нужно решить, как работать с этим потоком.
1) Для небольших таблиц или файлов проще полностью заменять их новыми данными.
2) Для работы с более крупными массивами данных необходимо установить более сложный процесс с анализом изменений.
В простом случае новые данные вносятся в новые ряды (например, журналы транзакций, где не должно быть обновлений или удалений текущих данных).
В сложных случаях необходимо решить, будете ли вы добавлять строку с новыми данными, удалять или обновлять.
Собирать сырые или агрегированные данные?
Поставщики данных могут предлагать дашборды, где данные агрегированы в соответствии с необходимыми показателями. Однако углубиться в данные и рассмотреть их с разных сторон с дашбордами не удастся. Поэтому лучше собирать сырые данные, так как вы сможете работать с ними как вам потребуется.

Покупка данных

Причин покупки данных:
1) пар­тне­ры, пос­тавщи­ки или го­сударс­твен­ные струк­ту­ры мо­гут рас­по­лагать дан­ны­ми, спо­соб­ны­ми обес­пе­чить нуж­ный кон­текст.
2) дан­ные треть­ей сто­роны мо­гут вы­иг­ры­вать по объ­ему или ка­чес­тву.
Факторы выбора источника данных:
Цена. Насколько рациональна цена и какова ценность данных для компании.
Качество. Насколько чисты и надежны данные
Эксклюзивность. Подготовлены ли данные исключительно для вас и получите ли вы с его помощью преимущество перед конкурентами
Выборка. Можно ли заранее получить выборку, которая позволит судить о качестве и характере данных, а также понять их формат
Обновления. Насколько часто данные меняются или обновляются
Условия использования. Есть ли условия лицензирования или другие ограничения, которые не позволят воспользоваться данными в полной мере
Формат. Предпочтительно использование форматов, удобных для восприятия человеком (CSV, JSON или XML). Насколько просто будет поддерживать формат? Потребуются ли дополнительные вложения и время на работу форматом
Документация. Нужно узнать, как собираются данные (чтобы понять, насколько они надежны и ценны для компании), есть ли словарь данных (в нем указываются поля, тип данных, примеры значений и другая важная бизнес-логика).
Объем. Сможете ли вы хранить большой объем данных
Степень детализации. Подходят ли данные для анализа необходимого  уровня

Сколько стоит набор данных?

- стоимость приобретения данных
- прямые расходы на хранение
- стоимость сервисов резервного копирования
- зарплаты сотрудников, обеспечивающих хранение и управление данными, а также их непроизводственные расходы

Глава 4. Специалисты по аналитике

Типы специалистов по аналитике

Аналитик
У них скромный опыт по многим навыкам, но очень глубокие знания и навыки в своей профессиональной области. Такие аналитики бывают главными экспертами в разных областях: работа с мнением клиентов, программы лояльности, электронный маркетинг, военная разведка или фондовый рынок. Результат работы аналитика - сочетание анализа и отчетов.
Инженеры в области обработки данных и анализа
Они собирают и обрабатывают данные и переводят их в формат, удобный для проведения анализа.
Бизнес-аналитики
Они выступают связующим звеном между руководством (например, руководителями отделов) и технологическим отделом (например, разработчиками программного обеспечения), улучшают бизнес-процессы или помогают в разработке новых или совершенствовании существующих систем, например, улучшение воронки продаж на сайте.
Data scientists (специалисты по работе с большими данными)
Это специалисты, обладающие математическими или статистическими знаниями, с высоким уровнем образования в точных науках и навыками программирования. Они разбираются в статистике лучше любого программиста и пишут программный код лучше любого статистика.
Специалисты по статистике
Это сотрудники, которые занимаются статистическим моделированием. Они занимаются анализом данных и разработкой опросов, исследований, сбором протоколов для получения сырых данных.
Кванты
Специалисты по количественному анализу. У них хорошая математическая подготовка, обычно работают в финансовом секторе, моделируя управление риском и движение фондового рынка. Например, пенсионный фонд нанимает кванта, чтобы сформировать оптимальный портфель облигаций.
Специалисты по экономическому анализу и финансовые аналитики
Специалисты, которые занимаются внутренней финансовой отчетностью, аудиторскими проверками, прогнозированием, анализом эффективности деятельности и т.д.
Специалисты по визуализации данных
Они создают инфографику, дашборды и другие графические элементы. Они могут написать программный код на JavaScript, CSS и HTML и работают с библиотеками визуализации данных D3 и HTML5.

Функции специалистов во многом пересекаются. В основном они обрабатывают данные с помощью языков программирования типа SQL. В одних случаях им требуются навыки программирования, в других – нет. Нередко требуется построение статистических моделей с применением SAS или R. В большинстве случаев работа аналитика объединяет подготовку отчетов и собственно проведение анализа.

Ключевые навыки и роли аналитиков

Группы аналитиков по ключевому навыку:
- бизнес;
- математика / анализ операций;
- машинное обучение / большие данные;
- программирование;
- статистика.
Роли аналитиков
1) Предприниматели. Специалисты по работе с данными, у которых больше развиты навыки, связанные с ведением бизнеса.
2) Исследователи. Специалисты, у которых больше развиты навыки в статистике.
3) Разработчики. Эксперты с двумя областями специализации —программирование и машинное обучение / большие данные.
4) Творческие специалисты. Специалисты, которые в среднем ни самые сильные, ни самые слабые ни в одной из групп по ключевому навыку.

Навыки и качества хорошего аналитика

Аналитический склад ума. Не обязательно иметь научную степень по математике или статистике, но нужно знать описательную статистику (медиана, мода, квартиль и т.д.), и быть готовым обучаться.
Внимание к деталям и методичность. Аналитик должен придерживаться правила «семь раз отмерь, один отрежь».
Рациональный скептицизм. Хороший аналитик интуитивно понимает, когда что-то не так с данными или результатами анализа: он прогнозирует, какие значения были бы более вероятны, ставит под сомнение качество данных, еще раз проверяет их источник и расчеты, когда показатели отклоняются от ожидаемых.
Уверенность в себе. Аналитик должен обладать уверенностью в себе, чтобы отстаивать свою точку зрения.
Любопытство. Аналитик постоянно должен проявлять любопытство, выдвигая разные гипотезы и тестируя интересные аспекты данных.
Навыки общения и повествования. Аналитик должен рассказать увлекательную и связную историю на основе данных и результатов анализа. Для этого он должен визуализировать данные и убедительно формулировать свои мысли в устной и письменной форме.
Терпение. Многие факторы находятся вне зоны контроля аналитика, в том числе точность или доступность источника данных, утерянные данные, меняющиеся требования, скрытая необъективность в данных, которая становится очевидной только после анализа и приводит к необходимости переделывать все заново.
Любовь к данным. Так же, как программистам просто нравится процесс написания кода, аналитикам информация нравится как ресурс, благодаря которому им удается понять окружающий мир и оказать на него влияние. Им просто нравится во всем разбираться досконально.
Стремление учиться. Успеха добиваются те, кто стремится узнавать новое, следит за новостями в своей профессиональной области, учится, чтобы совершенствовать знания и навыки.
Прагматизм и деловой подход. Аналитик должен концентрироваться на правильных вопросах. Иногда бывает трудно удержаться, чтобы не свалиться в «кроличью нору» и не потратить кучу времени на изучение отдельного пограничного случая, который не окажет никакого влияния на бизнес. Аналитик должен держать в голове общую картину и точно знать, в какой момент нужно остановиться и переключиться на что-то другое, чтобы более эффективно потратить свое время.

Еще один инструмент

Большинство аналитиков использует MS Word, Excel и PowerPoint в качестве основных инструментов. Они доказали свою эффективность. Но поразительно, как сказывается на продуктивности применение дополнительных инструментов.
Бросьте вывоз самому себе: в течение следующего месяца или квартала освойте еще один инструмент или программу. Попробуйте и увидите, какой будет удивительный результат.
Размер оплаты труда положительно коррелируется с количеством инструментов. Владение инструментами R, Python, Hadoop, D3, масштабируемыми инструментами машинного обучения, свидетельствует о более высокой квалификации аналитика, позволяя ему претендовать на более высокооплачиваемую позицию, чем когда аналитик владеет инструментами SQL, Excel и платформы RDB [реляционных баз данных].

Стоит обратить внимание на следующие аспекты.
Разведочный анализ данных и статистическое моделирование. R – популярная среда для статистических вычислений, располагает исключительными библиотеками визуализации данных (такими как ggplot2). Инструмент полезен для быстрого разведочного анализа данных.
Запросы к базам данных. Excel – эффективный инструмент, но у него возникают проблемы с обработкой большого объема данных: программа может сильно «тормозить». Поэтому язык программирования SQL — ценный инструмент в наборе аналитика. Вы можете делать запросы к базам данных любого объема.
Проверка файла и операции с ним. Когда аналитики работают с большим количеством файлов или с файлами большого объема, кто-то должен обладать элементарными знаниями Unix для проверки файлов и проведения операций с ними. В качестве альтернативы можно выбрать язык программирования, например Python.

Организация работы аналитиков в компании

Централизованная модель. Есть центральная команда аналитиков, и все аналитики подотчетны ей.
Децентрализованная модель. Аналитики работают в отдельных подразделениях. Они готовят отчеты для своих команд и разделяют их цели и задачи.
Таблица 4.2. Преимущества централизованной модели организации работы аналитиков над децентрализованной моделью. Недостатки выступают оборотной стороной преимуществ в любом из столбцов. Повышение уровня профессионализма может происходить в обоих случаях
Пре­иму­ще­ства
Цен­тра­ли­зо­ван­ная мо­дель
Де­цен­тра­ли­зо­ван­ная мо­дель
Чет­кий ка­рьер­ный путь
+

Пря­мой до­ступ в лю­бое вре­мя

+
Бо­лее ко­рот­кий срок вы­пол­не­ния ра­бо­ты

+
Кон­цен­тра­ция про­фес­си­о­наль­ных зна­ний и опы­та
+

Стан­дар­ти­зи­ро­ван­ный ин­стру­мен­та­рий и про­цесс обу­че­ния
+

Стан­дар­ти­зи­ро­ван­ные по­ка­за­те­ли
+

Мень­ше бю­ро­кра­тии

+
(Вос­при­ни­ма­е­мая) объ­ек­тив­ность
+

Бо­лее вы­со­кий уро­вень про­фес­си­о­наль­ных зна­ний и на­вы­ков
?
?

Другие виды организационных структур, более характерные для крупных компаний, перечислены ниже.
Консалтинговая структура. В некоторых компаниях централизованная модель модифицирована так, что аналитиков нанимают в подразделения в формате консалтинговой структуры. При слабой исполнительной власти есть риск, что аналитик соблазнится на деньги или поддержит более убедительного руководителя, но при этом для компании его работа не будет иметь большой ценности.
Функциональная структура. Форма централизованной модели, при которой аналитики включены в функциональное бизнес-подразделение и в основном «работает» на него. При этом они могут решать задачи других подразделений компании. Иногда вся команда аналитиков может даже перейти в другое подразделение.
Центр передового опыта. Напоминает смешанную структуру, но в большем масштабе, кроме того, ряд аналитических специалистов, таких как специалисты по статистике, остается в «центральном узле». Таким образом, аналитическая работа проводится как в отдельных подразделениях, так и центральной командой специалистов.
Нет единого ответа на вопрос, какая структура лучше. Все зависит от размера компании и области, в которой она действует. Например, не имеет смысла внедрять модель центра передового опыта, если в компании всего 5 аналитиков. Она будет эффективна в организациях с числом сотрудников больше 25 тыс.

Глава 5. Анализ данных

Что такое анализ данных?

Анализ — преобразование данных в выводы, на основе которых будут приниматься решения.
Данные, информация и знания
Данные – сырые, необработанные факты об окружающем мире. Информация — собранные, обработанные данные. Знания — набор ментальных моделей и убеждений об окружающем мире, который сформировался на основе информации:
- факт: температура на данный момент 6°C.
- информация: температура 6°C гораздо ниже климатической нормы.
- знания: при температуре 6°C на улице прохладно, я надену пальто. Вы объединили информацию за какой-то период времени и построили мыслительную модель, что это означает.

Виды анализа данных

Виды анализа данных от простого к сложному:
Описательная статистика
1) описательный (descriptive);
2) разведочный (exploratory);
Исследовательская статистика
3) индуктивный (inferential);
4) прогностический (predictive);
5) каузальный (причинно-следственный) (causal);
6) механистический (mechanistic).
Рассмотрим первые пять типов анализа. Механистический тип (6) больше связан с фундаментальной наукой, исследованиями и разработками, и к нему подходит термин «моделирование», чем «анализ».

Описательный анализ

Описательный анализ – первый шаг, знакомство с данными. Это количественное описание данных. Этот тип анализа касается только выборки, по которой проводится анализ, и не описывает совокупность, из которой она взята. На основании описательного анализа часто формируются данные, которые отображаются в дашбордах, например, количество новых пользователей за неделю или размещенных заказов с начала года.
Цель описательного анализа – числовое описании основных характеристик выборки:
- прояснить основные значения, отражающие распределение данных
- описать взаимоотношения между переменными с показателями, описывающими ассоциации, или в сводных таблицах.
1. Описательный анализ непрерывных переменных
Ниже перечислены наиболее важные показатели, применяемые в одномерном анализе (описывающий одну непрерывную переменную из набора данных).
1) Размер выборки. Количество единиц (записей) в выборке данных.
2) Меры среднего уровня.
2.1. Среднее значение.
2.2. Среднее геометрическое. Применяется для определения среднего значения при наличии мультипликативного эффекта, например, меняющихся процентов. Чтобы найти среднее геометрическое, нужно перемножить все значения и извлечь из них корень. Степень корня определяется количеством значений. Если вы получили 8% в первый год, а затем по 6% следующие три, средняя процентная ставка составит 6,5%.
2.3. Среднее гармоническое. Число, обратное среднему арифметическому их обратных. Например, если вы доехали до магазина со скоростью движения 80 км/ч, а на обратной дороге попали в пробку и скорость движения составила 32 км/ч, средняя скорость составит не 56, а 47 км/ч.
2.4. Медиана — 50-й процентиль.
2.5. Мода. Наиболее часто встречающееся значение.
3) Меры рассеяния
3.1. Минимум. Наименьшее значение в выборке (0-й процентиль).
3.2. Q1. 25-й процентиль. Значение выборки такое, что ¼ остальных значений выборки меньше него.
3.3. Q3. 75-й процентиль. Значение выборки такое, что 1/4 остальных значений выборки больше него.
3.4. Максимум. Максимальное значение в выборке (100-й процентиль).
3.5. Межквартильный размах. Разность между Q1 и Q3.
3.6. Размах. Разница между максимумом и минимумом.
3.7. Стандартное отклонение. Показатель рассеивания значений случайной величины относительно ее математического ожидания. Вычисляется как квадратный корень из дисперсии. Измеряется в тех же единицах, что и сама случайная величина.
3.8. Дисперсия. Мера разброса значений случайной величины относительно ее математического ожидания. Вычисляется возведением стандартного отклонения в квадрат. Измеряется в квадратах единицы измерения случайной величины.
3.9. Стандартная ошибка. Вычисляется путем деления стандартного отклонения на квадратный корень размера выборки. Показывает ожидаемое стандартное отклонение среднего значения выборки, если бы мы повторно получали выборки такого же размера из того же источника генеральной совокупности.
3.10. Коэффициент Джини. Показывает степень неравенства при распределении доходов. Равен половине ожидаемой абсолютной разницы между доходами двух случайно выбранных людей, деленной на средний доход.
4) Меры формы
4.1. Коэффициент асимметрии. Характеризует асимметрию распределения. Коэффициент асимметрии положителен, если правый хвост распределения длиннее левого, и отрицателен в противном случае. Число фолловеров среди пользователей сервиса Twitter характеризуется положительным коэффициентом асимметрии.
4.2. Коэффициент эксцесса. Мера остроты пика распределения случайной величины. У распределения с высоким коэффициентом эксцесса острый пик и плоские хвосты. При инвестировании это означает вероятность более резких колебаний по сравнению с переменной с нормальным распределением.
4.3. Тип распределения. Зная тип, а следовательно, и форму распределения, можно узнать его потенциальные характеристики (например, в нем могут быть редкие, но сильно отклоняющиеся значения), понять логику процесса генерации данных,  определить, какие еще показатели требуется собрать.
Примеры типов распределения: нормальное распределение (распределение Гаусса), логарифмически нормальное распределение, экспоненциальное распределение и унимодальное распределение.
2. Описательный анализ категориальных переменных
Не все переменные — непрерывные. Например, пол и продуктовая линейка относятся к категориальным переменным. Поэтому описательный анализ может включать таблицы частотности для разных категорий или факторные таблицы, подобные следующей.
Объем продаж по регионам
Пол
За­пад­ный
Юж­ный
Цент­раль­ный
Вос­точ­ный
Ито­го
Мужс­кой
Женс­кий
Ито­го
3485
6745
10 230
1393
1546
2939
6371
8625
14 996
11 435
15 721
27 156
22 684
32 637
55 321
На этом уровне анализа специалист должен знать, по какому критерию следует группировать данные, и понимать, когда какие-то данные выделяются из общей массы и представляют интерес. Например, в предыдущей таблице интересно, почему настолько велика доля женщин, совершающих покупки в западном регионе.
При работе с двумя переменными описательный анализ может включать меры ассоциации, например вычисление коэффициентов корреляции и ковариации.

Перечисленные показатели могут быть ценными сами по себе. Этих данных достаточно, чтобы:
- составить  стандартный или ad hoc отчет, запрос или оповещение (уровни аналитики 1-4). Например, узнать и отследить среднее число заказов или наибольшую длительность их выполнения.
- убедиться в качестве данных. Например, если максимальный возраст игрока, зарегистрированного на сайте, 115 лет, то либо пользователь ошибся при вводе этой информации, либо в графе с датой рождения установлена дата по умолчанию 1900.

Разведочный анализ

Предположим, у вас четыре набора данных с двумя переменными со следующими характеристиками.

Ха­рак­те­рис­ти­ка
Зна­че­ние
Размер выборки в каждом случае
11
Среднее значение переменной x в каждом случае
9
Дисперсия переменной x в каждом случае
11
Среднее значение переменной y в каждом случае
7,5
Дисперсия переменной y в каждом случае
4,122 или 4,127
Корреляция между x и y в каждом случае
0,816
Прямая линейной регрессии в каждом случае
y=3,00 + 0,500x

Это система с жесткими заданными ограничениями. Значит, графики этих четырех наборов данных с идентичными статистическими характеристиками должны быть похожими, не так ли? А вот рис. 5.4 показывает, что это далеко не так.

При­мене­ние гра­фиков для ви­зу­али­зации и изу­чения дан­ных – раз­ве­доч­ный ана­лиз. Графики помогают видеть более масштабную картину, отмечать очевидные или необычные закономерности. Нередко аналитические выводы и понимание данных начинают формироваться именно на этом этапе.
Не ограничивайтесь использованием 1-2 типов диаграмм. Каждый тип диаграммы выполняет свою задачу. Изучите их преимущества и недостатки и применяйте те, которые лучше отражают интересные сигналы, тренды или образцы.
Подробнее о выборе графиков в главе 7.

Индуктивный анализ

Описательный и разведочный анализы – описательная статистика: они описывают характеристики предлагаемого набора данных.
Другое направление — статистические исследования: логическое извлечение информации (параметры, распределение или взаимосвязи) о более широкой генеральной совокупности, из которой был взят набор данных. Кроме того, они обеспечивают основу для тестирования гипотез, на основе которых можно разрабатывать и проводить эксперименты для анализа понимания внутренних механизмов и процессов.
Причины применения индуктивного анализа:
- выводы обо всей генеральной совокупности делаются на основе взятой из нее выборки, так как полный сбор данных бывает слишком дорогим, непрактичным или просто невозможным.
- обеспечение объективности оценки расхождений и результатов.
Представьте, что вы отчитываетесь о результатах перед руководителем. На основе описательного анализа вы можете только констатировать результат: «Мы обнаружили разницу в объеме 3,36 долл./месяц, вектор движения правильный, и, кажется, это результаты кампании по поощрению лояльности клиентов». Однако на основе индуктивного анализа ваши выводы могут быть более убедительными: «Мы обнаружили разницу в объеме 3,36 долл./месяц, и вероятность, что мы получили бы подобный результат без реального изменения в поведении покупателей, составляет 2,3%. Данные свидетельствуют, что это эффект от кампании по поощрению лояльности клиентов». Или наоборот: «Мы обнаружили разницу, но при этом вероятность, что этот результат случаен, составляет 27%. Вероятнее всего, кампания не была эффективной, по крайней мере, для данного конкретного показателя».
Индуктивный анализ имеет большую ценность и оказывает более значительное влияние на деятельность компании.
Статистические выводы обеспечивают ответы на приведенные ниже типы вопросов.
1) Стандартная ошибка, доверительный интервал, статистическая погрешность. Насколько можно быть уверенным в этом среднем выборочном или в доле выборки? Насколько будет отличаться значение, если провести эксперимент повторно?
2) Математическое ожидание по одной выборке. Насколько полученное среднее выборочное отличается от ожидаемого значения?
3) Разница средних значений по двум выборкам. Насколько сильно отличаются средние значения по двум выборкам? Какова вероятность, что мы бы наблюдали разницу средних значений будь верна гипотеза про отсутствие разницы между средними значениями по генеральной совокупности по двум выборкам?
4) Вычисление размера выборки и анализ статистической мощности. Каким должен быть минимальный размер выборки, учитывая, что мне уже известно о процессе, чтобы достигнуть определенного уровня уверенности в качестве данных? Эти типы статистических инструментов важны для планирования A/B-тестирования.
5) Распределение данных. Соответствует ли распределение значений в этой выборке нормальному (конусообразному) распределению? Вероятно ли, что у этих двух выборок будет одинаковое исходное распределение?
6) Регрессия. Предположим, я провел тщательно разработанный эксперимент, в котором системно изменял одну (независимую) переменную, контролируя при этом максимально возможное число других факторов, после чего я построил прямую регрессии. Насколько я могу быть уверен в этой прямой? Насколько высока вероятность ее изменения (угол наклона и точка пересечения) при многократном повторении эксперимента?
7) Критерий соответствия и ассоциированности. В случае с категориальной переменной (например, категория продукта), соответствует ли частота или число (например, покупок) ожидаемой относительной частоте? Наблюдается ли взаимосвязь между двумя переменными, одна из которых категориальная?

Прогностический анализ

Прогностический анализ строится на индуктивном анализе. Цель – изучить взаимосвязи между переменными и разработать статистическую модель, способную прогнозировать значения для новых, неполных или будущих данных.
Сферы применения прогностического анализа:
1) Прогноз временных рядов. В сфере розничной торговли могут наблюдаться устойчивые закономерности.
2) Прогноз класса объект анализа. На основе информации о размере заработной платы, истории покупок, оплаченных кредитной картой, можно вычислить кредитный риск человека.
3) Приложения, использующие прогностическую аналитику:
3.1. Прогнозы, формирующие основу сервиса
- Приложения для знакомств
- Приложения для игры на бирже
3.2. Прогнозы, обеспечивающие уровень обслуживания для клиентов
- Спам-фильтры
- Рекомендации по контенту
- Общение в социальных сетях («Люди, которых вы можете знать»)
3.3. Прогнозы, способные обеспечить более высокий уровень конверсии и размер корзины
- Кросс-продажи и увеличение объема покупки («Пользователи, которые купили … , также покупают …»)
- Рекламные объявления и купоны на основе истории покупок пользователя
3.4. Прогнозы, способствующие улучшению стратегии
- Одобрение от банка
- Прогнозирование в работе органов правопорядка
- Прогнозирование активности пользователей
3.5. Политические кампании (прогнозирование намерений избирателей)

Способы проведения прогностического анализа:
1) Самый простой — прогнозировать, что завтра будет таким же, как сегодня. Этот подход может сработать в случае медленно изменяющихся явлений.
2) Машинное обучение: нейронные сети, деревья решений и регрессии, алгоритм машинного обучения «Случайный лес», метод опорных векторов, метод k ближайших соседей.

Каузальный (причинно-следственный) анализ

Если между двумя переменными наблюдается корреляция, это не означает, что одна из них обусловливает другую.
Если вы хотите понять систему и узнать, на какие переменные и показатели вы влияете, требуется разработать причинно-следственную модель. Для этого нужно провести один или серию экспериментов с изменением одного параметра и контролем максимального количества остальных. Эксперименты обеспечивают понимание системы и причинно-следственных взаимосвязей.
Время отправки сообщения может оказать влияние на уровень просмотра. Чтобы это проверить, можно провести эксперимент с вариантами (сделать отправку электронной рассылки по частям в 8, 9, 10 часов и т.д.) и проанализировать, как время отправки сообщения повлияло на уровень просмотра.
Казуальный анализ используется при:
- составлении прогнозов
- планировании кампаний и других изменений.
- создании имитационных моделей в процессе оптимизации систем.

Рекомендации

Аналитикам. Действуйте в двух направлениях — «точите топор» и расширяйте арсенал инструментов. Вы станете более эффективным и ценным специалистом, это инвестиции в себя. Оцените статистические навыки и навыки визуализации данных, которыми вы сейчас пользуетесь. Как можно их улучшить? Что необходимо, чтобы овладеть новым навыком?
Руководителям. Обращайте внимание на ситуации, в которых применение дополнительных видов анализов обеспечит более глубокие выводы. Если отсутствие товара на складе – проблемное место цепочки поставок, можно ли исправить эту ситуацию с помощью прогнозных моделей? Можно ли проводить больше экспериментов, которые углубят знания причинных факторов? Стимулируйте специалистов по работе с данными на повышение квалификации. Позвольте им пробовать новые программы.

Глава 6. Разработка показателей

В компании с управлением на основе данных должна быть четкая стратегия развития бизнеса, а также набор ключевых показателей эффективности деятельности (KPI) для отслеживания, в верном ли направлении и насколько успешно идет развитие бизнеса. Ответственность за достижение KPI ложится на бизнес-единицы или подразделения, где могут быть определены дополнительные KPI подразделения.

Разработка показателей

Принципы выбора и разработки показателей:
Простота
Простые показатели просто объяснить, а это означает:
- их суть проще донести до людей: возникает меньше непонимания;
- их проще реализовать: выше вероятность, что их рассчитают правильно;
- они с большей вероятностью поддаются сравнению с показателями других подразделений или компаний.
Единый стандарт
Оптимальный вариант — иметь единый централизованный, автоматический, документально подтвержденный «источник истины», из которого бы черпали информацию подразделения.
Применяйте общепринятые показатели. При использовании нестандартных показателей зафиксируйте документально, как и почему они нестандартные.
Достоверность и точность
Рис. 6.1. Точность («кучность») и достоверность (меткость попадания в мишень) на примере двухмерных данных. Достоверность означает, что среднее числовое значение приближено к истинному теоретическому среднему значению Недостоверный показатель необъективен, так как его среднее значение отличается от истинного среднего значения. Точность показателя отражает его вариативность: насколько будет отличаться среднее значение, если вы повторите эксперимент несколько раз и соберете новые выборки такого же размера.

При разработке показателей учтите все потенциальные источники искажения в данных и в самом показателе.
Относительные или абсолютные показатели
Выбор между применением абсолютных  или относительных показателей может привести к разным интерпретациям.
В компании 25% от общего количества клиентов относятся к категории VIP. Через полгода у этой компании только 17% VIP-клиентов. Что случилось?


Рис. 6.2. В верхнем сценарии компания сосредоточила усилия на привлечении новых клиентов (показано оранжевым). Это привело к увеличению общего количества клиентов, количество VIP-клиентов осталось прежним, но пропорция уменьшилась. В нижнем сценарии компания сосредоточила усилия на работе с текущими клиентами. Пропорция и количество VIP-клиентов стали выше, но общего увеличения клиентской базы не произошло.
Робастность
Робастные показатели – те, что нечувствительны к отдельным резко отличающимся значениям.
Средняя зарплата специалистов технического профиля 291 тыс. долл. Глава Facebook Марк Цукерберг получил всего 1 доллар в качестве зарплаты и заработал 3,3 млрд долл. на опционах на покупку акций. Если вычесть 3,3 млрд долл. из общей суммы, то среднее значение получится 210 тыс. долл.
Использовать среднее значение в данном случае не следует. Среднее значение существенно завышено из-за одной резко отличающейся переменной. Рациональнее выбрать медиану, так как она более устойчива к резко отличающимся значениям и лучше отражает средние данные.
Оценить или визуализировать робастность можно с помощью повторной выборки:
1) Возьмите набор данных и вычислите показатель.
2) Повторите расчеты несколько раз, заменяя набор данных.
3) Получив ряд значений показателя, составьте их распределение.
4) Насколько это распределение отличается от того, что вы ожидали увидеть?
Прямая связь
Выбирайте показатели, которые непосредственно измеряют нужный процесс. Правда, это не всегда получается.
Везде, где возможно, оснащайте процессы и системы контрольно-измерительными средствами и избегайте приближенных показателей.
Сконцентрируйтесь на данных, которые следовало бы собрать и использовать, а не на тех, какие оказались под рукой.

Ключевые показатели эффективности

Ключевые показатели эффективности (KPI) – набор значений самого высокого уровня, связанных со стратегическими целями компании. Они помогают определить и отследить направление, в котором развивается бизнес, и позволяют достигать намеченных целей.
Два краеугольных камня KPI — показатели и цели, — так как KPI связывают их воедино. Примеры KPI: «Повысить узнаваемость бренда на 10%», «Удвоить количество пользователей к концу года», «Увеличить онлайн-конверсию на 5% во втором квартале».
Требования к KPI
1) четко определены: имеют целевое значение и обозначенный срок.
2) измеряемы. Если что-то нельзя измерить, это невозможно исправить.
3) содержат цели и достижимы. «Повысить выручку» — это плохой KPI, так как в нем нет цели в числовом выражении. Если выручка компании повысится на 5 долл., сотрудники заявят, что задача выполнена, и прекратят прилагать усилия. И наоборот, если цель очевидно завышена и нереалистична, «повысить выручку на 5000%», её не воспримут всерьез.
4) прозрачны. Сотрудники должны получать обратную связь и понимать, приносят ли их усилия результаты или им что-то изменить в своей деятельности.
5) отражают цели, которых хочет добиться компания» Легко попасться в ловушку и начать отслеживать то, что легко измерить, например время ответа на телефонные звонки в центре обслуживания клиентов, когда истинная цель – повышение удовлетворенности клиентов.
6) соответствуют критериям SMART:
- конкретны (Specific);
- измеримы (Measurable);
- достижимы (Achievable);
- ориентированы на результат (Result-oriented);
- ограниченны во времени (Time-bound).
+
- оцениваемы (Evaluated)
- вознаграждаемы (Rewarded).
Примеры ключевых показателей эффективности
Таблица 6.1. Набор стандартных KPI для бизнеса
Фи­нан­со­вая де­я­тель­ность
По­ни­ма­ние по­ку­па­те­лей
Чи­стая при­быль
Ко­эф­фи­ци­ент до­ход­но­сти
Ко­эф­фи­ци­ент ва­ло­вой при­бы­ли
Чи­стая при­быль от ос­нов­ной де­я­тель­но­сти
При­быль до упла­ты на­ло­гов, про­цен­тов, из­но­са и амор­ти­за­ции (EBITDA)
Рост вы­руч­ки
Со­во­куп­ная при­быль ак­ци­о­не­ров (TSR)
До­бав­лен­ная эко­но­ми­че­ская сто­и­мость (EVA)
ROI
Рен­та­бель­ность при­вле­чен­но­го ка­пи­та­ла (ROCE)
Ко­эф­фи­ци­ент рен­та­бель­но­сти ак­ти­вов (ROA)
Рен­та­бель­ность соб­ствен­но­го ка­пи­та­ла (ROE)
Со­от­но­ше­ние соб­ствен­ных и за­ем­ных средств
Цикл об­ра­ще­ния де­неж­ных средств (CCC)
Ко­эф­фи­ци­ент обо­рот­но­го ка­пи­та­ла
Ко­эф­фи­ци­ент опе­ра­ци­он­ных рас­хо­дов (OER)
Со­от­но­ше­ние ка­пи­таль­ных за­трат и объ­е­ма про­даж
Ко­эф­фи­ци­ент цен­но­сти ак­ции (P/E ratio)
Ин­декс по­тре­би­тель­ской ло­яль­но­сти (NPS)
Ко­эф­фи­ци­ент удер­жа­ния кли­ен­тов
Ин­декс удо­вле­тво­рен­но­сти по­тре­би­те­лей
По­ка­за­тель до­ход­но­сти кли­ен­та
По­жиз­нен­ная цен­ность кли­ен­та (CLV)
По­ка­за­тель воз­вра­ща­е­мо­сти кли­ен­тов
Во­вле­чен­ность кли­ен­тов
Жа­ло­бы кли­ен­тов

Каждая компания должна выбрать и скорректировать под себя собственные KPI, учитывающие область деятельности, бизнес-модель, этап жизненного цикла компании, её цели и задачи.
KPI должны показывать целостную картину деятельности компании в четырех областях:
- финансы
- работа с клиентами
- внутренние бизнес-процессы
- обучение и развитие.
Все эти компоненты нужно рассматривать как единую стратегию.
Сколько KPI должно быть?
В компании может быть 4-5 основных направлений. По каждому из этих направлений могут быть 2-5 стратегических целей, каждая из которых может быть связана с 1-3 KPI.
Если KPI много, у сотрудников будет рассеян фокус внимания, в результате чего их эффективность снизиться. Например, небольшая компания не может одновременно расширить продуктовую линейку, повысить удовлетворенность покупателей, увеличить выручку и выйти на международный рынок.
Цели и формулировки KPI
В формулировках KPI не должно быть общих, двусмысленных или непонятных глаголов «улучшить», «повысить», существительных и прилагательных «лучший», «ведущий», «качество». Такие слова нужно заменить на более конкретную формулировку. Все цели должны содержать конкретные числовые показатели, быть измеряемы и ограниченны во времени.
Хорошие цели для KPI:
- «Сократить количество недостающих контейнеров на 5% в следующем году»
- «Увеличить число клиентов из Италии на 20% к концу 2011 года»
Плохие цели для KPI:
- «Стать лучшей транспортной компанией в регионе» (что значит «лучшей»?)
- «Улучшить работу с жалобами клиентов» (как «улучшить»?)
- «Ответить на 75% жалоб в течение 5 дней» («Ответить на 75% жалоб» — это конкретно. «В течение 5 дней» — ограничение по времени. Но проблема в оставшихся 25% жалоб. Это плохая цель, если на обработку оставшихся 25% жалоб уйдет 3 месяца. Сотрудники не должны пользоваться подобными «лазейками» в формулировках, чтобы формально выполнять задачи, но не способствовать достижению стратегических целей компании. В данном случае негативных отзывов от этих 25% клиентов будет достаточно, чтобы уничтожить репутацию компании)

Глава 7. Сторителлинг на основе данных

Сторителлинг

Любые данные способны рассказать историю. Цель специалиста по анализу данных – увидеть эту историю, сформулировать её и донести до аудитории.
История должна содержать:
- основные выводы
- особенности или закономерности данных, чтобы раскрывать причины происходящего, делать прогнозы и формулировать рекомендации.
Сторителлинг – повествовательный слой визуализации данных.
Рис. 7.1, дополненный описательной частью, более полезен, чем просто рис. 7.1.

За одной кривой стоит насыщенная история. 1) Первый подъем (в марте 2007) объяснялся шумихой вокруг Twitter на Southwest Conference, когда на сервис впервые обратили внимание, и количество его пользователей сразу утроилось. 2) Замедление роста после второго подъема (в марте 2008) объясняется тем, что Twitter начал активно вносить в черный список спамеров. 3) В апреле 2009 г. сервис получил широкую известность: Эштон Кутчер поспорил с телеканалом CNN, у кого из них первым будет 1 млн. подписчиков, а Опра Уинфри первый раз отправила сообщение в Twitter и сделала это в прямом эфире. 4) Аналогичная кривая, построенная на данных пользователей из Австралии, похожа на кривую по США, но имеет свои отличия. Так, последний рост количества пользователей Twitter в Австралии в 2013 г. совпал с проведением выборов.
Можно включить информацию о переломных моментах в график и таким образом усилить историю (рис. 7.2).


Первые шаги

Прежде чем размышлять, как представить данные, ответьте на три вопроса:
1) Чего вы хотите добиться?
2) Кто ваша аудитория?
3) Каким средством вы воспользуетесь?
1) Чего вы хотите добиться?
Какова ваша цель? Какого результата вы надеетесь достигнуть? Зачем вы представляете эти данные, к каким выводам вы пришли и что произойдет дальше?
2) Кто ваша аудитория?
Насколько хорошо эти люди подкованы технически, умеют ли они оперировать данными? Каковы их ожидания? Каковы их уровни заинтересованности и мотивации? Насколько они заняты? Структурируйте материал соответственно типу аудитории.
- Если для разговора с большим боссом несколько минут, будьте лаконичны и конкретны: «Я рекомендую следующие меры, так как они позволят получить миллион дополнительного дохода в течение следующего года».
- В часовой презентации для специалистов по статистике, можно углубиться в технические детали. Возможно, их заинтересуют доверительные интервалы или графики плотности распределения.
- Для финансового директора используйте большие таблицы финансовых показателей.
- Для более широкой аудитории, например во время общего собрания, лучше облегчить информацию и представить общие выводы без технических подробностей.
3) Каким средством вы воспользуетесь?
Будет ли это доклад в письменной форме, презентация в PowerPoint, дашборд или инфографика?
Решение относительно средства презентации в совокупности с пониманием заинтересованности аудитории и отводимого времени, поможет определить, насколько глубокой она должна быть. Если у вас только три минуты, чтобы выступить перед топ-менеджером, то презентация в PowerPoint на 37 слайдов с кучей технических деталей точно не понадобится.
Не копируйте визуальную информацию из одного средства в другое. Например, копирование большой таблицы из письменного отчета и размещение её на слайде в PowerPoint, который вы собрались демонстрировать на общем собрании, малоэффективно. Подгоняйте каждый слайд, график или таблицу под то средство, которым вы пользуетесь.
Продавайте!
Аналитик продаёт идею (увеличить бюджет, изменить базу данных, привлечь больше пользователей):
1) наиболее объективную, логичную и экономичную (простую)
2) действие (что следует сделать) и результат (что получится в итоге этого действия).

Визуализация данных

Следующий шаг — выбрать форму презентации данных. Это может быть таблица, но чаще всего диаграмма.
Выбор диаграммы
Чтобы выбрать тип диаграммы, нужно выбрать причину анализа:
1) Сравнение. Например, сравнить изменения во времени.
2) Распределение. Показать изменчивость набора данных.
3) Взаимосвязь. Отразить взаимосвязь между переменными.
4) Состав. Показать распределение данных между несколькими категориями.
На рис. 7.5 приведены примеры разных типов диаграмм.

Полное представление типов диаграмм есть в инфографическом постере Graphic Continuum (см.интернет).
Выбор элементов диаграммы
Контрольный список для визуализации данных Стефани Эвергрин:
Текст
Описательный заголовок из 6–12 слов в левом верхнем углу с выравниванием по левому краю.
Подзаголовок и/или примечания с дополнительной информацией.
Размер текста многоуровневый и читаемый.
Расположение текста горизонтальное.
Данные с ярлыками.
Ярлыки применяются умеренно.
Вы­рав­ни­ва­ние
Пропорции соблюдены.
Данные выровнены.
Расстояния между осями равноудаленные.
График двухмерный.
Минимум украшательств.
Цвет
Выбор цвета преднамеренный.
Цвет применяется для выделения основных закономерностей.
Цвет понятен при распечатке в черно-белом варианте.
Цвет понятен для дальтоников.
Текст достаточно контрастирует с фоном.
Ли­нии
Линии сетки скрыты.
У графика нет рамки.
На осях нет ненужных отметок.
На графике одна горизонтальная и одна вертикальная ось.
Об­щие ком­мен­та­рии
График подчеркивает значимые результаты или выводы.
Тип графика соответствует данным.
Присутствуют данные для сравнения или обеспечения контекста.
Отдельные элементы диаграммы работают вместе для усиления основного сообщения.

Фокусировка сообщения
Один из способов сделать сообщение сфокусированным — показывать только данные, представляющие интерес.

Рис. 7.6. Пример эффективного использования выделения цветом. При представлении данных о Японии название страны выделено жирным шрифтом, а столбец диаграммы обозначен более светлым цветом. Это позволяет сфокусироваться на данных относительно Японии, которые при этом остаются в контексте
Чрезмерное украшательство
Все должно быть просто. Исключите «графический мусор» и излишества и сконцентрируйтесь на данных и сообщении.
Графический мусор — визуальные элементы, в которых нет необходимости для понимания информации или которые отвлекают от нее.

Рис. 7.7. Слайд программы PRISM АНБ США, переполненный «графическим мусором»
На рис. 7.7 хро­ноло­гичес­кая шка­ла, ког­да ком­па­нии при­со­еди­нились к прог­рамме АНБ. Это ос­новное со­об­ще­ние, но из-за мно­жес­тва до­пол­ни­тель­ных гра­фичес­ких эле­мен­тов вни­мание от не­го от­вле­чено:
- в вер­хней час­ти  бес­по­рядоч­но раз­ме­щены 11 ло­готи­пов. Они со­от­но­сят­ся с жел­ты­ми ова­лами, но не в про­пор­ции 1:1.
- ло­готип  прог­раммы и под­разде­ления АНБ.
- зе­леная стрел­ка. Ка­кова ее роль?
- по­чему дан­ные рас­по­ложе­ны по воз­раста­ющей?
Подобные украшательства отвлекают внимание по двум причинам:
1) пользователь тратит время на из рассматривание и обдумывание;
2) пользователю сложно определиться, на чем сосредоточить внимание.
На рис. 7.8 приведен один из вариантов исправления этого слайда. На слайде выделены два важных блока: компании и время их присоединения к программе. Девять компаний — девять логотипов.

Организация данных

Представление информации на диаграмме зависит от типа диаграммы, и наоборот. Выбор диаграммы зависит от структурного выбора, например, как расположить столбцы диаграммы — горизонтально или вертикально.
На рис. 7.9 показан среднегодовой размер оплаты труда госслужащих в Великобритании по тарифным разряда с делением по гендерному признаку.

А теперь посмотрите, что получится, если во всех тарифных разрядах поменять местами столбцы, обозначающие пол (рис. 7.10).
Рис. 7.10. Вам не кажется, что неравенство в заработной плате по гендерному признаку бросается в глаза сильнее?

Подача данных

Инфографика
В контексте управления на основе данных я не поклонник инфографики: инфографика – «веселые картинки», приправленные парой фактов, которые создают дизайнеры, а не аналитики. Инфографика страдает от «графического мусора» и недостатка данных.
Инфографика подходит для коммуникации с широкой публикой, когда нужно показать сложные вещи просто.
Руководителям требуется информация высокого качества, чтобы запомнить основную мысль, оценить ее и убедиться, что решение, которое они собираются принять, правильное.  Они должны быстро и без усилий увидеть центральные пункты, а «графический мусор» этому препятствует.
Дашборды
Категории дашбордов:
1)  управленческие или стратегические. Общий обзор деятельности компании на основе KPI для топ-менеджмента. Дашборд просто и быстро показывает, достигает ли компания целей.
2) аналитические. Тенденции развития и показатели в рамках одного подразделения или направления деятельности, например, цепочка продаж или поставок. Они интерактивны и дают возможность тщательного изучения необычного тренда или резко отличающихся показателей.
3) операционные. Подробное представление отдельных аспектов бизнеса, например, объем продаж в онлайн режиме, интернет-трафик или время ожидания клиентов. Используются для оповещения, а также в работе сотрудников, которые могут предпринять немедленные действия.
Используйте принцип «Чем проще, тем лучше»: любые диаграмма или показатель в дашборде должны быть обоснованы. Если дашборд перенасыщен данными, интерпретировать их сложнее.

Глава 8. A/B-тестирование

Что такое A/B-тестирование

Сложно прогнозировать, какой вариант (например, оформления объявления) окажется эффективнее, и еще сложнее предсказать влияние этих вариантов на другие показатели. Тестирование переводит диалог из плоскости «Мне кажется…» в плоскость «Согласно данным…».
Общая схема A/B-тестирования:
1) Установить контроль, например, над текущим состоянием сайта (вариант А). Половину трафика сайта направить на эту версию (посетители группы А).
2) Вторую половину пользователей (посетители группы В) направить на другую версию сайта (вариант В), имеющую небольшие отличия, например, надпись на кнопке оформления заказа — «Приобрести», а не «Купить сейчас».
3) Определить показатель для тестирования, например влияет ли надпись на кнопке на уровень средней выручки на посетителя.
4) Провести эксперимент в течение установленного времени (дней или недель)
5) Провести статистический анализ. Есть ли статистически значимая разница в фокусном поведении  между группой А и группой В. Если разница есть, то в чем ее причина? Если эксперимент был полностью контролируемым (в условиях имелось лишь одно небольшое отличие), возможны два варианта. Либо это случайность, что вероятно при маленьком размере выборки. Либо разница носит причинно-следственный характер.
Тестировать можно что угодно. Можно не ограничиваться только онлайн-форматом. Например, можно привести маркетинговые акции по увеличению лояльности покупателей.
Полученные результаты могут дать конкурентное преимущество и помогут узнать своих клиентов.
Вместо споров, просто всё тестируем и точно знаем, что лучше.
Если вы что-то попробовали, но это не сработало, просто вернитесь к первоначальному варианту. В любом случае вы узнаете что-то новое о клиентах. Вы ничем не рискуете.
Чтобы выиграть в долгосрочной перспективе, совсем не обязательно, чтобы срабатывал каждый эксперимент. Единственное положительное изменение способно оказать огромное влияние на итоги всей деятельности.

Подготовительный этап

1) Критерии эффективности
Четко сформулируйте критерии эффективности до начала тестирования:
1) определить четкую цели и имеющиеся средств.
2) определить ключевые показатели (или критерии оценки). В чем будет заключаться успешный результат? Если этого не сделать, может появиться соблазн собрать как можно больше данных в ходе эксперимента, а на этапе анализа начать тестировать всё и ухватиться за значимые результаты. Хуже того, может появиться мысль выборочно отразить в отчетах только положительные показатели и результаты.
2) А/А-тестирование
A/A-тестирование – сравнение двух контрольных групп, все изначальные условия для которых одинаковые.
Цель A/A-тестирования:
- тестирование и мониторинг инфраструктуры и процессов распределения. Если вы зададите настройки системы для разделения трафика 50/50, но размер выборок в двух группах будет сильно отличаться, это означает, что с процессом распределения что-то не так.
- если при сопоставимом размере двух выборок наблюдаются сильно отличающиеся показатели деятельности, это свидетельствует о проблемах с отслеживанием событий, проведением анализа или составлением отчетности. При многократном проведении A/A-тестов нужно отслеживать расхождения больше, чем стандартный уровень значимости (5%).
- результаты тестирования можно использовать для оценки вариативности контролируемых показателей.
3) Планирование A/В-теста
Продумайте ход эксперимента, ответив на следующие вопросы:
1) Цель
- цель теста?
2) Зоны ответственности
- кто представитель от бизнеса?
- кто отвечает за реализацию тестов?
- кто осуществляет бизнес-аналитику?
4) Планирование эксперимента
- какие показатели планируете тестировать, а какие будут являться контрольными?
- кто составит тестовую и контрольную группы (люди)?
- каковы нулевая и альтернативная гипотезы?
- какие показатели планируете отслеживать?
- когда будут обсуждаться результаты и формироваться обратная связь?
- когда начнется тестирование?
- требуется ли время для «разогрева»? с какого момента пойдет отсчет эксперимента для аналитических целей?
- сколько продлится тест?
- как определили размер выборки?
5) Процесс анализа
- кто будет проводить анализ?
- какой вид анализа будет проводиться?
- когда начнется процесс анализа?
- когда он завершится?
- какое программное обеспечение будет использоваться для его проведения?
6) Результаты
- как будут распространяться результаты анализа?
- как будет приниматься окончательное решение?
Список длинный, но после проведения большого количества тестов, некоторые из вопросов перейдут в стандартные. Например: «При проведении анализа мы всегда используем R» или «Проведение статистического анализа делает Сара».
Эти вопросы постепенно внедряться в корпоративную культуру, процесс будет становиться все более автоматическим, пока не станет естественным и привычным.
4) Размер выборки
Используйте онлайн-калькулятор минимального размера выборки.
Для расчёта предварительно  необходимо определить два параметра:
- статистическая мощность для определения статистически достоверного различия. Обычно используется мощность 0,8. Это означает, что при существовании различия можно определить различие с вероятностью 80%.
- статистический уровень значимости, обычно составляющий 5%.
В форме калькулятора (этот тип калькулятора для контроля переходов на сайт) вводим два этих значения (см. нижнюю часть рисунка 8.3) и дополнительную информацию:
- базовый показатель коэффициента конверсии. Это текущий коэффициент в контрольной группе.
- минимально заметное влияние. Это означает, что при существовании значительного различия, например 7%, вы сможете определить его сразу же и обойтись при этом небольшим размером выборки. Если требуется определить менее значительное различие, например 1%, потребуется выборка более крупного размера, чтобы убедиться, что различие действительно существует и оно не случайно.
При коэффициенте конверсии 10% и различии 1% потребуется выборка из 28616 человек: 14313 составят контрольную группу и столько же — тестовую.

Рис. 8.3. Калькулятор размера выборки для определения конверсии
Под разные ситуации есть соответсвующие калькуляторы размера выборки, отличающиеся требованиям по вводимой информации.
5) Продолжительность тестирования
Оценить, сколько дней нужно на проведение эксперимента, можно делением среднего дневного трафика на общий размер выборки.
Обратите внимание, что это минимальный размер выборки. Предположим, исходя из размера выборки и уровня посещаемости сайта, рекомендуется проводить тестирование в течение 4 дней. Если в эти дни уровень посещаемости был ниже среднего, следует продолжить эксперимент, пока не достигнете минимального размера выборки. Если не продлить или рано завершить эксперимент, результаты будут необъективными.
6) Время проведения тестирования
Если проводить тестирование в течение 4 дней с понедельника по четверг, получатся ли те же самые демографические и поведенческие характеристики пользователей, которые получились бы, при тестировании с пятницы по понедельник? В большинстве случаев они будут различаться. Пользователи, посещающие сайт в выходные, и их поведение отличаются от тех, что посещают сайт в другие дни.
Таким образом, если согласно калькулятору тестирование нужно проводить в течение 4 дней, лучше продлить его еще на 3 дня, чтобы охватить неделю полностью. Если рекомендуемая продолжительность тестирования 25 дней, проводите его в течение 4 недель.

Проведение тестирования

1) Выбор участников тестирования
Обычно при А/В-тестировании ориентируются на всех посетителей сайта. Но можно оценивать и конкретную категорию, например, совершающих повторные покупки, или пользователей из конкретного региона или с определенными демографическими характеристиками.
Контрольную и тестовую группы нужно формировать в идеале 50/50. Важно, чтобы при повторном возвращении на сайт пользователь попадал в одну и ту же группу.
2) Начало тестирования
Постепенно наращивайте количество пользователей в тестовой группе до 50% от совокупной выборки.
Конечно, в начале эксперимента можно сразу направить 50% трафика в тестовую группу. Но если закралась ошибка, в результате которой половина пользователей получит негативный опыт, то вы потеряете их.
Вместо этого постепенно наращивайте пользователей в тестовой группе и контролируйте показатели по следующей схеме:
- 1% пользователей направляется в тестовую группу на 4 часа;
- 5% пользователей направляются в тестовую группу на 4 часа (то есть перевод дополнительных 4% пользователей из контрольной группы в тестовую);
- 20% пользователей направляются в тестовую группу на 4 часа;
- 50% пользователей направляются в тестовую группу на все оставшееся время тестирования.
Если вы видите, что возникла проблема, вы должны прекратить тестирование и вернуть весь трафик в контрольную группу.
3) Завершение тестирования
Проводите эксперимент, пока не охватите минимальный размер выборки или больше.
Никогда не прекращайте эксперимент досрочно.
В период тестирования отслеживайте размер выборки, а не значения показателей.

Глава 9. Принятие решений

HiPPO — аббревиатура от highest paid person’s opinion, (мнение самого высокооплачиваемого сотрудника). Это эксперты или руководители с многолетним опытом. Им наплевать на данные, особенно когда те идут вразрез с их персональным мнением, и они всегда придерживаются своего плана, потому что знают лучше. Кроме того, «они здесь начальники».
HiPPO опасны для бизнеса, поскольку принимают решения в лучшем случае на основе неверной интерпретации данных, а в худшем — на основе беспочвенных догадок. Они не прибегают к инструментам бизнес-аналитики, чтобы понять поведение клиентов и оценить причины.

Что осложняет процесс принятия решения?

1) Данные
Качество данных и недостаток доверия к ним. Что делать: внедрить принципы лидерства на основе данных, которые подразумевают инвестиции в развитие управления на основе данных и программы повышения качества данных.
Объем (избыток данных). Что делать: сократить объем до самого важного, при необходимости наймите дополнительных специалистов по сбору и обработке данных.
Разделение сигнала и шума. Что делать: поставить четкую цель анализа
2) Корпоративная культура
Ценность интуиции. Руководители высшего звена отличаются от рядовых сотрудников способностью мыслить стратегически: они создают и воплощают видение, добиваются цели, справляясь со всеми препятствиями на пути, независимо от того, что говорят данные.
Неумение работать с данными. Руководитель получает данные, интерпретирует выводы и рекомендации аналитиков, оценивает убедительность доказательств, степень риска и влияние предпринимаемых шагов. Однако  топ-менеджеры не умеют работать с данными.
Отсутствие прозрачности. Как правило, люди, принимающие решения, не отчитываются за эти решения. А информация о том, кто принимал конкретное решение, известна только топ-менеджменту. Это означает, что качество решений руководителей никак не оценивается, и они за них не отчитываются. Все это превращает руководителя в HiPPO.
3) Когнитивные барьеры (наш мозг)
Мы не всегда решаем проблемы объективным образом, держимся за устаревший опыт и зацикливаемся на ненужных деталях, что ведет к нерациональному мышлению. Эти все – когнитивные искажения.
Почему мы не можем всегда доверять интуиции:
- мы не отличаемся постоянством. Одни и те же доказательства в разное время приводят нас к отличающимся друг от друга заключениям.
- мы помним то, что не происходило. Интуиция подсознательно собирает информацию, но не все полученные данные достоверны. Память хранит обрывки правды, окруженные дырами, которые человек заполняет собственными догадками и убеждениями.
- мы не настолько компетентны, как нам кажется.
- мы с трудом отказываемся от устаревшей информации. Человек усваивает факты, строит на их основе ментальные модели, а когда получает данные, противоречащие первоначальным фактам, с трудом воспринимает новую информацию и неохотно меняет свою модель.
- мы фиксируемся на не имеющих значения данных
- мы устаем и начинаем испытывать чувство голода. На наши решения влияют голод, настроение, уровень энергии.
Когнитивные искажения, которым мы подвержены:
- «Ошибка выжившего». Мы считаем репрезентативными те данные, которые подтверждают успех. Если почитать технологические блоги, на вас обрушится лавина историй об успешных стартапах, владельцы которых их запустили, привлекли финансирование и вышли из бизнеса. Кажется, что любой стартап обречен на успех. Но в этих блогах не пишут о том, что большинству стартапов не удается выйти на этап привлечения инвестиций, и даже  если удается, 97% не доживают до этапа выхода.
- Предвзятость подтверждения. Человек ищет или предпочитает выбирать данные, подтверждающие то, что он уже знает.
- Эффект новизны. Мы склонны больше вспоминать недавние события и фокусироваться на них
- Эффект «свой-чужой». Когда кто-то сообщает информацию, первое, что вы делаете, - оцениваете собеседника: это друг или враг, конкурент или союзник, - а затем решаете, можно ли доверять этой информации.

Когда интуиция работает?

Интуиция ценна, если используется для проверки фактов. Если данные не соответствуют ожиданиям, это может быть сигналом о необходимости еще раз проверить данные.

Рис. 9.6. Что бы вы сделали, если бы данные противоречили интуиции?

Решения

Условия выполнения действия:
- мотивация
- возможность выполнить действие
- стимул, побуждающий выполнить действие.
Как создать условия, чтобы решения принимались на основе данных, а не интуиции:
Мотивация
Три мотивирующих фактора:
1) Удовольствие/боль.
2) Надежда/страх.
3) Социальное принятие/отторжение.
Примеры реализации факторов:
Подотчетность. Привяжите результаты деятельности к количественным показателям (уровень продаж, количество подписок или выручка).
Наличие доказательств. Подвергайте любые идеи сомнениям, пока не будут получены достоверные данные, например результаты А/В тестов или моделирования.
Прозрачность. Показывайте, кто и какие решения принимает, а также к каким результатам это приводит.
Возможность выполнить задачу
Выше вероятность, что человек выполнит задачу, если она:
- требует меньше времени
- требует меньше денег
- требует меньше физических усилий
- требует меньше умственных усилий
- является социально приемлемой
- носит рутинный характер.
Примеры применения принципов
Привяжите действия к результатам. Аналитики могут облегчить процесс принятия решений (умственные усилия) для руководителей и снизить время принятия решений, если подберут правильную форму для презентации выводов и рекомендаций.

Рис. 9.7. Укажите действие с привязкой к конкретному результату, а ниже представьте причинно-следственное доказательство
Постоянство. Выполнение задач можно сократить и сделать проще (умственные усилия) благодаря единообразию в презентации данных. Это не означает, что все отчеты должны выглядеть одинаково, но форма еженедельного отчета или дашборда не должна меняться со временем.
Стимулы
Пример стимула на основе «Эффекта автоматизации». Когда какой-либо процесс автоматизирован, люди становятся пассивнее и теряют бдительность. Для преодоления этого эффекта нужно установить график и обязанность поддерживать актуальность модели, лежащей в основе сбора и анализа информации.

Глава 10. Корпоративная культура на основе данных

Корпоративная культура определяет:
- кто имеет доступ к данным
- какие данные можно распространять
- какие вложения делаются в развитие сотрудников и инструменты
- HiPPO или данные влияют на последнее звено в аналитической цепочке.

Открытость и доверие

Данные — это не собственность подразделения, они принадлежат всей компании. Но, конечно, не в ущерб конфиденциальности и безопасности.
Для обмена данными требуется уровень доверия:
1) сотрудники уверены, что этим данным можно доверять, что они надежны и точны
2) сотрудники уверены, что данные будут использованы во благо, а не обернутся против них. Например, в одной из больниц врач боялся, что его медицинские записи увидят коллеги, которые могут найти у него ошибку.
3) данные должны предоставляться всем сотрудникам компании.
Доступ к данным может осуществляться через отчеты и дашборды, но может быть и «активным» за счет использования инструментов бизнес-аналитики или необработанных данных.
Компания с управлением на основе данных обладает значительным потенциалом делегировать принятие определенных решений на операционный уровень. Если у сотрудников есть доступ к данным и навыки их анализа, то при достаточном уровне доверия процесс принятия решений можно существенно демократизировать. Предположим, что менеджер розничного магазина умеет работать с инструментами бизнес-аналитики, благодаря чему он способен проанализировать уровень продаж в своем магазине, определить сезонные колебания, учесть климатические условия, спрогнозировать тренды и сделать заказы на продукцию так, чтобы не было дефицита товара, но хранился минимальный запас на складе.

Повышение квалификации в области работы с данными

Специалисты по аналитической работе должны пройти обучение по планированию экспериментов, развитию навыков критического мышления, презентации данных, применению инструментов бизнес-аналитики и статистики.
Лица, принимающие решения, должны быть компетентны в области работы с данными. Как минимум, понимать, что такое качественный эксперимент, базовое статистическое исследование, чем опасно экстраполирование.

Сначала цели

В компании с управлением на основе данных цель более прозрачная, с четко определенными показателями эффективности деятельности, с ясными задачами и текущим положением дел.

Задавайте вопросы

«У вас есть данные, подтверждающие это?» — никто не должен бояться задавать этот вопрос (и все должны быть готовы на него ответить).
Нужно стимулировать конструктивные обсуждения, в ходе которых участники запрашивают дополнительную информацию, подвергают сомнениям предположения, обсуждают результаты тестирования или необходимость проведения дополнительных тестов. Презентации и анализы должны снабжаться ссылками на первоначальные данные.

Итерации и обучение

Строя прогнозные модели, анализируйте петлю обратной связи, в рамках которой проводится регулярный обзор результатов, изучаются отдельные случаи, выясняется, где можно было действовать эффективнее.
На рис. 10.2 показана общая петля обратной связи. Вы планируете и проводите эксперимент, измеряете результаты, анализируете данные, интерпретируете результаты, делаете выводы, строите гипотезы и планируете новый эксперимент. Достигаете верхней точки и вновь начинаете движение по кругу. Планирование эксперимента — условное название для этого этапа.

Рис.10.2. Петля обратной связи: планирование, измерение, выводы и повтор.

Как противостоять HiPPO

Один из способов борьбы с этим явлением — сделать процесс принятия решений прозрачным и подотчетным.

Руководство на основе данных

В компании, где реализуются принципы управления на основе данных, должна быть сильная вертикаль власти, поддерживающая эти принципы. Руководство должно стимулировать и продвигать соответствующую корпоративную культуру и активно поддерживать все аспекты аналитической цепочки ценности — от сбора данных до принятия решения на их основе и обучения.

Глава 11. Топ-менеджмент компании с управлением на основе данных

Топ-менеджер
Фокус работы
Функции, задачи
Chief Data Officer
управление данными
- организация сбора, хранения и управления данными, контроль их качества.
- контроль над определением стандартов и политики деятельности: качество данных, обмен информацией, уровни доступа к данным и т.д.
- разработка словарей данных и обеспечение доступа к ним.
- покупка данных и программ повышения их качества.
Chief Analytics Officer
анализ данных
повысить эффективность методов работы и корпоративной культуры на основе данных. Он должен разглядеть потенциал в данных, понять, как они соотносятся, и объединить разрозненные источники данных оптимальным образом.
Chief Digital Officer
цифровое развитие
выявить новые цифровые способы привлечения клиентов. Он использует бизнес-аналитику, увеличивая знания компании о психологии пользователей и поведении клиентов.

Глава 12. Вопросы конфиденциальности, этики и риска

Принципы конфиденциальности

Уведомление/осознанность. Пользователи должны быть уведомлены о политике использования данных компанией, прежде чем у них начнут собирать персональные данные.
Выбор/согласие. Пользователям должны быть предложены варианты, как могут быть использованы их персональные данные.
Доступ/участие. У пользователей должна быть возможность доступа к своим персональным данным (возможность увидеть, как их данные отражаются в системе хранения) и возможность подтвердить их точность и полноту.
Полнота/безопасность. Способы защиты данных, разрешенный доступ, удаление, использование или обнародование данных.
Исполнение/корректировка. Механизм исполнения других принципов.

Уважайте конфиденциальность

В правилах хранения и использования персональной информации, которые выполняют функцию соглашения между пользователем и компанией, должно быть определено:
- кто и как собирает данные
- как данные будут использоваться
- на каких условиях доступ к ним могут получить третьи лица
- каковы последствия отказа предоставить согласие
- меры, обеспечивающие конфиденциальность, полноту и качество данных.
Предлагайте пользователям правила политики конфиденциальности, которые они поймут. Строго придерживайтесь условий в соглашении.

Практикуйте эмпатию

Компании с управлением на основе данных должны уважать права и чувства пользователей. Простой тест, когда вы выбираете новые настройки конфиденциальности или разрабатываете новые кампании, связанные с данными: вам понравится пользоваться этим самому или предложите вы это близким друзьям? Если нет, откажитесь от этой идеи.

Предоставьте выбор

Предоставьте пользователям интуитивно понятные инструменты контроля над тем, как используются их данные или каким образом они доступны остальным. Например, контролировать тип или частоту маркетинговых рассылок, выбирать, какие  данные будут общедоступны.

Качество данных

Пользователь должен видеть, какая информация о нем хранится в базе данных, и иметь возможность подтвердить её или исправить. Так вы получите более точное представление о пользователе, и, как следствие, сможете дать ему более качественный сервис.

Безопасность

У специалистов по работе с данными есть доступ к сырым данным о пользователях (имя, адрес, номер телефона, почта и др.). Это необходимо для выполнения работы.
Однако действительно ли ему требуется такой уровень детализации? Может ему не обязательно знать, что мебель заказала именно Белинда Смит. Все, что нужно ему знать — торговая единица 123456 была продана в определенный день.
В основном при анализе данные агрегируются, и информация, идентифицирующая пользователей, не требуется.
Поэтому:
- Сотрудник имеет доступ только к данным, которые требуются для работы.
- В данных не должна быть информация, идентифицирующая пользователя.
- Там, где есть персональная информация, данные шифруются.
Причины обезличить персональную информацию:
1) лишняя информация может повлиять на объективность анализа.
2) аналитики часто копируют данные, каждая копия увеличивает риск утечки информации: ноутбук можно украсть или взломать.

Обеспечение исполнения

Все должны подчиняться требованиям закона. Однако компании с управлением на основе данных должны руководствоваться более широкими вопросами этики и фактора «фу» и разрабатывать собственные внутренние правила и принципы. Они должны принимать во внимание, ожидает ли пользователь, что его данные будут использоваться именно так, и будет ли он с этим согласен. Аналитику следует регулярно задавать себе вопрос: «Как бы я чувствовал себя на месте пользователя, если бы и мои данные так использовали?»

Заключение

Управление на основе данных заключается не только в обладании технологиями работы с большими данными и в команде специалистов по аналитике. С ними просто будет легче. Концепция управления на основе данных касается всей аналитической цепочки ценности и структуры компании. Это отражено на рис. 13.1.

Рис.13.1. Обзор компонентов, из которых складывается компания с управлением на основе данных.

Комментарии

Популярное на блоге

45 татуировок менеджера. Правила российского руководителя (конспект). Максим Батырев

Искусство конструктивного диалога (конспект). Александр Фридман

Управление поступками подчиненных (конспект). Александр Фридман