Экономия на масштабе

Чем больше данных, тем лучше прогноз. Но сколько их нужно? Преимущества дополнительной информации (единиц анализа, типов переменных и частоты) могут увеличиваться или уменьшаться вместе с имеющимся объемом данных. Выражаясь экономическим языком, отдача от масштаба может быть возрастающей или убывающей. С чисто статистической точки зрения у данных убывающая отдача от масштаба. Мы получаем больше ценной информации из третьего наблюдения, чем из сотого, и больше из сотого, чем из миллионного. По мере добавления наблюдений к обучающей информации они все меньше и способствуют улучшению прогноза.

Каждое наблюдение приносит дополнительные данные для обоснования прогноза. Cardiogram учитывает промежутки между ударами сердца. Говоря «у данных убывающая отдача», мы подразумеваем, что первых ста ударов достаточно для того, чтобы убедиться, есть у человека нарушения сердечного ритма или нет. Каждый последующий удар менее важен для уточнения прогноза, чем предыдущие.

Для примера рассмотрим расчет времени выхода из дома, чтобы вовремя приехать в аэропорт. Если вы там ни разу не были, первая поездка даст много полезной информации. После второй и третьей вы определите среднее время в пути. В сотый же раз вы вряд ли узнаете что-то новое. Вот что означает убывающая отдача от масштаба данных: по мере поступления дополнительных показателей данных каждый следующий раз дает меньше информации (и отдачи), чем предыдущий.

С экономической точки зрения это неверно, однако не в плане улучшения прогноза с помощью дополнительных данных. Смысл в том, что данные повышают ценность, которую вы извлекаете из прогноза. Если прогноз и исход совпадают, то убывающая отдача от наблюдений статистически подразумевает убывающую отдачу в отношении интересующих вас итогов. Но иногда прогноз и исход различаются.

К примеру, у пользователей есть выбор: брать продукт вашего или какого-то другого производства. И ваш они выберут только в том случае, если он так же хорош или лучше, чем у конкурента. При условии постоянной доступности данных все продукты будут одинаково хороши. Например, большинство поисковых машин на одинаковые запросы выдает похожие результаты. И в Google, и в Bing на запрос «Джастин Бибер» вы получите одно и то же.

Ценность поисковой машины зависит от ее способности выдать лучший результат на необычные запросы. Попробуйте набрать в строке поиска Google или Bing слово «подрыв» (disruption). На момент, когда мы пишем эти строки, Google показал словарное определение и ссылки на упоминания подрывных инноваций профессора Гарвардской школы бизнеса Клея Кристенсена. В первых девяти результатах Bing содержались словарные определения. Результаты Google были лучше, потому что для предположения о том, что именно ищет пользователь с необычным запросом, требуются данные о таких пользователях. Большинство людей пользуется Google и для обычных, и для непростых запросов. Даже небольшие преимущества поисковой машины могут увеличить долю рынка и доход.

Итак, с технической позиции у данных убывающая отдача от масштаба – миллиардный поиск менее полезен для улучшения поисковой машины, чем первый, – но с точки зрения бизнеса данные обладают огромной ценностью, если у вас их больше и они лучше, чем у конкурента. Некоторые утверждают, что данные об уникальных факторах приносят несоразмерно большие преимущества на рынке[37]. И увеличение объема данных приводит к такому же результату. Следовательно, с экономической точки зрения в обоих случаях для данных характерна прибывающая отдача от масштаба.