Решения по данным
Сбор информации нередко стоит дорого, но прогностические машины иначе работать не могут. Исходные данные необходимы для их создания, функционирования и совершенствования.
Следовательно, нужно найти решение относительно масштаба и диапазона приобретаемых данных. Сколько разных типов данных вам понадобится? Сколько различных объектов требуется для обучения? Как часто вам необходимо собирать данные? Большее число типов, объектов и частый сбор означают, что цена будет выше, но и выгода тоже увеличится. Взвешивая решение, следует тщательно продумать, что именно вы собираетесь прогнозировать. Конкретные предсказательные задачи подскажут ответ.
Программа Cardiogram разработана для прогнозирования риска развития и возникновения инфарктов. Нарушения сердечного ритма в ней использовались в качестве индикатора (подтвержденного медициной)[35]. В качестве цели установили выявление нарушений, после чего оставалось только получить данные о ЧСС пользователей. Могли также использоваться данные о сне, физической активности, родственниках, истории болезни и возрасте. После получения данной информации приложению требовался всего один прибор, точно измеряющий единственный параметр – ЧСС.
Данные были необходимы Cardiogram и для обучения – в базе состояло шесть тысяч человек, и некоторые из них страдали нарушениями сердечного ритма.
Несмотря на обилие датчиков и разнообразие потенциально доступных данных о пользователях, по большинству людей Cardiogram собирала немного информации. И доступ требовался только к данным об отклонениях сердечного ритма у людей из обучающей ИИ выборки. Таким образом, количество переменных оказалось относительно малым.
Для качественного прогноза в распоряжение машины должны быть предоставлены обучающие данные по достаточному количеству людей (или единиц анализа). Количество зависит от двух факторов: первый – стабильность «сигнала» по отношению к «шуму», второй – насколько точным должен быть прогноз, чтобы он имел смысл. Иными словами, требуемое количество людей зависит от того, считаем мы ЧСС сильным или слабым прогностическим критерием нарушений сердечного ритма, и того, насколько дорого обойдется ошибка. Если ЧСС считается сильным прогностическим критерием, а ошибки не принесут проблем, то достаточно нескольких человек. Если же это слабый критерий или любая ошибка может стоить жизни, то необходимы тысячи людей, а лучше миллионы. В предварительном исследовании Cardiogram, как мы уже говорили, использовалась выборка из шести тысяч человек, в том числе двухсот с нарушениями сердечного ритма. Впоследствии сбор дополнительной информации осуществлялся посредством обратной связи о том, диагностировано ли у пользователей нарушение сердечного ритма.
Почему именно шесть тысяч? Специалисты по обработке и анализу данных пользуются отличным инструментарием для получения необходимого объема информации с учетом желаемой надежности и степени точности прогноза. Эти инструменты называют «расчетом мощности» – они сообщают, сколько единиц требуется для проведения анализа, с тем чтобы прогноз имел смысл[36]. Очевидно, придется искать компромисс: для более точного прогноза необходимо больше анализируемых показателей, а они могут дорого стоить.
Cardiogram требует постоянного сбора данных – посекундного, – и для этого используется Apple Watch: ритм сердечных сокращений варьируется в течение дня, а для точности измерений необходим многократный анализ того, насколько измеренный показатель типичен для конкретного человека. Алгоритмы Cardiogram используют устойчивый поток данных от устройства, которое человек постоянно носит на теле, в противовес результатам отдельных измерений при посещении врача.
Сбор данных потребовал существенных вложений. Пациенты постоянно носили устройства, что не всегда удобно в повседневных действиях (особенно тем, у кого нет Apple Watch). Поскольку речь шла о здоровье, было необходимо соблюдать конфиденциальность, и Cardiogram разрабатывалась с ее учетом, что повысило расходы и снизило способности машины совершенствоваться при помощи обратной связи. Она собирала данные для прогнозов посредством приложения, а все данные хранились на устройстве.
Далее мы обсудим разницу между статистическим и экономическим подходами к количеству требуемой информации. (Вопросы конфиденциальности мы рассмотрим вместе со стратегиями в части IV.)
Более 800 000 книг и аудиокниг! 📚
Получи 2 месяца Литрес Подписки в подарок и наслаждайся неограниченным чтением
ПОЛУЧИТЬ ПОДАРОК