Обучение на симуляторах
Использование моделируемой среды для обучения упрощает поиск компромиссного решения. Пилоты сотни часов проводят за сложными реалистичными симуляторами, прежде чем им доверят управлять настоящим самолетом. Такой же подход применим к ИИ. Google учила ИИ AlphaGo компании DeepMind побеждать лучших мировых игроков в го, не только показывая ему тысячи поединков между людьми, но в игре с другой версией себя.
Одна из форм этого метода называется состязательным машинным обучением. В нем основной ИИ выступает против другого ИИ, мешающего первому в достижении поставленной цели. Например, в исследовании Google один ИИ отправлял зашифрованные сообщения другому. У обоих ИИ был ключ к шифру. Третий ИИ (их соперник) тоже получал сообщения, но у него не было ключа, и он пытался сам заниматься дешифрованием. В многочисленных симуляциях соперник научился кодировать сообщения[139].
В реальных условиях такое обучение невозможно. Оно проводится в лаборатории, где создается новый алгоритм машинного обучения, который затем копируется и отправляется пользователям. Его преимущества заключаются в отсутствии риска негативного пользовательского опыта или угрозы жизни. Минусы же в том, что моделируемая среда не обеспечивает достаточного объема обратной связи и снижает, но не устраняет необходимость раннего выпуска. В конце концов ИИ придется «отпустить» в реальный мир.