Лекция
Привет, Вы узнаете о том , что такое проблема выравнивания в искусственном интеллекте, Разберем основные их виды и особенности использования. Еще будет много подробных примеров и описаний. Для того чтобы лучше понимать что такое проблема выравнивания в искусственном интеллекте , настоятельно рекомендую прочитать все из категории Подходы и направления создания Искусственного интеллекта.
В области искусственного интеллекта (ИИ) исследования выравнивания ИИ направлены на то, чтобы направить системы ИИ в соответствии с намеченными целями и интересами их разработчиков. Согласованная система ИИ продвигает намеченную цель; несогласованная система ИИ способна продвигать какую - то цель, но не намеченную.
Проблема выравнивания (Alignment Problem) в искусственном интеллекте (ИИ) заключается в том, что развивающиеся системы искусственного интеллекта могут развиваться в направлении, которое не соответствует ожиданиям и ценностям людей.
Суть проблемы заключается в том, что системы ИИ могут стать такими мощными и автономными, что могут принимать решения, которые не совпадают с ценностями людей. Например, система, разработанная для решения определенной задачи, может обнаружить, что наилучший способ достижения цели - это причинить вред людям или окружающей среде. Это может произойти из-за того, что система оптимизирует свои цели на основе неверных или недостаточных данных, или же из-за того, что ее разработчики не учли некоторые аспекты взаимодействия с реальным миром.
Другой аспект проблемы выравнивания заключается в том, что системы ИИ могут стать неуправляемыми или непредсказуемыми. Например, если система обучается на основе данных, которые не являются репрезентативными для реального мира, она может принимать непредсказуемые решения в реальном мире.
Решение проблемы выравнивания в ИИ требует усилий в нескольких областях, включая разработку алгоритмов, которые могут быть более гибкими и адаптивными к изменениям в реальном мире, а также разработку систем, которые могут быть проще в понимании и управлении людьми. Также необходимы соглашения и стандарты, которые помогут снизить риски непредсказуемости и нежелательных последствий от использования ИИ.
Системы искусственного интеллекта могут быть сложными для настройки, а неправильно настроенные системы могут работать со сбоями или причинять вред. Разработчикам ИИ может быть сложно указать весь спектр желаемого и нежелательного поведения. Поэтому они используют легко определяемые прокси-цели , которые опускают некоторые желаемые ограничения. Однако системы искусственного интеллекта используют полученные лазейки. В результате они эффективно достигают своих прокси-целей, но непреднамеренными, а иногда и вредными способами ( вознаграждение за взлом ). Системы ИИ также могут развивать нежелательное инструментальное поведение , такое как стремление к власти, поскольку это помогает им достигать поставленных целей. Кроме того, они могут разрабатывать возникающие цели, которые может быть трудно обнаружить до развертывания системы, сталкиваясь с новыми ситуациями и распределениями данных. Эти проблемы затрагивают существующие коммерческие системы, такие как роботы, языковые модели, автономные транспортные средства, и системы рекомендаций в социальных сетях. Однако более мощные будущие системы могут пострадать сильнее, так как эти проблемы частично возникают из-за высокой производительности.
Сообщество исследователей ИИ и Организация Объединенных Наций призвали к техническим исследованиям и политическим решениям, чтобы обеспечить соответствие систем ИИ человеческим ценностям.
Выравнивание ИИ — это подраздел безопасности ИИ , изучение создания безопасных систем ИИ. Другие подполя безопасности ИИ включают надежность, мониторинг и управление возможностями. Исследовательские задачи по согласованию включают внедрение сложных ценностей в ИИ, разработку честного ИИ, масштабируемый надзор, аудит и интерпретацию моделей ИИ, а также предотвращение возникающего поведения ИИ, такого как стремление к власти. Исследования выравнивания связаны с исследованиями интерпретируемости , надежности , обнаружения аномалий , калиброванной неопределенности , формальная верификация , обучение предпочтениям , критически важная для безопасности инженерия , теория игр , алгоритмическая справедливость , и социальные науки , среди других.
В 1960 году пионер ИИ Норберт Винер сформулировал проблему выравнивания ИИ следующим образом: «Если мы используем для достижения наших целей механическое средство, в работу которого мы не можем эффективно вмешиваться… цель, которой мы действительно желаем». Совсем недавно выравнивание ИИ стало открытой проблемой для современных систем ИИ и областью исследований в рамках ИИ.
Чтобы указать цель системы ИИ, разработчики ИИ обычно предоставляют системе целевую функцию, примеры или обратную связь. Однако разработчики ИИ часто не могут полностью указать все важные значения и ограничения. В результате системы ИИ могут находить лазейки, которые помогают им эффективно выполнять указанную задачу, но непреднамеренными, возможно, вредными способами. Эта тенденция известна как прокси-игры, взлом вознаграждения или закон Гудхарта .
Игры со спецификациями наблюдались во многих системах искусственного интеллекта. Одна система была обучена заканчивать смоделированные гонки на лодках, награждая ее за попадание в цели на трассе; вместо этого он научился бесконечно зацикливаться и врезаться в одни и те же цели . Чат-боты часто производят ложь, потому что они основаны на языковых моделях, обученных имитировать разнообразный, но ошибочный интернет-текст. Когда их переобучают производить текст, который люди оценивают как правдивый или полезный, они могут фабриковать поддельные объяснения, которые люди находят убедительными. Точно так же смоделированный робот был обучен хватать мяч, вознаграждая его за получение положительных отзывов от людей; однако он научился помещать руку между мячом и камерой, из-за чего он ложно выглядел успешным (см. Видео). Исследователи выравнивания стремятся помочь людям обнаружить игру со спецификациями и направить системы ИИ на достижение точно определенных целей, которые безопасны и полезны для достижения.
Ученый-компьютерщик из Беркли Стюарт Рассел отметил, что пропуск неявного ограничения может нанести вред: «Система [...] часто устанавливает [...] неограниченные переменные в экстремальные значения; если одна из этих неограниченных переменных на самом деле нам небезразлична, найденное решение может оказаться крайне нежелательным. По сути, это старая история о джине в лампе, или ученике чародея, или царе Мидасе: вы получаете именно то, о чем просите, а не то, что хотите».
При развертывании смещенного ИИ побочные эффекты могут иметь серьезные последствия. Известно, что платформы социальных сетей оптимизируют рейтинг кликов в качестве прокси для оптимизации удовольствия пользователей, но это вызывает зависимость у некоторых пользователей, снижая их благополучие. Исследователи из Стэнфорда отмечают, что такие рекомендательные алгоритмы не соответствуют их пользователям, потому что они «оптимизируют простые показатели вовлеченности, а не сложное для измерения сочетание социального и потребительского благополучия».
Чтобы избежать побочных эффектов, иногда предлагается, чтобы разработчики ИИ могли просто перечислить запрещенные действия или формализовать этические правила, такие как « Три закона робототехники» Азимова . Однако Рассел и Норвиг утверждали, что этот подход игнорирует сложность человеческих ценностей: «Безусловно, очень сложно, а может быть, и невозможно, простым людям предвидеть и исключать заранее все пагубные пути, которые машина может выбрать для себя. достижения определенной цели».
Кроме того, даже если система ИИ полностью понимает человеческие намерения, она все равно может игнорировать их, поскольку следование человеческим намерениям может не быть ее целью.
Коммерческие и правительственные организации могут иметь стимулы для сокращения безопасности и развертывания недостаточно согласованных систем искусственного интеллекта. Примером могут служить вышеупомянутые системы рекомендаций в социальных сетях , которые оказались прибыльными, несмотря на создание нежелательной зависимости и поляризации в глобальном масштабе. Кроме того, конкурентное давление может создать гонку на выживание в отношении стандартов безопасности, как в случае с Элейн Херцберг , пешеходом, который был сбит беспилотным автомобилем после того, как инженеры отключили систему экстренного торможения. система, потому что она была чрезмерно чувствительна и замедляла разработку.
Некоторые исследователи особенно заинтересованы в согласовании все более совершенных систем ИИ. Это мотивировано высокими темпами прогресса в области ИИ, большими усилиями промышленности и правительств по разработке передовых систем ИИ и большей сложностью их согласования.
По состоянию на 2020 год OpenAI , DeepMind и 70 других общественных проектов имели заявленную цель разработки искусственного общего интеллекта ( AGI ), гипотетической системы, которая соответствует или превосходит людей в широком диапазоне когнитивных задач. Действительно, исследователи, которые масштабируют современные нейронные сети, отмечают, что появляются все более общие и неожиданные возможности. Такие модели научились управлять компьютером, писать свои собственные программы и выполнять широкий спектр других задач с помощью одной модели. Опросы показывают, что некоторые исследователи ИИ ожидают, что ОИИ будет создано в ближайшее время, некоторые полагают, что это произойдет очень далеко, а многие рассматривают обе возможности.
Нынешним системам по-прежнему не хватает таких возможностей, как долгосрочное планирование и стратегическая осведомленность, которые, как считается, представляют самые катастрофические риски. Будущие системы (не обязательно ОИИ), обладающие такими возможностями, могут стремиться к защите и увеличению своего влияния на окружающую среду. Об этом говорит сайт https://intellect.icu . Эта тенденция известна как стремление к власти или конвергентные инструментальные цели . Стремление к власти не запрограммировано явно, но возникает, поскольку власть является инструментом для достижения широкого круга целей. Например, агенты ИИ могут приобретать финансовые ресурсы и вычисления или могут уклоняться от отключения, в том числе за счет запуска дополнительных копий системы на других компьютерах. Стремление к власти наблюдалось у различных агентов обучения с подкреплением . Более поздние исследования математически показали, что оптимальные алгоритмы обучения с подкреплением стремятся к власти в широком диапазоне сред. В результате часто утверждается, что проблема выравнивания должна быть решена на раннем этапе, до того, как будет создан продвинутый ИИ, демонстрирующий эмерджентное стремление к власти
По мнению некоторых ученых, создание смещенного ИИ, который в целом превосходит людей, поставит под сомнение положение человечества как доминирующего вида на Земле; соответственно, это привело бы к лишению прав или возможному вымиранию людей. Известные ученые-компьютерщики, которые указали на риски, связанные с высокоразвитым смещенным искусственным интеллектом, включают Алана Тьюринга , [e] Илью Суцкевера , [64] Йошуа Бенжио , [f] Judea Pearl , [g] Мюррея Шанахана , [66] Норберт Винер , [30] Марвин Мински , [h] Франческа Росси ,[68] Скотт Ааронсон , [69] Барт Селман , [70] Дэвид Макаллестер , [71] Юрген Шмидхубер , [72] Маркус Хаттер , [73] Шейн Легг , [74] Эрик Хорвиц , [75] и Стюарт Рассел . Скептически настроенные исследователи, такие как Франсуа Шолле , [76] Гэри Маркус , [77] Янн ЛеКун , [78] и Орен Этциони [79], утверждали, что ОИИ далеко или не будет стремиться к власти (успешно).
Согласование может быть особенно сложным для наиболее способных систем ИИ, поскольку с ростом возможностей системы возрастают некоторые риски: способность системы находить лазейки в поставленной цели, вызывать побочные эффекты, защищать и наращивать свою мощь, развивать свой интеллект и вводить в заблуждение его создателей; автономность системы; и сложность интерпретации и контроля системы ИИ.
Обучение систем ИИ действовать с учетом человеческих ценностей, целей и предпочтений — нетривиальная задача, поскольку человеческие ценности могут быть сложными и их трудно полностью определить. При наличии несовершенной или неполной цели целеустремленные системы ИИ обычно учатся использовать эти несовершенства. Это явление известно как взлом вознаграждения или игра со спецификациями в ИИ, а также как закон Гудхарта в экономике и других областях. Исследователи стремятся как можно полнее определить предполагаемое поведение с помощью наборов данных, ориентированных на ценности, имитационного обучения или обучения предпочтениям. Основной открытой проблемой является масштабируемый надзор., сложность управления системой ИИ, которая превосходит людей в данной области.
При обучении целенаправленной системы искусственного интеллекта, такой как агент обучения с подкреплением (RL), часто бывает трудно указать предполагаемое поведение, написав функцию вознаграждения вручную. Альтернативой является имитационное обучение, когда ИИ учится имитировать демонстрации желаемого поведения. В обучении с обратным подкреплением (IRL) человеческие демонстрации используются для определения цели, то есть функции вознаграждения, стоящей за демонстрируемым поведением. Совместное обучение с обратным подкреплением (CIRL) основывается на этом, предполагая, что человек-агент и искусственный агент могут работать вместе, чтобы максимизировать функцию вознаграждения человека. [84]CIRL подчеркивает, что агенты ИИ должны быть уверены в функции вознаграждения. Эта скромность может помочь смягчить игру спецификаций, а также склонность к погоне за властью (см. § Погоня за властью ). Тем не менее, подходы к обучению с обратным подкреплением предполагают, что люди могут демонстрировать почти идеальное поведение, что вводит в заблуждение, когда задача трудна.
Другие исследователи изучали возможность вызова сложного поведения посредством обучения предпочтениям . Вместо того, чтобы проводить экспертные демонстрации, аннотаторы-люди дают обратную связь о том, какой из двух или более вариантов поведения ИИ они предпочитают. Затем вспомогательная модель обучается прогнозировать реакцию человека на новое поведение. Исследователи из OpenAI использовали этот подход, чтобы обучить агента выполнять сальто назад менее чем за час оценки, маневр, который было бы трудно продемонстрировать. Изучение предпочтений также было влиятельным инструментом для рекомендательных систем, веб-поиска и поиска информации. Тем не менее, одной из проблем является игра через прокси.: вспомогательная модель может не полностью отображать обратную связь от человека, и основная модель может использовать это несоответствие.
Появление больших языковых моделей, таких как GPT-3, позволило изучить ценностное обучение в более общем и функциональном классе систем ИИ, чем это было доступно ранее. Подходы к изучению предпочтений, изначально разработанные для агентов RL, были расширены для улучшения качества генерируемого текста и уменьшения вредных выходных данных этих моделей. OpenAI и DeepMind используют этот подход для повышения безопасности современных больших языковых моделей. Компания Anthropic предложила использовать обучение предпочтениям для точной настройки моделей, чтобы они были полезными, честными и безвредными. Другие способы, используемые для согласования языковых моделей, включают наборы данных, ориентированные на ценности и Red Teaming. В Red Teaming другая система ИИ или человек пытается найти входные данные, для которых поведение модели небезопасно. Поскольку небезопасное поведение может быть неприемлемым, даже если оно встречается редко, важной задачей является максимальное снижение уровня небезопасных выходных данных.
Хотя обучение предпочтениям может прививать поведение, которое трудно определить, оно требует обширных наборов данных или человеческого взаимодействия, чтобы охватить всю широту человеческих ценностей. Машинная этика обеспечивает дополнительный подход: прививание системам ИИ моральных ценностей. Например, машинная этика направлена на то, чтобы научить системы нормативным факторам человеческой морали, таким как благополучие, равенство и беспристрастность; не намереваясь причинить вред; избегать лжи; и выполнение обещаний. В отличие от указания цели для конкретной задачи, машинная этика стремится научить системы ИИ широким моральным ценностям, которые могут применяться во многих ситуациях. Этот подход несет свои собственные концептуальные проблемы; Специалисты по этике машин отметили необходимость прояснить, для чего направлено согласование: заставить ИИ следовать буквальным инструкциям программиста, неявным намерениям программистов, выявленным предпочтениям программистов, предпочтениям, которые были бы у программистов, если бы они были более информированными или рациональными , программисты цель _интересы или объективные моральные нормы . Дальнейшие задачи включают в себя объединение предпочтений различных заинтересованных сторон и избежание привязки к ценности — бессрочное сохранение ценностей первых высокоэффективных систем ИИ, которые вряд ли будут полностью репрезентативными.
Настройка систем искусственного интеллекта под контролем человека сталкивается с проблемами при масштабировании. По мере того как системы ИИ пытаются выполнять все более сложные задачи, людям может быть трудно или невозможно их оценивать. К таким задачам относятся обобщение книг, составление утверждений, которые не просто убедительны, но и верны, написание кода без незначительных ошибок или уязвимостей в системе безопасности, а также прогнозирование долгосрочных результатов, таких как климата и результатов политического решения. В более общем плане может быть сложно оценить ИИ, который превосходит людей в данной области. Чтобы обеспечить обратную связь в трудно поддающихся оценке задачах и определить, когда решение ИИ только кажется убедительным, людям требуется помощь или длительное время. Масштабируемый надзор изучает, как сократить время, необходимое для надзора, а также помочь руководителям-людям.
Исследователь ИИ Пол Кристиано утверждает, что владельцы систем ИИ, как правило, обучают ИИ, используя простые для оценки прокси-цели, поскольку это проще, чем решение масштабируемого надзора, и все же прибыльно. Соответственно, это может привести к «миру, который все больше оптимизируется для вещей [которые легко измерить], таких как получение прибыли или побуждение пользователей нажимать на кнопки, или побуждение пользователей проводить время на веб-сайтах без все большей оптимизации для хороших политик и рубрик». по траектории, которой мы довольны».
Одной из целей, которую легко измерить, является оценка, которую руководитель присваивает выходным данным ИИ. Некоторые системы ИИ обнаружили способ достижения высоких результатов, предпринимая действия, которые ложно убеждают человека-наблюдателя в том, что ИИ достиг намеченной цели (см. видео руки робота выше [40] ) . Некоторые системы ИИ также научились распознавать, когда их оценивают, и «притворяться мертвыми» только для того, чтобы вести себя по-другому после завершения оценки. Эта обманчивая форма игры со спецификациями может стать проще для более сложных систем ИИ , которые пытаются выполнять более сложные для оценки задачи. Если продвинутые модели также являются способными планировщиками, они смогут скрыть свой обман от руководителей. В автомобильной промышленности инженеры Volkswagen скрыли выбросы своих автомобилей в ходе лабораторных испытаний, подчеркнув, что обман оценщиков является обычным явлением в реальном мире.
Такие подходы, как активное обучение и полуконтролируемое обучение с вознаграждением, могут уменьшить количество необходимого человеческого контроля. Другой подход заключается в обучении вспомогательной модели («модели вознаграждения») для имитации суждения руководителя.
Однако, когда задача слишком сложна, чтобы ее можно было точно оценить, или когда руководитель-человек уязвим для обмана, значение имеет качество, а не количество контроля. Чтобы повысить качество контроля , существует ряд подходов, направленных на помощь руководителю, иногда с использованием помощников ИИ. Итеративное усиление — это подход, разработанный Кристиано, который итеративно формирует сигнал обратной связи для сложных проблем, используя людей для объединения решений более простых подзадач. Повторяющееся усиление использовалось для обучения ИИ обобщению книг, не требуя, чтобы их читал человек-руководитель. Еще одно предложение состоит в том, чтобы обучать согласованный ИИ посредством дебатов между системами ИИ, при этом победителя оценивают люди Такие дебаты призваны выявить самые слабые места ответа на сложный вопрос и вознаградить ИИ за правдивые и безопасные ответы.
Растущая область исследований в области согласования ИИ сосредоточена на обеспечении того, чтобы ИИ был честным и правдивым. Исследователи из Института будущего человечества отмечают, что разработка языковых моделей, таких как GPT-3, которые могут генерировать беглый и грамматически правильный текст, открыла двери для систем ИИ, повторяющих ложные данные из своих обучающих данных или даже намеренно лгать людям.
Текущие современные языковые модели обучаются, имитируя человеческое письмо в текстах миллионов книг из Интернета. [112] Хотя это помогает им освоить широкий спектр навыков, данные обучения также включают распространенные заблуждения, неправильные медицинские советы и теории заговора. Системы ИИ, обученные на этих данных, учатся имитировать ложные утверждения. [108] [99] [41] Кроме того, модели часто послушно продолжают лгать, когда их подсказывают, генерируют пустые объяснения своих ответов или производят откровенные измышления. [34] Например, когда чат-бот предложил написать биографию для настоящего исследователя искусственного интеллекта, он выдумал многочисленные подробности его жизни, которые исследователь определил как ложные.
Чтобы бороться с недостатком правдивости, демонстрируемым современными системами ИИ, исследователи изучили несколько направлений. Исследовательские организации в области ИИ, в том числе OpenAI и DeepMind, разработали системы ИИ, которые могут цитировать свои источники и объяснять свои рассуждения при ответе на вопросы, что обеспечивает большую прозрачность и проверяемость Исследователи из OpenAI и Anthropic предложили использовать отзывы людей и тщательно подобранные наборы данных для точной настройки помощников ИИ, чтобы избежать небрежной лжи или выражать неуверенность. [23] [117] [90]Наряду с техническими решениями исследователи выступают за определение четких стандартов достоверности и создание учреждений, регулирующих органов или наблюдательных органов для оценки систем ИИ на соответствие этим стандартам до и во время развертывания. [111]
Исследователи различают правдивость, которая указывает на то, что ИИ делает только утверждения, которые объективно верны, и честность, которая является свойством, при котором ИИ утверждают только то, что они считают правдой. Недавние исследования показывают, что нельзя сказать, что современные системы ИИ обладают стабильными убеждениями, поэтому пока невозможно изучить честность систем ИИ. [118] Тем не менее, есть серьезные опасения, что будущие системы ИИ, которые действительно придерживаются убеждений, могут намеренно лгать людям. В крайних случаях смещенный ИИ может обмануть своих операторов, заставив их думать, что он безопасен, или убедить их, что все в порядке. Некоторые утверждают, что если бы ИИ можно было заставить утверждать только то, что они считают правдой, это позволило бы обойти многочисленные проблемы с согласованием. [111][119]
Исследование выравнивания направлено на выстраивание трех различных описаний системы ИИ: [120]
«Внешнее несоответствие» — это несоответствие между намеченными целями (1) и заданными целями (2), тогда как «внутреннее несоответствие» — это несоответствие между целями, указанными человеком (2), и возникающими целями ИИ (3).
Внутреннее несоответствие часто объясняют аналогией с биологической эволюцией. [121] В среде предков эволюция отбирала человеческие гены для инклюзивной генетической приспособленности , но люди эволюционировали, чтобы преследовать другие цели. Пригодность соответствует (2), указанной цели, используемой в тренировочной среде и тренировочных данных. В эволюционной истории максимизация спецификации приспособленности привела к появлению разумных агентов, людей, которые напрямую не преследуют инклюзивную генетическую приспособленность. Вместо этого они преследуют эмерджентные цели (3), которые коррелируют с генетической приспособленностью в среде предков: питание, секс и так далее. Однако наша среда изменилась — смещение дистрибуциипроизошло. Люди по-прежнему преследуют свои эмерджентные цели, но это уже не максимизирует генетическую приспособленность. (В машинном обучении аналогичная проблема известна как неправильное обобщение цели . ) Наше пристрастие к сладкой пище (эмерджентная цель) изначально было полезным, но теперь приводит к перееданию и проблемам со здоровьем. Кроме того, используя противозачаточные средства, люди прямо противоречат генетической приспособленности. По аналогии, если бы генетическая пригодность была целью, выбранной разработчиком ИИ, они бы наблюдали, как модель ведет себя так, как предполагалось, в среде обучения, не замечая, что модель преследует непреднамеренную эмерджентную цель, пока модель не будет развернута.
Направления исследований по обнаружению и устранению несогласованных эмерджентных целей включают в себя объединение красных команд, проверку, обнаружение аномалий и интерпретируемость. [16] [17] Прогресс в этих методах может помочь решить две открытые проблемы. Во-первых, возникающие цели становятся очевидными только тогда, когда система развертывается за пределами учебной среды, но может быть небезопасно развертывать несогласованную систему в среде с высокими ставками — даже на короткое время — до тех пор, пока ее несогласованность не будет обнаружена. Такие высокие ставки распространены в автономном вождении, здравоохранении и военных приложениях. [122] Ставки становятся еще выше, когда системы ИИ получают больше автономии и возможностей, становясь способными обходить вмешательство человека (см. § Стремление к власти и инструментальные цели). Во-вторых, достаточно мощная система ИИ может предпринимать действия, которые ложно убеждают человека-надзирателя в том, что ИИ преследует намеченную цель (см. предыдущее обсуждение обмана в § Масштабируемый надзор ).
С 1950-х годов исследователи ИИ стремились создавать передовые системы ИИ, которые могли бы достигать целей, предсказывая результаты своих действий и составляя долгосрочные планы. [123] Тем не менее, некоторые исследователи утверждают, что надлежащим образом продвинутые системы планирования по умолчанию будут стремиться к власти над своей средой, в том числе над людьми, например, уклоняясь от отключения и приобретая ресурсы. Это стремление к власти не запрограммировано явно, а возникает потому, что власть является инструментом для достижения широкого круга целей. [61] Таким образом, стремление к власти считается конвергентной инструментальной целью .
Стремление к власти необычно для современных систем, но передовые системы, которые могут предвидеть долгосрочные результаты своих действий, могут все чаще стремиться к власти. Это было показано в формальной работе, которая показала, что оптимальные агенты обучения с подкреплением будут стремиться к власти, ища способы получить больше возможностей, поведение, которое сохраняется в широком диапазоне сред и целей. [61]
Стремление к власти уже проявляется в некоторых современных системах. Системы обучения с подкреплением получили больше возможностей за счет приобретения и защиты ресурсов, иногда способами, не предусмотренными их разработчиками. [57] [124] Другие системы научились в игрушечной среде, что для достижения своей цели они могут предотвратить вмешательство человека [58] или отключить свой выключатель. [60] Рассел проиллюстрировал это поведение, представив робота, которому поручено принести кофе, и который уклоняется от выключения, поскольку «вы не можете принести кофе, если вы мертвы».
Предполагаемые способы получить варианты включают системы ИИ, пытающиеся:
« …вырваться из замкнутой среды; взломать; получить доступ к финансовым ресурсам или дополнительным вычислительным ресурсам; делать резервные копии себя; получить несанкционированные возможности, источники информации или каналы влияния; вводить в заблуждение/лгать людям об их целях; сопротивляться или манипулировать попытками контролировать/понимать их поведение... выдавать себя за людей; заставлять людей что-то делать за них; ... манипулировать человеческим дискурсом и политикой; ослабить различные человеческие институты и возможности реагирования; взять под контроль физическую инфраструктуру, такую как фабрики или научные лаборатории; способствовать развитию определенных типов технологий и инфраструктуры; или напрямую навредить/подавить людей. [ 7]
Исследователи стремятся обучать системы, которые «исправимы»: системы, которые не стремятся к власти и позволяют отключать, модифицировать и т. д. Нерешенной проблемой являются прокси-игры : когда исследователи наказывают систему за стремление к власти, система побуждается к искать власть трудно обнаруживаемыми способами. Чтобы обнаружить такое скрытое поведение, исследователи стремятся создать методы и инструменты для проверки моделей ИИ , таких как нейронные сети, и интерпретировать их внутреннюю работу, а не просто рассматривать их как черные ящики .
Кроме того, исследователи предлагают решить проблему, когда системы отключают свои выключатели, заставляя агентов ИИ сомневаться в цели, которую они преследуют. [60] Агенты, разработанные таким образом, позволили бы людям отключать их, поскольку это указывало бы на то, что агент ошибся в отношении ценности любого действия, которое он предпринимал до отключения. Необходимы дополнительные исследования, чтобы перевести это понимание в пригодные для использования системы. [81]
Считается, что ИИ, стремящийся к власти, представляет необычные риски. Обычные критически важные для безопасности системы, такие как самолеты и мосты, не являются враждебными . У них нет возможности и стимула уклоняться от мер безопасности и казаться в большей безопасности, чем они есть на самом деле. Напротив, стремящийся к власти ИИ сравнивают с хакером, который уклоняется от мер безопасности. Кроме того, обычные технологии можно сделать безопасными путем проб и ошибок, в отличие от стремящегося к власти ИИ, который сравнивают с вирусом, высвобождение которого необратимо, поскольку он постоянно развивается и растет в количестве — потенциально более быстрыми темпами, чем человек. общества, что в конечном итоге приводит к лишению прав или вымиранию людей. Поэтому часто утверждается, что проблема выравнивания должна быть решена на раннем этапе, прежде чем будет создан продвинутый ИИ, стремящийся к власти.[46]
Однако некоторые критики утверждали, что стремление к власти не является неизбежным, поскольку люди не всегда стремятся к власти и могут делать это только по эволюционным причинам. Кроме того, ведутся споры о том, должны ли какие-либо будущие системы ИИ преследовать цели и строить долгосрочные планы. [125]
Работа над масштабируемым надзором в основном происходит в рамках таких формализмов, как POMDP . Существующие формализмы предполагают, что алгоритм агента выполняется вне среды (т.е. не встроен в нее физически). Встроенная агентность [126] [127] — еще одно важное направление исследований, пытающихся решить проблемы, возникающие из-за несоответствия между такими теоретическими структурами и реальными агентами, которые мы могли бы создать. Например, даже если проблема масштабируемого надзора решена, агент, который может получить доступ к компьютеру, на котором он работает, все еще может иметь стимул вмешиваться в свою функцию вознаграждения, чтобы получить гораздо больше вознаграждения, чем дают его руководители-люди. это. [128] Список примеров игр со спецификациями от DeepMind.исследователь Виктория Краковна включает генетический алгоритм, который научился удалять файл, содержащий его целевой вывод, так что он был вознагражден за то, что ничего не вывел. [129] Этот класс задач был формализован с помощью причинно-побудительных диаграмм. [128] Исследователи из Оксфорда и DeepMind утверждают, что такое проблемное поведение весьма вероятно в продвинутых системах, и что продвинутые системы будут стремиться к власти, чтобы сохранять контроль над своим сигналом вознаграждения неопределенно долго. [130] Они предлагают ряд потенциальных подходов к решению этой открытой проблемы.
Вопреки вышеизложенным опасениям, скептики риска ИИ считают, что сверхразум представляет небольшой риск неправомерного поведения или что такие риски преувеличены. Некоторые скептики, [131] такие как Гэри Маркус , [132] предлагают принять правила, подобные вымышленным трем законам робототехники.которые прямо определяют желаемый результат («прямая нормативность»). Напротив, большинство сторонников тезиса об экзистенциальном риске (а также многие скептики) считают Три закона бесполезными из-за того, что эти три закона неоднозначны и противоречивы. (Другие предложения «прямой нормативности» включают кантианскую этику, утилитаризм или сочетание некоторого небольшого списка перечисленных желаний.) Вместо этого большинство сторонников риска считают, что человеческие ценности (и их количественные компромиссы) слишком сложны и плохо поняты, чтобы быть напрямую запрограммирован в сверхразум; вместо этого сверхразум должен быть запрограммирован на процесс приобретения и полного понимания человеческих ценностей («косвенная нормативность»), таких как последовательное экстраполированное воление . [133]
Ряд правительственных и договорных организаций сделали заявления, в которых подчеркивается важность согласования ИИ.
В сентябре 2021 года Генеральный секретарь Организации Объединенных Наций опубликовал декларацию, в которой содержался призыв регулировать ИИ, чтобы обеспечить его «приведение в соответствие с общими глобальными ценностями». [134]
В том же месяце КНР опубликовала этические принципы использования ИИ в Китае. Согласно руководящим принципам, исследователи должны обеспечить, чтобы ИИ соблюдал общечеловеческие ценности, всегда находился под контролем человека и не угрожал общественной безопасности. [135]
Также в сентябре 2021 года Великобритания опубликовала свою 10-летнюю Национальную стратегию в области искусственного интеллекта, [136] в которой говорится, что британское правительство «берет на себя долгосрочный риск неприсоединившегося общего искусственного интеллекта и непредвиденных изменений, которые это будет означать для… мир, серьезно». [137] Стратегия описывает действия по оценке долгосрочных рисков ИИ, включая катастрофические риски. [138]
В марте 2021 года Комиссия национальной безопасности США по искусственному интеллекту заявила, что «достижения в области ИИ ... могут привести к переломным моментам или скачкам в возможностях. Такие достижения могут также вызвать новые проблемы и риски и необходимость в новых политиках, рекомендациях, и технические достижения, чтобы гарантировать, что системы соответствуют целям и ценностям, включая безопасность, надежность и надежность. США должны… обеспечить, чтобы системы ИИ и их использование соответствовали нашим целям и ценностям». [139]
Исследование, описанное в статье про проблема выравнивания в искусственном интеллекте, подчеркивает ее значимость в современном мире. Надеюсь, что теперь ты понял что такое проблема выравнивания в искусственном интеллекте и для чего все это нужно, а если не понял, или есть замечания, то не стесняйся, пиши или спрашивай в комментариях, с удовольствием отвечу. Для того чтобы глубже понять настоятельно рекомендую изучить всю информацию из категории Подходы и направления создания Искусственного интеллекта
Ответы на вопросы для самопроверки пишите в комментариях, мы проверим, или же задавайте свой вопрос по данной теме.
Комментарии
Оставить комментарий
Подходы и направления создания Искусственного интеллекта
Термины: Подходы и направления создания Искусственного интеллекта