Лекция
Это продолжение увлекательной статьи про искусственный интеллект и риски.
...
не будет уделять достаточно внимания рискам сильного ИИ, и в силу этого хорошие инструменты и твердые установления для Дружественности окажутся недоступными, когда возникнет возможность создавать мощные интеллекты.
И также следует заметить – поскольку это тоже влияет на глобальные риски – что ИИ может быть мощным решением для других глобальных рисков, и по ошибке мы можем игнорировать нашу лучшую надежду на выживание. Утверждение о недооценке потенциального воздействия ИИ симметрично относительно потенциально хороших и потенциально плохих воздействий. Именно поэтому название этой статьи – «Искусственный интеллект как позитивный и негативный фактор глобального риска», а не «Глобальные риски Искусственного интеллекта». Перспектива ИИ влияет на глобальные риски более сложным образом; если бы ИИ был чистой помехой, ситуация была бы проще.
Есть один вид ошибочности, часто встречающийся в дискуссиях об ИИ, особенно об ИИ сверхчеловеческих способностей. Кто-нибудь говорит: «Когда технологии продвинутся достаточно далеко, мы будем способны создавать интеллекты, далеко превосходящие человеческие. Очевидно, что размер ватрушки, который вы можете испечь, зависит от вашего интеллекта. Суперинтеллект может создавать гигантские ватрушки – ватрушки, размером с города – боже мой, будущее будет полно гигантских ватрушек!» Вопрос в том, захочет ли суперинтеллект создавать огромные ватрушки. Видение образа ведет прямо от возможности к реализации, без осознавания необходимого промежуточного элемента – мотива. Следующие цепочки рассуждений, рассматриваемые в изоляции без подтверждающего доказательства, все являются примером Ошибочности Гигантской Ватрушки:
- Достаточно сильный ИИ может преодолеть любое человеческое сопротивление и истребить человечество. (И ИИ решит сделать это.) Поэтому мы не должны строить ИИ.
- Достаточно сильный ИИ может создать новые медицинские технологии, способные спасти миллионы человеческих жизней. (И он решит сделать это.) Поэтому мы должны создать ИИ.
- Когда компьютеры станут достаточно дешевы, огромное большинство работ будет выполняться ИИ более легко, чем людьми. Достаточно сильный ИИ даже будет лучше нас в математике, конструировании, музыке, искусстве и во всех других работах, которые нам кажутся важными (И ИИ решит выполнять эти работы.) Таким образом, после изобретения ИИ, людям будет больше нечего делать, и мы будем голодать или смотреть телевизор.
Вышеприведенный разбор ошибочности Гигантской Ватрушки имеет органически присущий ему антропоморфизм – а именно, идею о том, что мотивы разделимы; подразумеваемое предположение о том, что, говоря о «способностях» и «мотивах», мы разрываем связность реальности. Это удобный срез, но антропоморфический.
Для того, чтобы рассмотреть проблему с более общей точки зрения, я ввел концепцию процесса оптимизации: системы, которая поражает маленькие цели в большом пространстве поиска, чтобы порождать согласованные эффекты в реальном мире.
Процесс оптимизации направляет будущее в определенные регионы возможного. Когда я посещаю удаленный город, мой друг из местных вызывается отвезти меня в аэропорт. Я не знаю окрестностей. Когда мой друг выезжает на перекресток, я не могу предсказать его повороты, ни в последовательности, ни по отдельности. Но я могу предсказать результат непредсказуемых действий моего друга: мы прибудем в аэропорт. Даже если дом моего друга находится в другом месте города, так что моему другу придется совершить совершенно другую последовательность поворотов, я могу с той же степенью уверенности предсказать, куда мы конце концов прибудем. Не странная ли эта ситуация, научно говоря? Я могу предсказать результат процесса, будучи неспособным предсказать ни один из его промежуточных этапов. Я буду называть область, в которую процесс оптимизации направляет будущее, целью оптимизации.
Рассмотрим автомобиль, например, Тойоту Кароллу. Из всех возможных комбинаций атомов, которые ее составляют, только бесконечно малая часть будет работающим автомобилем. Если вы будете собирать атомы в случайном порядке, много
много возрастов вселенной пройдет, пока вам удастся собрать автомобиль. Малая доля пространства проектов описывает автомобили, которые мы могли бы признать как более быстрые, более эффективные и более безопасные, чем Королла. Таким образом, Королла не является оптимальной с точки зрения целей своего конструктора. Но Королла является, однако, оптимизированной, поскольку конструктор должен был попасть в сравнительно бесконечно малую область в пространстве возможных конструкций, только чтобы создать работающий автомобиль, не говоря уже о машине качества Короллы. Вы не можете даже построить эффективную тележку, распиливая доски случайно и сколачивая их по результатам броска монеты. Чтобы достичь такой малой цели в пространстве конфигураций, необходим мощный оптимизационный процесс.
Понятие о «процессе оптимизации» является предсказательно полезным, поскольку легче понять цель процесса оптимизации, чем его пошаговую динамику. Обсуждение Короллы выше неявно предполагает, что конструктор Короллы пытался создать «автомобиль», средство транспорта. Это предположение следует сделать явным, но оно не ошибочно и оно очень полезно для понимания Короллы.
Есть соблазн спросить, что ИИ будет хотеть, забывая о том, что пространство умов-вообще гораздо больше, чем малая человеческая точка. Следует сопротивляться соблазну распространить количественные ограничения на все возможные умы. Рассказчики историй накручивают сказки об отдаленной и экзотичной земле, называемой Будущее, говоря, каким будущее должно быть. Они делают предсказания. Они говорят: «ИИ нападет на людей с помощью армий марширующих роботов» или «ИИ изобретет лекарство от рака». Они не предлагают сложных отношений между изначальными условиями и результатами – так они могли бы потерять аудиторию. Но мы нуждаемся в понимании соотношений, чтобы управлять будущим, направляя его в область, приятную человечеству. Если не рулить, мы рискуем попасть туда, куда нас занесет.
Главный вызов состоит не в том, чтобы предсказать, что ИИ атакует людей с помощью армий роботов, или, наоборот, введет лекарство от рака. Задача состоит даже не в том, чтобы сделать это предсказание для произвольного устройства ИИ. Скорее, задача состоит в том, чтобы выбрать и создать такой процесс оптимизации, чьи позитивные эффекты могут быть твердо доказаны.
Я усиленно призываю своих читателей не начинать придумывать причины, почему универсальный процесс оптимизации должен быть дружественным. Естественный отбор не является дружественным, ни ненавидит вас, ни оставляет вас в одного. Эволюция не может быть так антропоморфизирована, она не работает, как вы.
Многие биологи до 1960-х годов ожидали, что естественный отбор создаст полный набор всех хороших вещей, и выдумывали всевозможные усложненный причины, почему он должен сделать это. Они были разочарованы, поскольку естественный отбор сам по себе не начинает со знания, что от него хотят приятного человеку результата, и затем не придумывает сложные пути, чтобы создать приятные результаты, используя давление отбора. Таким образом, события в природе были результатами совершенно других по своим причинам процессов, чем те, что приходили в голову биологам до 1960-х годов, и поэтому предсказания и реальность расходились.
Мышление, привязанное к цели (wishful thinking), добавляет детали, ограничивает предсказания и таким образом отягощает невозможностью. Как насчет инженера гражданских сооружений, который надеется, что мост не упадет? Следует ли инженеру доказывать это тем, что мосты обычно не падают? Но природа сама по себе не предлагает разумных причин, почему мосты не должны падать. Скорее, это инженер преодоляет тяжесть недостоверности (burden of improbability) посредством специфического выбора, направляемого специфическим пониманием. Инженер начинает с намерения создать мост. Затем он использует строгую теорию, чтобы выбрать конструкцию моста, которая бы выдерживала автомобили. Затем строит реальный мост, чья структура отражает рассчитанный проект. И в результате реальная структура выдерживает автомобили. Таким образом достигается гармония предсказанных позитивных результатов и реальных позитивных результатов.
Было бы очень здорово, если бы человечество знало, как создать мощный оптимизационный процесс с неким частным результатом. Или, говоря более общими словами, было бы здорово, если бы мы знали, как создать хороший ИИ (nice AI).
Для того, чтобы описать область знания, необходимого, чтобы взяться за этот вызов, я предложил термин «Дружественный ИИ». Этот термин я отношу не только к самой методике, но также и к ее продукту – то есть к ИИ, созданному со специфической мотивацией. Когда я использую термин Дружественный в любом из этих двух смыслов, я пишу его с большой буквы, чтобы избегать путаницы с обычным смыслом слова «дружественный».
Типичная реакция на это людей, которую я часто встречал, заключалась в немедленном заявлении, что Дружественный ИИ невозможен, потому что любой достаточно сильный ИИ сможет модифицировать свой собственный исходный код так, чтобы разорвать любые наложенные на него ограничения.
Первую логическую несообразность, которую вы тут можете отметить – это ошибочность Гиганстской Ватрушки. Любой ИИ, имеющий свободный доступ к своему исходному коду, в принципе, будет обладать способностью изменить свой код таким образом, что изменится его цель оптимизации. Но это не означает, что ИИ имеет побуждение изменить свои собственные побуждения. Я не стану сознательно глотать пилюлю, которая побудит меня наслаждаться убийствами, потому что я в настоящем предпочитаю, чтобы мои собратья - люди не умирали.
Но что если я попытаюсь изменить себя и сделаю ошибку? Когда компьютерные инженеры доказывают пригодность чипа – что есть хорошая идея, если в чипе 155 миллионов транзисторов, и вы не можете выпустить патч потом – инженеры используют руководимую человеком и проверяемую машинами формальную проверку. Об этом говорит сайт https://intellect.icu . Замечательным свойством формального математического доказательства является то, что доказательство из 10 миллиардов шагов в той же мере надежно, что и доказательство из 10 шагов. Но человеческие существа недостойны доверия в том, чтобы следить за проверкой из 10 миллиардов шагов; у нас слишком высокие шансы пропустить ошибку. Современные техники доказывания теорем не достаточно умны, чтобы спроектировать и проверить целый компьютерный чип сами по себе – современные алгоритмы испытывают экспоненциальный рост по мере увеличения пространства поиска. Люди-математики могут доказывать теоремы гораздо более сложные, чем те, что могут осилить современные программы-доказыватели, без того, чтобы быть поверженными экспоненциальным взрывом. Но люди-математики неформальны и ненадежны; время от времени кто-то находит ошибку в принятом ранее неформальном доказательстве. Выход состоит в том, что люди-инженеры направляют программы-доказыватели на промежуточные шаги доказательства. Человек выбирает следующую лемму, и сложный доказыватель теорем генерирует формальное доказательство, и простой проверяльщик сверяет шаги. Таким образом современные инженеры создают надежные механизмы со 155 миллионами независимых частей.
Проверка корректности работы компьютерного чипа требует синергии человеческого интеллекта и компьютерных алгоритмов, поскольку сейчас ни того, ни другого недостаточно. Возможно, подлинный ИИ будет использовать подобную комбинацию способностей, когда будет модифицировать свой собственный код – будет обладать как способностью вводить объемные проекты без того, чтобы потерпеть поражение от экспоненциального роста, так и способностью проверить свои шаги с высокой надежностью. Это один из путей, которым подлинный ИИ может оставаться познаваемо (knowably) стабильным в своих целях даже после выполнения большого количества самоисправлений.
Эта статья не будет разъяснять приведенную выше идею в деталях. (Также см. Schmidhuber 2003 на связанную с данной тему.) Но следует подумать об этом вызове, и изучить его с привлечением наилучших доступных технических данных, до того, как объявлять его невозможным – особенно, если большие ставки зависят от ответа. Неуважительно по отношению к человеческой изобретательности объявлять проблему неразрешимой без внимательного и творческого рассмотрения. Это очень сильное заявление: сказать, что вы не можете сделать нечто – что вы не можете построить летающую машину тяжелее воздуха, что вы не можете извлечь полезную энергию из ядерных реакций, что вы не можете летать на Луну. Такие заявления являются универсальными обобщениями, относящимися к любому возможному подходу к решению этой проблемы, который кто-либо придумал или придумает. Требуется всего один противоположный пример, чтобы опровергнуть универсальное обощение. Утверждение о том, что Дружественный (или дружественный) ИИ теоретически невозможен, осмеливается относиться к любым возможным устройствам ума и любым возможным процессам оптимизации – включая человеческие существа, которые тоже имеют ум, и многие из которых хорошие (nice) и хотят быть еще лучше. На настоящий момент имеется неограниченное количество расплывчато убедительных аргументов, почему Дружественный ИИ может быть не под силу человеку, и все же гораздо вероятнее, что проблема разрешима, но никто не соберется решить ее вовремя. Но не следует слишком быстро списывать проблему, особенно учитывая масштаб ставок.
Бостром (Bostrom, 2001) определяет глобальную катастрофу (existential catastrophe) как такую, которая истребляет возникшую на Земле разумную жизнь или необратимо повреждает часть ее потенциала. Мы можем разделить потенциальные ошибки в попытках создания Дружественного ИИ на две неформальные категории, техническую ошибку и философскую ошибку. Техническая состоит в том, что вы пытаетесь создать ИИ, и он не работает так, как должен – вы не смогли понять, как работает на самом деле ваш собственный код. Философская неудача заключается в попытке построить неправильную вещь, так что даже если вы достигните успеха, вы все равно не сможете никому помочь или облагодетельствовать человечество. Нет необходимости говорить о том, что одна ошибка не исключает другую.
Граница между двумя случаями тонка, поскольку большинство философских ошибок гораздо легче объяснить при наличии технического знания. В теории вы должны сначала заявить, что вы хотите, а затем обрисовать, как вы это достигните. На практике часто требуется глубокое техническое понимание, чтобы очертить то, что вы хотите.
В конце 19 века многие честные и интеллигентные люди выступали за коммунизм, исходя только из лучших побуждений. Люди, которые первыми ввели, распространили и усвоили коммунистическую идею (meme) были, по строгому историческому счету, идеалистами. У первых коммунистов не было предупреждающего примера Советской России. В то время, без преимущества знания задним числом, это должно было звучать как весьма хорошая идея. После революции, когда коммунисты пришли к власти и были отравлены ею, в игру могли вступить другие мотивы; но это не было предсказано первыми идеалистами, несмотря на то, насколько это могло быть предсказуемо. Важно понимать, что автор огромной катастрофы не должен быть злым или особо тупым. Если мы отнесем любую трагедию насчет зла или особенной глупости, мы посмотрим на себя, правильно обнаружим, что мы не злы и не особенно тупы и скажем: «Но ведь это никогда не случится с нами».
Первые коммунисты думали, что эмпирическим последствием их революции будет то, что жизнь людей должна улучшиться: рабочие больше не будут работать долгие часы на изнурительной работе и получать за это мало денег. Это оказалось не совсем так, мягко говоря. Но то, что, по мнению первых коммунистов, должно было получится, не сильно отличалось от того, что, по мнению сторонников других политических систем, должно было быть эмпирическим последствием их любимой политической системы. Они думали, что люди будут счастливы. Они заблуждались.
Теперь представим, что кто-то запрограммирует «Дружественный» ИИ на построение коммунизма, или либертарианства, или анархо-феодализма, или любой другой любимой-политической-системы, веря, что это осуществит утопию. Любимые политические системы людей порождают сияющие солнца позитивных эмоций, так что предложение будет казаться действительно хорошей идеей для предлагающего.
Мы можем наблюдать здесь программистскую ошибку на моральном или этическом уровне – скажем, в результате того, что кто-то доверяет себе столь высоко, что неспособен принять в расчет собственную подверженность ошибкам, отказываясь рассмотреть возможность того, что, например, коммунизм может быть ошибочным в конечном счете. Но на языке байсовской теории решений, существует дополнительный технический взгляд на проблему. С точки зрения теории решений выбор в пользу коммунизма происходит из комбинации эмпирической веры и ценностного суждения. Эмпирическая вера состоит в том, что введение коммунизма приведет к определенному результату или классу результатов: люди станут счастливее, работать меньше часов и обладать большим материальным богатством. Это, в конечном счет, эмпирическое предсказание: даже его часть о счастье относится к реальным состояниям мозга, хотя ее трудно измерить. Если вы введете коммунизм, это результат будет или достигнут, или нет. Ценностное суждение состоит в том, что этот результат удовлетворяет или предпочтителен в текущих обстоятельствах. При другой эмпирической вере о действительных последствиях коммунистической системы в реальном мире, решение может претерпеть соответствующие изменения.
Мы можем ожидать, что подлинный ИИ, Искусственный Универсальный Интеллект, будет способен изменять свои эмпирические верования. (Или свою вероятностную модель мира и т. д.) Если бы каким-то образом Чарльз Баббадж (Charles Babbage) жил до Николая Копериника, и если бы каким-то образом компьютеры были бы изобретены до телескопов, и каким-то образом программисты той эпохи сконструировали бы Искусственный Универсальный Интеллект, из этого не следует, что ИИ верил бы всегда, что Солнце вращается вокруг Земли. ИИ может преодолеть фактическую ошибку своих программистов, в случае, если программисты понимают теорию умозаключений лучше, чем астрономию. Чтобы создать ИИ, который откроет орбиты планет, программистам не нужно знать математику Ньютоновской механики, а только математику Байсовой теории вероятности.
Недомыслие программирования ИИ для введения коммунизма, или любой другой политической системы, состоит в том, что вы программируете средства, а не цель. Вы программируете определенные решения без возможности их переработать после обретения улучшенного эмпирического знания о результатах коммунизма. Вы даете ИИ готовое решение без того, чтобы обучить его, как создать заново (re-evaluate), - на более высоком уровне понимания, - исходно ошибочный процесс, который создал это решение.
Если я играю в шахматы против более сильного игрока, я не могу предсказать точно, где мой оппонент сделает ход против меня – если бы я мог предсказать, я бы, по необходимости, был бы так же силен в шахматах сам. Но я могу предсказать конечный результат, а именно выигрыш другого игрока. Я знаю область возможных будущ, куда мой оппонент направляется, что позволяет мне предсказать конец пути, даже если я не могу видеть дороги. Когда я нахожусь в наиболее творческом состоянии, это тогда, когда труднее всего предсказать мои действия и легче всего предсказать последствия моих действий. (Предполагая, что вы знаете и понимаете мои цели.) Если я хочу сделать игрока в шахматы, превосходящего человека, я должен запрограммировать поиск выигрышных ходов. Мне не следует программировать конкретные шаги, потому что в этом случае шахматный игрок не будет чем-либо лучше меня. Когда я начинаю поиск, я по необходимости жертвую своей способностью предсказать точный ответ заранее. Чтобы получить по настоящему хороший ответ, вы должны пожертвовать своей способностью предсказать ответ, но не своей способностью сказать, каков вопрос.
Такая путаница, как непосредственное программирование коммунизма, вероятно, не соблазнит программиста универсального ИИ, который говорит на языке теории решений. Я бы назвал это философской ошибкой, но обвинил бы в этом недостаток технического знания.
«Вместо законов, ограничивающих поведение интеллектуальных машин, мы должны дать им эмоции, которые будут руководить их обучением поведению. Они должны хотеть, чтобы мы были счастливы и процветали, - что есть эмоция, которую мы называем любовью. Мы можем спроектировать интеллектуальные машины так, что их основная, врожденная эмоция будет безусловная любовь ко всем людям. В начале мы можем сделать относительно простые машины, которые научатся распознавать выражения счастья и несчастья на человеческом лице, человеческие голоса и человеческий язык жестов. Затем мы можем жестко привязать результат этого обучения в качестве изначально присущих эмоциональных ценностей более сложным интеллектуальным машинам, позитивно подкрепляемым, когда мы счастливы, и негативно – когда несчастливы. Машины могут обучиться алгоритмам приблизительного предсказания будущего, как, например, инвесторы используют сейчас обучающиеся машины, чтобы предсказать будущие цены облигаций. Таким способом мы можем запрограммировать интеллектуальные машины обучиться алгоритмам предсказания будущего человеческого счастья, и использовать эти предсказания, как эмоциональные ценности».
Bill Hibbard (2001), Сверх-интеллектуальные машины (Super-intelligent machines.)
Однажды американская армия захотела использовать нейронную сеть для автоматического обнаружения закамуфлированных танков. Исследователи натренировали нейронную сеть на 50 фотографиях закамуфлированных танков среди деревьев, и на 50 фото деревьев без танков. Использую стандартные методики контролируемого обучения, исследователи обучили нейронную сеть взвешиванию, которое правильно опознавало тренировочный набор – ответ «да» - для 50 фотография закамуфлированных танков, и ответ «нет» для 50 фотографий леса. Это не гарантировало, ни даже означало, что новые образцы будут классифицированы правильно. Нейронная сеть могла обучиться ста отдельным случаям, которые могли не обобщаться ни на одну новую задачу. Предусмотрительные исследователи сделали в начале 200 фото, 100 фото танков и 100 деревьев. Они использовали только 50 из каждой группы для тренировочного набора. Исследователи запустили в нейронную сеть оставшиеся 100 фото, и без дальнейшей тренировки нейронная сеть распознала все оставшиеся фотографии правильно. Успех подтвердился! Исследователи направили законченную работу в Пентагон, откуда ее вскоре вернули, жалуясь, что в их собственной серии тестов нейронная сеть была не лучше, чем случай, в отборе фотографий.
Оказалось, что в наборе данных исследователей фотографии закамуфлированных танков были сделаны в облачные дни, тогда как фотографии чистого леса были сделаны в солнечные дни. Нейронная сеть обучилась различать облачные и солнечные дни вместо того, чтобы научиться различать закамуфлированные танки от пустого леса. (сноска 2)
(сноска 2) Эта история, хотя и известная, и часто цитируемая, может быть апокрифической. Я не нашел сообщения из первых рук. Для отчета без ссылок см. Crochat и Franklin (2000) или http://neil.fraser.name/writing/tank/. Ошибки такого рода являются предметом больших реалистических рассмотрений при создании и тестировании нейронных сетей.
Технический провал имеет место, когда код не делает то, что, вы думаете, он делает, хотя он четно выполняет то, на что вы его запрограммировали. Одни и те же данные могут соответствовать разным моделям. Допустим, что мы обучаем нейронную сеть различать улыбающиеся человеческие лица и отличать их от хмурящихся лиц. Будет ли эта сеть распознавать маленькую картинку смеющегося лица как такой же аттрактор, как и смеющееся человеческое лицо? Если ИИ, жестко фиксированный на таком коде, обретет власть – и Hibbard (2001) говорит о сверхинтеллекте – не закончит ли галактика тем, что будет покрыта малюсенькими молекулярными картинками улыбающихся лиц? (сноска 3)
(сноска 3) Bill Hibbard, после просмотра черновика этой статьи, написал ответ, доказывающий, что аналогии с проблемой «классификатора танков» не применима к подкрепляющему обучению в целом. Его критика может быть найдена здесь: http://www.ssec.wisc.edu/~billh/g/AIRisk_Reply.html. Мой ответ: http://yudkowsky.net/AIRisk_Hibbard.html. Hibbard также отмечает, что предложение Hibbard (2001) заменено предложением Hibbard (2004). Последнее предлагает двухуровневую систему, в которой выражения согласия со стороны людей подкрепляют распознавание счастья, и распознанное счастье подкрепляет стратегии поведения.
Эта форма провала особенно опасна, потому что система выглядит работающей в одном контексте, и проваливается при смене контекста. Создатели «определителя танков» обучали свою нейронную сеть до тех пор, пока она не начинала правильно распознавать данные, затем проверили сеть на дополнительных данных (без дальнейшего обучения). К несчастью, данные и для обучения, и для проверки содержали предположение, которое относилось ко всей информации, использованной в разработке, но не к ситуациям реального мира, где нейронная сеть была призвана работать. В истории с определителем танков это предположение состояло в том, что танки фотографируются в облачные дни.
Предположим, мы стремимся создать усиливающийся ИИ. Этот ИИ будет иметь фазу развития, когда люди-программисты будут сильнее его – не только в смысле физического контроля над электропитанием ИИ, но в смысле, что люди-программисты умнее, хитрее и более творческие, чем этот ИИ. Мы предполагаем, что в течение фазы развития программисты будут обладать способностью изменять исходный код ИИ без его согласия. После этого момента мы должны полагаться на установленную до того систему целей, потому что, если ИИ заработает достаточно непредсказуемым образом, то он сможет активно сопротивляться нашим попыткам корректировать его – и если ИИ умнее человека, то, скорее всего, он победит.
Попытки контролировать растущий ИИ посредством тренировки нейронной сети, чтобы создать его систему целей сталкиваются с проблемой большой смены контекста при переходе от стадии развития ИИ к стадии после его развития (postdevelopmental stage). На стадии развития, ИИ может быть только способен создавать реакции, попадающие в категорию «улыбающихся человеческих лиц», решая предоставленные людьми задачи, как задумали его создатели. Вскоре, когда ИИ станет сверхчеловечески интеллектуален и создаст свою собственную нанотехнологическую инфраструктуру, он станет способен создавать столь же притягательные для него стимулы, покрывая всю галактику маленькими улыбающимися лицами.
Таким образом, ИИ кажется работающим правильно на стадии разработки, но создает катастрофические результаты, когда он становится умнее программистов(!)
Есть соблазн подумать: «Но наверняка ИИ будет знать, что это не то, что мы имеем в виду?» Но код не дан ИИ, чтобы он его просмотрел и вернул, если выяснится, что он работает неправильно. Код и есть ИИ. Возможно, приложив достаточно усилий и понимания, мы можем написать код, который следит, чтобы мы не написали неправильный код – легендарная DWIM-инструкция, которая среди программистов означает делай-то-что-я-имею-в-виду. (Do-What-I-Mean. (Raymond, 2003.)) Но требуются усилия, чтобы описать механику работы DWIM, и нигде в предложении Хиббарда нет упоминаний о создании ИИ, который делает то, что мы имеем в виду, а не то, что мы говорим. Современные чипы не выполняют DWIM над своим кодом; это не автоматическое свойство. И если у вас проблемы с самим DWIM, вы пострадаете от последствий. Предположим, например, что DWIM был определен так, чтобы максимизировать удовлетворение программиста от своего кода; когда этот код запустится как сверхинтеллект, он может переписать мозги программиста, чтобы он был максимально удовлетворен этим кодом. Я не говорю, что это неизбежно; я только говорю, что Делай-то-что-я-имею-в-виду – это большая и не тривиальная техническая проблема на пути к Дружественному ИИ.
С точки зрения глобальных рисков, одно из наиболее критических обстоятельств в связи с ИИ, это то, что ИИ может усилить свой интеллект чрезвычайно быстро. Очевидная причина подозревать такую возможность – это рекурсивное само-улучшение (Good, 1965) ИИ становится умнее, в том числе умнее в отношении написания внутренней когнитивной функции ИИ, так что ИИ может переписать свою существующую когнитивную функцию, чтобы она работала лучше. Это сделает ИИ еще умнее, в том числе умнее в отношении задачи переделывания себя, так что он сделает еще больше улучшений.
Люди по большому счету не могут улучшать себя рекурсивно. В ограниченном объеме мы себя улучшаем: мы учимся, мы тренируемся, мы затачиваем свои навыки и знания. В небольшом отношении эти само-улучшения улучшают нашу способность улучшаться. Новые открытия могут увеличить нашу способность делать дальнейшие открытия – в этом смысле знание само себя питает. Но есть более нижний уровень, которого мы даже не коснулись. Мы не переписываем человеческий мозг. Мозг является, в конечном счете, источником открытий (the source of discovery), и наши мозги сейчас почти такие же, как они были 10 тысяч лет назад.
Похожим образом, естественный отбор улучшает организмы, но процесс естественного отбора не улучшает сам себя – по большому счету. Одна адаптация может открыть дорогу к дополнительным адаптациям. В этом смысле адаптация питает сама себя. Но даже когда генетический океан (pool) кипит, там все равно присутствует нижестоящий нагреватель, а именно процессы рекомбинации, мутации и селекции, которые сами себя не перепроектируют. Несколько редких нововведений увеличили скорость эволюции самой по себе, например, появление половой рекомбинации. Но даже пол не изменил сущностной природы эволюции: ее отсутствие абстрактного интеллекта, ее зависимость от случайных мутаций, ее слепоту и постепенность, ее сосредоточенность на частоте аллелей. Точно также появление науки не изменило сущностного характера человеческого мозга: его лимбическое ядро, церебральный кортекс, его префронтальные собственные модели (prefrontal self-models), его характеристическую скорость в 200 ГЦ.
ИИ может переписать свой код с самого начала – он может изменить лежащую в основе динамику процесса оптимизации. Такой процесс оптимизации будет закручиваться гораздо сильнее, чем эволюционные накапливающие адаптации, равно как и человеческие накапливающиеся знания. Главным последствием с точки зрения наших целей является то, что ИИ может совершить огромный прыжок в интеллектуальности после достижения некого порога критичности.
Часто встречающееся скептическое мнение об этом сценарии, – который Good (1965) назвал «интеллектуальным взрывом» - происходит из того, что прогресс в области ИИ имеет репутацию очень медленного.
Здесь полезно рассмотреть свободную историческую аналогию об одном неожиданном открытии. (Дальнейшее взято главным образом из Rhodes, 1986.)
В 1933 году лорд Эрнст Резерфорд заявил, что никто не должен ожидать, что когда-нибудь удастся извлечь энергию из распада атома: «Любой, кто искал источник энергии в трансформации атомов, говорил вздор». В те времена требовались дни и недели работы, чтобы расщепить небольшое количество ядер.
Вскоре, в 1942 году, на теннисном корте под Стаг Филдом около университета Чикаго физики строят агрегат в форме гигантской шарообразной дверной ручки из чередующихся слоев графита и урана, намереваясь запустить первую само-поддерживающуюся ядерную реакцию. За проект отвечает Энрико Ферми.
Ключевым числом для реактора является K, эффективный фактор умножения нейтронов: то есть среднее значение числа нейтронов из реакции деления, которое вызывает другую реакцию деления. Пока К меньше единицы, реактор является субкритическим. При К >=1 реактор должен поддерживать критическую реакцию. Ферми рассчитал, что реактор достигнет К=1 при числе слоев между 56 и 57.
Рабочая группа, руководимая Гербертом Андерсоном, закончила 57 слой в ночь 1 декабря 1942 года. Контрольные стержни - бруски дерева, покрытые поглощающей нейтроны кадмиевой фольгой, - предохраняли реактор от
продолжение следует...
Часть 1 Искусственный интеллект - мировые риски и влияния на отрасли
Часть 2 4: Способности и мотивы. (Capability and motive). - Искусственный интеллект
Часть 3 9: Угрозы и перспективы. (Threats and promises.) - Искусственный интеллект
Часть 4 11: ИИ и усиление человеческого интеллекта. (AI versus human intelligence
Часть 5 - Искусственный интеллект - мировые риски и влияния на отрасли
Комментарии
Оставить комментарий
Связь с другими науками и явлениями культуры
Термины: Связь с другими науками и явлениями культуры