Category: игры

Category was added automatically. Read all entries about "игры".

def

Tabula rasa - 4


В продолжение темы. Компьютер «научили учиться» самостоятельно решать кубик Рубика. Новая самообучающаяся программа решения кубика не требует заранее подготовленных данных: ни алгоритма сборки, ни набора разобранных/оцененных позиций, ни иных накопленных людьми знаний предметной области за пределами основных правил манипулирования снарядом. Начиная с чистого листа, программа играет сама с собой и постепенно овладевает искусством сборки кубика.
arXiv:1805.07470
Solving the Rubik's Cube Without Human Knowledge
Stephen McAleer, Forest Agostinelli, Alexander Shmakov, Pierre Baldi
(Submitted on 18 May 2018)

A generally intelligent agent must be able to teach itself how to solve problems in complex domains with minimal human supervision. Recently, deep reinforcement learning algorithms combined with self-play have achieved superhuman proficiency in Go, Chess, and Shogi without human data or domain knowledge. In these environments, a reward is always received at the end of the game, however, for many combinatorial optimization environments, rewards are sparse and episodes are not guaranteed to terminate. We introduce Autodidactic Iteration: a novel reinforcement learning algorithm that is able to teach itself how to solve the Rubik's Cube with no human assistance. Our algorithm is able to solve 100% of randomly scrambled cubes while achieving a median solve length of 30 moves -- less than or equal to solvers that employ human domain knowledge.

Обладающий общим интеллектом агент должен уметь самообучаться решению задач в сложных предметных областях при минимальном человеческом руководстве. В последнее время алгоритмы глубокого обучения с подтверждением в сочетании с игрой против себя достигли сверхчеловеческого уровня игры в го, шахматы и сёги без подготовленных людьми данных и знаний предметной области. Однако, в рамках этих задач в конце игры всегда происходит поощрение, тогда как для многих комбинаторных задач оптимизации, поощрения редки и завершение эпизодов не гарантируется. Мы представляем «автодидактическую итерацию» (Autodidactic Iteration): новый алгоритм обучения с подтверждением, способный самообучаться решению кубика Рубика без помощи людей. Наш алгоритм способен решать 100% случайных конфигураций кубика, при этом достигая медианной длины решения 30 ходов — меньше или столько же по сравнению с алгоритмами сборки, задействующими человеческие знания предметной области.
Однако, тенденция.


def

Tabula rasa - 2


Продолжение темы новых успехов ИИ (искусственного интеллекта). В посте по ссылке я назвал наиболее ярким достижением машинного обучения за последние годы алгоритм AlphaGo Zero, который обучается играть в го с чистого листа («tabula rasa»), без присмотра со стороны людей и без ознакомления с примерами сыгранных людьми партий. Алгоритм изначально знает только правила игры в го, а далее интенсивно играет сам с собой и, обучаясь на собственных ошибках, быстро выходит на сверхчеловеческий уровень игры. При обсуждении в комментариях я предположил, что, быть может, AlphaGo Zero является первым рабочим прототипом некой метаигровой программы для настольных игр типа шахмат. Под метаигровой программой я подразумеваю алгоритм, которому на входе скармливают правила очередной игры и вскоре получают на выходе игрока, способного обыгрывать сильнейших мастеров-людей.

И вот, очередной препринт — в студию:
arXiv:1712.01815
Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm
David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Matthew Lai, Arthur Guez, Marc Lanctot, Laurent Sifre, Dharshan Kumaran, Thore Graepel, Timothy Lillicrap, Karen Simonyan, Demis Hassabis
(Submitted on 5 Dec 2017)

The game of chess is the most widely-studied domain in the history of artificial intelligence. The strongest programs are based on a combination of sophisticated search techniques, domain-specific adaptations, and handcrafted evaluation functions that have been refined by human experts over several decades. In contrast, the AlphaGo Zero program recently achieved superhuman performance in the game of Go, by tabula rasa reinforcement learning from games of self-play. In this paper, we generalise this approach into a single AlphaZero algorithm that can achieve, tabula rasa, superhuman performance in many challenging domains. Starting from random play, and given no domain knowledge except the game rules, AlphaZero achieved within 24 hours a superhuman level of play in the games of chess and shogi (Japanese chess) as well as Go, and convincingly defeated a world-champion program in each case.

Игра в шахматы является наиболее изученной предметной областью в истории искусственного интеллекта. Сильнейшие программы основаны на сочетании утонченных методов поиска, специфичных для предметной области черт, а также функций оценки позиции ручной работы, которые совершенствовались экспертами-людьми на протяжении нескольких десятилетий. В противоположность этому подходу, программа AlphaGo Zero недавно достигла сверхчеловеческой силы игры в го с начального состояния tabula rasa посредством обучения с подкреплением на партиях против себя самой. В данной статье мы обобщаем этот подход на единый алгоритм AlphaZero, который способен достигать, с начального состояния tabula rasa, сверхчеловеческой силы игры во многих трудных предметных областях. Начав со случайных ходов и не получив никаких знаний предметной области кроме правил игры, AlphaZero за 24 часа достиг сверхчеловеческого уровня игры в шахматы и сёги (японские шахматы), а также в го, в каждом случае убедительно переиграв мировую чемпионскую программу.
Та-та-та-там. Что день грядущий нам готовит?

UPD: Продолжение темы: 3D-рендеринг.



def

Tabula rasa


В феврале 2011 компьютерная программа «Ватсон» компании IBM переиграла в телевизионном шоу Jeopardy! двух людей-чемпионов этого интеллектуального спорта (локализован в РФ под названием «Своя игра»). Я тогда написал восторженный пост по горячим следам. Комментарии к посту, как водится, оказались интереснее самого поста. В частности, в этом диалоге был поставлен правильный вопрос — научится ли в обозримом будущем искусственный интеллект (ИИ) побеждать людей в играх, правила которых ему только что объяснили: «Легко отличаю [программу от живого игрока]: роботы не умеют понять предложение поиграть в новую игру. Вот когда создадут коробку, которая на предложение поиграть хотя бы в “города”, после объяснения правил скажет “ес, ес, андерстенд!”, и проиграв первые две-три партии, начнет драть всех подряд — вот это будет круто». Я тогда ответил, что мы, вероятно, дождемся появления такой коробки: «По крайней мере, Ватсон, скорее всего, после небольшой доработки будет в состоянии понимать правила нехитрых новых игр вроде городов. Мне так кажется. Во всяком случае, я думаю, что мне представится повод написать у себя в блоге о чем-то подобном. Почти уверен — всё к тому идёт».

Прошло без малого семь лет. IBM занимается практическими приложениями и коммерциализацией «Ватсона». Не знаю, насколько успешен этот бизнес IBM, но новых зрелищных интеллектуальных высот Ватсон с тех пор вроде бы не брал. Зато индустрия ИИ в целом шагнула вперед в том числе и по части выразительных достижений. Компьютеры научились переигрывать людей в новых областях: видеоигры, распознавание изображений, восприятие человеческой речи и проч. Более того, ИИ стал обыгрывать людей в покер (с блефом). И, еще более того, искусственный интеллект преуспел в абстрактной живописи: оригинальные картины, сгенерированные алгоритмом, в ходе (скромного по масштабам) онлайнового опроса получили более высокие оценки зрителей, чем картины художников-людей с флагманской выставки жанра (в том числе и при углубленном оценивании «творческих характеристик»).

Но самым ярким новым достижением ИИ я считаю серию программ AlphaGo, которые уверенно обыгрывают чемпионов игры го. В отличие от шахмат, для го не существует простого аналитического способа приблизительной оценки позиции. Го также значительно богаче шахмат в комбинаторном отношении. Грубо говоря, разумную шахматную программу можно написать, объединив три модуля: 1) аналитической оценки позиции (очко за пешку, три очка с за легкую фигуру, четыре или пять за тяжелую, плюс еще столько-то за контроль центра и т. д.); 2) полного перебора вариантов, например, на три хода вперед; и 3) хотя бы небольшой дебютной библиотеки. После некоторой настройки и доводки, программа сможет обыгрывать средней руки игроков-людей. Причем такая шахматная программа будет способна относительно ясным и кратким образом объяснить любой свой ход. Это в шахматах. Изготовить аналогичным способом разумного компьютерного игрока в го, насколько я понимаю, не получится: аналитические методы оценки позиции слишком расплывчаты и недостаточно развиты, неглубокий просчет вариантов мало что дает, а на глубокий просчет не хватит ресурсов — дерево игры слишком обширно для полного глубокого перебора. Искусство успешной игры в го «более интуитивно», чем шахматное. Сильному игроку в го существенно сложнее, чем шахматисту, объяснить, почему на таком-то ходу он сыграл так-то. Ну, вот просто по опыту, интуитивно так сыграл.

Интуицию часто признают прерогативой людей, характерной «фирменной» чертой именно человеческого мышления — в противоположность «формальным» и «нетворческим» компьютерным вычислениям. И вот, появилась программа, обыгрывающая чемпионов-людей в «интуитивную» игру го. Причем недавно была опубликована статья о радикальном усовершенствовании этой программы — по существу, о создании нового алгоритма игры, который всухую расправляется с предыдущей версией алгоритма (уже игравшей на сверхчеловеческом уровне). Новый алгоритм изначально ничего не знает о го, кроме правил игры. Он самообучается с нуля, с состояния чистого листа (tabula rasa) и без внешнего руководства. Воспроизведу собственный пост в ФБ на этот счет, где цитирование аннотации ключевой статьи предваряется кратким (и немного вольным) изложением по-русски:
    AlphaGo Zero: программа игры в го, которая самообучается с нуля до сверхчеловеческого уровня за несколько дней без базы данных образцов игр.
    Предыдущая версия программы AlphaGo научилась побеждать чемпионов-людей, комбинируя тренировку на большой базе данных сыгранных людьми партий с внутренним самообучением (без руководства, за счет игр сама с собой). Новая программа AlphaGo Zero не нуждается ни в чем, кроме правил игры го. Базу данных игр ей не показывали, тактики и стратегии не объясняли. За несколько дней, интенсивно играя сама с собой, AlphaGo Zero вышла на уровень равной игры с предыдущей AlphaGo, а затем обошла ее и, в конечном счете, выиграла у своей предшественницы со счетом 100:0.

    A long-standing goal of artificial intelligence is an algorithm that learns, tabula rasa, superhuman proficiency in challenging domains. Recently, AlphaGo became the first program to defeat a world champion in the game of Go. The tree search in AlphaGo evaluated positions and selected moves using deep neural networks. These neural networks were trained by supervised learning from human expert moves, and by reinforcement learning from self-play. Here we introduce an algorithm based solely on reinforcement learning, without human data, guidance or domain knowledge beyond game rules. AlphaGo becomes its own teacher: a neural network is trained to predict AlphaGo’s own move selections and also the winner of AlphaGo’s games. This neural network improves the strength of the tree search, resulting in higher quality move selection and stronger self-play in the next iteration. Starting tabula rasa, our new program AlphaGo Zero achieved superhuman performance, winning 100–0 against the previously published, champion-defeating AlphaGo.
    Mastering the game of Go without human knowledge, pdf.
Резюме из всех этих новостей я бы вывел на данный момент такое: за прошедшие семь лет ИИ не взял высокую планку, которая была задана в комментариях к посту 2011 г, но процесс идет. Определенно, разработчиков ИИ можно поздравить с новым го!

UPD: Продолжение темы, Tabula rasa - 2.

def

Задача: игра в карты «в уме»



Чтение философского эссе Скотта Ааронсона навеяло стилизованную задачку «как бы про знания». Тема, мягко говоря, не нова, но знакомы с ней далеко не все, и результат может показаться неожиданным.

Collapse )

Задача сформулирована для стилизованной колоды из всего трех карт. Я не против обсудить обобщение на колоды любых разумных размеров (например, 36 карт), но это будет уже другая задача. И я, кстати, не утверждаю, что запрошенный протокол вообще существует, хотя бы для минималистской трехкарточной колоды. Если вы считаете, что нужного протокола не существует, — попробуйте убедительно доказать это.


Ответы принимаются, комментарии скрыты.

Убедительные решения предложили: fiviol, xmyruj, madam_y, ...

def

Задачка: анаграмма на английском [вскрыто]


Подберите анаграмму к "homo sapiens", которую, по моему скромному мнению, вполне мог бы придумать Чарльз Дарвин (хотя на самом деле придумал не он):

Homo sapiens — [...].

При образовании анаграммы разрешается вставлять нужные по смыслу знаки препинания.


Пояснение для любителей бескрылок: это анаграмма, а не бескрылка, так что поиск ответа среди крылатых английских фраз вряд ли что-то даст. Разве что загаданная анаграмма настолько известна, что сама по себе стала крылатой фразой (что возможно, но я не проверял).

Collapse )

Правильные ответы: al_pas, madam_y и efimpp.

Прием ответов закончен, комментарии раскрыты.