Скупой платит дважды, тупой платит трижды, лох платит постоянно! – Или, снова о Шкатулках

Виталий КВИНСТАР · 10.08.2007, 21:47 TS

2SunnyRay:
Лох, обученный Коровиным, будем всегда менять шкатулки 2 и 4, и не будет никогда менять шкатулки 8 и 16. Лох, обученный Виталием, шкатулки менять не будет.
В последнем предложение - ПЕРЕДЁРГИВАНИЕ. Это неспортивно.

Я просто показал, что предположение Коровина о том, что К=4 - оптимальна, легко опровергается контрпримером Учередителя. А именно: таким распределением парных сумм, что стратегия Коровина просто НЕоптимальна.
Поэтому, мой Адвансед будет менять только шкатулки с двойкой, а на остальных - "стоять"! Считаем МО:
MO_адванседа_обученного_Вит� �лием = 4*(5/16) [2-4, открыл 2, сменил] + 4*(5/16) [случай, когда в шкатулках 2-4, первой открыл 4, стоит] + 4*(2/16) [4-8, 4, стоит] + 8*(2/16) [4-8, 8, стоит] + 8*(1/16) + 16*(1/16) = 88/16,
что хоть и немного, но больше чем у Коровина (86/16).

А посмотри, что будет при инверном содержании парных сумм: 2-4; 4-8; 8-16 уе. с долями соответственно 1/8, 2/8 и 5/8 от всего количества.
Коровин меняет на 2-4 и стоИт на 8 и старше. Убедись в конце концов, что на 8 СЛЕДУЕТ менять шкатулки!!

Вывод: ПОЧТИ любой профиль Игрока "в терминах Коровина" бьётся Учередителем.
Существует уникальный "профиль" (как незаметно мы близко приблизились к клубному покеру!), некоторый априори не бьётся.

Подсказка: для нахождения оптимальной стратегии сразу и за Игрока и за Учередителя следует использовать "эквилибриум Нэша" (теория Игр)!
Ещё одна подсказка: разберись когда решение Грамазеки становится оптимальным!

SunnyRay · 10.08.2007, 23:26

Виталий КВИНСТАР
Это не передёргивание, это я неправильно понял, что именно ты хочешь показать. Идеи очень интересные, из этого может что-то получиться.

То, что любая стратегия Коровина с постоянным К неоптимальна, практически очевидно и без таких сложных манипуляций организатора с вероятностями. Всё, что доказано к этому моменту - это факт того, что стратегия Коровина лучше тупых стратегий "всегда менять", "никогда не менять", и "менять с некоторой вероятностью".

В примере со шкатулками 2-4, 4-8, 8-16, при любом постоянном К игрока организатор может выдавать только шкатулки, в диапазон которых это К не попадает, и тогда игрок получит МО тупой стратегии, что будет хуже, чем МО стратегии Коровина с другим К. Вероятности 1/8, 2/8, 5/8 совсем не обязательны, достаточно 0, 0, 1.

Эквилибриум Нэша - это очень хорошо. Понятно, что можно попытаться его найти. Для этого сначала нужно определиться с игрой, то есть определить набор чистых стратегий организатора, набор чистых стратегий игрока, выигрыш организатора и выигрыш игрока. Задача предполагает бесконечное число чистых стратегий, а функция выигрыша организатора как таковая не определена.

С трудом представляю, как искать эквилибриум Нэша в смешанных стратегиях для игры с бесконечным числом чистых стратегий. Придётся подтягивать теорию

korovin · 11.08.2007, 02:12

Цитата:

Сообщение от Виталий КВИНСТАР писал пт, 10 августа 2007 21:47

Я просто показал, что предположение Коровина о том, что К=4 - оптимальна, легко опровергается контрпримером Учередителя. А именно: таким распределением парных сумм, что стратегия Коровина просто НЕоптимальна.

Оптимально с позиции денег - это всегда брать большую сумму. Я НЕ предлагаю искать оптимальный К, это SunnyRay мутит воду. Мы не можем знать какой К оптимален, так как мы не знаем что в мозгах у организатора, мы не можем на 100% его подловить, но вероятность что мы угадаем >=0. Он не знает какой К мы используем и у него нет 100% шансов нас подловить, да и зачем ему нас подлавливать, если он добровольно дарит деньги? (В ЗАДАЧЕ НИКТО НИКОГО НЕ ПЫТАЕТСЯ ПОДЛОВИТЬ). Твой пример прекрасно демонстрирует то, как моя стратегия может повысить МО моего лоха. В твоих примерах оно выше чем у твоего лоха, который счмтает что "Нет разницы менять или нет, птому что МО замены =0".

Цитата:

Сообщение от Цитата:

А теперь давай посчитаем полное МО игры, а не условное, когда было открыто 4$.
Лох, обученный Коровиным, будем всегда менять шкатулки 2 и 4, и не будет никогда менять шкатулки 8 и 16.
Лох, обученный Виталием, шкатулки менять не будет.
MO_лоха_обученного_Коровины� � = 2*(5/16) [случай, когда в шкатулках 2-4, первой открыл 4, сменил] + 4*(5/16) [2-4, открыл 2, сменил] + 8*(2/16) [4-8, 4, сменил] + 8*(2/16) [4-8, 8, стоит] + 8*(1/16) + 16*(1/16) = 86/16 = 43/8
MO_лоха_обученного_Виталием = 3*(5/8) + 6*(2/8) + 12*(1/8) = 39/8
Видим, что стратегия Коровина дает лоху преимущество в игре.

Витылий, ты отрицаеш мой медод вобще или считаеш его неоптимальным? ТЫ САМ можеш предложить универсальную стратегию, которая в этом частном случае может дать лучшее МО???

Виталий КВИНСТАР · 11.08.2007, 09:34 TS

Цитата:

Сообщение от Korovin писал сб, 11 августа 2007 02:12

...ТЫ САМ можеш предложить универсальную стратегию, которая в этом частном случае может дать лучшее МО???

ДА!

I) ------------
Сейчас уже всем стало понятным и очевидным, что если известны "профили" противников и они остаются неизменными, то появляется шанс усилить свою стратегию, чтобы показывать более-лучший результат. О том, как определять и скрывать "профили" поговорим ниже.

Примеры:
1) Игрок знает "профиль" Учредителя (распределение частот парных сумм в шкатулках)
а) "профиль" вида БР - "больше [выплаты] - реже [встречаются]"
выплаты 2-4 4-8 8-16
доли 11/16 4/16 1/16
---------------------------------------
Здесь наилучшая стратегия: НИКОГДА не открывать вторую шкатулку, если выпадает от 4-х и выше.

б) "профиль" вида БЧ - "больше - чаще"
выплаты 2-4 4-8 8-16
доли 1/16 4/16 1/16
---------------------------------------
Здесь наилучшая стратегия: ВСЕГДА открывать вторую шкатулку, если выпадает от 8-и и ниже.

2) Учередитель знает "профиль" Игрока (на каких уровнях он открывает вторую шкатулку)
а) "профиль" вида БС - (больше [выплаты] - с[тоим], иначе - м[еняем])
выплаты 2-4 4-8 8-16
м м м с с с
---------------------------------------
Здесь наилучшая стратегия Учередителя: сделать свой профиль вида БЧ. Тогда игрок будет явно не добирать за счёт "стэя"!

б) "профиль" вида БМ - (больше [выплаты] - м[еняем], иначе - с[тоим])
выплаты 2-4 4-8 8-16
м с с м м с
------ концевые действия сделали осмысленными!
Здесь наилучшая стратегия Учредителя: сделать свой профиль вида БР. Тогда игрок будет явно не добирать за счёт "обмена" на больших суммах!

II) -----------------------
Возникает естественный вопрос: а есть ли "профили" противников, когда безразлично - "открывать вторую шкатулку или нет?" (для Игрока) и "открывает ли вторую шкатулку игрок или нет?" (для Учредителя).
Ответ утвердительный: ЕСТЬ.

1) Запишем локальное МО для какой-нибудь суммы S_i. P_k - вероятность выпадения k-ой суммы после выпадения i!!
"k-1", "k+1" - индексы кратных сумм.
стоим: МО_с = S_i;
меняем: МО_м = (P_i-1)*(S_i-1) + (P_i+1)*(S_i+1) = (P_i-1)*S_i/2 + (P_i+1)*S_i*2.
--------------------------------
Сокращаем общий сомножитель и получаем:
(P_i-1)/2 + (P_i+1)*2 = 1.
Это индексное уравнение имеет очевидное решение: P_i-1 = 2/3; P_i+1 = 1/3. То есть, увеличение выигрыша во второй шкатулке (в 2 раза) должно встречаться в ДВА реже, чем уменьшение!!
Пример:
парные_суммы: 1-2 2-4 4-8 8-16 16-32 32-64 64-128
доли: 1/2+1/128 1/4 1/8 1/16 1/32 1/64 1/128
P.S. Наименьшую пару мы вынуждены задавать чуть чаще для соблюдения баланса!

2) Аналогичная картина и для "профиля" Игрока (только не путать с методикой Коровина).
Игрок ОБЯЗАН на любой первоначальной сумме в ТРЕТИ СЛУЧАЕВ ОТКРЫВАТЬ ВТОРУЮ ШКАТУЛКУ!! Иначе, Устроитель может видоизменить свой "профиль" так, что Игрок станет выигрывать меньше.

III) -------------------
Итак, мы нашли РАВНОВЕСНЫЕ/ОПТИМАЛЬНЫЕ СТРАТЕГИИ ПРОТИВНИКОВ. Т.е. в этой позе НИКТО (Игрок/Учредитель) не может улучшить свой результат. Если кто-то отступает от оптимальности - противник за счёт изменения своего "профиля" может показывать лучше результат, но если первый среагировал вовремя на этот манёвр, то Второй - вляпается!! Тут цель выбирает каждый под себя: "больше выиграть" или "меньше проиграть".
Понятно, что МО для равновесных стратегий совпадает с результатом Грамазеки = 1.5*сумма_в_обеих_шкатулках.

IV) -----------
По большому счёту, решениЯ Грамазеки (всегда_стоять и всегда_менять) одновременно верны при равномерных парных выплатах. Грамотный Учредитель в состоянии чуть-чуть ухудшить его результат за счёт "сгущения" (снизу или сверху) парных_сумм. Оптимальной стратегией будет "шаг вперёд, два шага назад": один раз из трёх открывать вторую шкатулку, два раза - стоять!!

V) ----------
Поиск оптимальной стратегии против КОНКРЕТНОГО противника следующий
1) Для Игрока:
а) Разбиваем диапазон выплат на дискретные величины выплат (или интервалы).
б) Отслеживаем пары локальных МО (для всех интервалов) только для тех испытаний, когда открывали вторую шкатулку - МО_с и МО_м (когда "стояли БЫ"! и когда меняли шкатулки).
в) После накопления статистики мы можем скорректировать свою первоначальную стратегию (где-то чаще делать С вместо М и наоборот) с учётом "профиля" противника! При обязательном условии, что мы "готовы и хуже сыграть, при хороших шансах больше выиграть"!
1) Для Учредителя:
Отслеживаются доли обмена шкатулок в зависимости от сумм в первой шкатулке. Те суммы выплат, где С-М отличается от 2:1 позволяют улучшить "профиль"!

VI) ---------
Халява со шкатулками может превратиться в полноценную игру, если
1) Второй возвращает Первому полусумму в шкатулках;
2) Они поочерёдно меняются местами.
----------------------------------------------------
Здесь уже надо или обманывать противника с риском вляпаться самому, или играть по Нэшу, что и было изложено выше!

korovin · 11.08.2007, 09:55

Какое отношение это имеет к задаче которую я решал и решение которой (мое) ты пытаешся опровергнуть этой темой?

Цитата:

Сообщение от Цитата:

Предлагается такая вот игра. Есть 2 шкатулки. Известно, что в одной в 2 раза больше денег чем в другой. Предлагают выбрать одну из них. Открывают. Там допустим 100$. Далее мы можем изменить свой выбор, отказавшись от 100$. Что делать и почему?

Если тема посвещена решению этой задачи с помощью предложеных тобой профилей, то зачем было приплетать сюда меня и мое строго математическое решение? Почему ты не смеешся над решением Громазеки, ведь оно тоже неоптимально с твоей точки зрения?

Цитата:

Сообщение от Цитата:

По большому счёту, решениЯ Грамазеки (всегда_стоять и всегда_менять) одновременно верны при равномерных парных выплатах. Грамотный Учредитель в состоянии чуть-чуть ухудшить его результат за счёт "сгущения" (снизу или сверху) парных_сумм. Оптимальной стратегией будет "шаг вперёд, два шага назад": один раз из трёх открывать вторую шкатулку, два раза - стоять!!

С эти никогда не соглашусь. МО игрока напрямую определяется учредителем. Если он будет всегда класть 1 и 2 цента, МО игрока не будет выше 2-х центов. Это самый верный способ максимально "ухудшить" результат игрока.

Нет никаких профилей, нет никаких вероятностей распределения пар, нет абсолютно никакой доп. информации. Предложи универсальную стратегию выбора для ДАННОЙ задачи, которая будет лучше или не хуже моей, потом вместе посмеемся.

Напомню суть: я даю игроку шанс получить вместо МО=1.5Х МО=2Х. Это шанс нельзя ни измерить ни оценить, так как у нас нет никаких входных данных, но этот шанс существует. Любая стратегия произвольного выбора не дает игроку МО больше 1.5Х. Рассматривая только примитивные стратегии мы приходим к 1.5Х и считаем что это предел. Мои идеи лежат за пределами этой простой модели восприятия исходной задачи, отсюда непонимание тех, кто считает что в этой игре не может быть "умной" стратегии как не может быть ее на рулетке. Отрицая это на уровне подсознания они автоматически считают что я не прав. Точно так же мы сразу включаем отрицание при разговорах о том как победить идеальную рулетку. Я их прекрасно понимаю, но не представляю как донести свои мысли через их отрицание на корню. Виталий, теперь, оказавшись в твоей роли - взломщика рулетки, я наконец понял как тяжело тебе общатся с нами.

AVG51 · 11.08.2007, 13:49

Цитата:

Сообщение от Korovin писал сб, 11 августа 2007 09:55

Какое отношение это имеет к задаче которую я решал и решение которой (мое) ты пытаешся опровергнуть этой темой?

Цитата:

Сообщение от Цитата:

Предлагается такая вот игра. Есть 2 шкатулки. Известно, что в одной в 2 раза больше денег чем в другой. Предлагают выбрать одну из них. Открывают. Там допустим 100$. Далее мы можем изменить свой выбор, отказавшись от 100$. Что делать и почему?

WOW!!!

Виталий припек тебя так, что ты решил наконец-то вспомнить про ту задачу, которую надо решать!!!

Тогда признай 2 вещи, которые ОЧЕВИДНО следуют из условия задачи. Если обозначить за Х меньшую из двух неизвестных сумм в шкатулке, то:
1) Верхняя граница Х в задаче не определена и может быть сколь угодно велика
2) Никаких данных о том, что Х является СВ в задаче нет

Цитата:

Сообщение от Korovin писал сб, 11 августа 2007 09:55

Напомню суть: я даю игроку шанс получить вместо МО=1.5Х МО=2Х.

Я смоделировал на компе твою стратегию ПРИ РЯДЕ ОТКЛОНЕНИЙ от условий ИСХОДНОЙ задачи и получил оптимальное значение К и максимально возможное увеличение МО игры на 25%. Никаких 2Х не обнаружил - для этого надо так исказить задачу, что от неё вообще ничего не останется 8-)

Правка: подправил цифры МО на относительную величину

korovin · 11.08.2007, 13:51

Цитата:

Сообщение от AVG51 писал сб, 11 августа 2007 13:49

Тогда признай 2 вещи, которые ОЧЕВИДНО следуют из условия задачи. Если обозначить за Х меньшую из двух неизвестных сумм в шкатулке, то:
1) Верхняя граница Х в задаче не определена и может быть сколь угодно велика
2) Никаких данных о том, что Х является СВ в задаче нет

Признал. Что дальше? Ты признаеш что произвольная К МОЖЕТ оказатся между Х и 2Х? (ДА/НЕТ).

AVG51 · 11.08.2007, 13:54

Цитата:

Сообщение от Korovin писал сб, 11 августа 2007 13:51

Цитата:

Сообщение от AVG51 писал сб, 11 августа 2007 13:49

Тогда признай 2 вещи, которые ОЧЕВИДНО следуют из условия задачи. Если обозначить за Х меньшую из двух неизвестных сумм в шкатулке, то:
1) Верхняя граница Х в задаче не определена и может быть сколь угодно велика
2) Никаких данных о том, что Х является СВ в задаче нет

Признал. Что дальше? Ты признаеш что произвольная К МОЖЕТ оказатся между Х и 2Х?

Отлично, тогда через несколько минут я закину сюда некоторые данные по твоей стратегии

Gramazeka · 11.08.2007, 13:57

Посмеялся над ответом Квинстара- "Грамазека потерял веру". Я же говорил о верном прогнозировании Коровина только в тех случаях, когда игрок например в казино Абрамовича открыл в первой шкатулке горсть пятаков и т.д. Надеюсь направление аналогии понятно...

korovin · 11.08.2007, 14:04

Gramazeka, никаких Абрамовичей, никаких монет, все в переделах условий задачи... Надеюсь сегодня AVG наконец-то поможет нам отделить мух от котлет. Кстати, о каком поиске оптимального К может идти речь при полном отсутствии информации? У меня К - произвольная сумма. Жду данные по своей стратегии!

AVG51 · 11.08.2007, 14:35

Цитата:

Сообщение от Korovin писал сб, 11 августа 2007 13:51

Цитата:

Сообщение от AVG51 писал сб, 11 августа 2007 13:49

Тогда признай 2 вещи, которые ОЧЕВИДНО следуют из условия задачи. Если обозначить за Х меньшую из двух неизвестных сумм в шкатулке, то:
1) Верхняя граница Х в задаче не определена и может быть сколь угодно велика
2) Никаких данных о том, что Х является СВ в задаче нет

Признал. Что дальше? Ты признаеш что произвольная К МОЖЕТ оказатся между Х и 2Х? (ДА/НЕТ).

Для начала немного простой логики.

Между прочим, ты в тихушку ИЗМЕНИЛ условия задачи! Это НЕСПОРТИВНО!!!

Поэтому напомню как она звучала в начале ветки:

Цитата:

Сообщение от Korovin писал сб, 26 мая 2007 02:55

Итак, с чего все началось. В одной шкатулке в 2 раза больше денег чем в другой. Мы открыли одну из них, там 100$ открывать ли вторую?

Именно ЭТУ задачу я решал, а не ту, которую ты написал парой писем выше. Так что я буду и дальше разговаривать именно об этой задаче, а не про вариации на околозадачные темы.

Итак, Х у нас не является случайной величиной. Чтобы дать ответ на данную задачку, мы просто ВООБРАЖАЕМ что будет, если мы сделаем несколько подходов к данным шкатулкам. Однако, при этом мы опускаем одно важно УСЛОВИЕ ЗАДАЧИ - у нас открылось 100$ !!! А значит мы ОБЯЗАНЫ скорректировать наше воображение, так как мы можем оперировать парами 400/800 только в нашем воображении об этой задаче, ибо открылось у нас конкретная сумма в 100$ !!!

Ты это подсознательно чувствуешь пятой точкой, поэтому и изменил условие задачи, включив в неё такое невинное слово "допустим". Однако это слово дает нам возможность говорить о каких-то широких вариациях Х, а значит ты пытаешься тянуть одеяло в свою сторону - в сторону того, что Х является СВ. Но со мной данный трюк не пройдет!

Таким образом, для решения нашей КОНКРЕТНОЙ задачи нам нужно ВООБРАЗИТЬ несколько испытаний таким образом, чтобы мы не знали никаких исходов, кроме текущего. Например, к шкатулкам будут подходить разные люди, не знающие какая сумма была открыта для предыдущих игроков. И каждый человек будет видеть именно эти 100$ - СТРОГО ПО УСЛОВИЮ НАШЕЙ ЗАДАЧИ. То есть в нашей задаче Х может принимать только 2 значения - 50 и 100, и мы не знаем Х мы открыли или нет - мы знаем только то, что открылось у нас 100$.

А значит для данной исходной задачи твоя стратегия сводится к двум единственно возможным: всегда менять (если К>100$) или всегда не менять (если К<100$), а значит для этой задачи твоя стратегия это просто ПШИК.

Согласен? 8-)

Если согласен, то я могу со спокойной душой перейти к анализу твоей стратегии НЕ ДЛЯ НАШЕЙ ЗАДАЧИ, а для равномерного распределения случайной величины Х на заданном интервале значений. Вот при этих условиях твоя стратегия работает просто отлично.

ЗЫ Кстати, я попробую доказать, что тебя не спасает даже НЕСПОРТИВНО введенное тобой слово "допустим" в нашей исходной задаче

korovin · 11.08.2007, 14:43

Давай пока перекурим и трезво посмотрим назад. Была исходная задача Нукера от 10 мая, вот она http://forum.cgm.ru/msg?th=15558&start=0 Ее мы все (кроме тебя?) все это время обсуждали. То что кто-то в процессе обсуждения, исказжал условия, то это происходило не с целью тебя запутать, говря разными словами все мы, надеюсь, имели ввиду все туже исходную задачу. Единтвенное условие, которое я потом специально добавил - меняя выбор мы отказываемся от увиденой суммы, так как Грамезка нашел в этом подвох: в условии прямо не сказано что мы теряем первую суммы. Если честно, не вижу никакой пользу или вреда для себя от этого "допустим". Так что ничего НЕСПОРТИВНОГО в том что я случайно пропустил где-то одно слово не вижу

Давай определимся что мы обсуждаем дальше с этой точки. Я за исходную задачу Нукера. Ты против? Можем обсудить примение моей теории к обоим задачам. С какой начнем?

Я очень рад что ты убедился в том, что моя теория МОЖЕТ работать в определенных условиях. Осталось убедится что такие условия возможны в пределах обоих задач

Предлагаю тебе в случае готовности говорить об этом далее создать свою новую ветку или даже 2 с "допутим" и без него.

Цитата:

Сообщение от Цитата:

То есть в нашей задаче Х может принимать только 2 значения - 50 и 100, и мы не знаем Х мы открыли или нет - мы знаем только то, что открылось у нас 100$

Кстати, посторожнее с домыслами, никаких 50$ в условиях нет.

SunnyRay · 11.08.2007, 15:07

Виталий КВИНСТАР, всё это очень хорошо, но пока неправильно!

Цитата:

Сообщение от Виталий КВИНСТАР писал сб, 11 августа 2007 09:34

I) ------------
Сейчас уже всем стало понятным и очевидным, что если известны "профили" противников и они остаются неизменными, то появляется шанс усилить свою стратегию, чтобы показывать более-лучший результат. О том, как определять и скрывать "профили" поговорим ниже.
...
б) "профиль" вида БЧ - "больше - чаще"
выплаты 2-4 4-8 8-16
доли 1/16 4/16 11/16
---------------------------------------
Здесь наилучшая стратегия: ВСЕГДА открывать вторую шкатулку, если выпадает от 8-и и ниже.
...
2) Учередитель знает "профиль" Игрока (на каких уровнях он открывает вторую шкатулку)
а) "профиль" вида БС - (больше [выплаты] - с[тоим], иначе - м[еняем])
выплаты 2-4 4-8 8-16
м м м с с с
---------------------------------------
Здесь наилучшая стратегия Учередителя: сделать свой профиль вида БЧ. Тогда игрок будет явно не добирать за счёт "стэя"!

Что значит игрок будет недобирать? Абсолютное значение МО выигрыша игрока в случае БЧ больше, чем в случае БР, и даже неоптимальность профиля игрока этого не изменит. То есть если у нас антагонистическая игра с нулевой суммой, и выигрыш игрока - это сумма, полученная игроком, то смена БР на БЧ Учредителю невыгодна! Более того, при таком определении выигрыша равновесие Нэша достигается на профиле Учредителя "класть в шкатулки НОЛЬ", или если это запрещено, то "всегда класть 1 цент и 2 цента", и равновесный профиль игрока - менять 1 цент и стоять на 2 центах.

Может, я ошибаюсь, но мне кажется, что сейчас ты используешь НЕВЕРНОЕ определение равновесия, а именно такое: "равновесие Нэша - это такие профили игрока и Учредителя, что никакая смена профиля любым из них не позволит второму сменить свой профиль так, что его выигрыш увеличится" . С таким определением равновесие просто не существует!

Для того, чтобы можно было использовать правильное равновесие Нэша, следует задать функцию выигрыша по-другому.

Введём обозначения:
Pу - профиль Учредителя
Pи - профиль игрока
T(Pу) - математическое ожидание суммы денег в первой открытой шкатулке (совпадает с МО игры по тупой стратегии)
W(Ру, Ри) - математическое ожидание выигрыша игрока, играющего по профилю Ри

Выше я написал эквилибриум для случая антагонистической игры с Fи0 = W(Ру, Ри), и он, очевидно, неадекватен исходной задаче, а следовательно, нужно искать другой критерий выигрыша. И пункт "VI)" от этого не спасёт.

Теперь я могу предолжить два способа определения функции выигрыша игрока, не знаю, есть ли среди них удовлетворительный:

Fи1 = W(Ру, Ри) / T(Pу)
Fи2 = W(Ру, Ри) - T(Pу)

Игра антагонистическая, то есть Fу1 = -Fи1, Fу2 = -Fи2.

Вот теперь, выбрав один из вариантов, можно искать эквилибриум и надеяться, что он окажется осмысленным.

Пункты II, III и IV нужно каким-то образом видоизменить в соответствии с этим. О пункте V предлагаю забыть до тех пор, как будет решена задача нахождения равновесия Нэша.

Выводы в этих пунктах неверны, они просто не могут быть верными, это доказано существованием стратегии Коровина. Среди равновесных профилей Учредителя и игрока не может быть стратегии Грамазеки или стратегии "в трети случаев брать вторую шкатулку", так как из доказательства стратегии Коровина следует, что для любого постоянного профиля Учредителя существует стратегия Коровина, дающая лучший результат, нежели любая стратегия "менять с вероятностью р, стоять с вероятностью 1-р".

Неверные выводы были предопределены использованием неправильного определения равновесия Нэша.

AVG51 · 11.08.2007, 15:49

Цитата:

Сообщение от Korovin писал сб, 11 августа 2007 14:43

Давай пока перекурим и трезво посмотрим назад. Была исходная задача Нукера от 10 мая, вот она http://forum.cgm.ru/msg?th=15558&start=0 Ее мы все (кроме тебя?) все это время обсуждали.

Я её увидел только в конце большой темы, когда анализировал применимость к данной задаче теории игр...

Цитата:

Сообщение от Korovin писал сб, 11 августа 2007 14:43

Давай определимся что мы обсуждаем дальше с этой точки. Я за исходную задачу Нукера. Ты против? Можем обсудить примение моей теории к обоим задачам. С какой начнем?

Я, в принципе, не против исходной задачи Нюкера, так как твоя формулировка в прошлой ветке излишне упрощает задачу - всю логику её решения я расписал выше и твоя стратегия туда вообще никаким боком не подходит.

Ок, теперь займемся задачей Нюкера.

Цитата:

Сообщение от SunnyRay писал пт, 10 августа 2007 23:26

Всё, что доказано к этому моменту - это факт того, что стратегия Коровина лучше тупых стратегий "всегда менять", "никогда не менять", и "менять с некоторой вероятностью".

Начнем с приятных новостей - стратегия Коровина отлично работает!

А теперь плохие новости - работает она не всегда и не везде, в частности для нашей задачи она не рабоатет 8-)

Но давайте все по порядку.

Для начала ЖУТКО ОТКЛОНИМСЯ от нашей исходной задачи и рассмотрим как работает "парадокс значимых сумм" при равномерном распределении Х, если ДОПУСТИТЬ, что этот самый Х является СВ с равномерным распределением, да ещё и с конечной верхней границей для Х.

Пишем небольшую программу, в которой будем вычислять численным методом МО игры при ДАННОМ ЖУТКОМ ДОПУЩЕНИИ. Для этого возьмем диапзон допустимых значений для Х=[1...Xmax], проведем кучу серий по куче испытаний в каждом, определим распределение средней суммы выигрыша как СВ (очевидно, что распределение будет нормальным) и определим МОигры - только в пределах данных допущений оно будет вполне определенной величиной, доступной для поиска эффективных стратегий.

Итак, запускаем программу для Хмах=10000 и разных К. Получаем (с учетом погрешности):
K=0 MO=7502
K=1000 MO=7520
K=2000 MO=7577
K=3000 MO=7670
K=4000 MO=7801
K=5000 MO=7970
K=6000 MO=8177
K=7000 MO=8420
K=8000 MO=8702
K=9000 MO=9020
K=10000 MO=9375
K=11000 MO=9246
K=12000 MO=9101
K=13000 MO=8946
K=14000 MO=8776
K=15000 MO=8595
K=16000 MO=8401
K=17000 MO=8195
K=18000 MO=7977
K=19000 MO=7745
K=20000 MO=7501

Действительно, в результате мы получили существенное увеличение МОигры, которое при К=0 и при равномерном распределении Х МОигры=0,75Хмах.

Какие выводы следуют из данной симуляции:
1) Самый главный вывод: максимальное увеличение МОигры (25% от рассчетного при тупых стратегиях) достигается при К=Хmax. Запомним это!
2) Жадность лучше чем скупость

Лучше не угадать Х в бОльшую сторону, чем в меньшую. Например, для увеличения МО чуть больше чем на 6%, нужно попасть в диапазон от 0,5Х до 1,8Х, то есть правая граница существенно дальше левой.
3) Увеличение МО происходит, если К попадает в интервал от 0 до 2Хmax (что тоже очевидно)
4) Интересно выглядит график относительного увеличения МО в % при различных К из допустимого диапазона.

Название: Korovin.PNG
Просмотров: 322

Размер: 6.5 Кб

Название: Korovin.PNG
Просмотров: 322

Размер: 6.5 Кб

Но теперь от состояния эйфории вернемся к нашей задаче. Вспомним что у нас предельная граница величины Х не определена, а значит даже при нашем допущении о равномерном распределении Х, в качестве Хмах нужно взять очень большие значения, а это сильно затрудняет гадание-попадание даже в 6%-ный диапазон. Например, если взять Хмах=1000000, то выбирая К меньше 100000 мы вообще не получим сколько-нибудь ощутимого роста МО игры. У кого-нибудь хватит наглости сделать К больше 100000$?

А ведь нам НИЧЕГО не известно про Хмах, поэтому жадные люди тоже ничего не получат, если назначат К равном 1 млн, а окажется, что игра имеет Хмах=10000.

В итоге получаем, что даже НЕ для нашей ИСХОДНОЙ задачи, а для задачи, приближенной к исходной, назначеие К превращается в гадание на кофейной гуще. Можем угадать, а можем и нет - как это относится к математике? 8-)

А вот для того, чтобы НЕМНОГО БОЛЬШЕ приблизиться к нашей ИСХОДНОЙ задаче, К нужно брать (в соответствии с главным выводом) равным бесконечности (так как Х не имеет верхней границы), что является АБСОЛЮТНОЙ БЕССМЫСЛИЦЕЙ.

Таким образом, несмотря на то, что мы изначально отступили от нашей задачи, допустив что Х является СВ с равномерным распределением, мы все-равно получили вывод о фактической бессмысленности данной стратегии для нашей КОНКРЕТНОЙ задачи. Если же Х имеет хитрое распределение, то всегда можно подобрать такие варианты, когда стратегия Коровина не работает, а может быть и ухудшает ситуацию.

Ну и самое главное заключается в том, что Х в ИСХОДНОЙ задаче вообще не является случайной величиной, и стратегия Коровина вообще ничего не даёт, так как является просто бессмысленной затеей.

Надеюсь все отметили, что потеря даже одного слова из формулировки Нюкера совершенно изменило задачу. Чего же говорить о том, что исходя из условия задачи мы просто НЕ ИМЕЕМ ПРАВА считать Х случайной величиной!!!

Вовод: стратегия Коровина не применима к задаче и в формулировке Нюкера, и в формулировке самого Коровина.

А вот для конечного (и жизненно-реального) Хмах и при равномерном распределении Х, придерживаться данной стратегиии более чем целесообразно. Однако это будет ДРУГАЯ задача, и решаться аналитически она будет ПО-ДРУГОМУ.

AVG51 · 11.08.2007, 15:52

Цитата:

Сообщение от Korovin писал сб, 11 августа 2007 14:43

Цитата:

Сообщение от Цитата:

То есть в нашей задаче Х может принимать только 2 значения - 50 и 100, и мы не знаем Х мы открыли или нет - мы знаем только то, что открылось у нас 100$

Кстати, посторожнее с домыслами, никаких 50$ в условиях нет.

Коровин, я о тебе и так уже неважного мнения - не надо усугублять!

Данное ВОЗМОЖНОЕ значение Х напрямую следует из УСЛОВИЯ ЗАДАЧИ, в котором есть сумма 100$ в открытой шкатулке.

Блин... В верхнем письме я о ТОНКОСТЯХ начал рассуждать, а тут ты выдаешь такие перлы

korovin · 11.08.2007, 16:05

Цитата:

Сообщение от Цитата:

В итоге получаем, что даже НЕ для нашей ИСХОДНОЙ задачи, а для задачи, приближенной к исходной, назначеие К превращается в гадание на кофейной гуще. Можем угадать, а можем и нет - как это относится к математике?

Давай здесь притормозим. Я утверждал что:

- Гадать и искать оптимльный К, как ты это попытался сделать, нет смысла, так как нет входных данных

- В ИСХОДНОЙ задаче при ЛЮБОМ произвольном К мы имеем 2 возможных взаимоисключающих исхода с неопределенными в задаче верояностями Р и 1-Р: 1. К попало между Х и 2Х 2. Не попало. (к случаям равно не придиратся, я их учел).

- Сам факт того что возможность Х<=К<2Х существует. дает мне право утверждать что моя стратегия лучше произвольного выбора.

Если тебе удастся доказать что при твоем понимании ИСХОДНОЙ задачи вероятность события Х<=К<2Х строго равна 0, то только тогда МО моей стратегии будет строго равно МО стратегии произвольного выбора (1.5Х).

Возражения? Твои 50$ предлагаю оставить на десерт. Готов вернутся к диалогу только завтра.

В принципе я уже добился того, к чему стремился - ты признал что моя стратегия может работать. Если в итоге ты соскочиш на том, что она бессмыслена в масштабах бесконечной вселенной, я не буду придиратся к тому, что в оригинальных условиях описывается ситуация из реальной жезни: "нам" "шкатулки", "деньги", и т.п.

AVG51 · 11.08.2007, 16:59

Цитата:

Сообщение от Korovin писал сб, 11 августа 2007 16:05

Я утверждал что:
- Гадать и искать оптимльный К, как ты это попытался сделать, нет смысла, так как нет входных данных

В отличие от тебя Я НИКОГДА НЕ ГАДАЮ - я делаю вполне конкретные ДОПУЩЕНИЯ и СТРОГО исходя из новых условий математически (аналитически или численно) решаю задачу.

Цитата:

Сообщение от Korovin писал сб, 11 августа 2007 16:05

- В ИСХОДНОЙ задаче при ЛЮБОМ произвольном К мы имеем 2 возможных взаимоисключающих исхода с неопределенными в задаче верояностями Р и 1-Р: 1. К попало между Х и 2Х 2. Не попало. (к случаям равно не придиратся, я их учел).

Данные вероятности НЕ ОПРЕДЕЛЕНЫ и оперировать ими в условиях нашей конкретной задачи БЕССМЫСЛЕННО. Кстати, слово "бессмысленно" ты вообще не понимаешь, так как оперируешь только понятиями реальной жизни, в которой все наполнено субъективными смыслами конкретного субъекта. Как я уже говорил, ты не понимаешь разницу между моим с тобой разговором и диалогом домохозяек на кухне про их взгляды на жизнь.

Цитата:

Сообщение от Korovin писал сб, 11 августа 2007 16:05

- Сам факт того что возможность Х<=К<2Х существует. дает мне право утверждать что моя стратегия лучше произвольного выбора.

На колу мочало - начинай сначала

Опять хочешь перепираться начать?

Я привел свои аргументы, дальше уже не мои проблемы...

Цитата:

Сообщение от Korovin писал сб, 11 августа 2007 16:05

Если тебе удастся доказать что при твоем понимании ИСХОДНОЙ задачи вероятность события Х<=К<2Х строго равна 0, то только тогда МО моей стратегии будет строго равно МО стратегии произвольного выбора (1.5Х).

В этом нет необходимости, так как данное утверждение напрямую следует из того факта, что Х не является случайной величиной. С этим фактом ты согласился, а писать кучу слов СЛОЖНОГО логического вывода мне не хочется, особенно тебе, так как тебя вполне устраивает и СВОЯ логика, которой ты ЗАКРЫВАЕШЬСЯ от понимания даже самых ПРОСТЫХ вещей

Тебя даже не смущает, что МО игры при равномерном распределении получилось 0,75Хмах, а не 1.5Х, которые БЕССМЫСЛЕННЫ для новых условий, в которых работает твоя стратегия. Тебе ПО-БАРАБАНУ всякие тонкости, связанные с отличиями одной задачи от другой, от третьей, от КОРОВЫ - ты все-равно упорно натягиваешь своё седло на все что шевелится

Цитата:

Сообщение от Korovin писал сб, 11 августа 2007 16:05

Твои 50$ предлагаю оставить на десерт.

Цитата:

Сообщение от Korovin писал сб, 11 августа 2007 16:05

В принципе я уже добился того, к чему стремился - ты признал что моя стратегия может работать.

А я никогда и не говорил, что он ВООБЩЕ не может работать - я ВСЕГДА говорил про нашу конкретную задачу!

Цитата:

Сообщение от Korovin писал сб, 11 августа 2007 16:05

Если в итоге ты соскочиш на том, что она бессмыслена в масштабах бесконечной вселенной,

Она бессмысленна для нашей конкретной ИСХОДНОЙ задачи, причем как в твоей собственной формулировке, так и в формулировке Нюкера.

Цитата:

Сообщение от Korovin писал сб, 11 августа 2007 16:05

я не буду придиратся к тому, что в оригинальных условиях описывается ситуация из реальной жезни: "нам" "шкатулки", "деньги", и т.п.

Любая задачи из тервера описывается как "ситуация из реальной жизни", но НИКОМУ не приходит в голову выяснять червивые ли яблоки в задаче, какой краской покрашены шарики и как различить их цвет дальтонику

AVG51 · 11.08.2007, 17:35

Цитата:

Сообщение от AVG51 писал сб, 11 августа 2007 16:59

Цитата:

Сообщение от Korovin писал сб, 11 августа 2007 16:05

Я утверждал что:
- Гадать и искать оптимльный К, как ты это попытался сделать, нет смысла, так как нет входных данных

В отличие от тебя Я НИКОГДА НЕ ГАДАЮ - я делаю вполне конкретные ДОПУЩЕНИЯ и СТРОГО исходя из новых условий математически (аналитически или численно) решаю задачу.

Кстати, если можно будет делать несколько подходов, то есть очень эффективная стратегия выйти на максимально-эффективное К!

Для этого после каждого первого вскрытия шкатулки нужно сравнивать её содержимое с удвоенным К, и если оно окажется больше 2*К, то увеличивать значение К, сделав его равным половине величины суммы в шкатулке. При симуляции серии в 1000 испытаний мы выходим на максимальное МО игры (в пределах погрешности моделирования), не имея никаких данных о Хмах 8-)

Никакого гадания!

korovin · 11.08.2007, 17:53

Пришлось вернутся. Я понял что нам бессмыслено обсуждать исходную задачу Нукера и предлагаю на этом закончить. Подозреваю что проблема в моей математической безграмотности. По поводу 50$ признаю, невнимательно прочел

Цитата:

Сообщение от Цитата:

Таким образом, для решения нашей КОНКРЕТНОЙ задачи нам нужно ВООБРАЗИТЬ несколько испытаний таким образом, чтобы мы не знали никаких исходов, кроме текущего. Например, к шкатулкам будут подходить разные люди, не знающие какая сумма была открыта для предыдущих игроков. И каждый человек будет видеть именно эти 100$ - СТРОГО ПО УСЛОВИЮ НАШЕЙ ЗАДАЧИ. То есть в нашей задаче Х может принимать только 2 значения - 50 и 100, и мы не знаем Х мы открыли или нет - мы знаем только то, что открылось у нас 100$.

Тут все логично, но разве из того что у тебя Х может принимать только 2 значения 50 и 100, не следует что во второй шкатулке может быть только 2 возможных суммы либо 50 либо 200? Где ты говориш правду выше или здесь:

Цитата:

Сообщение от AVG51 писал пт, 13 июля 2007 15:25

Цитата:

Сообщение от Korovin писал пт, 13 июля 2007 15:09

2. ПО условию задачи в оставшейся шкатулке может быть либо 50 либо 200$, другие варианты исключены. Это также опровергнуть тяжело.

Это опровергнуть можно, ибо ПО УСЛОВИЮ ЗДАЧИ такого быть не может.

AVG51 · 11.08.2007, 22:43

Цитата:

Сообщение от Korovin писал сб, 11 августа 2007 17:53

Тут все логично, но разве из того что у тебя Х может принимать только 2 значения 50 и 100, не следует что во второй шкатулке может быть только 2 возможных суммы либо 50 либо 200? Где ты говориш правду выше или здесь:

Цитата:

Сообщение от AVG51 писал пт, 13 июля 2007 15:25

Цитата:

Сообщение от Korovin писал пт, 13 июля 2007 15:09

2. ПО условию задачи в оставшейся шкатулке может быть либо 50 либо 200$, другие варианты исключены. Это также опровергнуть тяжело.

Это опровергнуть можно, ибо ПО УСЛОВИЮ ЗДАЧИ такого быть не может.

Тут не в суммах дело, а в твоем "либо-либо"

ЗЫ Ты понял что я написал письмом выше про эффективный способ определения К даже в том случае, если нам ничего не извесно про Хмах? Судя по посту в другой ветке - не понял... Прочитай ещё пару раз и задай вопросы

10.08.2007, 21:47 TS	#21 (permalink)
Виталий КВИНСТАР Увлечённый Регистрация: 27.04.2005 Адрес: Санкт-Петербург Сообщений: 555	2SunnyRay: Лох, обученный Коровиным, будем всегда менять шкатулки 2 и 4, и не будет никогда менять шкатулки 8 и 16. Лох, обученный Виталием, шкатулки менять не будет. В последнем предложение - ПЕРЕДЁРГИВАНИЕ. Это неспортивно. Я просто показал, что предположение Коровина о том, что К=4 - оптимальна, легко опровергается контрпримером Учередителя. А именно: таким распределением парных сумм, что стратегия Коровина просто НЕоптимальна. Поэтому, мой Адвансед будет менять только шкатулки с двойкой, а на остальных - "стоять"! Считаем МО: MO_адванседа_обученного_Вит� �лием = 4(5/16) [2-4, открыл 2, сменил] + 4(5/16) [случай, когда в шкатулках 2-4, первой открыл 4, стоит] + 4(2/16) [4-8, 4, стоит] + 8(2/16) [4-8, 8, стоит] + 8(1/16) + 16(1/16) = 88/16, что хоть и немного, но больше чем у Коровина (86/16). А посмотри, что будет при инверном содержании парных сумм: 2-4; 4-8; 8-16 уе. с долями соответственно 1/8, 2/8 и 5/8 от всего количества. Коровин меняет на 2-4 и стоИт на 8 и старше. Убедись в конце концов, что на 8 СЛЕДУЕТ менять шкатулки!! Вывод: ПОЧТИ любой профиль Игрока "в терминах Коровина" бьётся Учередителем. Существует уникальный "профиль" (как незаметно мы близко приблизились к клубному покеру!), некоторый априори не бьётся. Подсказка: для нахождения оптимальной стратегии сразу и за Игрока и за Учередителя следует использовать "эквилибриум Нэша" (теория Игр)! Ещё одна подсказка: разберись когда решение Грамазеки становится оптимальным! __________________ Ссылка 1, Ссылка 2, Ссылка 3, на мои темы, на этом форуме.
	Ответить 0

10.08.2007, 23:26	#22 (permalink)
SunnyRay Старожил Регистрация: 25.05.2006 Сообщений: 805	Виталий КВИНСТАР Это не передёргивание, это я неправильно понял, что именно ты хочешь показать. Идеи очень интересные, из этого может что-то получиться. То, что любая стратегия Коровина с постоянным К неоптимальна, практически очевидно и без таких сложных манипуляций организатора с вероятностями. Всё, что доказано к этому моменту - это факт того, что стратегия Коровина лучше тупых стратегий "всегда менять", "никогда не менять", и "менять с некоторой вероятностью". В примере со шкатулками 2-4, 4-8, 8-16, при любом постоянном К игрока организатор может выдавать только шкатулки, в диапазон которых это К не попадает, и тогда игрок получит МО тупой стратегии, что будет хуже, чем МО стратегии Коровина с другим К. Вероятности 1/8, 2/8, 5/8 совсем не обязательны, достаточно 0, 0, 1. Эквилибриум Нэша - это очень хорошо. Понятно, что можно попытаться его найти. Для этого сначала нужно определиться с игрой, то есть определить набор чистых стратегий организатора, набор чистых стратегий игрока, выигрыш организатора и выигрыш игрока. Задача предполагает бесконечное число чистых стратегий, а функция выигрыша организатора как таковая не определена. С трудом представляю, как искать эквилибриум Нэша в смешанных стратегиях для игры с бесконечным числом чистых стратегий. Придётся подтягивать теорию __________________ Нужно уметь проигрывать. К этой мысли следует постепенно приучать всех своих противников.
	Ответить 0

11.08.2007, 13:57	#29 (permalink)
Gramazeka Бессмертный Регистрация: 03.05.2004 Адрес: Планета Шелезяка Сообщений: 3,615	Посмеялся над ответом Квинстара- "Грамазека потерял веру". Я же говорил о верном прогнозировании Коровина только в тех случаях, когда игрок например в казино Абрамовича открыл в первой шкатулке горсть пятаков и т.д. Надеюсь направление аналогии понятно... __________________ Не мечи бисер перед свиньями. (Иисус Христос).
	Ответить 0

11.08.2007, 14:04	#30 (permalink)
korovin Бессмертный Регистрация: 13.02.2004 Адрес: Россия Сообщений: 3,027	Gramazeka, никаких Абрамовичей, никаких монет, все в переделах условий задачи... Надеюсь сегодня AVG наконец-то поможет нам отделить мух от котлет. Кстати, о каком поиске оптимального К может идти речь при полном отсутствии информации? У меня К - произвольная сумма. Жду данные по своей стратегии!
	Ответить 0

Похожие темы
Тема	Автор	Раздел	Ответов	Последнее сообщение
Мердж не платит?	MalestraPalm	Арбитраж и безопасность	19	18.07.2012 11:12
пати не платит :(	TastyAA	Арбитраж и безопасность	9	25.01.2010 16:35
Кто платит?	mordovorot	Одностоловые турниры	11	21.12.2007 11:11
Кто платит рейк?	mikhaylo	Теории, стратегии, основы покера	2	25.02.2007 21:42