第十二章 好人終有好報 · 2

關燈
探測器”互相對弈,其結果隻可能更壞,因為這種以牙還牙的冤冤相報可能開始得更早。

     讓我們再來考慮另一個叫“愧疚探測器”(RenwrsefulProber)的策略。

    這個策略有點類似于“老實人探測器”,但它還加以主動終止循環于雙方間的交互背叛。

    這便需要一種比“針鋒相對”或“老實人探測器”更長的記憶。

    “愧疚探測器”能記住自己是否剛剛主動“背叛”,或者隻是為了報複。

    如果是後者,它便“愧疚地”讓對手得到一次反擊的機會,而不加以報複。

    這便将此循環報複行為終結在萌芽狀态。

    如果你在想象中旁觀“愧疚探測器”與“針鋒相對”的博弈,你會發現可能的循環報複行動不攻自破。

    博弈中大部分時間都采取互相合作,使得雙方都能獲得相應的高分。

    在與“針鋒相對”的博弈中,“愧疚探測器”能獲得比“老實人探測器”更高的分數,但依然沒有“針鋒相對”與自己對弈的分數高。

     阿克塞爾羅德的競賽裡還有一些比“老實人探測器”與“愧疚探測器”更為複雜的策略,但它們平均分都比“針鋒相對”低。

    事實上最失敗的策略(除了随機)是最複雜的那一個,作者為“匿名”。

    這個作者引發了一些饒有興趣的猜測:五角大樓的高層?中央情報局的首腦?國務卿基辛格?阿克塞爾羅德自己?我們也許永遠也不會知道。

     不是每個策略的細節都值得研究,這本書也不談計算機程序員的創造力。

    但我們可以給這些策略歸類,并檢驗這些類别的成功率。

    阿克塞爾羅德認為,最重要的類别是“善良”。

    “善良”類别指的是那些從不率先背叛的策略。

    “針鋒相對”便是其中一個例子。

    它雖然也采取“背叛”的行動,但它隻在報複中這麼做。

    “老實人探測器”與“愧疚探測器”也偶爾采取“背叛”,但這種行為是主動起意挑釁的,屬于惡意的策略。

    這場競賽中的15個策略中,有8個屬于“善良”策略。

    令人吃驚的是,策略中的前8名也是這8個善意的策略。

    “針鋒相對”的平均分504.5分,是我們600分基準分中的84%,一個很好的分數。

    其他“善良”策略所得分數要比“針鋒相對”少一些,從83.4%到78.6%不等。

    排名中接下來的分數則是由格雷斯卡普(Graaskamp)所獲得的66.8%,與高分們有很大差距,而這已經是所有惡意策略中的最高分了。

    令人信服的結果表明,好人在這個博弈中可以勝出。

     阿克塞爾羅德的另一個術語則是“寬容”。

    一個寬容的策略隻有短期記憶。

    雖然它也采取報複行為,但它會很快遺忘對手的劣迹。

    “針鋒相對”便是一個寬容的策略,面對背叛時它毫不手軟,但之後則“過去的讓它過去”。

    第十章中的“斤斤計較者”則是一個完全相反的例子。

    它的記憶持續了整個博弈,永不寬恕曾經背叛過它的對手。

    在阿克塞爾羅德的競賽中,有一個策略與“斤斤計較者”完全相同,由一位名叫弗裡德曼(Friedman)的選手提供。

    這一個“善良”而絕不寬恕的策略結果并不算佳,成績在所有“善良”策略裡排倒數第二。

    即便對手已經有悔改之意,它不願意打破相互背叛的惡性循環,因此無法取得很高的分數。

     “針鋒相對”并不是最寬容的策略。

    我們還可以設計一個“兩報還一報”(TitforTwoTats)的策略,允許對手連續兩次背叛後才開始報複,這似乎顯得過分大度坦蕩了。

    阿克塞爾羅德算出,隻要在競賽中有“兩報還一報”策略的存在,它便一定會獲得冠軍,因為它可以有效避免長期的互相傷害。

     于是,我們算出了赢家策略的兩個特點:善良與寬容。

    這幾乎是一個烏托邦式的結論:善良與寬容能得到好報。

    許多專家曾試圖在惡意策略裡耍點兒花招,認為這可能得到高分。

    即使那些提交“善良”策略的專家,也未曾敢如“針鋒相對”一般寬容。

    所有人都對這個結論十分驚訝。

     阿克塞爾羅德又舉辦了第二次競賽。

    這次他收到了62個策略,再加上随機策略,總共便有了63個策略。

    這一次,博弈中的回合數不再固定為