互惠的博弈分析

期刊名字：制度經(jīng)濟學研究
文件大?。?79kb
論文作者：羅伯特·薩金，皮建才
作者單位：東英格蘭大學經(jīng)濟學,南京大學經(jīng)濟學院
更新時間：2020-09-25
下載次數(shù)：次

論文簡介

互惠的博弈分析'0羅伯特.薩金”皮建才律”.[摘要]本文從博弈論的角度分析了互惠的形成以及形成互惠的穩(wěn)定均衡策略。[關(guān)鍵詞]互惠囚徒困境擴展博弈針鋒相對勇敢互惠謹慎互惠中圖分類號: F063.1 文獻標識碼: A-、囚徒困境假設(shè)你是一個美國的學者,我是一個英國的學者。我們互訪彼此的大學，并且我們互換住處。因為遇到了一群很愛熱鬧的美國人，所以我打算在我返回英國之前舉行-個晚會。我知道這將會把你的房子搞得亂七八糟一煙頭燒壞椅子，啤酒弄臟地毯,但是這在很大程度上與我無關(guān)，因為我以后再也用不著忍受這些亂七八糟的東西。與此同時，你遇到了-群不緊不忙的英國人，所以你也打算在離開之前為他們舉行-一個晚會.......假設(shè)不管每個聚會造成什么樣的破壞，求助法律都是不可能的。你不會因為毀壞地毯而被引渡。假設(shè)- -旦我們的互訪結(jié)束，不管是我們還是我們的●本文譯自羅伯特.薩金( Robert Sugden) 的著作《權(quán)利、合作與福利的經(jīng)濟學》 (The Eco-nomics of Rights, Cooperation and Welfare) 第6章，翻譯時把標題“互惠”改成了“互惠的博弈分析"，摘要和關(guān)鍵詞為澤者所加。本文在翻譯時得到了韋森教授的指導。作者羅伯特.薩金( Robert Sugden),東英格蘭大學經(jīng)濟學教授( Profesor of Economics, Uni-versity of East Anglia)。中國煤化工...譯者:皮建才，博士后，南京大學經(jīng)濟學院教師;IYHCNMHG:學商學院安中大樓281信箱(210093); E-mail: jiancaipi@ hotnail om?！?12●互惠的博弈分析機構(gòu)都不會有任何彼此之間的交往。這樣的話，我們正在進行的就是-一次性的博弈:交訪博弈( the exchange -visit game)。我們每個人都可以從兩個策略中選擇- -個:或者進行聚會，或者不進行聚會。從我的觀點來看，我將把我們都進行聚會的事態(tài)當做已知數(shù),并且賦予這個結(jié)果零效用。這樣- -來，“不進行聚會”將會給采取這種行動的人帶來成本，卻給另-方帶來了好處。用c代表當我不進行聚會時損失的效用,用b代表當你不進行聚會時我得到的效用。對我來說最壞的結(jié)果就是我沒有進行聚會但你卻進行了聚會，這個結(jié)果對我的效用是-c。對我來說最好的結(jié)果就是我進行了聚會而你卻沒有進行聚會，這個結(jié)果對我的效用是b。如果我們都不進行聚會，我得到的效用是b-c。不用多說，b和c都是正的。我將設(shè)定b>c:相對于我們都進行聚會我更加喜歡我們都不進行聚會的結(jié)果?，F(xiàn)在假設(shè)博弈從你的觀點來看和從我的觀點來看是一樣的，那么(暫時不考慮標識性非對稱)我們得到的對稱博弈如圖1所示。對手的策略合作不合作(不進行聚會) (進行聚會)(不進行聚會)b-e參與人的策略(進行聚會)b0注意: b>c>0且π>c/b。圖1交訪博弈 .當然，這個博弈就是著名的囚徒困境博弈的一個版本。在囚徒困境博弈中，每個參與人都可以選擇兩個策略(合作和不合作)中的一個。對每個參與人而言，最壞的結(jié)果是他合作而他的對手不合作。第二壞的結(jié)果是他們都不合作。比這更好的結(jié)果是他們都合作。但是對每個參與人而言,所有結(jié)果中最好的結(jié)果是他不合作然而他的對手合作。在交訪博弈中進行聚會是不合作策略，而不進行聚會則是合作策略。我賦予了交訪博弈結(jié)果的效用值,用以保證我的博弈結(jié)構(gòu)和囚徒困境的博弈結(jié)構(gòu)一樣?，F(xiàn)在想象- -一個學術(shù)社區(qū)的世界，其中每個人和其他人進行重復但不匿名的交訪博弈。因此，總體上每個人積累了博弈的經(jīng)驗，但是并不是關(guān)于特定對手的行為的經(jīng)驗。這樣，博弈的分析非常簡單。這里僅僅有一個均衡策略，即純策略“不合作”(進行聚會)。并且，這個均衡是穩(wěn)定的。注意到“不合作”是唯-一的最好回應( best reply), 不僅對這個策略自身而言而且對所有的策略而言,不管是純的策略還是混合的策略.都是這樣。用常識性的話說，我做的任何事情都不能中國煤化工進行聚會，由于直到你回家時你才會知道我做了什么MHCNMHG最好也。 213.制度經(jīng)濟學研究進行聚會。而且，如果你不進行聚會,那么無論如何我仍然最好利用你的好品性進行聚會。因為“不合作”是一個占優(yōu)策略，所以不管參與人認識到博弈是對稱的還是非對稱的都無關(guān)緊要。不管我的角色是什么也不管我期望你做什么，對我來說不合作總是最好。描述這個結(jié)果的一種方式是考慮-一個互利交易的機會一我們都想要達成不進行聚會的協(xié)議一-但是我們不可能利用這個機會，因為盡管我們能夠達成協(xié)議，但我們卻不能實施這些協(xié)議。(我們每個人可能許諾照看對方的房子，但是我們每個人都有違背諾言的激勵)我們還有類似問題的另一個例子。我把它叫做交易博弈(thetradinggame)。假設(shè)你從一個遠方集郵的親戚那里繼承了一些稀有的郵票。你對這些郵票不感興趣，從務實的角度出發(fā)打算賣掉它們。你在雜志上做了廣告，并且接到了一個集郵者的電話，他給你開價50英鎊。你接受了?，F(xiàn)在你必須決定如何安排郵票和金錢的交換。集郵者住的地方遠在300英里，因此碰面是不實際的。你建議他郵寄給你50英鎊現(xiàn)金，你-收到這些錢就馬上把郵票郵寄過去。這樣的話你就可以防止他騙走你的郵票。他回應了一個相反的建議:你把郵票郵寄給他，他-收到郵票就馬上把錢郵寄給你。這樣的話他就可以安全了。很明顯，你的位置和他的位置是彼此對稱的，你們不可能都是安全的。因此最后你同意一個對稱的解決方案。你許諾直接寄郵票，他許諾直接寄錢。他會遵守諾言嗎?你會嗎?這個博弈和交訪博弈有相同的結(jié)構(gòu):遵守諾言是合作的策略，而違背諾言則是不合作的策略。我們將再一次(假設(shè)進行重復的匿名博弈)得到唯一-的穩(wěn)定均衡，在這個均衡中所有的人總是不合作，盡管每個人都可以從交易中獲利，但是沒有人交易。下面是最后-一個例子，是由休謨( Hume)給出的:你的莊稼今天熟，我的莊稼明天熟。我今天和你-起勞動并且你明天幫助我，對我們來說是有利的。我不會對你仁慈，也知道你不會對我仁慈。因此，我不會不辭辛苦地幫你收割你的莊稼;并且如果我和你--起勞動來收割你的莊稼，我知道在期望回報方面我會失望，我只能徒然依靠你的感激。結(jié)果自然就是我不幫你，你也不幫我。季節(jié)輪回，我們每個人都失去自己的收獲，因為我們?nèi)狈ο嗷ラg的信任和保證。這個博弈和前面兩個博弈稍微有些不同，在休謨的博弈中參與人輪流選擇(而不是同時選擇)合作還是不合作。但是這個區(qū)別并不顯著;充分分析休謨的博弈我們就可以發(fā)現(xiàn)唯一的穩(wěn)定均衡( 假設(shè)為重復匿名博弈)是誰都不幫誰。實際上,那正是休謨自中國煤化芏俗地表口日址山達出來。YHCNMHG●214.互惠的博弈分析二、擴展囚徒困境博弈中的互惠我在第- -部分考慮的博弈都是匿名的。在匿名情形下，守諾是不可能獲得益處的。在-一次博弈中如果你違背諾言，被你欺騙的人并沒有辦法采取報復行動，因為我們假設(shè)他下一次不會遇到你一或者即使他遇到你也不會認出你。并且，因為我們另外假設(shè)你的對手從來就不知道你在以前的博弈中表現(xiàn)如何，所以也就沒有辦法為你遵守諾言建立聲譽?，F(xiàn)在我將要考慮的是，如果參與人有機會下次見面，那么交訪博弈或囚徒困境博弈將會發(fā)生什么情況。我將通過分析囚徒困境博弈的擴展彤式來做到這-一點。擴展博弈由同樣兩個個體的一- 系列回合構(gòu)成，每一個回合從它自身的角度來看都是-一個簡單的博弈，其中每個個體從他可以選擇的策略或行動中進行選擇。我將分析這樣的擴展博弈，每個回合采取如圖1所示的形式，也就是說，博弈由交訪博弈的重復行動構(gòu)成(交訪博弈無疑是囚徒困境博弈的-一個例子)。擴展博弈的每一回合之后都有π的可能性結(jié)束博弈，否則，就進行另一個回合。因此博弈不會永遠持續(xù)下去，但是不存在這樣-一個階段，該階段的參與人知道他們正在進行最后一次見面。我認為，這就是人類交互作用的方式?，F(xiàn)在我們可以運用通常的均衡和穩(wěn)定性概念來分析擴展博弈。這種分析的主要困難是存在大量的可能策略。--個策略就是進行整個擴展博弈的一個計劃。由于一一個策略會使得參與人在-一個回合中采取的行動依賴于他的對手在以前的回合中采取的行動，所以可能的策略的數(shù)量會隨著可能進行的回合的數(shù)量而爆炸性地增長。如果囚徒困境博弈僅進行- -回合，那么每個參與人只有兩個可能的策略。如果進行兩個回合，就有8個可能的策略;如果進行三個回合，就有128個策略;如果進行四個回合，就有2"或32 768個策略;如果進行五個回合，就有2"或大約2150 000 000個策略!當然，我分析的擴展博弈并沒有對可能進行的回合數(shù)設(shè)限。啟動分析非常復雜的博弈的一種方式就是僅考慮-些相當簡單的策略。然而，在做這件事情之前，我將對π的值作出重要的假設(shè)。貫穿本章我都將假設(shè)π>c/b。為了弄清楚這意味著什么，我們可以想象兩個參與人達成了一個協(xié)議，即他們在每- -回合中相互合作。如果協(xié)議被遵守,每個參與人都可以獲得(b-c)(1 +π+π? +..或者(b-c)/(1-π)的期望效用?，F(xiàn)在假設(shè)參與人知道一旦他違背協(xié)議。他的對手就再也不會同他合作(注意這是他的對手所能做的最嚴厲H中國煤化工人在第- -回合違背了協(xié)議，而他的對手卻遵守了協(xié)議CNMHG得到的i.215.制魔經(jīng)濟學研究效用為b。之后他將從每個回合中得到的效用為0,因為沒有人會和他合作。遵守協(xié)議值不值，依賴于(b-c)/(1-π) 比b大還是比b小，或者用等價的說法，依賴于π比b大還是比b小。假設(shè)π >c/b意味著存在相互合作的協(xié)議的可能性。當πc/b并不意味著典型的博弈進行的回合很長。舉個例子，如果b=2且c=1，那么當π>1/2時-也就是博弈的平均回合數(shù)大于2. 0時一-假設(shè)就得到滿足?，F(xiàn)在我將考察擴展囚徒困境博弈的一-些簡單策略。我主要關(guān)心使參與人的合作依賴于他的對手的合作的那些策略，即互惠策略。但是我將首先分析其中兩個最簡單的策略。這就是無條件的合作一在每一回合都進行合作而不管你的對手的行為一以及無條件的不合作一在每一回合都不進行合作。我將用S (代表容易受騙的人)和N (代表品質(zhì)惡劣的人)表示這些策略。一即刻明顯的是，S不可能是-一個均衡策略。如果你知道你的對手不管你做什么都將和你進行合作的話，你的合作就沒有任何意義。對S最好回應的唯一策略就是像N這樣的回應策略一在每一 -回合中都不合作; S對它自身來說并不是最好的回應。同樣明顯的是，N是-一個均衡策略。如果你知道不管你怎么做你的對手都會不合作，那么你曾經(jīng)的合作就沒有任何意義。因此對N最好回應的唯一策略就是在每一回合中都不合作的回應策略。因為N是這樣-一個策略,所以它是對自身的最好回應。換句話說，在一個大家都不合作的世界里，你最好的策略就是自己也不合作。N是穩(wěn)定均衡策略嗎?對N的唯一最好回應是這些策略一一和 N博弈時每- -回合都不合作。但是N并不是具有這種性質(zhì)的唯一策略。我認為,參與人會遵循謹慎的策略，除非他的對手先前合作過至少- -次,否則他永遠不會合作。N是謹慎的策略，但是它并不是唯- -的這種策略。很容易明白的是，所有的謹慎策略(而不是別的策略)都是對N的最好回應。我們也要注意，如果遵循謹慎策略的參與人相互碰面，他們永遠不會合作。因此，只要所有的人都遵循這樣或那樣的謹慎策略,所有的謹慎策略就會產(chǎn)生相同的結(jié)果:沒有人會合作。這樣的結(jié)局就是沒有力量陽止N刑參與人被某些別的謹慎策略侵占，但是沒有任何力量能夠培育中國煤化工是漂走(drift)中的一種。YCNMHG，216●互惠的博弈分析如果我們想對N的穩(wěn)定性或不穩(wěn)定性進行更多的討論，我們就必須考慮到參與人時而不時犯錯誤的可能性。我將通過如下的假設(shè)來模型化錯誤,即，在每一回合中總是存在著很小的可能性一那些本來打算不合作的參與人實際上卻合作了，反過來也是這樣。我將假設(shè)，犯錯誤的參與人會立即意識到他做了什么;他的對手知道實際上被采用的行動,但是他不知道這些行動是有意的還是無意的?？紤]這些假設(shè)，假定你的對手采用N策略，也就是說，他打算在每一回合都不合作。他要是合作了，這只是一個錯誤，而不是一個他打算將來合作的信號。所以你的最好回應一你的唯一的最好回應一- 就是審慎地從來不與他合作，不管你的對手做什么。換句話說，N是對它自身的唯- - 最好回應:它是-一個穩(wěn)定均衡策略。然而，這并不是說N是唯- -的穩(wěn)定均衡策略?，F(xiàn)在我將考慮- -種簡單的互惠策略一與同你合作的人合作。這就是針鋒相對策略(簡寫為T)。遵循T策略的參與人在第一回合中合作。在每一個后續(xù)回合中他將跟他的對手在先前的回合中采用的策略( 合作或不合作)相同。注意，如果兩個T型參與人相遇，他們會在每一回合中都合作。然而，如果-一個T型參與人遇到了一個N型參與人，T型參與人只會在第一回合中合作,之后他就會不合作。這樣一來，T型參與人愿意同他們一樣的人合作，但是他們并不準備成為輕易上當受騙的人。T是穩(wěn)定策略嗎?下面的討論基于阿克塞爾羅德( Axelrod, 1981) 的文獻。假定你知道你的對手采用T策略，并且假定你打算把博弈進行到第i回合。這里有兩種可能性，依賴于這是不是第-回合，如果不是的話，依賴于你在先前的回合采用的策略:或者你的對手將在第i回合合作，或者他在第i回合不合作。你知道情形會是哪- -種。給定上述知識，你就有可能為剩下的博弈找出對你的對手的行動的最好回應(因為他在第i+1, i+2, .回合的行動將完全由你有待采取的行動決定)。另外，不難發(fā)現(xiàn), i的價值與你的計算無關(guān)。你在第i+1, i+2, ..回合采取的行動獨立于i。因此下面的兩個問題將有獨立于i的確定的答案:1.如果你的對手在第i回合合作，那么你也在第i回合合作是最好回應的一部分嗎?2.如果你的對手在第i回合不合作，那么你在那- -回合合作是最好回應假定問題1的答案是“是”。然后令i=1。你知道你的對手將會在第-回合合作，所以你也合作是-個最好回應。但是如果你在第- -回合合作，你的對手在第二二回合將合作。那么你也合作將是一個最好向應_諸加此類。因此，如果問題1的答案是“是”，在每-回合中國煤化工應?，F(xiàn)在反過來假設(shè)問題1的答案是“不是”MHCN MH可應都,.217.制度經(jīng)濟學研究是在第- -回合不合作。這保證你的對手在第二回合不合作?，F(xiàn)在有兩種可能性，它們依賴于問題2的答案。如果那個問題的答案是“不是”，任何對T的最好回應都是在第二回合也不合作。諸如此類。在每一回合中不合作是對T的最好回應。如果反過來問題2的答案是“是”，那么你在第二回合中合作將會是一個最好回應。這將會保證你的對手在第三回合合作。這重復了第一回合的位置，所以你將再次不合作。諸如此類。在奇數(shù)回合中不合作而在偶數(shù)回合中合作是對T的最好回應?，F(xiàn)在考慮對T的三種可能的回應: T自身, N (例如在每- -回合都不合作)和一個新策略A。A (為了交替)是一種在奇數(shù)回合中合作、在偶數(shù)回合中不合作的策略。我們從上面段落的討論中知道，這三種策略中肯定有一種是對T的最好回應。我們現(xiàn)在可以估計出采取每種策略來回應T時獲得的期望效用。運用圖1中的效用指數(shù):E(T, T)=(b-c)(1 +π+π2 +..)=(b-c)/(1-π)(1)E(N, T) =b(2)E(A, T)=b-mc+πb-π'e+π'b..=(b-πc)/(1-π')(3)不難算出，如果π>c/b (正如我已經(jīng)假設(shè)的),那么E(T, T)>E(N,T)且E(T, T) >E(A, T)。換句話說，作為對T的回應，T比N或A更好。但是由于它們中有一個是對T的最好回應，所以T必定是對它自身的最好回應，即針鋒相對策略是一個均衡策略。三、懲罰和補償針鋒相對是慣例嗎?我已經(jīng)指出針鋒相對策略是擴展囚徒困境博弈中的均衡策略。我也指出它并不是唯一的均衡。策略N (從來不合作)也是一個均衡，每個人都不合作使壞的均衡是穩(wěn)定的。根據(jù)我的定義，慣例就是兩個或多個穩(wěn)定均衡策略中的-一個;因此為了說明針鋒相對策略是一個慣例，我必須說明針鋒相對策略是-一個穩(wěn)定均衡策略。在第二部分中，針鋒相對策略T的唯- -最好回應是這樣的策略，和T博弈時每一回合都合作。T有這樣的性質(zhì)一這就是為什么T是- -個均衡策略一但是別的策略也這樣。其中最為明顯的例子就是S一容易受騙的人的無條件合作策略。和S對招時，S和T-樣成功。只要每個人遵循這兩種策略中的這種或那種，就從來不會有不合作出現(xiàn)。這意味著并沒有力量阻止T型參與人的世界被S型參與人侵占;但是也沒有力丹平培美汶樣的侵占。中國煤化工我們再一次得到漂走( drift)的情形。因此我將像先前一樣假定，參與人有時MH.CNMH.沒定，我●218●互惠的博弈分析需要在定義針鋒相對策略時進行--下小的改動。假設(shè)你很有把握你的對手將采用針鋒相對策略。因此你在每- -回合都合作，并且你的對手也合作。接著在一個回合中，比如說回合i,你犯了一個錯誤，你想要合作但結(jié)果卻沒有合作。你現(xiàn)在應當怎么做呢?你會預期到你的對手為了回應你的偶然的不合作會在第i+1回合不合作。如果你遵循嚴格的針鋒相對原則，你將在第i+2回合以不合作回應，接著你的對手將在第i+3回合也不合作，依次類推。通過在第i+2回合合作來縮短報復和反報復的無休止的鏈條似乎更好。我將這種隱藏在變種的針鋒相對策略中的直覺稱為T1。T1開始于擁有好名聲的概念。其中的精髓思想是擁有好名聲的參與人有權(quán)利或資格來與他的對手合作。博弈開始時每個參與人都被認為有好名聲。一個參與人可以保持好名聲，只要他經(jīng)常按照T1的限定來合作。如果●任-一個參與人在當T1限定他應當合作時沒有合作,他就會失去他的好名聲;在后續(xù)的博弈中合作后他就會重新得到他的好名聲(這就是為什么我把這個策略稱為T1;如果需要兩個回合的合作才能重新得到好的名聲，這個策略就是T2,依次類推)。給定所有這些，T1可以被系統(tǒng)地闡述如下:“當你的對手擁有好名聲時，或者當你不擁有好名聲時，合作;否則，不合作?！睂σ粋€從來不犯錯誤的參與人來說，T和T1是相互等價的(如果你遵循T1且不犯錯誤，你就會一直有好名聲，因此T1將限定你的對手在每一回合都合作。因此你的對手是否在任- -回合中都擁有好名聲完全依賴于他是否在先前的回合中與你合作。如果他在第i-1回合合作，T1就要求你在第i回合合作;如果他在第i-1回合不合作，T1就要求你在第i回合不合作)。T1和T的區(qū)別僅涉及參與人在犯了錯誤不合作后采取的行動。假設(shè)將遵循T1并將博弈第i回合;你和你的對手都有好名聲。因此你應當在第i回合合作。然而，假設(shè)當你的對手合作時你犯錯誤沒有合作。接著你失去了你的好名聲?，F(xiàn)在，根據(jù)T1,你應該在第i+1回合合作。由于你已經(jīng)失去了好名聲，你的對手在第i+1回合不合作也不會失去他的好名聲，因此不管他在第i+1回合怎么做, T1都會要求你在i+2回合合作。只要犯錯誤的概率充分小，T1就是-一個穩(wěn)定均衡策略。為什么?假設(shè)你知道你的對手將遵循T1,并且你將進行第i回合的博弈。假設(shè)不管過去發(fā)生了什么，你和你的對手都不會犯更深層次的錯誤。我將指明在這樣的假設(shè)下唯一的最好回應就是“當你的對手擁有好名聲時,或者當你不擁有好名聲時，合作;否則，不合作。”但是，如果當沒有進--步犯錯誤的可能性時這是唯一的最好回應一也就是說，如果這個回應嚴格優(yōu)于其他回應一那么當有進一步(犯)錯誤的可能性時，只要犯錯誤的可能性足夠得小，它就必定保持為唯- -的最好回應。因此，我將中國煤化工的可能.性但可能性足夠小時，“當你的對手擁有好名HCNMHG好名聲●219.制度經(jīng)濟學研究時，合作;否則,不合作”是對T1的最好回應。但是這個回應是T1。所以我將證明T1是一個穩(wěn)定均衡策略?，F(xiàn)在我們將進行證明。當你進入第i回合時，只有三種可能性:1.或者你和你的對手都擁有好名聲，或者你們都不擁有好名聲。這樣你的對手將在第i回合合作并且之后采用針鋒相對策略(例如，重復你最后的行動)。2.你的對手擁有好名聲，但是你卻沒有好名聲。這樣他將在第i回合不合作并且之后采用針鋒相對策略。.3.你擁有好名聲，但是你的對手卻沒有好名聲。這樣他將在第i回合合作，在第i+1回合再次合作，并且之后采用針鋒相對策略。注意到在博弈的第- -回合，情形1必定適用。因此這就是我們在第二部分分析的情形，其中我證明如果不犯錯誤，對策略T的最好回應是在每一回合都合作(這個證明實際上是阿克賽爾羅德的)。所以我們知道在情形1你在第i回合的唯一的最優(yōu)行動就是合作。現(xiàn)在考慮情形2。注意到如果你在第i回合中合作,那么第i+1回合將會是情形1的步驟:你的對手在那一回合中合作，接著采用針鋒相對策略。我們知道在情形1你的唯一的最優(yōu)回應是“合作，合作，...”.. 所以如果在第i回合合作是最優(yōu)行動，那么在第i+1回合合作也是最優(yōu)行動，依次類推。反過來如果你在第i回合不合作,那么第i+1回合就是情形2的另一個步驟;因此如果第i回合不合作是一一個最優(yōu)行動，在第i+1回合不合作必定，是一個最優(yōu)行動，依次類推。因此，回合i, i+1, .的兩種序列行動中的一種必定是-個最好回應一或者 “合作，合作，...或者“不合作，不合作，....考慮到假設(shè)π>c/b,前一種序列產(chǎn)生更大的期望效用。因此，在情形2下，就像在情形1下一樣,你在第i回合的唯-最優(yōu)行動是合作。最后考慮情形3。在這種情形下，在第i回合你可以不合作而不會喪失自己的好名聲;不管你在第i回合做什么，第i+1回合都將是情形1的一個步驟。所以你的最優(yōu)行動必定是在第i回合不合作。這就完成了證明:當你的對手擁有好名聲時，或者當你不擁有好名聲時(情形1和2)，你在第i回合的最優(yōu)行動是合作;否則，就不合作(情形3)。這樣一來，T1策略就是一個穩(wěn)定的均衡一一-但不是唯一穩(wěn)定的均衡。.(回憶起無條件不合作也是一個穩(wěn)定的均衡)換句話說，T1是-一個慣例?？紤]一下這個慣例用日常的措詞怎么說。它從開始就很明顯是-一個互惠慣例:只要他的對手愿意合作，一個遵循T1策略的人就愿意合作。但是它也是一一個懲罰慣例。假設(shè)在某個i回合當你合作的時候你的對手錯誤地沒有合作，那中國煤化工你成了輕易受騙的人?，F(xiàn)在慣例規(guī)定在下一回合你MHCNMHG合作時●220.互惠的博弈分析他應當合作。這樣在第i+2回合你們都再次合作。發(fā)生在第i+1回合的事情可以看成是對你的對手的先前的違背慣例的懲罰:他在那一回合中得到了最壞的可能結(jié)果( 效用損失為c)。注意到這個結(jié)果比他像你一樣第i+1回合不合作的結(jié)果要差。在這個意義上，你的對手愿意接受懲罰(知道如果他不這樣，對他來說長期結(jié)果仍將會更加糟糕)。但是，說你的對手已經(jīng)被懲罰了只不過講了故事的一半。在第i+1回合你得到最好的可能結(jié)果一效用收益為 b。對你來說這比相互合作的回合的結(jié)果更好，更不要說相互不合作的回合的結(jié)果了。所以第i+1回合的事件不僅對你的對手施加了傷害，而且使你獲益。換句話說，正在進行的不僅是懲罰，而且是補償。我們可以這么說，慣例規(guī)定你的對手進行補償行動。你在第i+1回合的不合作以及他的合作都是這個行動的一部分。策略T1規(guī)定補償?shù)幕睾习殡S任何不合理的不合作(也就是說，任何不合作并不是由T1規(guī)定的)。這一回合過后，兩個參與人再次合作。為什么僅有一個補償回合呢?畢競，這種補償并沒有充分抵消受害方從另一個參與人的違背慣例中所遭到的損失。最初的違背一比如說在第i回合一對受害方施加了成本b:這是他本來應該從他的對手的合作行動中得到的利益。第i+1回合的補償行動允許受害方節(jié)省c，因為他從對手的合作行動中獲得了利益而不會招致他自己合作的成本。但是我們知道b>c。另外，節(jié)省c的成本必須被貼現(xiàn)以考慮第i+1回合不會進行的可能性。答案是補償?shù)某潭缺旧砭褪且灰粋€慣例。受害方要求的補償跟他期望他的對手容許讓與的一-樣多，并且他的對手提供的和其預期第-個參與人堅持要求的一-樣多。我們想象策略T2 (規(guī)定對每個不合理的不合作有兩回合的補償)，或者策略T3 ( 規(guī)定三回合的補償)，等等。我們可以證明( 但是在這里我將不會給出)任何一個像Tr的策略都是一個穩(wěn)定的均衡，只要π' >c/b。因此如果π充分地接近1,任何Tr策略都是一個穩(wěn)定的均衡,但是r的值越大，π的值必須越接近1以保證穩(wěn)定性。這是為什么呢?r的值越大，參與人犯錯誤后重新獲得好名聲就得付出更大的補償;我們可以說，遵循阿克塞爾羅德(1981), r值越小的策略越容易被寬容。-一個可以成為均衡的策略有多寬容有一個明顯的限制:補償必須足夠地難以負擔以阻止有目的的不合作。但是，即使對T1一所有策略中最寬容的策略來說，這也是真的。超過這一點不寬容就是一種危險。一旦犯了一次錯誤，參與人并不是被迫補償,他也許反過來屈從于他的好名聲的喪失，并且繼續(xù)不合作。他的對手越不寬容，后一種選擇的吸引力就越大。π的值越小它也會更具吸引力，因為博弈可能結(jié)束得越快，保持好名聲的收益就越小。中國煤化工YHCNMHG制度經(jīng)濟學研兗四、演化偏佑互惠嗎我一直考慮的針鋒相對策略是大族中的成員，我把這個大族稱為勇敢互惠策略。這些策略有兩個定義性的特征。第一，對每- -回合都不合作的對手而言，這些策略是，除了在第一-回合以外每- -回合都不合作。第二，如果兩個勇敢互惠策略的參與人相遇，他們在每一回合都會合作(再次提醒,只要沒有犯錯誤)。注意兩個參與人不需要遵循同樣的策略。一個策略能夠只滿足第二個條件，如果它在第- -回合總是合作(直到進行了第一回合，沒有參與人能夠知道關(guān)于他的對手的策略的任何事情)。這就是我為什么稱這些策略為“勇敢”的原因。在有證據(jù)顯示你的對手將互惠以前就準備合作，就為你總是被不合作的對手利用敞開了大門。如果你遵循勇敢互惠策略，這種利用將僅限為-回合，但這仍然是利用。如果你遵循任何“與它自身合作”的策略，這都是不得不付出的代價一也就是說，任何一種策略一當參與人雙方在博弈中都遵循它時，他們將相互合作(如果除非別的參與人已經(jīng)合作過，沒有參與人愿意合作,他們將永遠壓根兒不會合作;因此如果一個策略是和它自身合作，那么它就必須在有證據(jù)顯示對方有同樣的合作意愿之前就愿意合作)?，F(xiàn)在假設(shè)當人們進行擴展囚徒困境博弈時，他們僅考慮兩種類型的策略一-勇敢互惠策略和無條件背叛不合作策略(N)。當然，當實際可得的策略的數(shù)字無限大時，這只是一一個大膽的簡化。(回憶起即使是五個回合的擴展囚徒困境博弈也有超過20億個策略!)但是我們必須從某個地方開始。現(xiàn)在有三種可能性。第一，兩個N型參與人可能相遇。他們在每一回合都不合作，每個人只能從博弈中得到零效用。第二，一個N型參與人遇;到某個遵循勇敢互惠策略的人(我把他叫做B型參與人)。除了第一回合,他們將在所有回合都不合作;但是在第-回合N型參與人不合作，而B型參與人合作。因此從整個博弈中N型參與人得到的效用為b,而B型參與人得到的效用為-c。第三種可能性是兩個B型參與人相遇。他們在每- ~回合都合作，從而在每一回合中得到的效用為b-c;這一效用流的期望值是(b-c)/(1-π)。注意，B型參與人遵循同樣的策略與否無關(guān)緊要;重要的是每個B型參與人遵循某種勇敢互惠策略。這種情形可以用圖2所示的簡單對稱博蠻來描述?，F(xiàn)在這個博弈可以用中國煤化工通常的方式進行分析。PYHCNMHG.222.互惠的博弈分析對手的策略B(合作)(無條件不合作)(b-c)/(1-π)-參與人的策略N (無條件不合作)注意: b>c>0 且π>c/b。圖2擴展囚徒困境博弈的-個簡單版本注意，N是對N的最好回應，并且只要π>c/b, B就是對B的最好回應。因此參與人會選擇哪-一個更好的策略依賴于他的對手選擇-種策略而不是另一種策略的可能性。令p表示一個隨機的對手選擇策略B的可能性。那么將有p的某個臨界值，比如說p", 根據(jù)p是否大于、等于或小于p°來使得B比N更加成功、一樣成功或更不成功。很容易計算出這個臨界值是:p° =cl一π/[π(b-c)](4)如果再--次遇到對手的概率相當高，那么這個p的臨界值可能非常接近于零。舉個例子，假設(shè)b=2且c=1 (這看起來和任何-一個假設(shè)- - 樣中立)。這樣當π=9時，意味著博弈的平均長度為10回合，p的臨界值是0.11。當π=0.98時，結(jié)果是博弈的平均長度為50回合，臨界值是0.02。這反映的事實是采用B策略是一種有風險的投資。冒著在第一回合有可能被N型參與人利用的風險，你就能夠跟B型參與人在每- -回合都合作。博弈可能進行的時間越長，從成功的投資上獲得補償?shù)臅r間就越多。這個結(jié)果似乎表明，在平均擁有多個回合的博弈中，勇敢互惠的慣例有很好的機會演化出來。即使開始時大多數(shù)參與人都是品質(zhì)惡劣的人，這些品質(zhì)惡劣的人的也可能做得比少數(shù)遵循勇敢互惠策略的人差;這樣- -來，少數(shù)群體就會有-一個增長的自我加強的趨勢。注意，即使少數(shù)團體中的成員并不都遵循同樣的策略，這個觀點也是對的。換句話說，在任何關(guān)于補償?shù)奶囟☉T例之前，勇敢互惠的一-般慣例就會自己建立起來?，F(xiàn)在有另一個觀點，希望演化偏佑勇敢互惠策略。這個觀點并不要求有臨界數(shù)量的勇敢互惠者:只要有任意一些勇敢互惠者，勇敢互惠慣例就能夠演化出來。然而，有必要假設(shè)所有的勇敢互惠者遵循同樣的關(guān)于補償?shù)膽T例。注意，可能有謹慎的互惠策略而不是勇敢的互惠策略(- 一個謹慎的策略就是從來不會先去合作，見第二部分)。遵循謹慎互惠策略的個體會等待他的對手采用第-一個合作的行動;那樣，并且只有那樣，他才會合作。這種類型策略的很大的優(yōu)勢是它會導致跟勇敢互惠者會作而又不會引起被品質(zhì)惡劣的人利用的風險。當然，它的主要YH中國煤化工自身合作:謹慎參與人不能夠從對手中區(qū)分出誰是CNMHG的(參..223●制度經(jīng)濟學研究見第二部分)。如果謹慎的策略想要成功，它們就需要進行調(diào)整以適應在勇敢對手中流行的補償慣例。舉個例子，假設(shè)所有勇敢參與人都遵循T1--針鋒相對策略-一規(guī)定對每次不合理的不合作只有一個補償回合(參見第二部分)。因此，一個在第一-回合沒有合作卻發(fā)現(xiàn)他的對手已經(jīng)合作的參與人實際上確定對手正在采用T1策略(并不是完全確定，因為對手可能有意不合作，但卻犯了一個錯誤)?，F(xiàn)在謹慎的參與人和T1型參與人處于同樣的位置, T1型參與人幾乎確定他面對的對手和他- -樣偶爾在第一回合不合作。所以謹慎的參與人的最好的計劃是跟T1型參與人正好做得一樣:在下兩回合合作，接著采取針鋒相對。下面是這種類型策略的一個簡單表述:“ 在第一回合不合作。如果你的對手在第- -回合不合作，你就在所有的后續(xù)回合都不合作。如果你的對手在第一回合合作，你就在所有的后續(xù)回合中采取似乎是T1的策略，把你在第一回合的不合作看成似乎是一一個錯誤?！蔽野堰@個策略稱為CI ( 很容易看出策略C2, C3, .，可以被設(shè)計成與勇敢策略T2, T3, ..吻合)?，F(xiàn)在考慮當我們假設(shè)唯- -的可得策略為N. T1和C1時博弈的結(jié)果。這個博弈表示在圖3中。為了解釋這個觀點，我將用到數(shù)值b=2, c=1和π=0.9,這給出圖4所示的博弈。然而，并沒有什么會依靠這些數(shù)字;對驗證這個觀點來說重要的是(正像我在通貫本章中假設(shè)的) π>c/b。對手的策略T1C1N(b-c)/(1-π)(b-c)/(1-π)-b+πc參與人的策略Cl(b-c)/(1 -π) -b+ πc0注意: b>c>0且π>c/b。圖3擴展囚徒困境博弈的另一一個版本r1;1108.9-參與人的策略C19.2注意:這些指數(shù)是通過令b=2, c=1和u=0.9得到的。圖4圖3 中博弈的說明性的效用指數(shù)現(xiàn)在考慮-一個社區(qū),其中剛開始有一些人遵循T1, - -些人遵循C1，一些人遵循N。令與這些策略相聯(lián)系的概率分別為pq. p(1-a)和1-p.換句話說，p是- -個隨機的對手采用互惠策略IYH中國煤化工定- -個對手正在采用互惠策略，q是他采用勇敢互CNMHG.224.互惠的博弈分析只要pq>0,最好的策略必定或者是T1或者是C1 (N被CI占優(yōu):在對付采用T1策略的對手方面它做得比C1更壞，并且在對付任何策略方面都至少和C1-樣好)。因此，只要一些人遵循T1，隨著人們通過經(jīng)驗學習不去采用N, p的值- -定會穩(wěn)定上升。但是要注意，T1是對T1和C1的最好回.應。因此，如果p的值足夠地高，T1一定會是最成功的策略。因此，即使T1剛開始并不是最成功的策略，它最終也將變成最成功;并且它將保持最成功，不管多少人轉(zhuǎn)而采用它。轉(zhuǎn)變成更為常識意義上的話，想象-一個社區(qū)，其中剛開始幾乎所有的人都是品質(zhì)惡劣的人。在這個社區(qū)中，成為一個勇敢的互惠者并不會受益，因為合作的倡議人幾乎總是被擊敗。但是成為一個謹慎的互惠者并不會失去任何東西:這允許你與自己碰巧遇見的任何-一個勇敢互惠者合作，卻能夠保護你不被品質(zhì)惡劣的人利用。因此人們會慢慢弄明白，謹慎的互惠能夠獲得好處。但是謹慎的互惠者有可能因為太謹慎而不能相互合作:他們只能夠和勇敢互惠者合作。隨著謹慎互惠者數(shù)量的增長，并且隨著品質(zhì)惡劣的人的數(shù)量的下降，勇敢會獲得好處的時間將會來臨。在這個模型中，謹慎互惠的作用更像是某些類型的生長在被擾亂的土地上的植物一-這些植物拓殖別的物種發(fā)現(xiàn)不適于生存的生存地，但是它們的出現(xiàn)有助于產(chǎn)生這樣的條件，這些條件偏佑最終占領(lǐng)和接管的其他物種?，F(xiàn)在我已經(jīng)給出了兩個論據(jù)，認為社會演化的過程可能偏佑那些勇敢互惠策略。但是，我必須承認沒有任何一個論據(jù)是完全令人信服的。問題是,很難看出任何一個旨在表明演化將偏佑某些特定類型策略的論據(jù)不只是提示性的。在擴展的囚徒困境博弈中有數(shù)不清的數(shù)以億計的策略;看起來我們只有限制在一-些基本類型的策略中才能分析這個博弈，這意味著任何分析都是不完全的。我認為，這個問題永遠不會被解決;但是阿克塞爾羅德(1981) 給出了一個具有吸引力的方法，這一方法有某種程度的進步。阿克塞爾羅德的方法一他稱之為錦標賽方法一就是具體指定- -種特定形式的擴展岡徒困境博弈并接下來讓來者遞交進行博弈的策略。然后讓這些策略在某種類型的錦標賽中彼此自由地對抗，在這種錦標賽中所有的策略對抗所有的策略(allplay against all)，看誰將勝出。這種方法的動人之處在于，盡管分析的策略是有限的一那當然是不可避免的，但并沒有強加任意的限制。沒有人會抱怨分析者通過排除可能做得更好的特定策略從而固定了他的分析結(jié)果，或者抱怨他因為太患鈍從而不能認識到特定策略的優(yōu)點進而忽略了這些策略。如果你有一個自己做得好的得意策略,你所做的全部就是讓它進入錦標賽。僅有的限制是由人類創(chuàng)造力施加的一當然那種中國煤化工活的博弈中。YHCNMHG●225.制度經(jīng)濟學研究阿克塞爾歲德組織了一個這種類型的錦標賽。他采用的擴展囚徒閑境博弈的版本與我一直分析的博究稍微不同。在我的版本的博究中，一個參與人(當對手不合作時不合作，當對手合作時合作，當對手合作時不合作，當對手不合作時合作)的四種可能的結(jié)果的效用指數(shù)是0，b-c, b和-c，且有b>c>0。而阿克塞爾羅德的博弈的效用指數(shù)是1, 3, 5和0。這兩種類型的表述并不能嚴格地兼容，但是博弈的本質(zhì)結(jié)構(gòu)卻是相同的。π的值被設(shè)定在0.99654，以便博弈的中間數(shù)長度為200回合;期望長度為289回合。錦標.賽根據(jù)回合知更鳥原則( round-robin principle) 組織，策略作為計算機程序被遞交。阿克塞爾羅德的錦標賽有62個進人者。他報道說，進人者包括“經(jīng)濟學、心理學、社會學、政治科學和數(shù)學的博弈理論家”和“演進生物學、物理學和計算機科學的教授”(阿克塞爾羅德，1981)。獲勝者是由博弈理論家拉波波特( Anatol Rapoport)遞交的簡單的針鋒相對策略。在解釋這個結(jié)果時,我們的腦海中必須想著一些條件。第一，π的值要相當高，相對于謹慎的或不合作策略而言，這會傾向于偏佑勇敢互惠策略。第二，回合知更鳥錦標賽并不跟演化過程- -樣。在回合知更鳥錦標賽中,通過對付拙劣的對手表現(xiàn)優(yōu)異而積累高分是可能的，然而演化過程卻傾向于在一一個早期的階段就淘汰那些最不成功的策略。第三，在慣例的演化中，凸顯性(prominence)起到了重要的作用;并且凸顯性有時事關(guān)想象地跳躍和思想的聯(lián)結(jié)，這些并不能夠輕易地簡化成數(shù)學。通過進行抽象的數(shù)學形式的實驗，并且通過要求把策略寫成計算機程序，阿克塞爾羅德不經(jīng)意間形成了對凸顯性的數(shù)學概念的偏心(bias)。然而，所有這些都說明，阿克塞爾羅德的錦標賽中針鋒相對策略的成功是顯著的。它為我們提供了更深層次的基礎(chǔ)，使我們相信:如果擴展囚徒困境型的博弈在一個社區(qū)中重復地進行，勇敢互惠的慣例將傾向于演化出來。參考文獻1. Axelrod, R.，1981, “The Emergence of Cooperation among Egoists" ,American Political Science Revierw, 75, pp. 306 -318.中國煤化工MYHCNMHG●226.互惠的博弈分析A Game Theory Approach to ReciprocityRobert Sugden( University of East Anglia)[ Abstract} This paper provides an analysis of the formation of reciprocity and thestable equilibrium strategies of reciprocity from the perspective of game theory.[ Key words ] reciprocity prisoner's dilemma extended game tit-for-tat bravereciprocity cautious reciprocityJEL Classifications: C700 D640中國煤化工MYHCNMHG227.

論文截圖