(從維基上看到一些有趣資料的整理&節錄)

 

具有競爭或對抗性質的行為稱為博弈行為。在這類行為中,參加鬥爭或競爭的各方各自具有不同的目標或利益。為了達到各自的目標和利益,各方必須考慮對手的各種可能的行動方案,並力圖選取對自己最為有利或最為合理的方案。比如日常生活中的下棋、打牌等。

賽局理論就是研究博弈行為中鬥爭各方是否存在著最合理的行為方案,以及如何找到這個合理的行為方案的數學理論和方法。

 

[從 賽局理論 到 囚徒困境]

 

囚徒困境(Prisoner's Dilemma)

 

警方逮捕甲、乙兩名嫌疑犯,但沒有足夠證據指控二人有罪。於是警方分開囚禁嫌疑犯,分別和二人見面,並向雙方提供以下相同的選擇:

  • 若一人認罪並作證檢控對方(即「背叛」對方),而對方保持沉默,此人將立刻獲釋,沉默者監禁10年。
  • 若二人都保持沉默(即互相「合作」),則二人同樣監禁半年。
  • 若二人都互相檢舉(互相「背叛」),則二人同樣監禁2年。

 

用表格概述如下:

                                   甲沉默(合作)                     甲認罪(背叛)

乙沉默(合作)          二人同服刑半年               甲即時獲釋;乙服刑10年

乙認罪(背叛)    甲服刑10年;乙即時獲釋              二人同服刑2年

 

 

→ 囚犯心理:

  • 若對方沉默、我背叛會讓我獲釋,所以要選擇背叛。
  • 若對方背叛指控我,我也要指控對方才能得到較低的刑期,所以也是會選擇背叛。

 

結果在兩囚犯"理性"選擇下,卻達不到共同最大效益。

(此處"理性"比照經濟學理性定義:意即人都是自私的,以追求己身最大利益為優先)

 

「自行車賽事的比賽策略也是一種博弈,而其結果可用囚徒困境的研究成果解釋。例如每年都舉辦的環法自行車賽中有以下情況:選手們在到終點前的路程常以「大隊伍」(法語:peloton) 方式前進,他們採取這策略是為了令自己不至於太落後,又出力適中。而最前方的選手在迎風時是最費力的,所以選擇在前方是最差的策略。通常會發生這樣的情況,大家起先都不願意向前(共同背叛),這使得全體速度很慢,而後通常會有二或多位選手騎到前面,然後一段時間內互相交換最前方位置,以分擔風的阻力(共同合作),使得全體的速度有所提升,而這時如果前方的其中一人試圖一直保持前方位置(背叛),其他選手以及大隊伍就會趕上(共同背叛)。而通常的情況是,在最前面次數最多的選手(合作)通常會到最後被落後的選手趕上(背叛),因為後面的選手騎在前面選手的沖流之中,比較不費力。」

 

 

[若是重複的囚徒困境:那請大家都對彼此好一點]

 

最佳確定性策略被認為是「以牙還牙」,這是俄裔美籍數學心理學家阿納托爾·拉波波特(Anatol Rapoport)開發並運用到錦標賽中的方法。這個策略是在重複博弈的一開始都選擇合作,接著完全模仿對手前一回合的策略。更好些的策略是「寬恕地以牙還牙」。當你的對手背叛後,在下一回合中你無論如何要以小機率(大約是1%-5%)時而合作一下,這是考慮到偶爾要從循環背叛中復原。

 

通過分析高分策略,阿克塞爾羅德指定了策略獲得成功的幾個必要條件。

  • 友善:最重要的條件是策略必須「友善」,這就是說,不要在對手背叛之前先背叛。幾乎所有的高分策略都是友善的。
  • 報復:但是,阿克斯洛德主張,成功的策略絕不能是一個盲目的樂觀者,要始終報復。
  • 寬恕:成功策略的另一個條件是必須寬恕。雖然寬恕等於不進行報復,但是如果對手不繼續背叛,彼此將逐漸穩定到合作。這停止了報復和反報復的長期進行,將最大化得分點數。
  • 不嫉妒:最後一個條件是不嫉妒,就是說不去競爭得到高於對手的分數。

 

因此,阿克塞爾羅德得到一種烏托邦印象的結論,認為自私的個人為了其自私的利益會趨向友善、寬恕和不嫉妒。阿克塞爾羅德關於重複囚徒困境的研究的重要結論之一,就是友善的人能最先完成交易。

 

 

[一開始就背叛不就好了?:納什均衡]

 

如果重複囚徒困境將被精確地重複N次,已知N是一個常數,那麼會產生另一個有趣的事實。納什均衡就是「每次都背叛」,這很容易用歸納法證明。你可以在最後的回合背叛,因為你的對手將沒有機會懲罰你。但是,因為彼此都明確對方會使用與自己同樣的策略,所以,知道對方會在第十局中背叛自己,如此一來在第九局時兩者間建立的信任關係即是沒有意義的,類推下去,第八局到第一局中建立的信任關係也是沒有意義的。所以最終結論是,從第一局開始就會互相背叛,也就是納什均衡。

 

所以,想避免納什均衡,則對未來的預期必須是無法確定的長度,如此才有可能(保持)合作。

 

 

[另一種狀況,可以先當個背叛者]

 

參加者進行一場囚徒困境遊戲,決定如何分配獎品。規則如下:

  • 如果參與者都合作,每人得到 +1。
  • 如果都背叛,每人得到0。
  • 如果甲合作而乙背叛,甲得到0而乙得到 +2。

(注意,這個條件與前述的條件不同,因為發生「互相背叛」的情形和「我合作而對手背叛」的情形,其損失是一樣的。)

 

遊戲中,每個參賽者可以發表一次聲明,使對方在秘密決定合作或背叛之前,確信他的友善。而可能「打破制度」的方法是,其中一個參與者告訴他的對手:「我會選擇做敵人(即背叛)。如果你相信我之後會和你分獎品的話,就選擇合作。否則,如果你也選擇背叛,我們都會空手而回。」另一個更貪婪的版本將是:「我將選擇做敵人。我會給你百分之X,剩下的百分之(100-X)歸我。所以,要或不要,要麼我們都得到一些,要麼我們都一無所獲。」

 

 

[窮人還是去死吧:帕累托最適]

 

帕累托最適是指資源分配的一種理想狀態。假定固有的一群人和可分配的資源,如果從一種分配狀態到另一種狀態的變化中,在沒有使任何人境況變壞的前提下,使得至少一個人變得更好,這就是帕累托改善。帕累托最適的狀態就是不可能再有更多的帕累托改善的狀態;換句話說,不可能再改善某些人的境況,而不使任何其他人受損。

 

假設一個社會裡只有一個百萬富翁和一個快餓死的乞丐,如果這個百萬富翁拿出自己財富的萬分之一,就可以使後者免於死亡。但是因為這樣無償的財富轉移損害了富翁的福利(假設這個乞丐沒有什麼可以用於回報富翁的資源或服務),所以進行這種財富轉移並不是帕累托改進,而這個只有一個百萬富翁和一個餓死乞丐的社會,可以被認為是帕累托最適的。

 

 

謎:忍不住又想到邊沁(功利主義)。是社會利益重要還是個人利益重要?其實帕累托改善還算是兼顧個人與社會利益的折衷方法呢

假設社會異變動盪之時,只要殺了一個小女孩所有人就可以獲得拯救,那小女孩該不該死?(關於這個故事快點快點去看伊藤潤二的《地獄星》^_< )

 

補一下功利主義最著名的列車難題:假設有一列車正在高速行駛,你是此列車的車長,此時前方直行的鐵軌上有5人,另條鐵軌上有1人。如果繼續行駛,將會導致5人喪生。假若你換軌,便能救回該5人,可是又會導致那1人喪生。

 

如果是主張效益主義,便會選擇換軌犧牲1人救回5人。

 

 

[最後來點美好的社會:異想]

 

威廉·龐德斯通(William Poundstone)在他的著作中,以一紐西蘭的例子來說明囚徒困境。在紐西蘭,報亭既無管理員也不上鎖,買報紙的人自行放下錢後拿走報紙。當然某些人可能取走報紙卻不付錢(背叛),但由於大家認識到如果每個人都偷竊報紙(共同背叛)會造成以後不方便的有害結果,這種情形很少發生。這例子特別之處是,紐西蘭人並沒有被任何其他因素影響而能脫離囚徒困境。並沒有任何人特別去注意報亭,人們守規則是為了避免共同背叛帶來的惡果。這種避免囚徒困境的大家共同的推理或想法被稱為「異想(magical thinking)」。

 

 

文引用整理自:

http://goo.gl/pm959D

arrow
arrow
    創作者介紹
    創作者 ii5235 的頭像
    ii5235

    空は近い

    ii5235 發表在 痞客邦 留言(1) 人氣()