Those Unpredictable: 2016美國總統大選：三種不同的預測方式

圖片來源：http://projects.fivethirtyeight.com/2016-election-forecast/

當全世界都在關注這次的美國總統大選，有各種不同的預測模式。這次，有甚麼不同？

Nowcasting：選舉民調進行式

圖片來源：http://projects.fivethirtyeight.com/

第一個介紹的預測，也是開頭的圖片，來自於以美國538個選舉人票為名的網站：Fivethirtyeight.com。現任主編，也是創辦人Nate Silver過去的資歷就是以統計數據出發，分析棒球與美國政治的各項民意調查。遇上總統大選統計，他們當然不會缺席。

在2016總統大選預測專頁上，提供讀者三項不同的選則。這三項選擇各為三種不同的統計模型。而三種模型的差異，主要來自於他們選取的資料差異。

第一種為民意調查加上其他經濟，以及歷史數據。第二種純為民意調查，第三種則是來自於詢問選民：如果"今天"就要投票，你會怎麼投？

雖然網站上只有將第三項當作是Nowcasting。然而，一般來說，只要在模型建構時容許新資料更新，即時更新預測結果，應該都能稱作Nowcasting。

不管是選取三種資料的哪一種，結果都指向希拉蕊會在總統大選中取得勝利，勝選機率落在83.9-86.7%之間。

他們的模式與其他人有甚麼不同呢？Nate Silver於昨天(Oct. 24, 2016)撰寫了：比起他人，為甚麼我們的模型更看好川普些？，對於他們的模型有進一步的解釋。

相較於其他媒體所做的預測，他們的預測模型中川普勝選的機會落在15-17%(約略落在：1⁄6 與1⁄7 之間) ，相較於紐約時報(8%)，哈芬頓郵報(4%)，"川普勝選"這個事件發生的機率，在他們的模型中高了很多。

為什麼會造成這項差異？這就是Nate Silver撰寫這篇文章的原因。藉此機會他傳達許多統計觀念，非常有意思。這也是在建立模型架構時，常問幾個問題：要使用甚麼樣的資料？資料有哪些性質？預測結果該採用甚麼樣的機率分配？

1.) 取樣的資料點：

模型的建立，仰賴過去的資料，作為建立參數的依據。資料該用哪些？

有些情況下是越多越好，有些情況下是越近越好，更有些情況我們要考慮資料產生的背景環境是否有重大的改變。

他們選擇1972年後的資料，原因是在早於1972年前，會有許多州資料並沒有被包含進來。為了各州資料整合成全國資料的完整性，他們採用1972年以後的資料。此外，避免受到問券回覆率降低，造成近期(2000年後)問券資料與結果差異的狀況，他們不會僅僅使用近期資料。

2.) 統計性質：

事情發生的機率，應該要接近哪種機率分配？不同的資料點之間的關聯性質該長得如何(如：correlation)？

在統計性質上，此模型有兩項特色：各州之間誤差的連結，以及事件機率分配的遠用。

很多預測網站，都將各州視作為同樣的個體，因此他們的問券誤差被視作相同的。這與現實不盡相符。各州之間的結果，並非是"獨立"存在：如果在某些州他們的人口結構組成相同，那麼他們的統計誤差可能為很相似；反之，人口結構差異越大，那他們的差距也就越大。

此外，"川普勝選"這樣的事件，該用甚麼樣的統計分配來看待？一般在預測時可能會用常態分配來呈現事件發生的機率。然而，在預測"稀有事件"時，這些事件發生機率高於預期的狀態。因此，尾端事件機率較高的T-分配，較適合用在總統大選的預測上。

3.) 本次選舉的特色：未表態選民與第三候選人

這項模型，未表態的候選人，以及會投給兩黨外候選人的比率，較難估計。因此，他們的模型在預估中，將未表態候選人的比率拉高。

在2012年選舉時，到了10月底，會去投票且已經表態的選民，佔會去投票的選民約95%。然而今年，這項數據卻只有80%左右。雖然用較保守的估計(80%)，仍然沒有改變希拉蕊會勝選的預測，但這樣的估計，相較於其他媒體，給予川普較高的勝選率。

預測：希拉蕊勝，勝選機率落在84%~87%之間，持續更新。

川普無法獲勝？這位教授不這麼看。
任職於紐約州立大學石溪分校(Stony Brook University)的Helmut Norpoth教授，根據他過去的研究建立的模型，提出完全不同的看法。他指出：川普有極高機會(87%)勝選。

這個被稱作"初選模型"的預測，背後的根據是甚麼？他的基本概念：強勢候選人與政黨輪替。他的預測的特色，在於"早"：各黨初選中，就能夠提出預測。

美國在提出總統候選人之前，會進行激烈的黨內初選，作為推薦候選人的依據。通常，新罕布夏州的初選最早，因而有指標意義。候選人如果在初選中，可以及早，大幅度拉開領先差距，那麼他就會是位"強勢候選人"。

此外，美國歷任總統，通常會在兩黨中間擺盪。一位做得好的總統最多兩任，但是很少能夠將任期中的成績延續，將執政交棒給同黨的下一任候選人。

模型採用的資料點，取自1912年以來的總統大選。每增加一次選舉，就會多一個資料觀察點。今年預測2016年的選舉，觀察點共有26個。

我們接下來用他今年的預測，逐項瞭解他的計算方式：

圖片來源：http://primarymodel.com/

1.) 初選分數(Primary Score)

這位教授提到：越早在初選中拉開差距，越容易得到黨內共識，成為強勢候選人。這樣的強度有多強，要怎麼量化？

1-a.) 首位與第二位差距：

初選早期通常有很多位角逐者，他只有看贏得該次初選跟第二名的得票率。

以今年來說：川普在新罕布夏拿下35.3%，第二位拿下15.8%
川普的"新罕布夏指數"就是 35.3% /(35.3%+15.8%)=69.08%

這次預測使用的數據，他多納入了南卡羅納州。因此川普這項數據修正為64%。他納入南卡羅納州的原因，並非是為了川普，而是為了希拉蕊。作者認為，非裔美國人對於希拉蕊的支持程度非常明顯，因此得包含一個非裔美國人比率較高的州，來呈現這樣的現象。

1-b.) 歷史平均：

接下來，這項分數會將歷史平均相比。然而，這項歷史平均並非取決於黨派，而是候選人的地位：挑戰者政黨或現任者政黨。

歷年來挑戰者政黨的領先候選人，在初選時領先第二位的幅度為49%。而現任者政黨，基於現任優勢，多半領先幅度會較大，高達54%。

川普在這項"強度差異"的數據，也就是"初選分數"(primary score)，得分為：64%-49%= 15%

1-c.) 歷史數據給予的參數：初選分數對於最後得票率的影響

"模型"的意思，就是他用了歷史數據去建立起他在乎的幾項變數該占有的參數影響。他的模型中：挑戰者的初選強度分數的參數為 0.17。而模型的應變數為民主黨得票率，所以在計算這項數值時給予了負號：也就是說，川普這位候選人，依據他初選的表現，會降低民主黨得票率：

15% * 0.17 =2.55%

2.) 模型假設的"理論"並不成立：被初選分裂的兩黨

過去美國歷史上，一黨在初選分裂並不罕見。在1912年，老羅斯福在共和黨內挑戰黨內候選人Taft，在不滿黨內初選結果的狀況下，脫黨創立新的政黨參選總統，讓民主黨威爾遜輕鬆贏下總統寶座。

但兩黨候選人都在黨內出現明顯的雜音，這就比較少見了。

川普雖然在初選大幅勝選，但是共和黨內對於這位"非傳統"的候選人，一直有所歧見。美國大西洋月刊(The Atlantic)，在上周(10/21)的這則報導，列示共和黨人在公開媒體上對於川普的評論，裡面不少有影響力的共和黨人並不支持川普。換句話說：那個15%的優勢領先並不見得存在。

民主黨內也出現同樣的狀況。在黨內初選過程中，桑德斯鮮明的立場，贏得不少民主黨人的支持。兩人在黨內的支持率可說是不相上下。在這個模型中，現任政黨候選人的初選分數，佔有滿大的權重(0.429)。初選時兩人貼近的支持率，預測希拉蕊較低的得票率。

但是，川普目前的舉動，正在幫民主黨催票。大家都會問：

"你是討厭希拉蕊沒錯，但是你真的想要讓川普當上美國總統嗎?"

預測：川普以52.5%得票數獲勝，獲勝機率87%，於2016年3月公布。

簡單是非題：這樣也能預測？
上面兩項預測方式，都牽涉到不同程度的統計假設，以及使用過去資料的模型建立。大家不禁會問：不懂統計，就不能預測嗎？

美利堅大學(American University)的教授Allan Lichtman，提出了一種直觀的方式。根據他設計的13句直數據的答案，評斷"現任政黨"是否能夠贏得大選。如果有其中6項的陳述為"錯誤的"(False)，現任政黨就不會贏得總統大選。

華盛頓郵報(Sept. 23) 過去30年準確預測總統大選的教授，認為川普將會獲勝

從這位教授觀察1860-1980的美國總統大選，找出幾項共通的特點，將這些特點寫成這13個句子。自此之後，預測1984年以後的選舉。

根據這位教授的判斷，民主黨在這13個句子中得到了5項明確的否定答案。

民主黨沒有贏得期中(2014)國會選舉，現任總統任滿不再參選，在歐巴馬的第二任期並沒有重大政策改變，沒有重大外交勝利，以及現任候選人個人魅力不足。

他的第6項否定，來自於第三黨候選人。在接受訪問的時間點上，第三黨候選人仍有一定聲勢。因此再加上前5項的推斷，他認為川普應會當選。

然而，對於川普與第三候選人，他在訪問中的陳述對這兩項議題有所保留。

他認為，川普並非一位傳統的"共和黨"候選人，再加上他的爭議性，很難讓人相信他會是最後勝利的候選人。然而，綜合上述幾項指標，他仍認為同時國會改選的席次中，共和黨會贏得勝利。

此外，他舉了他個人的經驗，指出第三黨候選人可能扮演的影響性不高。1968年的總統大選時，也有一位強勢第三黨候選人George Wallace出現。當時的許多年輕人，如同美國現在的千禧年(millennial)世代，對美國政治也有所不滿，對第三黨候選人寄予厚望。然而，當他們要在兩位候選人中選擇時，他們對於民主黨的排斥，讓他的朋友們把票轉投給尼克森，而非民主黨的Hubert Humphery Jr. 換句話說：在真的兩人對陣的狀況下，"可投性"成為一項因素。

預測：川普/共和黨獲勝，訪談時間點為2016年5月。

結語：甚麼樣的預測最合用？
在各種預測方式中，我們都希望能夠透過最簡明的資料，最少的假設，得到最準確的結果。

這三種預測方式中，"句子是非題"最簡明直觀，fivethirtyeight 網站 Nowcasting資料量最多，最有統計基礎，而"初選模型"夾在中間：應用了一點統計，但又不用太多的資料點。

然而，每項預測都有他們的限制。直觀是非題受限於不是"準確量化數據"，因此每個人對於民主黨得到的"False"題數，可能略有不同。這次大選，兩黨候選人出線的模式與黨內的期待有所差距，可能讓"初選模式"的預測，首次失準。而依據統計，民調，且持續透過新資料更新的Nowcasting，應該是最可靠的預測結果。

不過最有趣的，還是時間的推移，事件的發生，對於預測的影響。

在"初選模式"中，"政黨"是主要的依歸。初選結束，大家團結一致為自己的候選人衝刺。預測結果就在當時終止了，模型並沒有容許隨時間經過發生的事件變化，影響結果。

在"句子是非題"模式中，因為句子不是準確量化統計，有些事件可能會重新成為爆點。因此容許了一些事件影響的空間。

在一個月前(Sept. 24)，我曾在臉書專頁上提到他的預測。我當時認為，有更多句子存在否定空間。如：第2句：黨內初選並不激烈；第8句：沒有持續性社會動亂；第9句：現任政府不受弊案影響；地13句：挑戰者並沒有特殊個人魅力。

今年美國社會有數起黑人遭白人警察槍傷/殺事件，種族問題也引發多起抗議活動。黑人在社會中面臨的挑戰，以及數起社會事件，是否會造成放棄政治希望，不去投票？是我當時討論的角度。而當時黑人社群中不少領袖，在書刊撰寫專欄，呼籲年輕選民要積極投票。

最後，"Nowcasting模式"，隨著時間經過納入更多的預測資料，容許最多的時間推移事件進入預測中。在3次總統辯論開始之前，恰巧是我分享Allan Lichtman教授文章的時間點。兩者的勝選機率是近期拉到最近。然而，在這3場辯論後，民調的風向，各政黨內的變化，將兩者的差距越拉越遠。

圖片來源：http://projects.fivethirtyeight.com/2016-election-forecast/?ex_cid=rrpromo

最後的最後，我們得記得：預測，不是事實。他們各有各的假設，以及隨著這些假設伴隨的限制。甚麼樣的預測最合用？就看資料使用者的選擇了。

Those Unpredictable

Search This Blog

Wednesday, October 26, 2016

2016美國總統大選：三種不同的預測方式

No comments:

Post a Comment

假想情境：Omicron已在歐洲 (?)