Those Unpredictable: 期中選舉：談談機率分布與預測心理

隨手用了網路工具，將三張538網站上的不同版本預測圖截圖重疊下來，來談一下期中選舉預測上，有趣的地方。

圖片來源：FiveThirtyEight Midterm Election：2018 House Prediction

538不同版本的預測，在統計分配上的狀態
538在每次選舉，都會提供三種不同的選舉預測：Lite/Classic/Deluxe

Lite：就是僅就本次選舉，所有進行的全國性與區域性民調，放入模型做出預期。

Classic：增加所謂的 "基本盤"：募款狀況，過去的投票傾向，歷史的趨勢。

Deluxe：就是再增加 "專家評等" (experts' rating)

他們自己有公布他們自己的預測是如何預測的，可參考這個連結。而下圖也列示了三種評等使用資訊的差異。

那麼，這樣評等的差異，目的是為什麼？

當我們新加入資料時，多半是希望新加入的資訊，可以讓我們所關心的預測更 "準確"。

我們再做預估時，大概可以估出一個 "平均值"，也就是整個機率分布累積到50%的地方。而整體分布會有不同程度的分散狀態。而所謂的"準確"：除了這個中點外，也希望分布不要太散。

從這個角度來看，我把這三張圖疊在一起，就是希望讀者能夠感受一下兩件事：

(1.) 新資訊讓預測更集中：讀者們應該可以清楚的感受到，從Lite 到 Deluxe，整個分布的區間越來越窄。

(2.) 以中位數/平均值來說：Lite/Classic 版本的預測值，是落在民主黨增加 38-39席，而Deluxe版本預測是增加 36席。

最終的肯定結果還沒有公開。目前，根據紐約時報的推估，2018年期中選舉後的眾議院，大概是民主黨 229 : 206 共和黨。

538的創辦人在上周末(Nov 3, 2018)，發布了一篇以 "共和黨需要系統性民調誤差，才能贏下眾院" 的文章，是以Deluxe 版本做為討論。這個版本的中值落在民主黨 231 : 204 共和黨，跟上述的推估值差距並不大。這項結果，可以再細分成兩個話題。

預期建立：從各種預測建立起 "心理準備"
在一項特定的風險事件，或者是公眾認為會對整體政策方向有影響的事件上，進行各種民調，幾乎是現代的常態。而透過民調的過程，也會讓公眾慢慢型塑出自己的看法，也會讓他們的預期反應到一些生活中他們認為被影響的領域。

驚喜(？！)，來自於公眾被形塑出來的意見，跟真實的結果出現大幅度的差距時造成。

在這裡我們談一下兩個在20世紀美國的總統選舉上，有趣的"歷史"

這兩次有名的"驚喜"，是1936年小羅斯福與藍登，以及1948年杜魯門與杜威的選舉。兩者都是預測共和黨的候選人會當選，但最終結果是民主黨獲勝。

後人探討出來的原因，大概能歸因為兩點：

(1)抽樣樣本與真實的投票民眾母體差距太大了，簡單來說，就是問錯人。

當時有些民調，是以電話調查進行。1936年有電話的家庭的社經背景，跟整體民眾的差距顯然有一段距離。

(2)民調型塑意見後，影響真實投票的狀態：

杜威的支持者認為杜威領先夠大，就沒有去投票；杜魯門的支持者發現他有急起直追之勢，更加踴躍投票。一來一往，就縮小了兩者間的差距。

當代的民調，大概都就上述兩種狀況，做出了一些修正。然而，2016，仍出現兩次"大打臉"的狀況，也迫使進行民調預測的人再做出一些改變。這就是為什麼我在首段特別介紹538他們提到的三種預測版本，讓大家對於預測有更深的認識。

這次的選舉結果，在選前大概都能夠預期民主黨拿下眾議院這樣的結果。因此，至少在金融市場上，並沒有因為選舉，出現太多的變化。

我可以預想，在今日(Nov. 8, 2018，台灣時間)，會出現："金融市場的表現得比預期的好，可能大家會認為是共和黨選得比想像的好"，這樣的論述。

我認為真正的原因，是不確定性因素的解除，對於金融市場總是一種激勵。此外，畢竟民調結果都是事前就公布的，因此跟民調"吻合"的狀況，早就被該考量進金融市場的訂價中。

或許，我們可以看看下一個原因？

真正的"意外"，是民主黨贏得不夠多？
我們從三個版本跟目前的真實狀況相比，就會發現民主黨獲得的席次，跟預測的中值相當接也就是說：這次事前的預測，可以說是"太準"。

通常真實的結果要準確落在中值，應該不太容易。尤其是在這次選舉，在公眾媒體上，普遍談及所謂的"不受歡迎的總統"的因素下，會讓反對黨在選得更好一些。

民主黨的表現，僅僅只有符合預測的中值而已。甚至在參議院選舉上，失去了北達科塔州的Heidi Heitkemp(選前就預估會失去，23.3%當選機率)，密蘇里州的Claire McCaskill(選前認為50%/50%)與印地安納州的Joe Donnelly(選前認為較為看好，61.7%當選機率) 三位參議員，算是對民主黨中西部選區，重大的損失。

(筆者註：這點在WSJ 所舉辦的短論壇上有被提起，在這點引述他們的觀點摘要)

小結：確定與不確定
我會撰寫這篇文章的出發點，是因為期中選舉前，許多朋友問我：美國期中選舉會不會對金融市場有影響？如有影響，影響的幅度有多大？

對我來說，蒐集資訊的方向通常是：找尋以數據做為基礎論述的媒體，觀察他們使用數據的狀況，是否有重大的推論盲點？若無，我就會建立出一個基礎情境。隨著時間變化，觀察這樣基礎情境是否有所改變。

我認為貿易爭端跟美國選舉，算是恰巧兩件有趣的風險事件的例子。

跟貿易爭端相比，選舉這件事情在美國，因為投入做數據分析的人多，要有太大的誤差跟驚喜，變得越來越困難。甚至作數據分析的人，也更加知道自己的侷限，選前也會提供 "完全相反"的狀態 (如：538創辦人寫的 "系統性偏誤" 那篇文章)，讓讀者自行做出判斷。
而貿易爭端，就牽涉到兩國行政當局的立場，兩國國內的總體經濟狀態，以及周邊各國之間的外交關係。這種資訊量多，資訊來源雜，雙方在正式談判前也不願太早揭示底牌的狀況下，就會成為真正的 "風險事件"：因為根本不知道從何估起，陷入 "公說公有理，婆說婆有理"的狀態。

對我來說，我很喜歡做這樣的練習：判斷哪些是容易考量的風險事件，哪些事件雖然看似不確定，但大致方向卻相對穩定的。或許，讀者有興趣也可以試試看。

Those Unpredictable

Search This Blog

Wednesday, November 7, 2018

期中選舉：談談機率分布與預測心理

No comments:

Post a Comment

假想情境：Omicron已在歐洲 (?)