米国大統領選挙予測技術
米国大統領選挙の予測技術が変化している。変化せざるをえない。従来の世論調査や経済志向に基づく予測手法では、複雑化する米国選挙情勢は捉えきれなくなった。米国では社会的分断が深刻なほど進み、選挙戦となれば過剰なほどの接戦化する中で市民の意思の流動も激しく、実態が掴めず、常に新しい選挙予測モデルが模索される。というわけで、ブロガーもお勉強してみるというわけだ。
米国では当然ながら、大統領選挙予測技術が話題になるし、なり続けてきた。2008年の米大統領選挙で注目された「FiveThirtyEight」や2012年の大統領選挙のために開発された「Votamatic」など、それぞれに当時は高い予測精度を誇った。が、2016年選挙では失敗。全国レベルの支持率などの予測からでは、もはや現在の大統領選挙結果を正確に予測することができそうにもない。マスメディアが採用する州レベルでの予測でも従来のモデルは限界を見せている。
高度な機械学習技術
そこでAIの登場である。最近はなにかとそうだが。しかたないよ。高度な機械学習技術が応用されているんだし。こうした現代の選挙予測注目すべき技術の一つは「Fuzzy Forests」。これは従来の「Random Forest(複数の決定木を組み合わせる学習モデル)」を拡張した手法で、相関性の高い特徴をグループ化し、各グループから最も影響力のある特徴のみを選別して、その影響力を見る。分極化の実態がわかるというわけだ。2020年選挙の分析ではこの技術で「党派的分極化」が選挙結果に与える影響を定量的に評価できた。
他の新技術、でもないが、実際はすでに枯れた技術とも言えるかもしれないが、選挙が近づく市民の感情分析にはNRCクラスファイアも依然応用されていて、発展している。これは約14,000語の語彙を「怒り」「期待」「嫌悪」「恐れ」「喜び」「悲しみ」「驚き」「信頼」という8つの基本感情に加え、「ポジティブ」「ネガティブ」という2つの感情極性を評価するのだが、加えて、Transformerアーキテクチャに基づく(いや単に昨今のGPTのことだが)、BERTやRoBERTaが導入される。文脈を考慮したより高度な感情分析が実現しているというのだが、どうだろうか。技術的には対しかことなくても、選挙で妥当性が証明されれば、へーということにはなるだろう。
マルチモーダル分析
選挙予測技術には、画像や動画も含めた総合的な分析手法として、マルチモーダル分析も試される。言語情報以外にも着目しましょうと。まあ、これもこの分野の人間なら、「これ、どうすか?」くらいなものであるが、主にSNS上に投稿される様々な形式のコンテンツがマルチモーダルに統合的に解析されている。というか、単純な話、𝕏(Twitter)に文字も書けない、読めない層が、インスタとかショートムービーとかやってるけど、それも拾っておけよという話だ。また、マルチモーダルというわけで、CNN(畳み込みニューラルネットワーク)やRNN(リカレントニューラルネットワーク)を用いた視覚・音声データ解析で、選挙集会の様子や候補者の表情、支持者の視覚的反応などから情報が抽出されるようになった。従来の感情分析では見落とされていた非言語的な情報が予測モデルに組み込める、のだが、どんなもんすかね。
こうした各種処理には、定番のAWSやGoogle Cloud Platformなどのクラウドインフラが活用される。選挙直前の急激なデータ量の増加にも対応するスケーラブルな予測システムの構築が用意される。そりゃ、祭りには想定外の熱狂が起きるかもしれない。Apache KafkaやApache Flinkといった分散型データ処理フレームワークも導入される。選挙期間中の急激な意見変動や感情の変化を即時に捉えようとする。まあ、これは予測技術というより、メディアにネタを提供するためだ。バスケットボール観戦みたいにするための技術だ。
SNSデータの高度な活用
当然ながら、SNSである。ゴシップなんかも、これだしね。で、インフルエンザ、じゃないや、インフルエンサーだ。SNSデータの分析において、インフルエンサーの影響力を定量的に評価することは重要な課題となっている。なんの地獄? でもこのソーシャルネットワーク分析では、グラフ理論から発展した「中心性指標」を用いてネットワークの主要ノードの影響力を測定する。ページランクやクラスタ係数といった指標も、特定のユーザーが持つ情報拡散力を評価する上で有効な手段となっている。これは、しかし、もう自己ループの世界だよな。ようつべでひろゆき踏んだら、延々に出てくるみたいな、あれだ。ホリエモンも出てきたりする。なんの地獄?
そうそう。これらの分析の前段ともなるが、選挙予測の精度を脅かすボットやフェイクニュースへの対策も進んでいる。機械学習を用いたボット検出技術により、不自然な投稿パターンや特徴的な文章構造を持つアカウントを自動的に特定し、データセットから除外できる。
予測精度向上のための新技術
選挙予測モデルの信頼性を確保する上では、AIの判断過程の透明性確保も課題だ。うん、課題だろ? この課題に対応するため、SHAPやLIMEなど機械学習モデルの予測結果を解釈するツールの導入が進んでいる。ブラックボックス化してしまう深層学習モデルの判断プロセスを可能な限り可視化し、どの要因が予測結果に影響を与えているのかを明らかにする必要がある。この分野で、特にSHAPは、ゲーム理論に基づくアプローチを採用して各特徴量が予測結果に与える影響を定量的に評価する。米国大統領選挙では、特定の州での選挙結果の予測において、経済指標、SNSの感情スコア、世論調査データなど、どの要因がどの程度影響しているかも分析できる。
選挙予想技術の課題
選挙予測技術はAIの進化にともない、各種急速に進化を遂げている。巨大な鉛筆も考案されている。わけないか。でも依然重要な、そしてシンプルな課題も残されている。SNSデータのカオス的な特性である。SNS利用者は必ずしも全有権者を代表していない。それどころか、世論とは逆になることもある。いや、そればっかじゃん。お友だちのなかにれいわ新選組なんていますかね。こうしたデータのバイアスは補正しなければならないが、これに対する基礎的な理論は構想されていない。まあ、鞭なの紙布であるが、いろいろ模索されているから、補正のための個人情報保護やプライバシーへの配慮も必要になっている。意味あるんだろうか。
選挙予測技術の発展で、地域別の感情動向分析に基づくマイクロターゲティングは当然活用される。都市部と農村部で異なる政策課題への関心度を分析し、それぞれの地域に最適化されたキャンペーンメッセージを配信ているからな。まあ、これは、どっちかというと選挙予想技術じゃないか。でも、SNSプラットフォームの広告配信機能と組み合わせることでうんたらといっても、SNSのカオス的な特性を考慮すると、その効果そのものが確かなものであるとも言い難い。
AIとSNSデータを活用した選挙予測は、さらなる発展を遂げるだろうが、これらの技術は、民主主義のプロセスに寄与していると言えるのだろうか。そもそもこれらは、いったい何に寄与しているのだろうか。まあ、そんなに古場化にしていても、私たちの市民生活はこんなものに飲み込まれてて、そして精神は蝕まれている。この記事がすでにそうだろ。
参考
1. Dey, Sreemanti, and R. Michael Alvarez. Fuzzy Forests for Feature Selection in High-Dimensional Survey Data: An Application to the 2020 U.S. Presidential Election. 3rd International Conference on Applied Machine Learning and Data Analytics, 16-17 Dec. 2021.
2. Srinivasan, Satish Mahadevan, and Yok-Fong Paat. "A Data-Centric Approach to Understanding the 2020 U.S. Presidential Election." Big Data and Cognitive Computing, vol. 8, no. 9, 2024, p. 111. MDPI, https://doi.org/10.3390/bdcc8090111.
3 Hasan, Md Rumman, Elke A. Rundensteiner, and Emmanuel S. Agu. "EMOTEX: Detecting Emotions in Twitter Feeds for the 2016 U.S. Presidential Election." Proceedings of the 2022 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining (ASONAM), IEEE, 2022.
| 固定リンク