« 金木犀とセイタカアワダチソウの秋 | トップページ | 中国の海洋進出がもたらす南シナ海の緊張 »

2024.10.14

AI(LLM)の急成長と創発性に関する疑問

 近年、人工知能(AI)や大規模言語モデル(LLM)の進化が進むにつれ、非線形の飛躍や創発性(エマージェンス)という現象について多くの議論が行われている。その評価基準に問題があるという研究もある。しかし、評価基準を適切にしたところで、非線形の飛躍や創発性自体が否定されるわけではない。そもそもこのような現象がなぜ起こるのか、そしてその結果としてどのような問題が生じるのか。特に、これらの現象が倫理的な側面やAIの安全性にどのように影響するのかを理解したい。

非線形の飛躍とは何か?
 最初に抱いた疑問は、非線形の飛躍とは、AIモデルが徐々に進化するのではなく、ある特定の段階を超えると急激に性能や能力が向上するという現象そのものである。フィリップ・アンダーソン(P. W. Anderson)が1972年に発表したエッセイ“More is different”を思い出させる。
 現状のAIではパラメータ数を増やした際に、それまでは解けなかった自然言語処理の課題を急に解決できるようになることがある。特に、大規模言語モデルでは、パラメータ数やデータ量が一定の規模に達すると、突然新しい能力を獲得することが報告されている。GPT-3のようなモデルでは、パラメータ数が数百億に達したとき、それまでできなかった自然言語処理タスク(例えば複雑な文章生成や会話の流れの理解)を急に高精度で実行できるようになることが観察されている。
 これにより、AIの活用範囲が大きく広がったが、この急激な性能向上は、AIの進化が徐々にではなく突然起こることを示しており、技術者や研究者にとってはそのメカニズムを理解し、適切に制御することが重要な課題となっている。この創発性ともいえる現象は、AIの急激な能力向上の現象を示しているが、なぜこのような飛躍が生じるのかについては、まだ完全に解明されていない。解答によると、モデル内の複雑な相互作用や、モデルが学習するデータの多様性が、その飛躍を引き起こす一因である可能性があるとされている。

創発性は本物か、それとも見せかけか?
 この近年のAI(LLM)で生じる創発性に見える現象は「本物」なのか、それとも単に評価基準の選択による「見せかけ」なのか。この点については、評価基準が創発的に見える現象を強調している可能性があるらしい。非線形または不連続な評価基準(精度や正答率など)を使用すると、モデルの能力が急激に向上したように見えることがあり、これは必ずしもモデルの本質的な能力ではない可能性もある。
 例えば、多肢選択問題の正解率を基準にすると、モデルが一つの間違いを犯すだけで大幅にスコアが下がり、突然全てを正解することで急激な性能向上が観察される。しかし、他の連続的な評価基準(例えば、エラー率や編集距離)を使用すると、モデルの性能は段階的に改善しているだけに過ぎず、急激な飛躍は見られないことがある。評価基準が創発性を「見せかける」要因となっている場合がある一方で、非線形の飛躍が現実に存在し、例えば特定のタスクにおいて急激に性能が向上する現象が実際に観察されていることから、その影響は非常に大きいとは言えるだろう。

非線形の飛躍の問題はハルシネーションの問題なのか?
 非線形の飛躍は、AIが生成するハルシネーション(AIが実際には存在しない事実や誤った情報を生成する現象)の問題とどのように関連しているのだろうか。
 例えば、AIが急に複雑な文章生成能力を持ったとき、その出力が一見正確に見えても、実際には誤っている場合がある。これはハルシネーションである。特に、大規模な言語モデルでは、急激な能力向上に伴って生成される出力の正確性を担保するのが難しくなり、信頼性に問題が生じる可能性がある。このため、非線形の飛躍がハルシネーションの問題を助長する可能性があると考えられる。
 すでに、大規模なAIモデルが急激に進化し、データに基づかない情報や架空の事実をあたかも真実のように生成するケースが報告されている。この問題は、AIが誤った情報を生成することで、実世界での意思決定や自動化されたプロセスに予測不能な悪影響を与える可能性がある。医療や法的判断の場面で誤った情報が生成されると、人命や社会的信頼に重大な影響を及ぼす。この点について私がとりあえず理解したことは、非線形の飛躍自体がハルシネーションの直接の原因ではないものの、飛躍的に獲得された新しい能力が予測不可能な結果を生むため、ハルシネーションのリスクが高まる可能性があるということらしい。

非線形の飛躍がもたらす他の問題
 非線形の飛躍が引き起こす問題は、ハルシネーションだけに限らない。この現象は、他にもいくつかの重要な課題を引き起こすようだ。
 まず、予測不可能性の問題がある。モデルの能力が急激に向上することで、どのタスクでどのような性能を発揮するのかを事前に予測するのが困難になる。GPT-3のようなモデルは、ある特定のタスクで突然高い性能を示す一方で、別のタスクでは予期せぬミスをすることがある。これにより、AIの利用が想定以上にリスクを伴う可能性がある。
 制御不能な挙動の問題もある。非線形の飛躍によって、モデルが予想外の能力を獲得することがあるが、これが制御不能な挙動を引き起こす。自動運転車に搭載されたAIが、急に新しい運転判断能力を獲得し、他の車や歩行者との相互作用において予想外のリスクを生じる可能性もある。このような場合、AIが意図しない判断を下すことがあり、重大な事故につながるリスクがある。とはいえ、そもそもトロッコ問題のような状況にAIはどう対処すべきなのだろうか。
 デバッグの困難さも問題だ。つまるところ、AIはマシンであり、バグは避けられない。非線形の飛躍によって、モデルが突然新しい能力を持つようになると、その原因や問題を特定することが難しくなる。機械翻訳モデルが急に一部の言語で高精度な翻訳を行うようになったが、他の言語では性能が低下した場合、その原因を追跡して修正することが非常に困難になる。

非線形の飛躍は好ましいか?
 非線形の飛躍が好ましい現象なのか、それとも本質的に問題を引き起こす現象なのか。この点については、非線形の飛躍自体が一概に好ましくないわけではないが、その結果が予測不可能であり、制御が難しいため、リスクが伴うということだ。
 強力な文章生成能力を持つAIは、すでにプロパガンダやフェイクニュースを自動生成している。これは、AIの急激な能力向上が悪用されるリスクを示しており、適切な管理が行われない場合に社会に大きな悪影響を与える。これはすでに現実の問題であり、現実的な対応が求められるべきなのだが、「ファクトチェック」とされているイデオロギーに変更した記事が正義であるかのように語らるメディアにどう対応できるだろうか。幸いそこは、AIとは関係はなさそうで、人間というものの愚かさの問題だろう。

 

 

|

« 金木犀とセイタカアワダチソウの秋 | トップページ | 中国の海洋進出がもたらす南シナ海の緊張 »