次田瞬『意味がわかるAI入門 ――自然言語処理をめぐる哲学の挑戦』

言語哲学者によって書かれたAI入門
LLMに至るAI研究の歴史をまとめた前半パートと、意味をめぐる2つの理論(真理条件意味説と意味の使用説)からLLMについて検討する後半パートからなる。
筆者は、LLMが意味を理解しているか、という点に懐疑的なスタンスをとっており、そのスタンスには自分も共感するも、それに対する議論は少なめかなと思った。
AI研究史についての解説が多くを占められていて、その点で、確かに入門であった。
知ってるようで知らないとこも多いので、その意味では、勉強になった。
サイモンとかピンカーとか、ここで出てくるんだーとか。


2023年11月に刊行された本であり、LLMの発展速度を考えると、もしかするとこの本で指摘されている批判や欠点の中にはすでに解消されているものもあるのかもしれない。自分は動向を追えていないのでわからないが。
とはいえ、分布意味論批判は、原理的な話なので、性能の向上とはあまり関係なく成り立つ話だと思う。

序章 哲学者、大規模言語モデルに興味を持つ

第1章 AIの歴史―心の哲学を補助線として

「記号主義」vs「コネクショニズム

第一次AIブーム

記号主義:ハーバート・サイモンの一般問題解決器(GPS
サイモンは、『プリンキピア・マテマティカ』に出てくる定理を自動証明するプログラムを作成
それをさらに応用できるプログラム=GPS


コネクショニズム:ローゼンブラットのパーセプトロン
重みづけと閾値はどのように見つけるか
(1)座標平面に、とりうる値をプロットし、それを分割できる線を引く
AND関数の例
(2)機械学習→ローゼンブラットの更新アルゴリズム

AIの冬(1)

まず、記号主義については、機械翻訳の失敗がとりあげられる。
Time flies like arrowが、「時バエは矢を好む」となってしまうように、構文ルールに単に従うだけだと、複数の解釈が出てきて、変な訳をしてしまう。人間はこんな変な解釈は思い浮かびすらしない。
冷戦下、アメリカはロシア語の機械翻訳研究に予算を割いたが、1966年にALPAC報告書により機械翻訳の困難さが報告され、機械翻訳の予算は停止された。


パーセプトロンの限界
線形分離不可能な場合、ローゼンブラットの更新アルゴリズムはうまくいかない。
座標平面にプロットして、直線で分離できない。例えばXOR関数がそれにあたる。
1971年にローゼンブラットが死に、1973年にAI研究を酷評するライトヒル報告書がでて、コネクショニズムやAI研究は下火に陥る。ライトヒル報告書はヨーロッパでの影響が大きく、ヒントンはこの影響を逃れるためアメリカへ移った。
ところでなんと、ローゼンブラットはトランジット法の提案者でもあるらしい!

第二次AIブーム

記号主義:エキスパートシステム
コンピュータに知識を与える
が、そのためのコストに見合うかという問題(知識を入力するために、事前に専門家に入念な聞き取り調査が必要)


コネクショニズム:多層パーセプトロン
中間層を入れる
重みを自動的に調節する方法は?
 活性化関数をステップ関数ではなくシグモイド関数とする
 重みと閾値の推定を最尤原理で行う
 逆伝播法で計算する

AIの冬(2)

エキスパートシステムにはコスト問題があるほか、フレーム問題もある
融通が効かない生き物の例としてアナバチ


エキスパートシステムが凋落した一方、80年代後半、コネクショニズムは発展を続けていた
のだが、人気を失っていき、90年代から再びAIは冬の時代にはいる
ところで、コネクショニズムがなぜ人気を失ったのか、決定的な要因がなく、よくわからないらしい。
また、90年代は冬の時代といいつつ、研究自体は進んでいた。
また、インターネット時代が始まり、のちのビッグデータを着々と準備することとなる 

第三次AIブーム

畳み込みニューラルネットワーク(CNN)について
多層パーセプトロンとは構造が異なる。
多層パーセプトロンは全結合しているが、CNNは、最後に全結合層を用いるが、そこまでは畳み込み層とプーリング層を重ねている
畳み込みは、局所的な特徴パターンをつくりだす
プーリングは、その特徴マップの情報を圧縮する
一次視覚皮質(V1)の単純細胞と複雑細胞の仕組みが、発想元となっている

1980年代の記号主義者によるコネクショニズム批判

2つの批判が紹介されている。
それぞれピンカーによるものとフォーダーによるもの
ピンカーがコネクショニズム批判しているの知らなかったが、まあ確かに、立場的にはそりゃそうかという気もする。

  • 動詞の過去形をめぐって(ピンカーによる批判)

英語の動詞の過去形には、規則変化と不規則変化があるが、それを学習させて動詞の過去形を作れるニューラルネットワークがある。
覚えていく過程が人間のそれと似ている。
規則変化と不規則変化を区別せず一つのネットワークで扱えることから「言語学の転換点」とも評価された。
が、これを、アラン・プリンスとスティーブン・ピンカーが反論
このニューラルネットワークには、過去形を作れなかった動詞もある。
しかし、人間は聞いたことない動詞でも過去形を作れないことはない。デフォルトのルールがあるから。
ピンカーは、動詞の過去形だけで1冊本を書いている程
人間は、規則変化についてはルールとして、不規則変化は丸暗記していると考えられ、これを二重メカニズム説と呼ぶ。
二重メカニズム説は、言語処理の様々な面で出てくる、と

  • 生産性と体系性(フォーダーによる批判)

フォーダーは、人間の思考と言語は分かちがたく結びついていると考えており、志向が成立するうえで不可欠なのが生産性と体系性と。
フォーダーは、ニューラルネットワークには記号を組み立てることができないので、これらができない、としている。
 
 

第2章 自然言語処理の現在―言語哲学を補助線として

伝統的な意味の理論である「真理条件意味論」と、対抗説である「意味の使用説」のそれぞれについてみていく。
特に「意味の使用説」については、その中の一種である「分布意味論」を取り上げている。というのも、分布意味論が近年のLLMのベースになっている考え方でもあるからである。

真理条件意味論

意味とは真理条件である、という考え
単語ではなく文で考える。その上で、名詞の意味は対象、動詞の意味は関数などと考える。


真理条件意味論は、意味理解とは何か、という問いについては、うまく答えられていないように思われるが、それは「意味理解とは何か」という問いと「意味とは何か」という問いが異なるものであるということを示しており、むしろ真理条件意味論の利点としている。
意味理解は、結構雑多な現象


真理条件意味論の弱点として、以下の3つがあげられている。

  • 言外の意味
  • 言語行為
  • 含意関係認識

ところで、言外の意味についての説明で、何故かポール・グライスへの言及がない(会話の含み、とかは書かれているのに)
含意関係認識は、2つの文が与えられ、前者の文が後者の文を含意するか、矛盾するか、どちらともいえないかを、判断させる課題のこと
ものすごく実践的な課題だが、真理条件意味論ではほとんど議論されない。
LLMはこれを解けるようになっている。

分布意味論(意味の使用説の一種)

分布仮説:単語の意味はその単語がおかれうる環境によって決まる
(この仮説は、1950年代の言語学者のアイデアに由来)
単語の意味を、よく一緒に使われるかどうかという尺度で考える。
例えば「りんご」と「果物」や「赤い」は一緒に使われることが多いので、意味も近いと捉える。


Word2Vecは、単語をベクトル空間に埋め込む
ゼロ以外の成分を少数しか含まないベクトルを「局所表現」というのに対して
多くの成分がゼロ以外の値を持つベクトルを「分散表現」と呼ぶ
色をあらわすRGBコードは分散表現
味の類似性をベクトルで表現することもできる


単語列の次の単語の出現確率が与えられ場、単語列の出現確率が求められる
次単語の出現確率を与える装置を「言語モデル」と呼ぶ
言語学者は、言語表現を単語の列とみなすのは誤りで、背後に木構造が隠れていると考える


RNN言語モデル
リカレントニューラルネットワークによる言語モデル
長距離依存関係(関係詞が多く続く文で、動詞の語尾の変化が離れた場所の主語の人称と一致しなければならないなど)を考えるには、木構造を想定すべきと考えられていたが、RNNはこの関係をとらえた予測ができる
これは、記憶が持たない、処理が重いという欠点があったが、
2017年のトランスフォーマー登場がこれらの弱点を克服。
事前学習と微調整という二段階の学習方式。
ウィノグラード・スキーマという課題がある。
文中に現れる「それ」という代名詞が何を指すのかあてる課題だが、文中の要素をほんの少し変えるだけで答えが変わる。人間には簡単に答えられるが、AIには難しい課題とされてきた。
LLMはこれに回答できる。


分布意味論の問題点として大きく2点挙げられている

  • 単語の内部構造

単語は意味の最小単位ではない。接頭辞や接尾辞との組み合わせで意味が決まったりする。
分布意味論でもそれに対応することは可能だが、全然関係ないものまで、そういう意味の単位を担うことになりかねない

  • 単語の意味には何を含むか

パリ-フランス+イタリア=ローマ
こういう意味の足し引きをして推論できるのが、分布意味論の強みであるが、これは単語の意味なのか。地理の知識なのではないか
単語の意味には何を含むのか、という考えの違い
しかし、筆者は、パリやローマがイギリスやイタリアの首都なのは、偶然的真理なので、単語の意味には含まれない、としている。


医者と男性、看護師と女性は共起しやすい
偏見を意味に含んでしまうという問題もある。
単語ベクトルは単語の意味らしきものではあるが、意味ではない、のではないか、と


ニューラルネットワークは体系性を欠く


筆者自身がLLMに対して、意味を理解していないと感じている点について。
1つは、ハルシネーション(本書では「幻覚」と表記されている)
もうひとつは、入力の些細な違いへの敏感さ
敵対的サンプル攻撃、というものがある。
特に画像判定AIで有名だが、画像に、人間には些細な違いにしか見えない、あるいは判別できないようなノイズを混ぜた途端、全然違う画像として判定してしまう、という奴
LLMも、入力の一部を同義語で置き換えたときに、全然違う出力を返すことがある


ゲアリー・マーカスは筋金入りの反コネクショニスト、らしい
また、不適切な言語運用はAIに可能か、と問う。
人間の言語運用は完全には程遠く、様々な不適切な運用を行うことがあるが、それには様々な理由がある(体調不良とか)
逆に、AIはそういう阻害要因を持たない。


終章 機械に心は宿るのか?

マイクロソフトのセバスチャン・バベックらによる、GPT-4の性能調査
バベックらは、知能について6つの特徴(推論、計画、問題解決、抽象的思考、複雑な考えの理解、すばやい学習と経験に基づく学習)をあげ、その特徴と関連する能力について課題を課した。
基本的には高評価となっているが、「計画」能力の乏しさが指摘されている。

AIの知能を測るテストとしてチューリングテストが有名だが、筆者は、これが相手を騙すテストであり、質問者を騙せるかどうかは、ほかの要因の影響を受けるので、何を測っているか曖昧になってしまい、知能の指標として用いることに疑問を呈する。

ウィノグラード・スキーマのような課題もあるが、目標が明確なテストは解かれやすい。
チューリングテストについて、機械に接した人間の反応から間接的にテストする方向性自体はありだと、筆者は考える。
チューリングテストに代わるテストとして、ピーター・ミリカンが2013年に提案したチューターテストというものを紹介している。
AIがチューターとなって、人間に勉強を教えるというテスト。
勉強を教えるためには、その教える内容について理解しているだけでなく、教わる相手が何を理解していないか、ということも分かっている必要もあり、知能の判定として使えるのではないか、と筆者は考えている。
ただし、筆者自身、チューターテストは実際にやろうとすると、問題がたくさんあることは認識している(何の科目を教えるのか、どれくらいの期間行うのかなどなど)。