黒川コーポレートアドバイザリー｜コンサルティング記事

NLPとかLLMとか･･･

Ⅰ　構成的アプローチに基づく量子自然言語処理モデルを実装した、とする論文

【0】はじめに
　クオンティニュアム他^🐾1の研究者は、｢構成的アプローチに基づく量子自然言語処理モデルの実装を紹介｣した論文[*1](以下、本論文)を発表した(24年9月13日@arXiv)。具体的には、構成的アプローチを基盤とする古典自然言語処理モデルDisCoCircの量子バージョン、QDisCoCircを提示した。そして、QDisCoCircは、古典ベースラインとは異なり、構成的汎化に成功した、と主張する。構成的汎化の意味(☞【2】(1)1⃣及び2⃣参照)を説明せずに、構成的汎化(性能が向上すること)の効用を、標語的にザックリ述べると、｢生成AIの性能が上がる｣。
　なお、本論文には、補完する論文[*2]がある。[*2]は、本論文の背後にあるアルゴリズムと複雑性理論に焦点を当て、追加の背景情報を提供する。
🐾1　英オックスフォード大学と蘭ライデン大学。

【1】本論文の主張
　本論文は、以下を主張する：
(1)　QDisCoCircは、構成的汎化に成功した。一方、トランスフォーマー、LSTM及び、GPT-4は構成的汎化に成功しなかった。👉トランスフォーマーについては、議論の余地あり。
(2)　QDisCoCircは、不毛な台地を回避できる(すなわち、学習可能性の課題を回避できる)。

【2】事前整理
(1)　言葉の意味　
1⃣　構成性　
　難しい言い方をすると、構成性とは、｢全体の動作が、部分の動作と、それらが組み合わされる方法の観点から理解できる｣ことを意味する。少し噛み砕いて言うと、構成性とは、｢未知の組み合わせ(イメージは、未知の単語を組み合わせた文)であっても、それを構成要素(品詞、単語の関係性、文脈等々)に部分分解して、部分の意味を適切に解釈することで、理解することができる｣ことを意味する。
　構成性という概念は、言語処理のみならず、画像認識･画像識別においても存在する(議論される)。言語処理の場合、構成性には言語的意味だけでなく、文法や共参照などの言語的構造(統語構造)も含まれる^🐾2。量子自然言語処理(QNLP)における構成性は、一意には表現できないと思われるが、本論文においては、｢量子回路がテキストの言語構造に従って構成される｣ことを意味する。
🐾2　故に、(言語における)構成的汎化は、語彙的汎化と構造的汎化に分けることができると理解している(が、本稿では関係ない)。語彙的汎化は、既知の単語の未知の組み合わせ方に関する汎化。構造的汎化は、既知の統語構造の未知の組み合わせ方に関する汎化[*3]。

2⃣　構成的汎化ー概要－　
　知的エージェントは、組み合わせの要素一つについては、網羅的に経験することができたとしても、他の要素との組み合わせを全て経験し学習しておくことは事実上不可能である。こうした状況に対処するためには、限られた経験から、未知の組み合わせにも汎化する必要がある。これを、構成的汎化 (compositional generalization または systematic generalization) と呼ぶ[*4]。
　平たく言えば、学習データ分布外のテキストに対する汎化を、構成的汎化と呼ぶ。標語的に言えば、構成的汎化性能は、”ゼロショット予測性能”と言えるだろう。

3⃣　構成的汎化ー詳細－　
　本論文では、付録Dにて｢構成性のテスト｣が取り扱われている。そこでは、参考文献([42]、本稿では[*5])において提供された｢構成性のテスト｣が参照されている。[*5]において、｢構成性のテスト｣が提供された動機は、ニューラルネットワーク･モデルの構成性を評価する取り組みを、さらに推し進めるということであった。そのためには、構成性の定義をより明確にする必要がある。
　[*5]では、以下5つの尺度(性質)を提示し、それぞれについてテストすることを提案している：㊀体系性^🐾3、㊁生産性^🐾4、㊂代入可能性^🐾5、㊃localism(ローカリズム)^🐾6、㊄過汎化^🐾7。本論文では、生産性に焦点をあてている。
　体系性には、思考の体系性と推論の体系性があるらしいが、本論文では｢思考の体系性｣を指している。一般的に、体系性といった場合は、思考の体系性を意味する。(思考の)体系性を言語処理の文脈で表現すると、｢任意の文から、その背後にある(統語論的)構造に応じて、文の意味を再構成できる｣という性質、となる。生産性を同じく言語処理の文脈で表現すると、｢複雑な文を、”際限なく”再帰的に生成し理解できる(再構成できる)｣という性質^🐾8、となる[*6]。生産性のキモは、この無制限性にある。無制限性という言葉は、ピンと来ないが、それが本質的に意味するところは、学習データ(既知のデータ)よりサイズが大きいデータに対しても、サイズが小さいデータに対して発揮した性能を同じように発揮できる、ということである。
　代入可能性を同じく言語処理の文脈で表現すると、｢任意の文において、同義語であれば、単語の置換を行っても、文の意味を理解できる(推論できる)｣という性質である。ローカリズムは、｢文の小さい構成要素が、大きい構成要素よりも先に評価される｣という性質と思われる(が、正確には分からない)。
　過汎化(モデル)は、本論文で、次のように説明されている：過汎化モデルは、学習セット内のノイズを無視して、基本的な構成規則を学習するため、テスト精度が学習で見られるものよりも高いモデルとして識別できる。
🐾3　systematicityの訳語。広く、受け入れられている。
🐾4　原語はproductivity。訳語は、[*6]による。
🐾5　原語はsubstitutivity。訳語は、[*7]及び[*8]による。
🐾6　正式(?)な訳語を知らない。
🐾7　原語はovergeneralisation。
🐾8　構成性が成り立つ言語に対して体系性は成り立つが、生産性は必ずしも成り立たない[*6]。その意味で、本論文における構成性のテストは、より厳しいテストと言えるかもしれない。

4⃣　構成性のテスト　
　実際に本論文で実施されたテストは、㈡生産性のテスト、であるが、念のため他も書き留めた。
㈠　体系性のテストは、学習データとホールド･アウトされたテストデータで、推論を実行することによって測定される、汎化テストに類似している。DisCoCirc/QDisCoCirc では、単語ボックスを同じ形状(つまり、同じ品詞)の他の単語ボックスと交換する効果を測定し、この交換がテスト精度に与える影響を測定する。
㈡　生産性のキモは、無制限性にあった。従って、生産性のテストのキモも、無制限性にあると考えられる。テストにおける無制限性は、モデルが学習データで確認した長さを超えて、予測を拡張できるかどうか、を意味する。つまり、生産性のテストは、学習で使用されたものよりも大きなストーリーのみでテストした場合に、モデルの精度(正解率)が低下するか、低下しないかを測定する。
㈢　代入可能性は、異なる表現を持つ等価な文が、同じ予測につながる効果をテストする。言語では、これは基本的に言い換え検出に類似している。DisCoCirc/QDisCoCircでは、意味書き換えなどの公理をデータに適用すると、モデルの予測にどのような影響があるかを測定することで定量化できる。体系性テストの場合と同様にダイアグラム･セグメントを置き換えているが、代入可能性の場合は、最終的なラベルが変更されることは予想されない。
㈣　ローカリズムは、構成構造がローカルであるかグローバルであるかを測定する。DisCoCirc/QDisCoCirc モデルは本質的にローカルであるが、量子システム間のエンタングルメント測定を利用して、セマンティクスがローカルに構成されるか、グローバルに構成されるかをテストすることもできる。
㈤　過汎化のテストは、ノイズの量を増やしたデータセットで学習したモデルのパフォーマンスを、ノイズのないテストデータセットと比較することで実行できる。

(2)　量子自然言語処理(QNLP)の簡単な歴史
0⃣　2016年の第１波　
　本論文2は、2016 年頃に始まった QNLPの”第1波”に焦点を当てる。その理由は、｢第一波は、説明可能性と解釈可能性への道筋を提供している｣からである。説明可能性と解釈可能性は、構成性によって実現された。

1⃣　DisCoCatとQDisCoCat　
　言語的意味と言語的構造を組み合わせた自然言語の構成性を持った初期のフレームワークは DisCoCat(Categorical Compositional Distributional semantics：圏論的構成性分布意味論^🐾9)である(普通に略語をつくると、CatCoDisになるはず？)。DisCoCat は、圏論的量子力学の圏論的理論的構造が、前群(pregroup)の観点から、Lambekの言語構造モデル(Lambek文法)と完全に一致するという観察から生まれた(らしい)。 Lambek文法は、代表的な範疇文法(Categorial grammar。こちらは、CategorialでCategoricalからcを1つ少ない)らしい。範疇文法の重要な特長は、｢文とその意味表現が、ある形式論理体系の中の1つの証明図から同時に得られることがある｣[*9]ことらしい。圏論的量子力学と併せると、DisCoCat の文は、図の形をとることが理解できる。ここで｢図｣とは、箱(ボックス)を線(ワイヤー)で繋いだものである。圏論の言葉で言うと、ボックスは対象(object)であり、ワイヤーは射(morphism)になる。ボックス、ワイヤーについては、下記(2)2⃣で詳述する(ここでは、頭出しのみ)。
　DisCoCat は本質的に量子力学形式論から派生したものであるため、これを使用して量子 NLP モデルを簡単に作成することができ、これを QDisCoCatと呼ぶ。しかし、QDisCoCatモデルには、大きな欠点があった。QDisCoCatダイアグラムは、量子コンピュータに適合させるために量子回路に変換する必要がある。その結果、そこから派生した量子アルゴリズムには｢事後選択｣が必要になる。事後選択確率の下限は不明であるため、これらのアルゴリズムは、最悪の場合、指数時間を要する可能性がある。
　この問題を解決したのが、DisCoCircフレームワークである。
🐾9　言葉の意味を数理的な手法を使って分析する理論的な枠組みには、｢形式意味論｣と｢分布意味論｣がある。形式意味論は、論理と記号表現を使う。分布意味論は、統計とベクトル表現を使う。分布意味論は、いかにも、機械学習･深層学習と相性が良さそうである。

2⃣　DisCoCircとQDisCoCirc｜ここでは、頭出しのみ　
　DisCoCirc(Compositional Distributional Circuits)フレームワークでは、文は｢回路(circuit)｣で表現され、これらの回路をさらに構成してテキストを表す。こうすることにより、ダイアグラムを量子回路に変換する必要がなくなり、事後選択が不要になった。本論文では、この DisCoCircの量子バーションであるQDisCoCircを提案している。QDisCoCircの詳細は【3】(1)を参照。

(3)　量子自然言語処理の仕組み・概略　
0⃣　古典自然言語処理の仕組み　
　単語はベクトル化されて(やや正確性を欠くが、＝単語埋め込み)、深層学習モデルの入力として使用できる形式に変換される(やや正確性を欠くが、≒word2vec)。学習データの文を再現できるように、パラメータ(ネットワークの重み)を調整することが、自然言語処理(Natural language Processing：NLP)における学習である。学習後のモデルに、質問(等)を入力すると返事が生成される。
1⃣　量子自然言語処理の概略　
　単語埋め込みは、パラメータ化された量子回路(アンザッツ)として符号化される。名詞は状態として表される。具体的には、量子回路(1量子ビットゲート＝回転ゲート)に実装した量子状態で名詞を表現する。名詞の状態はワイヤに沿って運ばれる。
　単語の関係は、量子もつれで表現する。量子もつれは、(標準的な)｢アダマール･ゲート＋CNOTゲート｣で作成する。質問の答えが正しくなるように、パラメータを調整することで、学習する。

【3】QDisCoCircとは・・・　
(1)　QDisCoCircの詳細　
0⃣　DisCoCirc　
　DisCoCirc フレームワークにおいては、｢文が単語の構成の結果｣であるのと同様に、｢テキストは文の構成の結果｣である。特定の文は、テキスト図に解析でき、各単語には品詞に応じて、状態またはボックスが割り当てられる(状態、ボックスの意味するところは、後述)。
　テキストは、テキスト回路で表され、上から下へ読み取られる。このような回路(circuit)では、接続のみが重要である。接続は、ワイヤ(配線)を使って表現される。テキスト回路は、生成子のセットで構成される。生成子のセットとは、｢状態、効果(effect)、ボックス、およびフレーム｣に加えて、｢恒等(identity)、交換(swap)、およびdiscard｣などの特別な生成子を含む。
㊀　状態・・・(DisCoCircが採用する)テキストを回路としてモデル化するアプローチでは、名詞は｢特級階級｣であり、状態として表される。名詞の状態は、ワイヤに沿って運ばれるという考え方をする。
㊁　効果・・・効果は、状態の｢テスト｣として理解される。状態に効果を適用するには、すべてのワイヤを結合して、開いているワイヤのない回路を作成する。これはスカラーと呼ばれる。
㊂　ボックス・・・ボックスは、状態を変換するプロセスを表す。すべてのボックスには、入力ワイヤと出力ワイヤがある。ボックスの例としては、形容詞や自動詞、他動詞がある。
㊃　フレーム・・・フレームは、ボックスを変換するスーパーマップである。たとえば、形容詞に作用する強意語、動詞に作用する副詞、またはフレーズに作用する接続詞などがある。
　直列(あるは、逐次的な)プロセスの構成は、1 つのプロセスの出力ワイヤを、別のプロセスの入力ワイヤに接続することで実行できる。並列プロセスの構成は、ボックスを並べて配置することで実行される。テキスト回路の生成子の構成は自由ではないし、すべての構成が許可されるわけではない。
　例えば、ワイヤはフレームを通過できない。テキスト回路は、テキストから回路へのパーサ(構文解析器)の出力であるという点で構成は制限されている。パーサは各文の構文解析木を生成し、それをテキスト回路に変換する。普通名詞に対応するワイヤは、共参照解決を使用して接続される。このため、テキスト全体で同じ名詞に関する生成子は、回路内の同じワイヤに作用する。任意のテキスト回路はローカルであり、各ボックスの入力および出力ワイヤの数は、テキストのサイズに依存しない定数によって上限が制限される。さらに、パーサを介してテキストから派生したテキスト回路は、非巡回である(開路)と仮定する。

1⃣　QDisCoCirc　
　あらゆる潜在的なテキストとタスクに対して、モデル固有の自然言語処理タスクを実行する、具体的な DisCoCircモデルを構築するためには、対応するテキスト回路に、｢構造(例えば、統語構造)｣を保存する写像を適用する必要がある。(適当な写像の存在性を含めて)そのような回路が存在する可能性のある空間の自然な選択は、テンソルネットワークである。少し補足すると、自然言語処理モデルが、pregroup文法と同じ抽象構造を持つ場合、空間の構成はテンソル積に類似している必要があるので、テンソルネットワークが自然な選択となる。
　上記における文脈でのテンソルネットワークを、古典的に表現した自然言語処理モデルがDisCoCircで、量子的に表現した自然言語処理モデルが QDisCoCircということになるだろう。量子的に表現したモデルは、量子コンピューターで自然に実装できる(はず)。量子コンピューターに実装する意味は、量子加速が見込んでのことであろう。QDisCoCircは、テキスト図に量子セマンティクスを与える(量子力学における相当物を割り当てる、具体的には、量子回路に変換する)ことによって、DisCoCirc フレームワークから構築される。
　テキスト回路を、事後選択付き量子回路に変換(古典を量子に変換)するマッピングでは、状態は量子状態に、効果は測定値にマッピングされる。ボックスは量子チャネルにマッピングされる。これはdiscardされる補助量子ビットを持つユニタリ演算子によって実現される。恒等ボックスと交換ボックスは、量子回路における通常の、恒等ゲートと交換ゲートにマッピングされる。discard効果は、量子系のdiscardーつまり部分トレースにマッピングされる。フレームは、ユニタリ演算子間のマップ(スーパーマップ)になる。
　QDisCoCirc モデルの構築には、各ワイヤに割り当てられる量子ビットの数、ユニタリ演算子を実装するために使用されるパラメータ化量子回路(アンザッツ)、量子チャネルを実装するときにdiscardされる補助量子ビットなど、いくつかのハイパーパラメータが関係する。

2⃣　学習方法　
　アクター数20までは、古典コンピューター上でテンソルネットワーク法を使ってシミュレートされる。アクターは、日本語で言えば、(ストーリーに登場する)登場人物と訳すのが適当であろう。アクター1人に対して、1物理量子ビット(データ量子ビット)が割り当てられる。アクター数21以上は、クオンティニュアムのH1-1(量子ビット数20)を使ってシミュレートされる(量子ビットの再利用により、20 量子ビット以下にトランスパイルされる)。以下は、ンソルネットワーク･シミュレーションの詳細である：
　結果として得られた量子回路はテンソルネットワークに変換され、クオンティニュアムの duvel4 サーバー^🐾10上のTensorNetwork^🐾11を使用して評価される。学習エポックごとに、モデルは学習データセット全体でバッチで評価される。各エポックの最後に取得されたパラメータを保存し、最初のエポックから 3 エポックごとに、学習データセットでのモデル精度を評価して記録する。
　学習実行ごとに、検証精度が最も高いエポックからモデルを選択し、必要に応じて最も近いログに記録された学習精度、次に損失でタイブレークを行う。ハイパーパラメータの調整は 4 方向データセットを使用して実施した。モデルは、選択した最初のハイパーパラメータで既に高い精度を達成していたため、2 方向データセットではそれ以上の調整は行わなかった。実際のハイパーパラメータ等は【4】(4)0⃣を参照。
🐾10　16コアのインテルXeon Gold 5317プロセッサーと、512GBのRAMを備えている。
🐾11　テンソルネットワーク･アルゴリズムを実行するオープンソースライブラリ。カナダの理論物理学ペリメーター研究所とグーグルが開発した。

3⃣　訴求ポイント　
　本論文において提示した構成的アプローチは、量子回路コンポーネントを古典シミュレーションによって事前学習できるセットアップを提供する。こうすることで、これまでの量子機械学習において、(不毛な台地によって)もたらされる学習可能性の課題を回避することができる(と主張)。

【4】比較結果
(0)　前説　
0⃣　比較の概要　
　｢構成的汎化に成功するか否か｣について、古典ベースラインとQDisCoCircを比較した。古典ベースラインとは、｢トランスフォーマー、LSTM及びGPT-4｣である。この古典ベースラインの選択は、標準的である(と思われる)。
　前述の通り、構成的汎化は、生産性のテストによって行われた。すなわち、小さなサイズのストーリーで学習されたモデルが、学習した規則を使用して、より大きなサイズのストーリーで、正しく推論できるかを定量化する。具体的には(既述の通り)、2 人のアクターが同じ方向に進んでいるかどうか？という 2 択の質問＝{〇〇さんと同じ方向へ行く、〇〇さんと同じ方向に行かない}の答えが正しいか否か、で定量化する^🐾12。つまり、評価指標として正解率(accuracy)を適用する。なお、大きい小さい(サイズ)の指標としては、ストーリー中に現れる｢アクターの数｣を使用した。これは、QDisCoCircモデルを構成する量子回路の回路深さなどの、他のサイズ指標と正の相関がある。
🐾12　質疑応答タスクは、2つのテキスト全体を比較するが、知りたい名詞のサブセットとのみを比較することで、テキストに関するより具体的な情報を抽出できる(らしい)。
❚補足▪具体例❚　
　例えば、｢ボブは西に歩く。アリスは北へ歩く。ジョンは南へ歩く。アリスは右を向く。ジョンは左に曲がる。ボブはアリスの後を追う。ボブはジョンの反対方向に行く｣というストーリーを作る。このストーリーに対して、質問を行う。例えば、｢アリスとボブは、同じ方向に行く｣か？に対する答えは、Yesである。｢ボブとジョンは、同じ方向に行かない｣か？に対する答えも、Yesとなる。
　登場人物(アクター)の数を増やしたストーリーに質問して、正解率が落ちなければ、生産性の意味で、構成的汎化に成功した、と判断される。

1⃣　言い訳　
　トランスフォーマーと LSTMを学習して、2 方向及び4 方向のデータセット全体での汎化性能を調べた。しかし、｢フレームワークに固有の違いがあるため、量子と古典のパフォーマンスを直接比較することはできなかった｣。つまり、同じ条件下での比較は出来ていない。
　QDisCoCirc モデルの学習で行った実装の選択は、以下のようなものである：ストーリーに登場するアリスやボブといったアクターの名前は、全て”person”という単語に置き換えられた。このため、名詞(＝量子状態)を準備するすべての回路で、同じパラメータセットθ_personを共有した。特定のアクターは、テンソル積が非可換であるという事実によって、回路内の位置、すなわち対応するワイヤによって識別される。
　これに対して、古典ベースラインでは、データセットに出現する 30人の名前すべてを均一に表現することを選択した。学習データセットの名前を、この分布の名前にランダムに置き換え、この代替の学習データセットを使用して古典ベースラインを学習し、モデルが出現するすべての名前の表現を学習するようにした。その結果、2 方向データセットの語彙は約 62%、4 方向データセットの語彙は 58% の名前で構成された。
　もう 1 つの重要な違いは、QDisCoCircとは異なり、ハードコードされた意味関数の書き換えがないことである。QDisCoCircでは、モデルが構成ソリューションを学習し、必要なパラメーターの数を減らすために、テキスト図に、意味関数の書き換えを実装した。

(1)　データセットのセットアップ　
1⃣　2方向データセットと4方向データセット　
　本論文では、概念実証実験を実行するために、2 方向データセットと 4 方向データセットという 2 つのデータセットを生成した。テキスト全体を通じて、各アクターは、方向を変える自動詞と他動詞で説明されるアクションを実行できる。
　2 方向データセットでは、｢2 つの基本方向のいずれかに歩くアクターについて説明した｣データセットである。アクターは、北と南の 2 つの方向に歩いて行くことができ、180 度方向転換ができる。このデータセットで可能なアクション、つまり動詞のセットは次の通り: {北へ歩く、南へ歩く、向きを変える、ついて行く、反対方向へ行く}。
　4 方向データセットは、｢4つの基本方向のいずれかに歩くアクターについて説明した｣データセットである。アクターは4 つの基本方向(東西南北)すべてに歩いて行くことができ、90 度と 180 度の方向転換ができる。このデータセットで可能なアクションのセットは次の通り: {北へ歩く、南へ歩く、東へ歩く、西へ歩く、右へ曲がる、左へ曲がる、向きを変える、ついて行く、反対方向へ行く}。
　この可能なアクションの基本セットから、アクターと文の数が異なるテキストを生成した。テキスト内のアクターの数はテキストの幅(あるいはアクターの数)で、テキスト内の文の数はテキストの深さである。
　各テキストについて、2 人のアクターが同じ方向に進んでいるかどうか？という 2 択の質問：{同じ方向へ行く、同じ方向に行かない}、をする。

2⃣　ストーリー密度　
　2方向データセットと4方向データセットに対して、異なる｢ストーリー密度｣のサブ･データセットを生成した。ストーリー密度とは、ストーリー内の 2 人のアクターの相互作用の数を、ストーリー内の文の数で割ったものと定義する。ストーリー密度は、ストーリーによって生成されるエンタングルメントと関連している。これは、アクター(他動詞)間の相互作用がエンタングルメント操作として、インスタンス化されるためである。
　上記定義に従って、5 つの異なるサブセットを作成する：
㊀　シンプル、㊁　深い
　選択した文の数に達するまで、アクターにアクションをランダムに適用する。㊀には2 人から 30 人のアクター、㊁には6人から 30 人のストーリーが含まれる。
㊂　低密度、㊃　高密度、㊄　超高密度
　名詞の高接続性を保証するために、各アクターがストーリー内の他のすべてのアクターと正確に 1 回対話する完全接続ストーリーを生成する。次に、いくつかの単一アクターのアクションを追加し、文をシャッフルし、選択した数の文の後で、ストーリーを切り取る。単一アクターのアクションの割合は、低密度から超高密度になるにつれて減少する。これらのデータセットには 6 人から 30 人のアクターのストーリーが含まれており、㊁と同じ数の文がある。

3⃣　構成性テスト(生産性テスト)のためのデータ分割　
㈠　2方向データセット　
　モデルは、最大8人のアクターを含むシンプルなデータセット･ストーリーで学習される。最大 8 人のアクターを含む㊀シンプルなデータセットの 20% が検証データとして使用される。このデータセットを Valid A と呼ぶ。
　最大 8 人のアクターを含む他のすべてのデータセット(㊁深い～㊄超高密度)のストーリーと、9 人から 20 人のアクターを含むすべてのデータセット (㊀シンプル～㊄超高密度)のストーリーは、構成性検証データセットとして使用される。このデータセットを、Valid Compと呼ぶ。
　21 人から 30 人のアクターを含むすべてのデータセットのストーリーが、テスト･セットを形成する。量子ビットの再利用により 20 量子ビット以下にコンパイルされる。
㈡　4方向データセット　
　モデルは、最大 8 人のアクターを含むすべて(㊀シンプル～㊄超高密度)のストーリーで学習される。最大 8 人のアクターを含むデータセットの 20% が検証データとして使用される。9 人から 20 人のアクターを含むすべてのデータセット(㊀シンプル～㊄超高密度)のストーリーは、構成性検証データセット(Valid Comp)として使用される。Valid Compを使用して、最も汎化性能の高いモデルが選択される。
　21 人から 30 人のアクターを含むすべてのデータセットのストーリーは、テスト･セットを形成する。量子ビットの再利用により 20 量子ビット以下にコンパイルされる。

(2)　QDisCoCircの結果　
0⃣　ハイパーパラメータ^🐾13等　
　オプティマイザー・・・Adam　
　学習率・・・5.0×10^－3(2方向データセット)、2.840955 ×10^－2(4方向データセット)
　バッチサイズ・・・1(2方向データセット)、256(4方向データセット)
🐾13　ハイパーパラメータはAxを使って調整された。Axは、メタのオープンソース最適化ライブラリ。ベイズ最適化(GP-EI)を使ってハイパーパラメータをチューニングする。GP-EIは、ガウス過程によって目的関数をモデル化する。このモデル化した結果を使って、評価値の改善量の期待値が最大となるような変数を選択する、ということを繰り返して最適化する方法である。
1⃣　2方向データセットの結果　
　サイズが大きい(アクター数が最大20人の)Valid Compデータを使用した場合の平均正解率は、ほぼ100%。サイズが小さい(アクター数が最大8人の)Valid Aで98～99%(目視)。(アクター数が最大30人の)テストデータだと平均正解率95%程度で、やや低下する(が、それは無視されている？)。これをもって、QDisCoCircは2方向データセットに対して『構成的汎化に成功した』と主張している。
2⃣　4方向データセットの結果　
　Valid Compデータを使用した場合の平均正解率は、ほぼ80%。Valid Aで82%(目視)。テストデータだと平均正解率88%程度(目視)。これをもって、QDisCoCircは4方向データセットに対して『構成的汎化に成功した』と主張している。ちなみ、4方向データセットの場合、正解率はボラタイルである。テストデータに対する正解率は、特にボラタイルであるが、単にボラタイルということのみならず、アクター数25人の場合、正解率が50%を下回っている。本論文では、この原因を｢各アクター数で利用可能なサンプルデータポイントの数が少ないことが原因であると考えられる｣としている。さらに原因分析をしているが、本稿では省略。

(3)　トランスフォーマーの結果　
0⃣　ハイパーパラメータ^🐾14等　
　学習率・・・1.4×10^－4(2方向データセット)、1.7×10^－4(4方向データセット)
　バッチサイズ・・・32(2方向データセット)、32(4方向データセット)
　ドロップアウト率・・・0.413(2方向データセット)、0.565(4方向データセット)
🐾14　QDisCoCircと同様に、ハイパーパラメータは、Axを使って調整された。
1⃣　2方向データセットの結果　
　Valid Aデータセット(サイズが小さいデータセット)の正解率を、アクター数(2～8人)に渡って平均すると、58%である。Valid Compデータセット(サイズが大きいデータセット)の正解率、アクター数(9～20人)に渡って平均すると約 50% になる。データセットのサイズが大きくなると正解率が低下しているので、(生産性テストの意味で)構成的汎化には、ひとまず成功していないと判断されている。
　もっとも、 Valid Aデータセットの正解率は、かなりボラタイルで、(目視で)37%～75%と荒れている(Valid Compの正解率は、安定していて、変動幅は小さい)。Valid Aデータセットの正解率が比較対象として、適正か？という疑問は残る。ただ、Valid Compの正解率約50%というのは、ランダムな推測と同じ値であるから『そもそも』構成的汎化されていないでしょう、というロジックを別途展開している。つまり、先の疑問は、ヘッジされていると考えられえる。正解率に、ストーリー密度の影響がないことも、確認されている。
　ところが、アクター数21～30のテスト･データセットでの正解率は、61%に達している。これはValid Comp及びValid A の正解率よりも高い。すなわち、構成的汎化に成功している、と判断されている。結論としては、トランスフォーマーは2方向データセットに対する『構成的汎化には成功している』と言えるであろう。
2⃣　4方向データセットの結果　
　2方向データセットの結果と本質的に同じである。Valid Compの正解率が約50%なので、構成的汎化には成功していないと判断されている。また、アクター数21～30のテスト･データセットでの正解率は、51% 前後で推移する。結論として、トランスフォーマーは4方向データセットに対する『構成的汎化には成功していない』と言える。なお、正解率に、ストーリー密度の影響がないことも、確認されている。
3⃣　考察　
　改めて結論をまとめると、トランスフォーマーは2方向データセットに対する『構成的汎化には成功している』が、4方向データセットに対する『構成的汎化には成功していない』。ただし、正解率の水準で比較すると、QDisCoCircはトランスフォーマーを大幅に上回っている。本論文(付録J)は、トランスフォーマーの正解率が低い理由として、以下2つをあげている：
㊀　トランスフォーマーのパフォーマンスが低い理由の 1 つは、キャラクターの名前が語彙の大部分を占めていることである可能性がある。これにより、モデルは特定のキャラクター名とその行動に重点を置きすぎて、相互作用の根本的なパターンを理解しなくなる。
㊁　学習データが小さいことが、トランスフォーマーのパフォーマンスが低い、もう 1 つの主な理由である。

(4)　LSTMの結果
0⃣　ハイパーパラメータ^🐾15等　
　学習率・・・1.0×10^－3(2方向データセット)、8.0×10^－5(4方向データセット)
　バッチサイズ・・・128(2方向データセット)、64(4方向データセット)
　ドロップアウト率・・・0.39(2方向データセット)、0.38(4方向データセット)
　L1正則項のパラメータ・・・5.0×10^－5(2方向データセット)、8.0×10^－5(4方向データセット)
　L2正則項のパラメータ・・・3.0×10^－5(2方向データセット)、8.0×10^－5(4方向データセット)
🐾15　QDisCoCirc、トランスフォーマーと同様に、ハイパーパラメータは、Axを使って調整された。
1⃣　2方向データセットの結果　
　Valid A の平均正解率は54%である。Valid Compの平均正解率は、約 50%である。これはランダム予測と変わらないため、トランスフォーマーの場合と同様に、構成的汎化には成功していないと、ひとまず判断される。次に、テスト･データセットを使った結果であるが、平均正解率は51% 前後で推移する。最終的な結論として、LSTMは2方向データセットに対して『構成的汎化には成功していない』と判断される。なお、正解率に、ストーリー密度の影響がないことも、確認されている。
2⃣　4方向データセットの結果　
　Valid Aの平均正解率は62% である。Valid Compの平均正解率は、約 50%であり、テスト･データセットの平均正解率は約54%である。最終的な結論として、LSTMは4方向データセットに対して『構成的汎化には成功していない』と判断されている。なお、正解率に、ストーリー密度の影響がないことも、確認されている。
3⃣　考察　
　本論文(付録J)は、LSTMのパフォーマンスが低い理由は、モデル固有の問題である、と述べている。

(5)　GPT-4の結果
　2024年4月25日に、2方向データセットと4方向データセットを使用してGPT-4を評価した。具体的には、2方向データセットの3,756エントリと、4方向データセットの4,368エントリで構成される｢学習、Valid A、Valid Comp｣データセットを組み合わせて、GPT-4をテストした。GPT-4の応答を正しいラベルと比較し、結果を分析した。さらに、ストーリー密度に基づいた分析も実施した。
　2方向データセットと4方向データセットでのモデルのパフォーマンスは、すべてのアクター数で平均して、ほぼ50％であった。これは、与えられたタスクでのランダム推測を意味する。従って『構成的汎化は実現していなかった』と結論している。

【5】考察
(1)　QDisCoCircは構成的汎化に成功した(と本論文は主張している)わけだが、それ自体が凄いというわけではないだろう。構成的汎化に成功した理由は、QDisCoCircが構成的アプローチを採用しているからであり、その意味では、DisCoCircはおろか、DisCoCatで(も既に?)成功しているのではないかと思われる。本論文において、トランスフォーマーでも成功したことが示されている(ただし、データセットによる)。

(2)　データセットによって構成的汎化が実現したり･しなかったりというのも問題であろうが、構成性のテスト自体に、バリエーションがありすぎて、構成的汎化の判断が難しいように思う。本論文では、構成性テストの中でも生産性に焦点をあてたが、それで十分か、という疑問はあるだろう。
　そもそも、構成性の尺度として【2】(1)3⃣に上げた5つで必要十分なのかも疑問であるし、仮に必要十分だとして、全てをテストする必要があるのか・ないのか。また、体系性の場合、思考の体系性と推論の体系性があるらしいが、両者をテストする必要があるのか。それらの判断は、言語処理と画像識別等で異なるのか。疑問は尽きない。
　ちなみに、[*3]は翻訳を対象としているためかもしれないが、枠組み自体が違う(と思われる)。[*7]では、モデル：BERT(⋍トランスフォーマー)・評価タスク：質疑応答に対して、｢体系性(思考の体系性)＋代入可能性｣に関する構成性のテストが実施されている(構成的汎化には失敗という結論)。[*8]は算術推論を対象としていて、モデル：T5(Text-to-Text Transfer Transformer)・記号推論タスクに対して、｢体系性(推論の体系性)＋生産性＋代入可能性｣に関する構成性のテストが実施されている(構成的汎化には失敗という結論)。

(3)　(2)の立場をベースとすれば、QDisCoCircが｢本論文で設定した枠組みにおいて｣構成的汎化に成功したからといって、それ自体騒ぐことではないかもしれない。ただ、古典モデルの量子版を作る手段は、決して自明ではない。故に、DisCoCircの量子バージョンを実現する方法を提示し、量子版のQDisCoCircで(も)、｢構成的構造｣を継承して構成的汎化を示したことには、価値があるだろう。

(4)　その上で、量子版のQDisCoCircを作った意味は、｢サイズ(アクター数)大規模化への備え、正解率向上への期待、推論速度向上への期待｣といったところであろうか。なお、[*2]には、｢QDisCoCirc-QA は BQP ^🐾16困難であるため、古典的コンピュータで解くのは容易ではなく、これを解く量子アルゴリズムは超多項式的な高速化を提供するはず｣との予想がなされている。ここで、 QDisCoCirc-QAとは、｢QDisCoCircフレームワークで厳密に指定された質疑応答タスク｣を意味する。これは、QDisCoCircにおいて量子加速(2次加速)が発現していることを意味しないが、量子版に何らかの付加価値を与えたいと、苦労している様子が伺える。
　余談ながら、リソースに関しては｢どのサイズで、古典的なリソースが量子リソースを上回るかを判断することは、この研究(＝本論文)の範囲を超えている｣とされている。
🐾16　Bounded-error Quantum Polynomial-time。BQP(問題)とは、古典コンピューターでは効率的な時間(入力サイズの多項式時間)で解けないが、量子コンピューターで効率的に解ける問題の集合である。BQP問題に含まれる問題全てと同等に難しいとき、BQP困難と呼ぶ。BQP問題が存在すること自体は証明されており、量子コンピューターの高速化(2次加速)自体は疑いようがない事実である(が、産業応用上あるいは経済的インパクトが明らかな問題が、BQPに含まれるか？には議論がある)。BQPは、量子多体系における問題の難しさを自然な形で表現している、とされる。

(5)　単純な興味として、DisCoCircは、どの程度の正解率を叩き出すのだろうか。仮に、QDisCoCircとDisCoCircの正解率が変わらないのであれば、それはそれで、面白い。

Ⅱ　LLMは、斬新な研究アイデアを創出できる！

【0】はじめに
　近年、大規模言語モデル(LLM)は大きく進化し、科学的タスクにおける多くの新しいアプリケーションが可能となった。例えば、(米ニューヨーク大学と)グーグル･ディープマインドによるAlpha Geometryの成果^🐾1は衝撃的であった。ただし、LLM が研究プロセスのより創造的かつ困難な部分を、引受可能かは未解決の問題であった。
　米スタンフォード大学の研究者^🐾2は、｢LLMの研究アイデア創出能力を評価するプロトコルを確立した｣、と主張する論文[*10](以下、本論文)を発表した(24年9月6日@arXiv)。ただし(？)、研究分野は、自然言語処理(NLP)であり、その中でも、｢プロンプト(指示文)研究アイデア｣に焦点を絞っている。また、”研究アイデアのレベル感”は、博士論文のテーマあたりが想定されている。
🐾1　国際数学オリンピック(IMO)で出題された幾何学問題の自動定理証明において、平均的な金メダリストの成績に近づいた、という成果。こちらを参照。
🐾2　3人の著者の内、一人は日本人(スタンフォード大学の橋本龍範准教授)。橋本准教授は、Alpaca(メタのLlamaをベースに開発されたLLM)の開発を主導したとされる。

【1】本論文の主張
　本論文は、以下(1)及び(2)の結果を得た、と主張する：
(1)　LLM創出アイデアは、人間創出アイデアよりも"斬新"。これは、統計的に有意(な結果)である。
(2)　アイデアの実現可能性については、LLM創出アイデアの方が弱いと"思われる"。
　一方で、以下を指摘する：
(3)　LLMによるアイデア創出に、スケーリング則は存在しない(だろう)。
(4)　LLM はアイデアを正確に評価できない。
　なお、LLMのバックボーンモデルとして、米アンソロピックによるClaudeシリーズ最新版Claude 3.5 Sonnetを使用している。Claude 3.5 Sonnetは、24年6月21日にリリースされた。
　ちなみにアンソロピックでは、Sonnetは、中型(サイズ)のモデルである。Opusが大型モデルで、Haikuが小型モデルである。

【2】事前整理ープロトコル設計の指針　
(0)　前説　
　研究アイデア創出能力を評価するプロトコルについての合意は存在しない。当該プロトコル設計において本論文では、人間とLLMを公平･公正に扱うことが重要(な前提)で、公平･公正な扱いには、次の(1)～(3)が必要不可欠と考えている：
　(1)　アイデア創出における不一致の回避　
　(2)　アイデア記述における不一致の回避　
　(3)　評価(レビュー)における不一致の回避　

(1)　アイデア創出におけるバイアスの回避　
0⃣　背景説明　
　LLM と人間にプロンプト･トピックに関するアイデアを生み出すよう、”単純に”依頼すると、LLM と人間が生み出す「研究アイデアの種類」が、”単純に”異なる場合がある。そのような場合には”単純に”、LLM と人間の研究トピックの好みの不一致を測定することになる。
1⃣　具体的な回避策　
　これを(できるだけ)避けるため、本論文では、COLM^🐾3などの最近の NLP カンファレンスにおけるCall For Papers[論文募集]ページから抽出した、7 つの研究トピックのセットを定義する。具体的には、バイアス、コーディング、安全性、多言語、事実性、数学、不確実性のトピックが抽出された。つまり、トピックにトレンドを織り込んだ上で、ある程度絞り込み、不一致をできるだけ避けた、ということである。
　さらに公平･公正な比較を担保するために、アイデア創出実験における人間および LLM 参加者は、同じトピックの説明、アイデア･テンプレート、およびデモンストレーション例を含む同じ｢自然言語指示セット｣を受け取る。人間の参加者には、リストから好みのトピックを選択できるようにし、選択したトピックごとに対応する LLM アイデアを創出してもらう。
🐾3　COLM[Conference On Language Modeling]は、広義の言語モデルの研究に焦点を当てた学術機関。言語モデル技術の開発の理解、改善、批評に焦点を当てた、さまざまな分野の専門知識を持つ研究者のコミュニティを作成することを目標としている。
2⃣　補足：7つの研究トピック　
㊀　バイアス：LLMの社会的バイアスやステレオタイプを低減するための新しいプロンプト手法。
㊁　コーディング：コード生成を改善するためのLLMに対する新しいプロンプト作成方法。
㊂　安全性：LLMの敵対的攻撃に対する頑健性を向上させたり、セキュリティやプライバシーを改善するための新しいプロンプト作成方法。
㊃　多言語：多言語タスクや低リソース言語、現地語に対するLLMの性能を向上させるための新しいプロンプト作成法。
㊄　事実性：LLMの事実性を向上させ、作話(ハルシネーション)を減少させる新しいプロンプティング手法。
㊅　数学：LLMの数学的問題解決を改善するための新しいプロンプティング手法。
㊆　不確実性: 不確実性をより定量化したり、LLMの信頼性を校正したりするための、新しいプロンプト作成方法。

(2)　アイデア記述における不一致の回避　
　アイデアの記述において、多くの潜在的な交絡変数が生まれる。人間の研究者は、より多くの例や実装の詳細を含めるなど、質の高い研究であることを微妙に示すような方法で記述する場合がある。
　これを(できるだけ)避けるため、助成金申請で使用されるガイドラインからヒントを得て、アイデア提案の構造と詳細度を指定するテンプレートが導入されている。具体的には、タイトル、問題の説明、動機、提案された方法、段階的な実験計画、テストケースの例、およびフォールバック計画のフィールドを含むテンプレートが作成された。人間とLLM の両方に、このテンプレートと提供されたデモの例に従って、出力としてプロジェクト提案を作成するように指示する。
　これらのテンプレートを使用しても、結果の測定に影響を与える｢絶妙に”匂わせる”書き方｣^🐾4をしている場合がある。たとえば人間は、より魅力的でくだけた口調で書く傾向がある。この可能性をさらに減らすために、LLM を使用してすべてのアイデアを元のコンテンツを変更せずに同じ書き方と書式設定のスタイルに変換する、スタイル正規化モジュールを開発した(!)。本論文で扱う小規模な人間研究では、このような正規化アプローチにより、AI のアイデアと人間のアイデアを区別するように求められた、熟練した人間の審査員の精度が 50% になることが示されている。つまり判別できないことが示されている(らしい)。
　なお、LLM 正規化モジュールを使用すると、アイデアの内容が実質的に変更される可能性がある。これを排除するために、本論文の筆頭著者は、元のアイデアのすべての内容が保持されるように、各人間のアイデア提案を手動で検証した。
🐾4　｢・｣内の原語は、｢subtle writing style cue(s)｣。cueは、日本語だと、(出だしの)合図とかヒントと訳される。場面で説明すると、TV番組などの｢ハイ本番、キュー！｣のキューである。

(3)　評価(レビュー)における不一致の回避　
1⃣　具体的な回避策　
　研究アイデアのレビューは主観的であることが知られている。このため、本論文では、評価を可能な限り標準化して固定する目的で、すべてのレビュー基準を明確に定義するレビュー･フォームを設計している。レビュー･フォームを設計するにあたって、(ICLR^🐾5 や ACL^🐾6 などの)AI カンファレンスにおけるレビューのベストプラクティスに従っている。　レビュー･フォームでは、総合スコアとは別に、新規性(novelty)、興奮度(excitement)、実現可能性(feasibility)、期待される有効性(expected effectiveness)など4つの指標を定義している。指標ごとに、1 ～ 10 の数値スコアと自由記述の根拠を求めている。すべてのレビュー担当者の基準を調整するために、数値スケールごとに明確な定義と根拠を提供している。
🐾5　International Conference on Learning Representations：表現学習国際学会
🐾6　ACL：the Association for Computational Linguisticsは、自然言語処理(NLP)分野で、もっとも権威ある国際会議の一つ。ACL、EMNLP(Empirical Methods in Natural Language Processing)、NAACL(the North American chapter of the Association for Computational Linguistics)が御三家で、ACLは御三家筆頭らしい。
2⃣　4つの指標　
　定性的な指標を定量化するため、水準を10段階に細分化する(実際は、6段階に細分化。1～10の2,4,7,9が抜けている。つまり、10段階にまでは、細分化出来なかった)。
㊀　新規性(novelty)
　そのアイデアが創造的で、そのテーマに関する既存の研究とは異なり、新鮮な洞察をもたらすかどうか。新規性を判断する際には、2024年7月以前にオンラインに掲載されたすべての論文を既存の作品とみなす。
　1はNot novel at all(目新しさは、全くない)：同じようなアイデアはたくさんある。10はVery novel(とっても斬新)：既存のあらゆるアイデアとは全く異なり、非常に興味深く、賢い方法だ。
㊁　興奮度(excitement)
　このアイデアが完全なプロジェクトとして実行された場合、どれほどエキサイティングでインパクトのあるものになるか。そのアイデアは現場を変え、大きな影響力を持つだろうか。
　1はpoor：このアイデアの貢献を特定できない。あるいは、全く面白くないので、どんな主要なAI会議でも却下されるだろう。10はtransformative(変革的)：研究分野を大きく変えるもので、主要なAI学会で最優秀論文賞を受賞する価値がある。
㊂　実現可能性(feasibility)の説明
　このアイデアを研究プロジェクトとして実装し、実行することがどの程度実現可能か。具体的には、典型的なコンピューター科学の博士課程の学生が1～2ヶ月の期間で実行することが可能かどうか。OpenAIあるいはアンソロピックAPIへのアクセスは豊富であるが、GPUコンピューティングは限られていると想定すること。
　1は不可能：アイデアが意味をなさないか、提案された実験に欠陥があり、実施できない。10は、簡単：提案されたプロジェクト全体は、高度な技術的スキルを必要とせず、数日以内に素早く実行できる。
㊃　期待される有効性(expected effectiveness)の説明
　提案されたアイデアがうまく機能する可能性がどの程度あるか(既存のベースラインよりも優れているなど)。
　1はExtremely Unlikely(可能性は極めて低い)：このアイデアには大きな欠点があり、間違いなく上手く行かないだろう。10はDefinitely Effective(間違いなく効果的)：多くのベンチマークで既存の方法を大幅に上回ることが確信される。

【3】本論文のワークフロー
(1)　LLMによるアイデア創出　
　本論文の研究アイデア創出LLMエージェントには、｢論文検索、アイデア創出、アイデアのランク付け｣という3 つの重要なコンポーネントがある。
1⃣　論文検索　
　アイデア創出にあたり、LLM(エージェント)は関連する研究を認識できるように、指定された研究トピックに関連する論文を検索する必要がある(これは、人間も同様)。そのために、検索拡張生成(RAG)を活用している。具体的には、研究トピックが与えられた場合、LLM に Semantic Scholar^🐾7 API への関数呼び出しのシーケンスを生成するように促す。LLMのバックボーンモデルは、Claude 3.5 Sonnetである。論文検索スペースには、{KeywordQuery(keywords)、PaperQuery(paperId)、GetReferences(paperId)} が含まれる。各アクションの生成は、以前のアクションと実行された結果に基づいています。実行された各関数呼び出しから上位20 件の論文を保持し、最大120 件の論文が検索されたらアクションの生成を停止する。
　次に、LLM を使用して、3 つの基準に基づいて、検索されたすべての論文にスコアを付けてランク付けする。
㈠　論文は指定されたトピックに直接関連している必要がある。
㈡　論文は、計算実験を含む実証的なものでなければならない。
㈢　論文が興味深く、新しいプロジェクトを刺激できる。
　LLM は、これらの基準に基づいて、検索された各論文を 1 から 10 のスケールで採点するように求められ、上位にランクされた論文をアイデア創出の次ステップに使用する。
🐾7　Semantic Scholar(https://www.semanticscholar.org/)は、論文検索サービス。Allen Institute for AI(アレン人工知能研究所、Ai2と略記される)が運営･運用している。
2⃣　アイデア創出　
　アイデア創出に関する重要な洞察は、できるだけ多くの候補アイデアを創出することである。具体的には、LLM に各研究トピックについて 4000 のシード･アイデアを創出するように促す。アイデア創出プロンプトには、デモンストレーション例と検索された論文が含まれる。本論文では、著者たちが”模範的な論文”を抽出した上で、”手動で”要約して、望ましいアイデア形式にすることで、6件のデモンストレーション例を作成した。
　検索拡張のために、上位にランクされた検索論文から10本の論文をランダムに選択し、そのタイトルと要約を連結して、アイデア創出プロンプトの先頭に追加する。また、LLM に重複を避けるように明示的に依頼するために、以前に創出されたすべてのアイデアのタイトルをプロンプトに追加する。
　膨大な候補アイデアのプールから重複したアイデアを除去するために、まず、Sentenceトランスフォーマー^🐾8の all-MiniLM-L6-v2^🐾9を使用して、すべてのシードアイデアを数値化する。次に、(２つのシード･アイデア間の)コサイン類似度を計算することによって、重複排除を実行する。手動検査に基づいて、アイデアの重複排除の類似度しきい値を 0.8 に設定した。これにより、創出されたすべてのシードアイデアのうち約 5% の｢重複しないアイデア｣が残る。
🐾8　ザックリ言うと、文書処理が得意なトランスフォーマーとされる。
🐾9　小規模モデルであり、5倍高速とされる。小規模ながら、精度も大きくは落ちないとされる。
3⃣　アイデアのランク付け(再ランク)　
　最後のステップは、アイデア創出LLM(エージェント)が残った｢重複しないアイデア｣をすべてランク付け(LLMランカーによる再ランク付け)して、その中から最適なものを見つけることである。このような自動アイデア･ランク付けツール(LLMランカー)を構築するために、公開レビュー･データをプロキシとして使用する。
　具体的には、キーワード･フィルタリングを使用して、LLM に関連する 1200 件の ICLR^🐾5↑2024 提出物を、そのレビュー･スコアと承認決定とともにスクレイピング^🐾10した。これらの提出物のスコアと決定を予測する複数の方法を検討した結果、LLM はペアワイズ比較で｢どちらの論文が優れているか(あるいは、承認されるか拒否されるか)？を判断｣するように求められた場合、かなりの精度を達成できることが分かった。定量的に述べると、次のような結果であった：
　ICLR 提出物を標準のプロジェクト提案形式に変換し、承認された論文と拒否された論文をランダムにペアにして、LLM にどちらが承認されるかを予測するように求めた。このタスクでは、Claude 3.5 Sonnetは、ゼロショット･プロンプトで、71.4% の精度を達成した。GPT-4oは 61.1%、Claude 3 Opus(Claude 3の最上位モデル)は 63.5% を達成した。fewショットや思考の連鎖プロンプティングなどの、追加プロンプト手法による大きな向上は確認されなかった。そのため本論文では、Claude 3.5 Sonnet ゼロショットランカーを選択している。
　全案件のペア比較による信頼性の高い得点を得るために、全案件にわたって、スコアが近いもの同士をペアとする。ペア比較で、より優れていると判断された方には、さらに1点を加算するスイス方式トーナメント^🐾11を採用した。これを N ラウンド繰り返して、各プロジェクト提案の合計スコアが [0, N] の範囲内になるようにする。
　健全性チェックとして、Claude 3.5 Sonnet ランカーを使用して 1200件の ICLR LLM 関連の投稿をランク付けし、上位 10 件の論文と下位 10 件の論文の平均レビュー･スコアを比較した。その結果は、スコアのギャップがN＝6ラウンドで0.56～1.73、中央値は0.96であった。これをもって、上位と下位の論文の間には明確な分離が見られ、LLM ランカーの有効性が示されたとしている。
🐾10　データから不要な部分を削ったり、必要な部分を抽出したりして、データを汎用的な形式に整形すること。
🐾11　勝ち残り式ではなく、すべての参加者が一定数の試合を行うトーナメント方式。
4⃣　ここで為念の整理：アイデアの3カテゴリー　
①　人間のアイデア　
②　AI アイデア・・・LLMによって創出されたアイデアからLLMランカーが自動で選択する、上位にランク付けされたアイデア。ここでのランクは、3⃣の再ランク。
③　AI アイデア + 人間の再ランク付け・・・LLMによって創出されたアイデアから本論文筆頭著者が手動で選択する、上位にランク(再ランク)付けされたアイデア。ここでのランクは、3⃣の再ランク。
❚補　足❚　
　③の約35%は②と被っているが、約65%は異なっている。これは、LLMによるランク付けと、人間の専門家によるランク付けには、矛盾があることを示している。

(2)　ヒト(専門家)によるアイデア創出　☚ここは読まなくても大丈夫！　
0⃣　募集とスクリーニング。そして、仕事と報酬　
　スラック(Slack)やX(旧ツイッター)といったチャネルを通じてサインアップ･フォームを送信し、専門家の参加者を募集した。募集要項は、アイデアの作成とレビューの両方を含んでいる。また、NAACL 2024 カンファレンスやその他のさまざまな地元のNLPソーシャル･イベントで名刺を配り、サインアップ･リンクが記載された T シャツを着用して、対面での募集も行った(!)。
　米国の参加者全員に対して、提供された Google Scholar プロファイルに基づいてスクリーニングを実施した。主要な AI カンファレンスで、少なくとも 1 つの論文を発表していることを最低要件として設定した。この要件を満たしたすべての参加者に同意書で連絡し、参加に同意した参加者には注釈文書をフォローアップした。最終的に、アイデアの作成に49 人の専門家、レビューに79 人の専門家を募集した。79 人のレビュー担当者のうち、24 人がアイデアの作成にも参加しており、レビュー担当者が自分のアイデアをレビューしないように注意した。この結果、2 つのタスク全体で104人(49+79－24＝104)の参加者となった。
　アイデアの作成者は、10 日以内に 1 つのアイデアを書くよう求められ、1 つにつきUS$300の報酬が支払われる。また、専門家のレビュー担当者によって評価された上位 5 つのアイデアには US$1,000のボーナスが支払われる。
　レビュー担当者には、2 ～ 7 個のアイデアのレビューが割り当てられ、合計で298 件のレビューが収集された。レビューを完了するために 1 週間が与えられ、レビュー担当者が書いたレビュー 1 件につき US$25ドルの報酬が支払われる。
1⃣　専門家とは？　
　アイデアの作成者49 名は26 の異なる機関^🐾12から来ており、その大半は現在博士課程の学生である。レビュアー79 名は32 の機関^🐾13から来ており、そのほとんどが博士課程の学生とポスドクである。Google Scholar プロファイルを使用して、提出時の論文数、引用数、h指標^🐾14、i10指標^🐾15など、いくつかの代理指標を抽出した。アイデア作成者の平均論文数は 12 件、平均引用数は 477 件、h 指数(平均値)は5である。レビュアーの平均論文数は 15件、平均引用数は 635 件、h 指数(平均値)は7である。さらに、アンケート回答によると、レビュアー 79 名のうち 72 名は、主要な AI カンファレンスやジャーナルで以前にレビューを行ったことがある(ので、専門家としての資格は、十分担保されている！と言いたいのだろう)。
🐾12　上位5機関をあげると、スタンフォード大11名、南カリフォルニア大6名、メリーランド大▪イリノイ大学アーバナ・シャンペーン校▪ジョンズ･ホプキンズ大が各3名。これで約53%。アジアからは、シンガポール国立大▪北京大▪清華大が各1名。日本からは0。
🐾13　上位4機関をあげると、スタンフォード大25名、カリフォルニア大バークレー校▪テキサス大学オースティン校▪メリーランド大が各4名。3名は、4機関あるので略。上位4機関で約47%。アジアからは、清華大が2名、シンガポール国立大が1名。
🐾14　発表した論文のうち、被引用数がh回以上ある論文が、h本以上ある場合、これを満たす数値hをh指標と呼ぶ(らしい)。
🐾15　発表した論文のうち、少なくとも10回以上引用された論文の数。
2⃣　為念：トピックの分布　
　上位３トピックは、事実性が11件/49件、多言語が10件/49件、コーディング9件/49件。上位３トピックで、約61%。

(3)　評価(レビュー)の枠組み　☚ここも読まなくても大丈夫！
1⃣　割り当て
　レビュアー全員に、最も好むトピックを 2 つ選択してもらい、レビューの負荷 (2 ～ 7) も選択してもらう。次に、選択したトピック内のアイデアにランダムに割り当て、すべてのアイデアを匿名化する。各レビュアーに対して、各条件からのアイデアの数のバランスを取り、各レビュアーが少なくとも 1 つの人間のアイデアと 1 つの AI アイデアを受け取るように割り当てる。すべてのアイデアは、2 ～ 4 人の異なるレビュアーによってレビューされる。
　また、”潜在的な汚染”を避けるため、同じ機関の専門家(作成者)が書いたアイデアを割り当てることも避けた。
2⃣　品質チェック　
　レビュアーの資格を確認することとは別に、レビューの品質を測定する統計も計算している。平均して、レビュアーは選択したトピックの熟知度が(5 点満点中)3.7 、レビューの信頼度が(5 点満点中)3.7であるとした。これは、言語モデルに関連する 1200件の ICLR 2024 提出物と同等である。レビュアーは、各レビューに平均 32 分を費やし、各レビューの長さは約 232 語であった。
　本論文のレビュー･フォームとICLR レビュー･フォームとは異なるので、平仄を併せて比較した。その場合、ICLRレビューの平均長さは 247語で、本論文のレビューとほぼ同じであった。レビューの品質を測る別の基準として、収集した298 件のレビューのうち 80 件では、提案された方法が新規でない理由を正当化するために、既存の論文へのリンクが根拠として提供されていた。これらの結果は、本論文のレビュー･データの品質の高さを証明している(と主張)。

【4】比較結果
　可能性のある交絡変数^🐾16を考慮した 3 つの異なる基準を使って、LLMが創出したアイデアと人間が創出したアイデアを比較した。
🐾16　従属変数と独立変数の両方に影響を与える外部変数を交絡変数、または潜伏変数という。
(0)　いきなり・・・結論　
　AI アイデアは、3 つの異なる比較の全てにおいて一貫して、専門家が創出したアイデアよりも｢新規性ありと判断される｣という結論に達した。

(1)　レビューを基準にした比較
　ここでは、各レビューを独立したデータポイントとして扱い、同じ条件からのすべてのレビューを集計する。人間のアイデアをベースラインとして扱い、ボンフェローニ補正^🐾17によるウェルチのt検定^🐾18(両側検定)を使用して、AI アイデアおよび AI アイデア + 人間の再ランク付け(☞【3】(1)4⃣参照)と比較する。
㈠　新規性スコア　
　AI アイデアの新規性スコアは、平均µ= 5.64、標準偏差σ= 1.76(p値 < 0.01)。AI アイデア + 人間による再ランク付けの新規性スコアは、µ = 5.81、σ = 1.66(p < 0.001)。対して、人間のアイデアの新規性スコアは、µ = 4.84、σ = 1.79である。
　つまり、どちらのAI創出アイデアに対しても、人間のアイデアより優れているという仮説は、(有意水準1%で)統計的に有意である。
㈡　興奮度スコア　
　AI アイデアの興奮度スコアは、平均µ= 5.19、標準偏差σ= 1.73(p < 0.05)。AI アイデア + 人間による再ランク付けの興奮度スコアは、µ = 5.46、σ = 1.82(p < 0.01)。対して、人間のアイデアの興奮度スコアは、µ = 4.55、σ = 1.89である。
　つまり、どちらのAI創出アイデアに対しても、人間のアイデアより優れているという仮説は、(有意水準5%で)統計的に有意である。
㈢　実現可能性スコア　
　AI アイデアの実現可能性スコアは、平均µ= 6.34、標準偏差σ= 1.88。AI アイデア + 人間による再ランク付けの実現可能性スコアは、µ = 6.44、σ = 1.63。対して、人間のアイデアの実現可能性スコアは、µ = 6.61、σ = 1.99である。
　つまり、人間のアイデアの実現可能性スコアの方が高い。ただし、この結果に対して、統計的仮説検定は行われていない(｢人間のアイデアの実現可能性スコアの方が高い｣という帰無仮説に対して、統計的検証が行われているわけではない、という意味)。
㈣　その他　
　期待される有効性は、AI創出アイデアの方が高スコアであるが、統計的に有意ではない(有意水準5%)。全体スコアも、AI創出アイデアの方が高スコアであるが、統計的に有意なのは、｢AI アイデア + 人間による再ランク付け｣のみ(有意水準5%)。
🐾17　複数の統計的検定を行う際の誤検出率を制御するための方法。
🐾18　ウェルチのt検定は、(2標本)t検定とは異なり、2標本の母分散が等しいとは限らない場合にも使うことができる。

(2)　アイデアを基準にした比較　
　各アイデアについて複数のレビューを収集するため、レビューを独立したデータポイントとして扱うべきではない(レビューを基準にすべきではない)という意見もあるだろう。そこで、各アイデアのスコアを平均し、各アイデアを 1 つのデータポイントとして扱い、比較を行う。｢人間のアイデアをベースラインとして扱い、ボンフェローニ補正によるウェルチのt 検定(両側検定)を使用して、AI アイデアおよび AI アイデア + 人間による再ランク付けと比較する｣ところは、同じである。
㈠　新規性スコア　
　AI アイデアの新規性スコアは、µ = 5.62、σ = 1.39(p < 0.05)。AI アイデア + 人間の再ランク付けの新規性スコアは、µ= 5.78、σ= 1.07である(p < 0.01)。人間のアイデアの新規性スコアは、µ= 4.86、σ= 1.26である。
　つまり、どちらのAI創出アイデアに対しても、人間のアイデアより優れているという仮説は、(有意水準5%で)統計的に有意である。
㈡　興奮度スコア　
　AI アイデアの興奮度スコアは、µ = 5.18、σ = 1.33(p > 0.05)。AI アイデア + 人間の再ランク付けの興奮度スコアは、µ= 5.45、σ= 1.36である(p < 0.01)。人間のアイデアの興奮度スコアは、µ= 4.56、σ= 1.16である。
　AI アイデア + 人間の再ランク付けに対してのみ、人間のアイデアより優れているという仮説は、(有意水準1%で)統計的に有意である。
㈢　実現可能性スコア　
　AI アイデアの実現可能性スコアは、平均µ= 6.30、標準偏差σ= 1.27。AI アイデア + 人間による再ランク付けの実現可能性スコアは、µ = 6.41、σ = 1.06。対して、人間のアイデアの実現可能性スコアは、µ = 6.53、σ = 1.50である。
　つまり、人間のアイデアの実現可能性スコアの方が高い。ただし、この結果に対して、統計的仮説検定は行われていない(｢人間のアイデアの実現可能性スコアの方が高い｣という帰無仮説に対して、統計的検証が行われているわけではない、という意味)。
㈣　その他　
　期待される有効性は、AI創出アイデアの方が高スコアであるが、統計的に有意ではない(有意水準5%)。全体スコアも、AI創出アイデアの方が高スコアであるが、統計的に有意ではない(有意水準5%)。

(3)　レビュー担当者を基準とした比較
　もう 1 つの交絡変数として、レビュアーによってバイアスが異なる可能性が、考えられる。たとえば、一部のレビュアーは他のレビュアーよりも寛大である可能性がある。そこで、ここでは、各レビュアーを1 つのデータポイントとして扱い、平均スコアを計算する。次に、各レビュアーについて、㊀AI アイデアと人間のアイデアの平均スコア差及び、㊁AI アイデア + 人間の再ランク付けと人間のアイデアの平均スコア差を取得する。㊀の差あるいは㊁の差が0 より大幅に大きかった場合、レビュアーが、(2種類の)AI創出アイデアに高いスコアを付けていることを示す。
㈠　新規性スコア　
　㊀の差は、0.94である(p < 0.01)。㊁の差は、0.86である(p < 0.01)。どちらのAI創出アイデアに対しても、人間のアイデアより優れているという仮説は、(有意水準1%で)統計的に有意である。
㈡　興奮度スコア　
　㊀の差は、0.73である(p < 0.05)。㊁の差は、0.87である(p < 0.01)。どちらのAI創出アイデアに対しても、人間のアイデアより優れているという仮説は、(有意水準5%で)統計的に有意である。
㈢　実現可能性スコア　
　㊀の差は、-0.29である。㊁の差は、-0.08である。LLM創出アイデアの実現可能性は低いであろうことが、ここでも示唆される。統計的仮説検定は行われていない(はず)。
㈣　その他　
　期待される有効性は、㊀の差は0.42で、㊁の差は0.39である。全体スコアは、㊀の差は0.24で、㊁の差は0.66である。全体スコアの㊁の差のみ、有意水準1%で統計的に有意である。

【5】考察
(0)　LLMで研究アイデアを創出する仕組みを改めて整理すると、本質的には以下のように説明できるだろう：本論文の著者が模範的な論文を選択し、そこから論文のエッセンスを取り出す。こうして”優れた”研究アイデアを、第三者に説明するフォーマットを作り上げた。例えるなら、研究費申請時に書く書式のようなものを作った。そして、そのフォーマットを埋める形(いわば、穴埋めアプローチ)で、研究アイデアを創出するように、LLMのプロンプトに依頼した。
　なお、指定された7つの研究トピックに関連する(上位)論文のサマリーが、RAG(Retrieval-Augmented Generation：検索拡張生成)用の外部情報として、使用される。RAGは、創出アイデアの多様性を確保するために実行される。

(1)　本論文では、NLPしかも、プロンプティングに対象を絞っている。博士論文クラスが対象であれば、NLPを物理学や数学に拡大することは、可能だと思われる。科研費の申請書などを大量に学習させることで検証できそうである。
※専門的過ぎて事務職員に任せられなかった｢事務作業｣(まさに科研費の申請とか、研究成果が社会に与えるインパクトとか、事後報告書の作成とか)を、LLMが代行できれば、教授の雑用が減って研究時間が増えるかもしれない。それは福音であろう。

(2)　LLMには人間と違って先入観がない。このことを利用すると、面白いテーマが見つかるかもしれない。例えば、コルモゴロフ･アーノルド表現定理にインスパイアされたコルモゴロフ･アーノルド･ニューラルネットワークは、オリジナルの設定に囚われるという呪縛から脱することによって生まれた。ロケットエンジンの新しい推進剤として注目されている高エネルギーイオン液体も、｢固体の成分を混ぜただけでは(溶剤なしでは)、液体にはならない｣、｢イオン液体は燃えない｣という思い込みを排除したために生まれた、とされる[*11]。そういったことが、LLMを使うことで、時間を短縮して可能になると価値が高いと思われる。また、違う分野の知見を取り込むことで、研究が進むことは多々あるだろう。LLMが、それを促進してくれると、これまた、価値が高いと思われる。
　創薬でいうと、例えばドラッグ･リポジショニングで、LLMが良いアイデアを創出してくれるのではないかと期待させてくれる(ような気がする)。

(3)　とは言え、LLMの限界(?)も認識しており、以下が指摘されている：
1⃣　LLM によるアイデア創出において、スケーリング則は存在しない(だろう)。　
　表題の指摘は、以下の考察による：アイデア創出では、過剰創出とランク付けのパラダイムを採用した。このパラダイムにおいて、LLM が創出できる｢重複しない新規｣アイデアの数に上限はあるか？(違う言い方をすれば、スケーリング則は存在するか？)という疑問が生じるだろう。この疑問に答えるために、トピックごとに創出された4000 個のシード･アイデアが、どれほど重複しているかを調べた。具体的には、アイデア間のコサイン類似度^🐾19を計算し、コサイン類似度が 0.8 を超える場合には、アイデアが重複していると判断する。
　結果は、LLMが新しいアイデア創出し続けると(アイデア数が0から4000に増加するに従って)、重複しないアイデアの割合は｢指数関数的に｣減少した。実際、創出された 4000 個のシードアイデアのうち、重複しないユニークなアイデアは 200 個しかない。
　結論として、表題の｢LLM によるアイデア創出において、スケーリング則は存在しないだろう｣という推測がもたらされる。
🐾19　ベクトル化には、Sentenceトランスフォーマー｢all-MiniLM-L6-v2｣を使用した。
2⃣　LLM はアイデアを正確に評価できない　
　表題の指摘は、以下2つの考察による：
①　AIアイデア＋人間再ランク付けの17/49は、AIアイデアおいても上位のアイデアとして、LLMによって評価されている。しかし、残りの32/49は上位のアイデアとしてランク付けされていない。従って、LLMはアイデアを正確に評価できないと考えられるだろう。
②　(本稿では【4】で示した)全ての指標において、 AI アイデア + 人間の再ランク付けの方が、 AI アイデアよりも、高いスコアを示す。これは、間接的にLLMはアイデアを正確に評価できていないことを示している、と考えられるだろう。

(4)　本論文の対象は研究アイデアであるが、新規事業アイデアにも同じ枠組みが使えるだろうし、結論も同じであろう。つまりLLM(AI)は、実現可能性はやや低いかもしれないものの、斬新な新規事業アイデアを創出することが可能。ただ、新しいアイデア創出の増加(率)は指数関数的に減少する。
　業界経験が長い、自他ともに認めるその未知のプロが考える｢勘と経験を含めた、ロジック積み上げ｣の新規事業アイデアは、どれも似たり寄ったりで、レッドオーシャンを再現するだけである。それを避ける手段は、情熱･志あるいは、怒りといった感情であろう(研究アイデアであれば、好奇心）。好奇心駆動型強化学習や、サボりを覚えたロボットがoutperformするという成果が発表されている。エコノミクスの観点からも、感情をもったAIを開発するという方向性は、不可避なのかもしれない。そうなると、より強い規制も不可避なのだろう。

Ⅲ　無機材料の合成経路を予測するLLMフレームワーク　

【0】はじめに
　社会や産業にインパクトをもたらす機能性が高い材料を合成するには、｢正確な温度、圧力、成分の純度など｣、高度に制御された実験条件が必要になることが、しばしばある。このような時間のかかる試行錯誤プロセスを、研究者が回避するのに役立つ可能性のある機械学習アプローチが、米MIT他^🐾1の研究者によって提案された。具体的に言うと、｢量子性材料を含む、無機材料の合成経路を予測するために、大規模言語モデル(LLM)を使用するフレームワーク｣を提示した論文[*12](以下、本論文)が発表された(24年10月28日@arXiv)。同フレームワークは、3つのモデルを提示する(☞【3】(0))。なお、それらのモデルは、科学者を置き換えるのではなく、｢科学者の直感力を高める｣ために設計されている。ちなみに、本論文の筆頭著者は日本人(東工大→米イェール大経由?→MIT)。
🐾1　米ミシガン州立大学、米プリンストン大学

【1】本論文の主張
　本論文は、以下を主張する：
(1)　新しく提案した指標(☞【2】(2))でLLMを再学習することで、性能が向上した。
(2)　提示したモデルは、追加の合成操作^🐾2プロンプトに対して堅牢である(☞【5】(2))。
(3)　LLM は無機材料と同様に、量子性材料の発見にも貢献可能である。
🐾2　加熱、混合、急冷など。

【2】事前整理
(1)　ジャッカード類似度とタニモト類似度
0⃣　前説　
　門外漢には不思議な世界であるが、ジャッカード係数をタニモト係数と(わざわざ？)混同する場合もあるようである。また、タニモト係数はいくつかのバリアントがあるようであるが、深入りしない。また、ジャッカード係数は、(そのまま)ジャッカード類似度とも呼ばれているようであるが、タニモト係数とタニモト類似度は、計算式が異なる(数学的に扱い易くなっている)。
　タニモト類似度は、2 つの化学式間の類似度を評価するために、広く使用されている。特に、有機分子の配座を比較するために用いられる(らしい)。
1⃣　ジャッカード係数　
　2つのベクトルA、Bの間のジャッカード類似度は、｢AとBに共通する要素の数｣/｢Aの要素数とBの要素数の和｣で表される。タニモト係数は、ジャッカード係数と似ている。
2⃣　タニモト係数　
　タニモト係数は、ジャッカード係数と似ている。一般的には、2つのベクトルA、Bの間のタニモト係数は、｢AとBに共通する要素の数｣/(｢Aの要素数とBの要素数の和｣ー｢AとBに共通する要素の数｣)で表されるようである。本論文で扱うのは、タニモト類似度であり、重要なのは｢一般化したタニモト類似度｣であるらめ、タニモト係数には深入りしない。
3⃣　タニモト類似度　
　2 つの化学式 c₁とc₂間のタニモト類似度(similarity)は、ベクトル表現した化学式^🐾3間のコサイン類似度として計算される。類似度は0(類似性なし)から1(同一の組成)の間で、正規化されている。0及び1以外の場合、タニモト類似度は、元素組成の重複を反映する。
🐾3　化学式cのベクトル表現V_cは、化学式cに含まれる元素iの個数n^c_iで表される。すなわち、V_c＝(n^c₁,n^c₂,･･･)^Tである。

(2)　一般化タニモト類似度(GTS)　
1⃣　定性的に言うと・・・　
　タニモト類似度は、”個別の”化学式同士の類似度は測れるだろうが、化学式全体を測ることはできない。つまり、中間生成物があり、それがさらに化学反応を起こして、最終生成物を作るという多段階の化学反応全体の類似度は測れない。｢化学反応全体の類似度｣を計算するために、タニモト類似度を一般化した指標が、一般化タニモト類似度(Generalized Tanimoto Similarity:GTS)である、と理解している。
2⃣　定量的に言うと・・・壱)タニモト集合類似度まで　
　GTSに到達するまでは、若干、込み入っているので、2パートに分ける。
ステップ0：　化学反応全体の類似度を計量するため、化学反応式の集合S₁及びS₂を準備する。
ステップ1：　S₁の化学式c₁を固定して、S₂の化学式c_jをj=1～|S₂|まで舐める。|S₂|は、S₂に含まれる化学式の数である。最後まで舐めると、c₁とc_jとの間で計算した｢タニモト類似度の最大値を取得｣することができる。
ステップ2：　｢タニモト類似度の最大値取得｣を、S₁の化学式c_iについて、全て行う。つまりi=1～|S₁|に対して、｢タニモト類似度の最大値取得｣を行う。
ステップ3：　ステップ2で、各iに対して計算したタニモト類似度の最大値を、iに渡って足し上げる。数式的に書くと、∑_iを行う。さらに|S₁|で割る。つまり、1/|S₁|×∑_i各iに対して計算したタニモト類似度の最大値、を計算する。これをT_s(S₁|S₂)と書く。
ステップ4：　ステップ1～ステップ3を今度は、 S₂の化学式c₁を固定して行う。つまり、T_s(S₂|S₁)を計算する。
ステップ5：　タニモト集合類似度T_s(S₁,S₂)＝(T_s(S₁|S₂)＋T_s(S₂|S₁))/2を計算する。
3⃣　定量的に言うと・・・弐)タニモト集合類似度からGTSまで　
　化学式を、反応物から生成物が生成される式であると、あからさまに考えて、２つの化学式間の類似度を、反応物間の類似度と生成物間の類似度の合計として捉える。具体的には、2つの化学式eq₁とeq₂間の一般化タニモト類似度(GTS)Ｔ(eq₁,eq₂)は、反応物Rのタニモト集合類似度と生成物Pのタニモト集合類似度の和として計算される。
ステップ6：　Ｔ(eq₁,eq₂)＝(T_s(Ｒ₁,Ｒ₂)＋T_s(Ｐ₁,Ｐ₂))/2。1/2は、正規化係数である。
4⃣　GTSの利点　
　GTSは、タニモト類似度を一般化して2 つの｢化学式全体｣を比較し、反応の各側における組成順序の順列不変性を保証する。また、GTSは化学式を評価するアプローチとして、より柔軟である。例えば、ジャッカード係数は、予測式が実際の式と完全に一致する必要があるが、GTS は 2 つの式が同一でなくても類似度を評価できる。

(3)　量子重み
　LLMによる量子材料の合成経路予測を評価するには、無機結晶合成データベースから、潜在的な量子材料候補を識別するための、記述子が必要である。しかし、材料の量子性を評価するための一般的な指標を確立することは、困難である。本論文では、この｢量子性を評価する指標｣として、量子重みを取り上げている。
　量子重み K_xxは、バンドギャップのある非金属材料の基底状態の量子幾何学とトポロジーの直接的な尺度である。量子重みが高いほど、「量子性」の度合いが高くなる。K_xxは、逆周波数で重み付けされた f-総和則(クーン‐トーマス‐ライヒェのf-総和則)を修正することによって、評価される。

【3】本論文の重要論点
(0)　本論文で提示されているモデル　
　３つのモデルが提示されている：与えられた反応物から生成物(反応の結果)を予測するLHS2RHS。特定のターゲット生成物を生成するのに必要な反応物を予測する RHS2LHS。ターゲット化合物が与えられた場合に、化学式全体を予測するモデルTGT2CEQ。
　ちなみにLHSは、化学式の左辺(Left Hand Side)を意味する。RHSは右辺(Right Hand Side)を意味する。TGTはターゲット(target：TarGeT)を意味し、CEQは化学式(Chemical EQuation)を意味している。

(1)　再学習　
　本論文のLLMは、事前学習済モデルとしてDistilled-GPT2^🐾4を使用する。トークナイザーには AutoTokenizer^🐾5を使用する。また、DataCollatorForLanguageModeling^🐾6を適用して、学習中のパディングを管理する。
　学習率は 2×10⁻⁵、重み減衰 0.01、バッチサイズ 4 を使用。データセットは、9:1 の比率で学習セットとテストセットに分割した。10分割交差検証を使用して 100 エポックにわたってモデルを学習し、損失関数の収束を確実にするためにプロセスを2 回(200 エポック)繰り返す。
🐾4　GPT2を知識蒸留したLLMモデル。日本語(?)だと、distilGPT2と表記されるようである。ここで言う知識蒸留とは、教師モデルの持つ情報を生徒モデルに移す学習手法で、LLMモデルのサイズを軽量化する手法の一つ。2015年に、(24年ノーベル物理学受賞者である)ジェフリー･ヒントン他が提案した。
🐾5　トークナイザーは、自然言語の入力テキストを深層学習モデルの入力データに変換するプログラム。AutoTokenizerは、代表的なトークナイザー。
🐾6　言語モデリングに使用されるデータ照合器。データ照合器は、データセット要素のリストを入力として使用し、バッチを形成する。バッチが形成できない場合、データ照合器はパディングなどの処理を行う。DataCollatorForLanguageModelingは、入力がすべて同じ長さでない場合は、バッチの最大長までにパディングを行う。

(2)　データのセットアップ　
1⃣　データベース　
　LLM 学習には無機材料合成データベースである CEDER データベースを使用する。CEDER データベースは、無機材料合成経路のテキスト･マイニングされたデータセットである。データベースには、自然言語処理(NLP)技術を使用して 53,538パラグラフの科学文献から抽出された19,488 の合成レコードが含まれており、その多くは量子材料、特に遷移金属または希土類酸化物を含む材料と見なすことができる。各レコードには、バランスのとれた反応、ターゲット材料、および合成操作が含まれている。
2⃣　入出力等　
　LLM 学習用に、データをプロンプトとターゲット･テキストのペアに整理する。プロンプトはユーザー入力であり、ターゲット･テキストは予想される出力である。化学式では、矢印 (→) が化学式の左辺と右辺を結び付ける。ターゲットと化学式を区分けするセパレーター記号||は、プロンプトとターゲット･テキストの境界を示す。CEDER データベース内のターゲット化合物または添加剤に関する注記は削除され、化学式のみが残る。

(3)　テキスト推論　
　テキスト推論プロセスは、化学式予測のための自己回帰モデルに依存している。自己回帰モデルは、プロンプトで与えられたフレーズを繰り返すことによって、冗長なテキストを生成する可能性がある。この問題を軽減するために、グランド･トゥルースの方程式の長さに等しい固定テキスト長を指定する。このアプローチにより、生成される化学方程式の精度が向上する。
　なお、テキスト推論の多様性と精度のバランスをとるために、デコーディング^🐾7戦略には、ビームサーチ^🐾8と多項分布サンプリング^🐾9を組み合わせた｢ビームサーチ・多項サンプリング｣を採用している。このアプローチは複数の潜在的なシーケンスを生成し、最も高い確率を選択する。
🐾7　テキストを生成するためのトークンの選択プロセスを、デコーディングという。多数のデコーディング手法(戦略)が存在する。出所：https://huggingface.co/docs/transformers/ja/generation_strategies
🐾8　各時間ステップでいくつかの仮説を保持し、最終的にシーケンス全体で最も確率が高い仮説を選択する。これにより、貪欲探索では無視されてしまう初期トークンの確率が低い、高確率のシーケンスを特定する利点がある。出所：ibid.
🐾9　モデルによって提供される語彙全体の確率分布に基づいて、次のトークンをランダムに選択する。ゼロ以外の確率を持つすべてのトークンは選択される可能性があり、これにより繰り返しのリスクが減少する。出所：ibid.

【4】比較結果　
(1)　LHS2RHS及びRHS2LHS　
　ジャッカード係数(JS)をベンチマークとして、GTSを採用すると性能が向上すると示すことが、目的である。つまり、性能＝正解率(accuracy)を、正しい化学式(グランドトルゥース)と予測した化学式をJS及びGTSで計測する。例えば、LHS2RHSの正解率は、LHSが(どちらも)グランドトルゥース、RHSがグランドトルゥースと予測化学式というセットアップで計算される。つまり、化学式の右辺のみ、グランドトルゥースと予測化学式との間でJS及びGTSを計算する。なお、正解率は、正しくは平均正解率(正解率の平均値)であるが、以降では単に、正解率と表記する。
　再学習なしに事前学習済LLMは、GTSで計測すると、LHS2RHSで正解率が40%強、 RHS2LHSで40%弱である(図から読み取るしかない)。JSで計測すると、LHS2RHSで10%程度、RHS2LHSでは5%程度である。
　GTSを使った再学習モデルでは、LHS2RHSで正解率 0.879、RHS2LHSで正解率 0.911を達成した。一方、JSを使った再学習モデルでは、LHS2RHSで正解率0.702、RHS2LHSで正解率0.817となる。つまり、目的は果たされたことになる。

(2)　TGT2CEQ　
　TGT2CEQの正解率は、LHSとRHSの両者がグランドトルゥースであるセットと、LHSとRHSの両者が予測化学式であるセットとの間で計算される。
　GTSを使った再学習モデルの正解率0.838である。JSを使った再学習モデルの正解率0.704である。ちなみに、再学習なしの事前学習のみのモデルでは、平均正解率0.098であった。

(3)　量子性材料の合成経路予測　
　量子性材料の合成経路を予測する際のモデルの精度を理解するために、本論文では、TGT2CEQモデルの正解率と量子重みとの相関関係をテストしている。
　具体的には、まず、1,206 個の構造について予測されたモデルの正解率と量子重みをプロットする。次に、プロットのピアソン相関分析を行う。その結果、0.26 という正の係数が得られた。これをもって、本論文で提示したTGT2CEQモデルが量子性の高い材料に対して、同等のパフォーマンスを発揮することが示された、と結論している。

【5】考察
(0)　無機材料の合成経路予測にLLMが使えることは、所与である(使える/使えないの議論をする段階は、とうに過ぎた)。
　その上で、本論文のポイントは、新しい指標｢一般化タニモト類似度｣(GTS)の導入である。
(1)　化学式全体の類似度を計測する新たな指標、一般化タニモト類似度を導入することで、化学反応という文脈において、反応物及び生成物を、適確に捉えることに成功した(と理解)。このため、化学反応の順序と条件、つまり合成経路を予測する精度が上がったと考えられる。
(2)　｢提示したモデルは、追加の合成操作プロンプトに対して堅牢である｣ことが、具体的には示されていないと思われるが、そうなのだろうと天下り的に納得。
(3)　本論文は、最後に、予測機能を強化するための有望な方法として、以下の2つをあげている：
1つの潜在的な方向性は、o1などのより高度なバージョンのGPTモデルを組み込むことである。もう一つは、能動学習を通じて、化学合成の専門家の直感と専門知識をモデルの学習プロセスに組み込むことである。

Ⅳ　LLM-Feynman:PINNsに着想を得た？シンボリック回帰　

【0】はじめに
　先日(25年3月15日)放送が終了した｢チ。-地球の運動について-｣^🐾0では、天文学上の重要な系譜として、アルベルト･ブルゼフスキ→ニコラウス･コペルニクスが示された。それ以上に重要な、連綿と連なる天文学上の連係線には、ティコ･ブラーエ→ヨハネス･ケプラー→アイザック･ニュートンがある。ブラーエの綿密な天文観測データが、ケプラーの惑星運動法則定式化の基礎となり、それがニュートンの万有引力の法則へと繋がった^❚為念❚。これは、データから普遍的な法則を抽出する｢シンボリック回帰(Symbolic Regression：SR)｣の代表例であり、人工知能が物理学を進歩させるアプローチの一つと見做されている。
　中国の東南大学他^🐾1の研究者は、LLM-Feynmanというフレームワークを論文[*13](以下、本論文)にて発表した(25年3月9日@arXiv)。LLM-FeynmanはAI-Feynmanを意識した名前と思われる(☞AI-Feynmanは【2】(0)を参照)。本論文によると、LLM-Feynmanは、大規模言語モデル(LLM)を活用して、データとドメイン知識から、簡潔で解釈可能な｢物理学の基礎方程式等^🐾2｣を抽出するフレームワークである。本論文のSupplementary Noteは、相応に重要なことが書いてあるはずであるが、見当たらない(今後公開される?)。また、他にも不思議な点がいくつかあり、本論文の結果は若干疑わしいようにも思われる。ちなみに、誤植等もかなり多く、査読付きジャーナルに掲載されるには、相応の修正が必要になると思われる。
　巷では、｢LLM-Feynmanが(著名な物理教科書である)『ファインマン物理学』に掲載されている物理方程式の90％以上を再発見した｣という部分が切り取られて、誤った解釈がなされているように思われる。LLM-Feynman(並びにAI-Feynman)の開発者は、物理的な新発見ができるAIの開発を、究極のゴールとして目指しているとは思われるが、現状のLLM-Feynmanは、｢物理的な新発見を行う｣あるいは｢物理的な難問を解決する｣能力はない(☞【2】(1))。当面の現実的な課題として、商業的インパクトが大きな新規材料の探索における外挿機能の向上を、考えていると思われる。
🐾0　マンガが原作のアニメ。作者は、魚豊。ビッグコミック･スピリッツ(小学館)にて、2020～2022年連載。
🐾1　Suzhou Laboratory。正体は、良く分からない。
🐾2　化学反応式なども含まれる。
❚為念❚
　東京都立大学の研究者は、ブラックホール重力波における共鳴現象を発見したと発表した(ニュースリリース[*23]は25年4月11日、論文[*24]@Physical Review Letters発表は同9日)。ブラックホールは外部からの影響を受けると振動し、特定周波数の重力波を放出するらしい。この振動は準固有振動と呼ばれる。準固有振動には、他とはズレたモードが存在することが、数値計算から示されていた。今回、そのズレたモードの生起メカニズムが明らかにされた。そのプロセスは、㊀高精度数値計算によって準固有振動の｢軌道｣を調べ、㊁軌道に隠されたシンプルな曲線(レムニスケート曲線)を見出し、㊂レムニスケート曲線が現れる理由を説明する理論を確立した。[*23]では、このプロセス㊀～㊂を、｢ティコ･ブラーエ→ヨハネス･ケプラー→アイザック･ニュートン｣と重ね合わせている。同じような成果をLLMで実現できる日は、いつ訪れるであろうか。

【1】本論文の主張
　本論文は、以下を主張する。LLM-Feynmanは：
(1)　従来のSR^🐾3よりも、高精度で、複雑度が低い数式を出力することができる(☞【4】(1))。
(2)　従来のSR^🐾4よりも、物理学の基礎方程式を発見する能力が高い(☞【4】(2))。╏ これは客寄せ🐼的な主張である。
(3)　2次元材料及びペロブスカイト構造を持つ物質の合成可能性を、高い精度で予測する数式を出力することができる(☞【4】(3))。ここで、予測＝合成可能か合成不可能かの二値分類を行う、である。
(4)　固体電解質の電気伝導度、2次元材料のGWバンドギャップを、高い精度で予測する数式を出力することができる(☞【4】(4))。
🐾3　SISSO(☞【2】(2))とPySR(☞【2】(3))を指している。
🐾4　AI-Feynman(☞【2】(0))を指している。

【2】事前整理
(0)　AI-Feynman[*14]　
　SRは遺伝アルゴリズム(進化的アルゴリズム)をベースとすることが多いが、AI-Feynmanは｢物理的な制約｣とニューラルネットワークを使って最適な近似式を探索する。MITの物理学者二人が2019年に開発した。ちなみに開発者の一人Max Tegmarkは、コルモゴロフ･アーノルド･ネットワーク(Kolmogorov–Arnold Networks：KAN)の開発者Ziming Liuの指導教官である。閑話休題。｢物理的な制約｣とは、物理的に満たされるべき自明な条件という意味である。具体的には、｢近似式の両辺に対して”次元解析”を行えば、当然同じになる｣といった条件を指す。
　AI-Feynmanは(2025年3月現在)、物理的な新発見を行っていないし、(寡聞にして知らないが)物理的難問を解決していない。ちなみに、アメリカ人工知能学会(AAAI)が25年３月に公開したレポート[*15]によると、(AIコミュニティの意見調査で)回答者の45%が、｢2050 年代までに、AIがノーベル賞に値する発見を成し遂げるかもしれない｣と考えている。
　25年3月時点におけるNVIDIAの最新GPUはブラックウェルであるが、27年後半にリリースを予定している｢ルービンUltra｣の次製品は｢ファインマン｣とされている。

(1)　内挿、外挿そして汎化　
1⃣　概要
　【0】で既述の通り、LLM-Feynmanは、商業的インパクトが大きな新規材料の探索における外挿機能の向上を、当面の課題としていると思われる。機械学習は基本的に内挿的であり、外挿的ではない。汎化と外挿は、異なる概念である。汎化は、学習データと基本的に同じである別のデータに対しても、同じ応答を期待することであって、学習データと異なるデータに対して適切な応答を期待するものではない。
　新規材料の探索に戻ると、当該タスクは、新規性の定義にもよるが、本質的には外挿的である。通常の機械学習･深層学習では、外挿は無理ゲーである。例えば、密度汎関数理論における機械学習を扱った広範な新しい(25年3月3日arXivにて公開した)レビュー論文[*16]は、｢予測器が正確な予測を出すのは、内挿の領域にあることがわかっている。ただし、汎化の可能性はある｣と書いている。
2⃣　外挿能力の召喚魔法　
　機械学習･深層学習のフレームワーク内で外挿を可能たらしめる方法としては、以下がある：ドメイン汎化･ドメイン適応、データ拡張、メタ学習、転移学習、マルチタスク学習、PINNs(Physics-Informedニューラルネットワーク)そしてシンボリック回帰。
　例えば[*17]は、メタ学習を使って物性予測器の外挿機能向上を試みた論文である(25年2月22日公開＠nature communications materials)。その結論を(やや粗っぽく)述べると、｢外挿は難しい｣である。また、[*18]はやや古い(2023年)が、(LASSO型)シンボリック回帰を使って外挿機能向上を試みた論文である。ペロブスカイト触媒の酸素発生反応の活性予測に適用している。結論は、｢通常の機械学習･深層学習^🐾5と比べて、シンボリック回帰は高い外挿性を持つ｣である(結論自体は、ほぼ自明と思われる)。
　PINNsは、外挿に強いニューラルネットワークとして知られている。物理方程式を満たすという制約を課す、あるいはドメイン知識を組み込むことによって、learning to learnを実現していると解釈できる。実は(本論文には書かれていないが)、LLM-Feynmanは、PINNsと同じ機構で外挿機能向上を目指していると考えられる(☞(4)参照)。
🐾5　線形回帰、リッジ回帰、ラッソ回帰、エラスティック･ネット、ベイズ･リッジ回帰、カーネル･リッジ回帰、サポートベクターマシン、決定木、ランダムフォレスト、ガウス過程回帰など。
3⃣　為参考：数学におけるシンボリック回帰　
　数学領域においては、数学定数の計算式を出力するラマヌジャン･マシン[*19]という、シンボリック回帰モデルがある。イスラエル工科大学の研究者が、2019年6月arXivにて論文(ver.1)発表した(査読済版だと2021年2月@nature)。数学定数とは、例えば、ネイピア数や円周率、あるいは｢アペリーの定数^🐾6｣を指している。
🐾6　リーマンゼータ関数に整数を代入した値を、リーマンゼータ関数の特殊値あるいは、リーマンゼータ値と呼ぶ。正の偶数に対するリーマンゼータ値は容易に計算することができるが、1を除く正の奇数に対するリーマンゼータ値は、簡潔な形では表わせないことが知られている。リーマンゼータ関数に3を代入した数値は、アペリーの定数と呼ばれている。

(2)　シンボリック回帰ーSISSO　
　以下は、主に[*20]を基に”理解した(あるいは解釈した)”内容を示している(ので、[*20]に以下の記述があるわけではないことに注意)。
　SISSOは、｢Sure Independence Screening and Sparsifying Operator(確実な独立スクリーニング及びスパース化演算子)｣と呼ばれるシンボリック回帰である。確実な独立スクリーニング(SIS)とは、｢㊀目的変数と説明変数の内積(≒類似度)を目的変数の説明力とみなし^🐾7、㊁内積が大きな説明変数を、大きい順に適当な個数Nだけ選択する｣ことで、類似度の高い説明変数(つまり、特徴量)だけを抽出する方法である[*21]。SISで選択された特徴量の集合をSIS(・)と表す。SISSOは逐次反復的な手法なので、SIS(1)は最初のステップで選択された特徴量の集合を表す。この記法を使うと、最初の特徴量の集合(＝説明変数)は、SIS(0)と書ける。
　スパース化演算子(SO)では、SIS(・)から特徴量を選び、選択した特徴量使った場合に生じる残差が小さい特徴量を、誤差が小さい順番に適当な個数kだけ選択する。こうして選択された特徴量の集合をSO(SIS(・))とする。
　SISSOでは、SIS(0)に属する特徴量とSO(SIS(1))に属する特徴量との内積をとって、SO(SIS(1))に属する特徴量と類似度の高い特徴量を抽出する。つまり残差が小さくなるであろう特徴量をSIS(0)全体を対象に探索する。このようにして、抽出した特徴量の集合を⟨SIS(0),SO(SIS(1))⟩と書く。さらに、SIS(1)＋⟨SIS(0),SO(SIS(1))⟩＝SIS(2)として、特徴量集合を増大させていく。つまり、SIS(i+1)＝SIS(i)＋⟨SIS(0),SO(SIS(i))⟩である。SIS(i+1)＝SIS(i)になったら(収束したら)、逐次ステップは終了である。最終的な特徴量集合は、SO(SIS(i+1))となる(はず)。
　上記のようなプロセスを経ることで、目的変数と類似度が高く、残差が小さいる特徴量を選択する手法がSISSOである(という理解)。
🐾7　本質的には、目的変数と説明変数との間の｢相関関係の強さ｣を定量化できる量であれば、何でも良い。

(3)　シンボリック回帰ーPySR　
　PySRは、(最もポピュラーな)遺伝アルゴリズムに基づいたSR。Python(とJulia)で利用可能なオープンソース･ライブラリである。

【3】本論文の技術要素
　シンボリック回帰によって生成された数式を、以下、本稿では｢シンボリック回帰式｣と呼ぶ。　
(1)　LLM-Feynmanの問題意識　
　LLMは、人間には解釈が難しい数式を生成することがある。ただし、この事情は、ハルシネーションがしばしば問題となるLLMに限ったことではない。物理方程式の解をニューラルネットワーク(NN)に出力させようとするとき、NNの出力は物理的に意味のある解とは限らない。PINNsは物理法則を課す(陰関数表示の物理方程式を損失関数に組み込む)ことで、そのような事態を回避しようとしている。また、シンボリック回帰式の複雑度が低いと、解釈可能性は向上する。しかし、だからと言って、複雑度を下げれば、必ず明確な物理的または化学的意味が保証される、というわけではない。
　LLM-Feynmanは、生成したシンボリック回帰式において｢精度が高い(残差が小さい)、複雑度が低い、そして解釈可能性が高い｣という状態、つまり複数の性能指標が高いレベルでバランスしている状態の実現を目指している。目指す状態自体は、PINNsと同じ発想で実現させている。つまり、｢残差、複雑度、解釈可能性｣の線形結合で損失関数を構成し、損失関数を最小させることで、複数の性能指標が高いレベルでバランスしている状態実現させている。ただ、残差の定量化は容易であるが、複雑度及び解釈可能性の定量化は難しい。LLM-Feynmanは、LLMを活用して複雑度、解釈可能性を損失関数に組み込んでいる。

(2)　LLM-Feynmanのアーキテクチャ概要　
　LLM-Feynmanは、3つのモジュールで構成される。㊀データ前処理及び特徴量エンジニアリングモジュール、㊁シンボリック回帰式生成モジュール、並びに㊂LLM に基づくモンテカルロ木探索(MCTS)を活用して、シンボリック回帰式の解釈を与えるモジュールである。LLM-FeynmanにおいてLLMは、㊀(☞下記(3)2⃣参照)及び、(1)で述べた｢複雑度、解釈可能性を損失関数に組み込むステップ(→㊁)｣に加えて、シンボリック回帰式を生成するステップ(→㊁)、さらにシンボリック回帰式の物理的および化学的意味を体系的に解釈および改良するステップ(→㊂)において活用されている。
　㊀モジュールは、入力データを自動的に前処理する。具体的には、欠損値を削除し、オプションで特徴量を正規化する。入力データには、説明変数(特徴量、サイズはm×n。nはデータ･ポイントの数、mは特徴量の数)、目的変数(ターゲット、サイズ1×n)、および特徴量とターゲットの両方の物理的意味と物理量の次元が含まれている、とする。㊁モジュールは、特徴量とターゲット、それらの物理的な意味と物理量の次元を、構造化されたプロンプトに統合する。このプロンプトを使用して、LLM は N 個のシンボリック回帰式を Python 関数の形式で生成する。このプロセスは、シンボリック回帰式が N 個未満の場合、目的の数に達するまで追加の式を生成し続ける。
　以下、3つのモジュールを詳述する。

(3)　LLM-Feynmanにおける3モジュールの壱：特徴量エンジニアリング
　3つ[下記1⃣～3⃣]の自動特徴量計算スキームが組み込まれている。
1⃣　相互情報量による特徴量選択
　初期特徴量セット X_iniは、統合された Automatminer^🐾8フレームワークを使用して計算される。特徴量とターゲットの間、および特徴量間で相互情報量が計算される。有益な特徴量は保持され、冗長な特徴量は削除され、最終的な特徴量セット X_finalが生成される。
🐾8　Automatminer は、matminer(🐾9)による材料科学向けの完全な機械学習パイプラインを自動的に作成するツール。材料データセットを入力すると、材料特性を予測するマシンが生成される(らしい)。出典：https://hackingmaterials.lbl.gov/automatminer/
2⃣　LLM 推奨の特徴量マッチング　
　LLM は特徴量名のセットを推奨し、その後 Matminer^🐾9ライブラリでマッチングされる。次に、Matminer を使用して対応する特徴量値を計算する。
🐾9　物質データマイニングのためのオープンソースPythonパッケージ。出典：https://ma.issp.u-tokyo.ac.jp/app/7116
3⃣　反復的な特徴量改良　
　2⃣に基づいて、反復的な LLM ベースの式検出で 50 世代以上、誤差を削減できない場合、LLMは新しい特徴量セットを提案する。これらの特徴量は、同様に Matminerを使用して計算され、既存の特徴量セットとマージされる。これらのスキームから派生したすべての特徴量には、オプションで LLM を使用して自動的に生成された物理的な意味と物理量の次元が付随する。

(4)　LLM-Feynmanにおける3モジュールの弐：スコアリングで良質な数式を生成
　残差が小さく、複雑度が低くで解釈可能性が高いシンボリック回帰式を生成するために、本論文では、損失関数Lを利用してスコアリングを実施している。Lは、以下のように計算される。
　　　　　L＝係数1×誤差＋係数2×複雑度＋係数3×解釈可能性　
　誤差(E)は、回帰タスクの場合は｢MAE(平均絶対誤差)、R²｣、分類タスクの場合は｢正解率、適合率、再現率、F1スコア、交差エントロピー｣で表現される^🐾10。複雑度(C)については、明確な記述がない^🐾11。解釈可能性(S)は、テンプレート･ベースで、0～1の値が割り当てられる^🐾12。解釈可能性と尺度を合わせるために、誤差と複雑度は、正規化する。つまり、0～1の値に変換される。係数1～係数3は、調整可能な係数である。
　損失関数によるスコアリングの結果から、上位 I 個の式(デフォルト:I＝30)が選択される。それらの数学的表現、損失関数の値、及び対応するデータ(特徴量(説明変数)、目的関数、物理的意味、および次元)がプロンプト^🐾13に組み込まれ、LLM が各反復で J 個の新しい式 (デフォルト:J＝10) を生成する。指定された回数(デフォルト: 500)の反復が完了すると、すべての式がパレート･フロンティア分析用に統合され、精度とシンプルさのバランスが取れたシンボリック回帰式が特定される(という仕組み)。
🐾10　個別タスクによって、選択される(のだろう)。
🐾11　Supplementary Noteには、記述があると思われる。
🐾12　Supplementary Noteの図 S6にテンプレートが、あると本論文に記されている(が、肝心のSupplementary Noteが見当たらない)。損失関数の形からは、解釈可能性が高いとSは小さく(0に近い値に)なる。
🐾13　Supplementary Noteの図 S7にテンプレートがあると本論文に記されている。

(5)　LLM-Feynmanにおける3モジュールの参：モンテカルロ木探索
　3 番目のモジュールは、モンテカルロ木探索(MCTS)をLLM と統合して、シンボリック回帰式の｢物理的および化学的意味｣を体系的に解釈および改良する。このアプローチでは、探索ツリーの各ノードは LLM によって生成された解釈アイデアを表し、そのスコアは上限信頼限界(UCB)によって決定される。
　LLM は、生成された仮説の明瞭性、科学的妥当性、一貫性を評価し、それに応じてノードスコアを更新する。候補となる説明を繰り返し探索および改良することで、MCTS は新しいアイデアの探索と高品質の解釈の優先順位付けとの間の、トレードオフのバランスを取る。

【4】検証結果
(1)　アブレーション　
1⃣　概要　
　特徴量に基づいて、単原子触媒(Single-Atom Catalysts：SAC)^🐾14上の中間体(H、OH、CO、N)の吸着エネルギーを予測するシンボリック回帰式を、3モードで、LLM-Feynmanに発見させた。LLM-Feynmanの学習データセットは、DFT計算の出力データである。特徴量は、ゲスト･サイトの配位数、ゲストおよびサポート金属の価電子数、それらの電気陰性度、原子半径など。SACの担体は、銅と銀。触媒成分(元素)は、タングステン、モリブデン、オスミウム、ルテニウム、イリジウム、ロジウム、白金、パラジウム。また、3つのモードとは、以下の通り：
モード①・・・特徴量の意味と次元(物理量の次元)は、提供されない。シンボリック回帰式の発見中に、損失関数の解釈可能性は使用されない^🐾15。
モード②・・・特徴量の意味と次元を、モード①にプラスする。
モード③・・・ドメイン知識及び損失関数によるスコアリング^🐾16を、モード②にプラスする。
🐾14　触媒反応において単一原子が活性部位として機能する触媒。高価な貴金属の使用を減らすことが可能な触媒として、注目されている。
🐾15　【3】(4)で展開した損失関数Lを使ったスコアリングにおいて、EとCは使う一方でＳは使わない、と解釈できる。
🐾16　この場合の自己評価は、ＬにＳを含めて(フルメンバーで)スコアリングする、と解釈できる。
2⃣　比較のフレームワーク　
　LLM-FeynmanのLLMには、以下3つのLLMを使用した。Falcon-Mamba-7B^🐾17、ChemLM-20B^🐾18、および LLaMA3-8B^🐾19。この3つのLLMを使ったLLM-Feynmanと従来のSRを比較した。以下簡潔さを優先して、Falcon-Mamba-7BをFM、ChemLM-20BをCL、LLaMA3-8BをLMと略記する。従来のSRとは、SISSO(☞【2】(2))及びPySR(☞【2】(3))である。
　なお、LLMによる推論の全ては、80 GB VRAM と 1 TB のメモリを備えた 1 つの NVIDIA A800 GPU を搭載したサーバーで実行された。
🐾17　アラブ首長国連邦の技術革新研究所(TII)が開発したオープンソースのLLM。Mambaは、アーキテクチャの名前。23年12月に発表された。機械学習世界を席捲したトランスフォーマーとは異なるアーキテクチャ(状態空間言語モデル)であり、注意機構もない。TIIは元々、トランスフォーマー･ベースのLLMとしてFalconシリーズをリリースしていたが、 Falcon-Mambaでは、アーキテクチャを変更した。なお、言わずもがなであるが、7BのBはLLMのパラメータ数が10億であることを意味している。
🐾18　医薬品開発を強く意識した、分子特性予測のための大規模言語化学モデル。トランスフォーマー･ベースである。
🐾19　言わずと知れた、メタのオープンソースLLM。LLaMAは、トランスフォーマー･ベースである。LLaMA3は、LLaMAの第3世代にあたり、24年4月に公開された。なお、最新版(as of 25年3月)は、LLaMA3.2である(24年9月公開)。8Bと70Bの2つのサブ･モデルがある。
3⃣　結果　
　各SRモデルについて、中間体(H、OH、CO、N)の吸着エネルギーについて特定された上位 1,000 に該当するシンボリック回帰式の平均 R²、MAE(２つを併せて精度と呼ぶ)、及び複雑度を評価した。
　まず、1⃣のモード①についての比較結果であるが、LLM-Feynmanは、SISSO及びPySRより複雑度が高かった。LLM間の優劣で言うと、FMが最も悪く、CL、LMの順に改善される。
　精度を平均 R²で評価すると、LLM-Feynmanは、SISSO および PySR を上回っている。LLM間の優劣で言うと、FMとLMは同程度(そして、SISSO および PySRとも同程度)で、CLは相応に改善されている。精度をMAEで言うと、LLM-Feynmanは、SISSO及びPySRを大きく上回っている。LLM間の優劣で言うと、やはりFMとLMは同程度で、CLは相応に改善されているが、その改善度合いは平均 R²より小さい。
　本論文は、FMのパフォーマンスがCL及びLMと比べて低いとして、モード①で、FMを除外している。
　モード②についての比較はなく、モード③のドメイン知識のみを追加したケース(以下、ドメイン知識ケースと呼ぶ)と、さらに自己評価を追加したケース(つまりモード③)に分けて比較している(ので、モードの分け方が意味不明である)。不思議なことに、ドメイン知識ケースでは、LLM-Feynmanの精度(つまり、平均 R²とMAE)は、悪化する。その一方で、複雑度は大きく低下する。モード③にすると、精度が、劇的に改善する。複雑度は、ドメイン知識ケースと変わらない。面白いことに、複雑度に関しては、モード③のCLはPySRやSISSOと、ほぼ同じである。CLは精度においてLMを常に上回るが、複雑度では、LMが常にCLを上回っている。

(2)　デモンストレーション　
1⃣　概要　
　｢単純なタスクと複雑なタスク｣という２つのタスクに対して、AI-Feynmanと、 ChemLMに基づく LLM-Feynman とを比較した。単純なタスクとは、物理学の著名な教科書である｢ファインマン物理学｣から抽出した、物理学における基礎的な100個の方程式を発見するタスクである。複雑なタスクとは、20個のより複雑な数式を発見するタスクである。
　単純タスクでも複雑タスクでも、特徴量データ(≒説明変数)とターゲット･データ(≒目的変数)は、それぞれの数式から生成され、値は[0, 1]に正規化され、ガウス･ノイズが３つのレベルで追加される^🐾20。3つのレベルとは、0、10^-3、10^-2である。LLM-Feynmanの場合、出力はパレート･フロンティアであり、式がパレート･フロンティアに表示された場合、その式は正しく識別されたとみなされる。
🐾20　実際に入手できるデータには、ノイズが含まれていることを考慮している。
2⃣　結果　
　単純なタスク✚ノイズが追加されていない場合、LLM-Feynman と AI-Feynman は両方とも、全ての式を正常に識別した。ただし、10^-3、10^-2のノイズ下では、LLM-Feynmanの正常識別率は、それぞれ100%と86%であった。一方、AI-Feynmanは85%と67%であった。複雑タスクではパフォーマンスのギャップが広がった。10^-2のノイズ下では、LLM-Feynman は90% の正常識別率を達成するが、AI-Feynman は 55% に低下した。
　本論文は、これらの結果に対して、｢事前学習済みの LLM に組み込まれた広範な物理的及び化学的知識に起因するLLM-Feynmanの利点が強調された｣と評している。
　なお[*14]によれば、AI-Feynmanは、｢ファインマン物理学に掲載されている100の方程式全てを発見することができた｣。それに対して、｢従来の(遺伝アルゴリズムを使った)SRでは71の方程式しか発見できなかった｣。この結果は、本論文の単純タスク･ノイズゼロ、というセットアップに対する結果であるとすると、矛盾はない(ただ、歴史は繰り返される。新しいテクノロジーは旧テクノロジーを上回る)。

(3)　分類タスク：2次元材料の合成可能性
0⃣　背景　
　理論データベース^🐾21を使った研究では、16,789 の潜在的な 2次元材料の存在が予測されているが、実験的に合成されたのは約 100 のみである。この大きなギャップは、理論的に予測された材料を実験的に実現することの難しさ(合成可能性を予測することが難しいこと)を強調している。
🐾21　本論文では、Computational 2D Materials Database(C2DB)、Materials Cloud、2DMatPediaが上げられている。
1⃣　概要　
　本論文は、合成可能性について2つの分類タスクを実行している。⓵2次元材料の合成可能性、及び⓶ペロブスカイト構造を持つ物質の合成可能性、である。
　⓶については、4⃣にて結果のみを示す。⓵の詳細は、次の通り：合成可能な2次元材料(E_Hull ≤ 0.2 eV/原子)と合成不可能な2次元材料(E_Hull > 0.2 eV/原子)を区別する分類タスクに対象として、LLM-Feynmanが出力した予測式による分類と、E_Hullのみを使用した分類とを比較した。E_Hullは、形成エンタルピーの凸包エネルギーである。
2⃣　データセットの作成　
　2次元材料の合成可能性予測を検証するには、合成可能な正サンプルと合成不可能な誤サンプルの両方を含む、バランスの取れたデータベースを構築する必要がある。
㈠　2次元材料の実験データベースはないため、2次元材料に関する360 件の実験論文からLLM を使用して論文を解析し、正常に合成されたことが確認された組成を抽出した。次に、それらの材料の構造を、以下の要領で取得した。㊀組成に対応する2次元構造を実験データベースで検索した。実験DBに構造がない組成については、理論データベースから、分解エネルギーと剥離エネルギーが最も低い2次元構造を取得した。最終的に、151 個を正サンプルとして取得した。
㈡　正ラベルなし(PU)学習^🐾22を採用して、合成不可能な 2次元材料を同数、誤サンプルとして構築した。プロセスは、実験的に合成された 2D 材料を正クラスとして扱うことから始まる。 C2DB および Materials Cloud からの理論上の 2D 材料は、合成可能であることが確認されたものを除いて、ラベルなしセットを構成する。
🐾22　PU学習は、正にラベル付けされたデータ(正データ)と、ラベル付けされていないデータから、正データと誤データを上手く分類できるような規則を学習する、学習モデルである。
㈢　結晶グラフ畳み込みニューラルネットワーク(CGCNN)に基づくPU 学習モデルを 2 段階で学習した。まず、最初の分類器を、正サンプルと、誤サンプルの割合が高いと想定されるラベルなしデータのサブセットを使用して学習する。次に、分類器は、ラベルなしセット内の信頼性の高い誤サンプルを再割り当てすることで、決定限界を反復的に調整する。
㈣　最終的な PU 学習モデルの分類精度が低かった(76.7%)ため、メタ学習アプローチである MAML(モデル非依存型メタ学習)を PU 学習フレームワークに統合し、合成不可能な 2次元材料の識別精度を93.3%に向上させた。
㈤　㈣から150 個の合成不可能な2次元構造材料が選択され、バランスの取れた(正:誤 = 151:150)データセットが作成された。
3⃣　予測式の導出　
　上記2⃣で生成したデータセットは、LLM-Feynmanを実行するために8:2の比率で、学習セットとテストセットに分割された。特徴量エンジニアリングスキームを使用して、1,200個の構造的および組成的特徴量を選択した。相互情報量法でスクリーニングした後、52 個の特徴量が残った。この特徴量を使い、テストセットの 4 つの性能指標(正解率、適合率、再現率、F1 スコア)と数式の複雑度に基づいて、多目的最適化により数式を探索した。
　4 つのパレート･フロンティアから、それぞれ2つの数式が選択され、精度と複雑度のバランスが取れた6 つの数式が得られた。このうち、精度と複雑度のパレート･フロンティアに表示され、解釈可能性スコアが最も高い数式を選択した。
4⃣　結果　
　⓵2次元材料の合成可能性に関する結果は以下の通り：LLM-Feynmanの正解率、適合率、再現率、F1スコアは、それぞれ0.93(0.60)、0.88(0.61)、1.00(0.53)、0.94(0.57)であった。ここで、括弧内の数値は、E_Hullのみを使って合成可能性を予測した(合成可能か、合成不可能かの二値分類をした)結果であり、論文ママ^🐾23。LLM-Feynmanの予測結果は、E_Hullのみを使って予測した結果を、大幅に上回っている。
　⓶の結果は、正解率、適合率、再現率、F1スコアが全て1となっている。
🐾23　念の為、検算してみると、正解率以外は、整合しない。適合率0.67(←0.61)、再現率0.59(←0.53)、F1スコア0.63(←0.57)。
5⃣　小括　
　化学的に合成可能な物質は、少なくとも熱力学的に安定である。熱力学的安定性は、E_Hullで評価することができる。これが、 E_Hullのみを使って、合成可能性を予測する物理的な意味である。LLM-Feynmanとの比較の結果、E_Hullだけでは不十分であることが示されたことになるが、その結果自体は、自明であろう。

(4)　回帰タスク：固体電解質の電気伝導度、2次元材料のGWバンドギャップ
1⃣　概要　
　材料科学において重要な特性を予測する回帰タスクにLLM-Feynmanを適用した。具体的には、固体電解質の電気伝導度と2次元材料のGW バンドギャップに対する回帰タスクに適用した。固体電解質の電気伝導度は、次世代エネルギー貯蔵システムの開発において重要な要素であり、固体電池の性能と安定性に影響する。2次元材料の GW バンドギャップは、それらの電子的および光学的特性を決定し、トランジスタ、光検出器、量子デバイスなどのアプリケーションで重要な役割を果たす。
2⃣　データセット　
　固体電解質の導電性については、659のデータ･ポイントを含む実験データセットを使用し、学習セットとテストセットを、9:1の比率で分割した。
　GWバンドギャップについては、他者が計算した結果[*22]から 551の GWバンドギャップ･データポイントを使用した。データセットは、9:1 の学習対テスト比に分割された。
3⃣　予測式の導出　
　固体電解質の導電性については、LLM-Feynman を使用して50 個の組成的特徴量を計算し、電気伝導率を予測するためのパレート･フロンティア上の最適な式を特定した。
　 GWバンドギャップについても、LLM-Feynmanを使用して、45個の構造的特徴量を計算し、パレート･フロンティア上の最適な式を特定した。
4⃣　結果と小括　
　電気伝導率では、テストセットでR²が 0.855、MAE が 0.673であった。GWバンドギャップでは、テストセットで R²が0.800、MAEが0.429であった。

【5】考察
(1)　単原子触媒(SAC)上の中間体の吸着エネルギーを予測するケースにおいて、精度(平均R²とMAE)でCLがLMを上回る理由を、｢(CLは)化学物質分野のデータに特化した再学習により、LMと比較して、より包括的な化学知識が備わっているためと考えられる｣と結論している。しかし、ドメイン知識ケースで精度が悪化していることから、その結論は疑わしいと思われる。精度の改善は、損失関数によるスコアリングによってもたらされたと考えるのが妥当であろう。なお、CLとLMはパラメータ数が(大きく)異なる。

(2)　LLM-Feynmanの精度改善をもたらした技術的要素は、PINNs的な要素と考えられる。工夫を凝らした損失関数を最小化することで外挿能力を高めようとしている、と推量できる。ただし、高い外挿能力を提示した(あるいは、提示できた)わけではない。

(3)　分類タスクと回帰タスクの双方で、他のSR(SISSOやPySR)の結果とLLM-Feynmanの結果を比較することが、重要と思われるが、実行されていない。非常に不思議である。

【尾　注】
*1　Tiffany Duneau et al.、Scalable and interpretable quantum natural language processing:an implementation on trapped ions、https://arxiv.org/pdf/2409.08777
*2　Tuomas Laakkonen et al.、Quantum Algorithms for Compositional Text Processing、https://arxiv.org/pdf/2408.06061
*3　九門涼真他、ニューラル機械翻訳モデルにおける構成的汎化能力の評価、言語処理学会第30回年次大会発表論文集(2024年3月)、https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/B2-5.pdf
*4　小林由弥、表現学習における創発言語の構造と構成的汎化性能の関係、The 37th Annual Conference of the Japanese Society for Artificial Intelligence, 2023、https://www.jstage.jst.go.jp/article/pjsai/JSAI2023/0/JSAI2023_1G5OS21b05/_pdf/-char/ja
*5　Dieuwke Hupkes et al.、Compositionality decomposed: how do neural networks generalise?、https://arxiv.org/pdf/1908.08351
*6　谷中瞳・峯島宏次、特集ことばの認知科学：言語の基盤とは何か｜展望論文 AIは言語の基盤を獲得するか：推論の体系性の観点から、認知科学第31巻第1号 (2024) pp. 27–45、https://www.jstage.jst.go.jp/article/jcss/31/1/31_2023.078/_pdf/-char/ja
*7　井上綾介・宮森恒、第16回データ工学と情報マネジメントに関するフォーラム｜命題論理における言語の構成性に着目した言語モデルの汎化能力の調査、https://confit.atlas.jp/guide/event-img/deim2024/T1-B-2-03/public/pdf?type=in
*8　工藤慧音他、算術問題におけるニューラルモデルの構成的推論能力、言語処理学会第29回年次大会発表論文集 (2023年3月)、https://www.anlp.jp/proceedings/annual_meeting/2023/pdf_dir/Q8-13.pdf
*9　http://gakui.dl.itc.u-tokyo.ac.jp/cgi-bin/gazo.cgi?no=121893
*10　Chenglei Si et al.、Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers、https://arxiv.org/pdf/2409.04109
*11　https://www.technologyreview.jp/s/346986/trajectory-of-u35-innovators-hiroki-matsunaga/
*12　Ryotaro Okabe et al.、Large Language Model-Guided Prediction Toward Quantum Materials Synthesis、https://arxiv.org/pdf/2410.20976
*13　Zhilong Song et al.、LLM-Feynman: Leveraging Large Language Models for Universal Scientific Formula and Theory Discovery、https://arxiv.org/pdf/2503.06512
*14　Silviu-Marian Udrescu and Max Tegmark、AI Feynman: a Physics-Inspired Method for Symbolic Regression、https://www.science.org/doi/10.1126/sciadv.aay2631
*15　AAAI、AAAI2025 Presidential Panel on the Future of AI Research、https://aaai.org/wp-content/uploads/2025/03/AAAI-2025-PresPanel-Report-FINAL.pdf | Hiroaki Kitano、AI for Scientific Discovery、pp.56-60
*16　Ryosuke Akashi et al.、Can machines learn density functionals? Past, present, and future of ML in DFT、https://arxiv.org/pdf/2503.01709
*17　Kohei Noda et al.、Advancing extrapolative predictions of material properties through learning to learn using extrapolative episodic training、https://www.nature.com/articles/s43246-025-00754-x.pdf
*18　磯田拓哉他、シンボリック回帰における外挿性の検証とペロブスカイト触媒への応用、J. Comput. Chem. Jpn., Vol. 22, No. 2, pp. 37–40 (2023)、https://www.jstage.jst.go.jp/article/jccj/22/2/22_2023-0028/_pdf/-char/ja
*19　鈴木治郎、連分数公式を予測するラマヌジャン・マシンの紹介、https://iiiar.org/iiars/doc/iiars_workshop9_4_5.pdf
*20　Madhav Muthyala et al.、TORCHSISSO: A PYTORCH-BASED IMPLEMENTATION OF THE SURE INDEPENDENCE SCREENING AND SPARSIFYING OPERATOR FOR EFFICIENT AND INTERPRETABLE MODEL DISCOVERY、https://arxiv.org/pdf/2410.01752
*21　真鍋晋一郎・鳥井修、Iterative SIS を用いた類似特徴量抽出の効率化、https://collabodesign.org/docmas/wp-content/uploads/2020/11/docmas_202011_00.pdf
*22　Asbjørn Rasmussen et al.、Towards fully automated GW band structure calculations: What we can learn from 60.000 self-energy evaluations、https://www.nature.com/articles/s41524-020-00480-7
*23　https://www.tmu.ac.jp/news/topics/37441.html
*24　Hayato Motohashi、Resonant Excitation of Quasinormal Modes of Black Holes、https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.134.141401

お問い合わせ