MerchantBank Consulting
サブページ画像

そこ曲がったら、量子坂?(上り) Appendix

Appendix 1 量子十二学坊!
 DARPAの思想を踏襲する非営利法人が、チャレンジングな(ムーンショット的)量子✖バイオ分野プログラムのパフォーマー12機関を選んだ(23年9月/もちろん量子十二学坊というのは、本稿で呼んでいるだけ)。残念ながら、日本の機関は選ばれていない。

【1】ウェルカム・リープWellcome Leap 
 ウェルカム・リープ(以下、リープ)は医学研究支援等を目的とした英ウェルカム・トラストを母体とする、米国の非営利公益法人。21機関によるグローバルネットワークとして、2021年1月に形成された。理化学研究所は、21年9月に包括的な協定を締結した[*A-1]。
 リープは、不可能と思われる結果を、不可能と思われるスケジュールで実証することを目的としている。そのために、DARPA(米国防総省の国防高等研究計画局)で実践されている独自のイノベーション・モデル[*A-2]を採用している。リープのサイト[*A-3]には、9つのプログラムが紹介されている。 Quantum for Bioは、その一つである。

【2】Quantum for Bio[*A-4]
 Quantum for Bioプログラムは、健康分野における量子コンピューティングの応用を加速し、人間の健康上の差し迫った課題に対処するための量子対応ソリューションを実証することを目的としている。Quantum for Bio における Supported Challenge Program は、今後 3 ~ 5 年以内に出現すると予想される量子コンピューターから恩恵を受ける生物学および医療アプリケーションの特定、開発、実証に焦点を当てている。最大US$40milの研究資金が学際的、多組織のチームに授与され、プログラムの終了時には、規模を拡大するための明確な道筋を備えた量子デバイスの概念実証の成功に対して、最大US$10milのチャレンジ賞が提供される。
 リープは今後 3 ~ 5 年以内に、100~200 量子ビット、プログラム深度O(105~107程度)のプログラムを実行できると推定しており、これをターゲット・リソースと呼んでいる
†プログラム深度=計算実行時間。

(1) プログラム・ディレクター
 プログラム・ディレクターは、Elica Kyoseva博士。ブルガリアのソフィア大学で、量子光学の博士号を取得しており、量子コンピューティングとその創薬への応用に関する専門知識を持っている。MITのフェロー、テルアビブ大学のマリー・キュリーフェローを務め、VCで常駐の起業家およびアドバイザーを務めた。また、独ベーリンガー・インゲルハイムで量子コンピューティング科学者として働いていた。

(2) 賞金 
① 50 量子ビット以上、プログラム深度O(103~104) の量子コンピューター上でのアプリケーションの実験的実現と、より大規模な量子コンピューターへのスケーリングへの明確な道筋を示すことに成功した各チームには、US$2milの賞金が授与される。
② ターゲット・リソースに収まる量子リソースを使用して、量子コンピューター上でアルゴリズムの実行に成功した 1 チームに、US$5milの大賞が授与される。 [この目標を達成したチームが複数ある場合、そのチームは 最終評価を行った専門家のなかから、人類の健康増進にとって最も重要なアプリケーションとみなされるチームにグランプリが授与される。]

【3】量子十二学坊![*A-4]
 Quantum for Bioで選ばれたパフォーマー12機関は、以下の通り(米6、EU3、英2、豪1)。
(1) 大学・・・5
米→ ハーバード大
EU→ コペンハーゲン大
英→ ケンブリッジ大、 ノッティンガム大
豪→ シドニー大
(2) 企業・・・4(2+2)
❶H/W→ Infleqtion(米:中性原子方式)、PASQAL(仏:中性原子方式)[*A-5]
❷S/W→ QC Ware(米/医療では、例えばこちら)
      Algorithmiq(フィンランド/変分アルゴリズム+AIを基盤とする創薬プラットフォームを提供)
(3) その他・・・3
クリーブランド・クリニック(米:病院/IBMと協力して、量子コンピューティングが生物医学研究に貢献できるかを実証中)
NASAエイムズ研究センター(米:研究機関/生物学もカバーする)
qBraid(米:クラウドベンダー)← なぜ選ばれてるのか不思議?

【4】リープの想定例[*A-4]
 「量子計算リソースが、ターゲット・リソースに収まる人間の健康問題に対するアルゴリズム」とリープが考える例として、以下が上げられている。
1⃣ 量子探索アルゴリズムを使用した、DNA 配列アライメントのパターン・マッチング
 古典的で直接的な総当たり探索アルゴリズムと比較して、多項式加速(!)が得られる。50塩基対の短いリードを用いた、ヒトゲノム解析のためのGroverアルゴリズムでは、133量子ビットが必要と見積もられている。このタスクの推定プログラム深度は、O(1014~1016)であり、実行時間は数日から数週間に及ぶ。これは、今後3~5年で利用可能になる量子デバイスの能力を超えている。
 つまり、リープが求めているソリューションは、必要な量子ビット数とプログラム深度を減らす手法・工夫である。そのためは、より効率的な情報の符号化、復号化、処理方法を開発する必要があると考えている。
2⃣ アミノ酸の一次配列からタンパク質の三次元構造を予測 
 本質的にNP 困難であるタンパク質フォールディング問題に、量子コンピュータを用いる利点は、指数関数的に増大する構造空間を効率的にサンプリングできる能力に由来している。ただし、人間の体に存在するタンパク質に対して、量子コンピューターの力を活用するには、量子ビットとプログラムの深さを最小化するための新しいアプローチが必要になる。
 つまり、リープが求めているソリューションは(同様に)、必要な量子ビット数とプログラム深度を減らす手法・工夫である。
 さらに、アミノ酸側鎖のより現実的な説明と、長距離相互作用のより体系的な処理が必要と考えている。

Appendix 2 NISQで、マグネシウムの腐食をシミュレートする
【0】はじめに
 脱炭素が叫ばれる以前から、航空機には軽量化ニーズが高い。燃費(の削減)が、航空会社の経営に与えるインパクトが大きいからである。実用金属で最も軽いと言われているマグネシウムの比重は、航空機用構造材料として主に使わているアルミニウムの2/3程度であり、航空機(旅客機)での利用が期待されている。しかし、機械的強度に劣り、燃え易く、腐食しやすいという欠点を持ち、採用が進んでいないという状況にある。
 IBMと米ボーイング(航空宇宙機器開発企業)の研究者は、NISQ(Noisy Intermediate-Scale Quantum Computer)マシンで、「水環境下におけるマグネシウムの腐食」をシミュレートするためのワークフローを提案した論文[*A-6](以下、本論文)を発表した(23年9月12日[*A-7])。

【1】本論文の主張
 本論文は、以下の二つを主張する:
(1) 低分子が金属表面に吸着した化学反応系を対象に、⓵物理学に基づいて自動化された、⓶系統的に改善可能な、活性空間構築戦略を設計した。
(2) (1)の化学反応を量子計算する量子回路を、簡素化する具体的な手法を開発した。

【2】事前整理
 事前整理としてのDFT(密度汎関数理論)は、割愛する。

【3】本論文により、新しく得られた手法
(0)  前処理の補足説明
 次節で「局在占有DFT軌道」が、唐突に出現するが、本論文では、(パイソンベースの計算化学パッケージである)PySCFパッケージを使用して DFT 計算が実行されている。基底関数は、GTH-DZV(並進対称に適応したガウス原子軌道を線形結合した単一粒子基底)。擬ポテンシャルは、 Goedecker-Teter-Hutter(つまりGTH)。交換相関汎関数は、一般化勾配近似(GGA)型のPerdew-Burke-Ernzerhof。
 DFT計算は、最適化された(反応物及び生成物の)形状に対して、行われており、この最適化は、有名なフリーの第一原理計算パッケージQuantum ESPRESSOで実行されている。基底関数は、平面波基底。擬ポテンシャルは、ウルトラソフト。交換相関汎関数は、Perdew-Wang(LDA?GGA?)。
 DFT軌道の局在化は、マリケンの密度解析法に基づいたPipek-Mezey 法を使用して、実行した。

(1)活性空間構築戦略
0⃣ 前段
 本論文によれば、低分子が金属に吸着し化学反応を起こす系では、電子相関が限られた数の軌道と電子に関連していることが示されている。それを理論的根拠として、上記の反応系では、コンパクトな活性空間を構築できると考えた。具体的には、活性空間構築戦略を、1⃣ベースラインと2⃣その改良版という2つのアプローチで検討している。
1⃣ ベースライン
 ベースラインとは本稿で呼んでいるだけで、本論文では、密度差に基づく方法(「DD法」)と呼ばれている。本論文では、まず、局在占有DFT軌道が「定量的な基準」で、ランク付けできることを示した。定量的な基準とは、重なり積分である。
 重なり積分は(厳密さを欠いているが)、「㊀局在占有DFT軌道の絶対値と、㊁(DFTで計算した)電子密度差の平方根を、㊂掛け合わせて、全空間で積分した」ものである。重なり積分の値が大きい順に、5つの軌道を選択する。5は、H2O の原子価占有軌道と同じ数である。
 選択された占有軌道と仮想軌道とで張られる(2e,2o)活性空間内でCCSD(つまり、励起演算子に1励起と2励起を含む結合クラスター法]により全エネルギー及びエネルギー差(生成物と反応物のエネルギー差)を計算した。(2e,2o)は、2電子2軌道を意味し、2電子系の場合、CCSDの計算は正確である。
2⃣ ベースラインの改良版
 ベースラインの改良版とは本稿で呼んでいるだけで、本論文では「DD+NO法」と呼ばれている。NOは自然軌道(Natural Orbital)という意味である。ベースラインでは、活性空間サイズ(軌道数)の増加に対する全エネルギーの収束速度が遅いので、改良版では「自然軌道」を導入している。ベースラインと同様に、占有軌道と仮想軌道とで張られる活性空間内でCCSD計算を実行する。
 その後、次に、CCSD 1 粒子密度行列の固有ベクトルとして自然軌道を構築し、占有数の降順に並べ替える。最高占有の自然軌道をHONO、最低非占有の自然軌道をLUNOとする。 次に、HONOーa とLUNO+b の間の軌道によって、活性空間を構築した。ここで、aはmin(k,電子の数/2-1)、bはmin(k,軌道の数ー電子の数/2-1)で、kは非負の整数。
3⃣ 結果
 言わずもがであるが、改良版(DD+NO法)による活性空間構築法を選択している。ただし、次のような注釈も付け加えられている:DD+NO 法の収束は速いが、数百の軌道基底では、困難になる相関計算が必要となる。また、DD 法と DD+NO 法は相互に排他的でなく、補完的なアプローチとして使用できる。例えば、DD 法を使用して占有軌道をランク付けし、関連する仮想軌道の部分集合を特定し、その後 DD+ NO法で処理できる。

(2)量子回路簡素化手法
 使える量子ハードウェアがNISQであれば、量子化学計算に用いるアルゴリズムはVQE(変分量子アイゲンソルバー)になる。そしてVQEなので、基底状態の波動関数と基底状態のエネルギー、を求めることがゴールとなる。
 まずは、VQEに用いるアンザッツ(パラメータ化量子回路)を生成する2種類のアルゴリズムについて、パフォーマンスを検討する(エンタングルメント・フォージングは、検討には、使われていない)。
0⃣ アンザッツの検討
 ①qUCCSD(量子化されたユニタリー結合クラスタ法)、②QCC(量子ビット結合クラスタ法)、の2つで比較した。結果として、QCCを選んでいる。理由は、qUCCSDは、正確である一方、深さがO(N4)の回路が必要であり、計算リソースが大きいためである。ここで、N は活性空間軌道の数である。あらためて整理すると、QCCに対して、回路簡素化手法を構築する。
[補 足]
① qUCCSDは、 演算子T − Tの指数関数をハートリー・フォック状態(HF状態)に適用することによってアンザッツを得る。Tは、占有スピン軌道から仮想スピン軌道までの一重励起と二重励起の線形結合。指数部分は鈴木・トロッター公式等で近似する。(IBMの)Qiskitで実装した。
② QCCは、 (順序付けされたパウリ演算子の組から、適切に選択した)パウリ演算子の指数関数をHF状態に適用することによってアンザッツを得る。本論文では、Qiskitで実装し、ノイズのない古典シミュレーター上でL_BFGS_B アルゴリズムを使用して、最適化した。
1⃣ 具体的な回路簡素化手法
 反復的なクリフォード変換に基づく、系統的かつ自動化された回路簡略化手法を導入した。具体的には、次のようなステップで実行される。
❶ 予備ステップとして、パウリ演算子 Pk が非自明に動作するように、たとえば右端の量子ビットに対して、Pk+1 よりも Pk を優先するように、レジスタ内の量子ビットを並べ替える。
❷ 次に、状態 exp(-iθ1P1)|ψHF⟩を C1U11)|0⟩として表す。ここで、C1はクリフォード変換である。
❸ C1を使用して、パウリ演算子Oの期待値の値を変更せずに、パウリ演算子 P2、…、Pm、および O に対して相似変換を実行する。Pk と O に相似変換を適用することにより、ハードウェア上で実行される量子回路からクリフォード変換 C1 を削除する。この削除のおかげで、アンザッツは深さが短く、ゲート数が少なくなる。
❹ 回路内の各パウリ演算子に対して、❷と❸を繰り返す。ステップ❹の終わりに、簡素化された回路が 1 つ以上の量子ビットに対して自明に動作するかどうかを判断し、そのような量子ビットが存在する場合には、計算から削除した。

【4】量子回路簡素化によってもたらされる定量的な結果
(1) 簡素化による削減結果
 反応物/生成物それぞれに対して、a)自然軌道の数(2,4,6,8,10)、b)選択したパウリ演算子の数(3若しくは25)、に応じて、㈠CNOTゲート、㈡回路深さ、㈢量子ビット、の削減幅を算出している。
 反応物と生成物の傾向は同じなので、生成物に絞る。例えば、a)6&b)25⇒㈠210→86、㈡336→81、㈢10→9。また、a)10&b)25⇒㈠396→72、㈡522→69、㈢18→13である。㈠と㈡は、かなり減っている(という印象)。

(2) 簡素化した量子回路で計算したエネルギー差の比較結果
 自然軌道の数が2並びに10の「DD+NO法」(本稿で言うところのベースラインの改良版)を基に、1⃣量子ハードウェア(H/W)及び、2⃣ノイズのない古典シミュレータでQCC計算を行った。計算結果は、生成物と反応物のエネルギー差である。QCCとの比較対象は、高精度なqUCCSDである。為参考(?)で、エンタングルメントフォージングを使って算出された結果も、併せて示されている。ちなみに、CCSDとCASCI(完全活性空間・配置間相互作用法)をベンチマークとして、qUCCSDを高精度と判定している。
1⃣ 量子H/Wを使った計算では、「回路簡素化手法」を適用して簡素化した、アンザッツを使用している。2個のパウリ演算子と、5個のパウリ演算子を使って、量子H/WでのQCC計算は行われた。自然軌道数2及び10のケースで、パウリ演算子2個のQCC計算結果は、qUCCSD計算結果と、ほぼ差がない。自然軌道数10のケースで、パウリ演算子5個のQCC計算結果とqUCCSD計算結果の差は、0.1eV程度ある。qUCCSD計算結果は(絶対値で)、2~3evなので、許容範囲と言えるだろうか。
2⃣ 古典シミュレータは50個のパウリ演算子を使って実行された。qUCCSD計算結果とは、およそ0.1~0.3eV(0.4eVに近い?)の差が生じている。2~3evに対しては、最大10%程度の差が出ていることになる。
[計算の補足]
 VQEは、COBYLA オプティマイザーを使用して、(ブリュアンゾーンの)各k点に対して計算を実行した。ハードウェアノイズを軽減するために、読み出しエラーの軽減と、量子誤り緩和策(ゼロノイズ外挿)を使用した。さらに、各 VQE 計算について、5 つの独立した試行を実行し、5 セットの最適化されたパラメーター構成を生成した。このような構成ごとに、2 点ゲートベースのゼロノイズ外挿を実行し、外挿結果の平均を採った。

【5】考察
(0) 古典と量子の比較をして、量子の高速性をアピールする内容ではない(だから、sound good👍という意味)。
(1) NISQで化学反応をシミュレートするという枠組み内で考えると、「活性空間を系統的に決定する手法と、低リソースで量子計算を実行できる工夫を考案した」という成果は、意義深いだろう。しかし古典手法(スパコンでのDFT計算、CCSDやCCSD(T))を置き換えるという話ではない。
(2) 「簡素化した量子回路で計算したエネルギー差の比較結果」によると、回路を簡素化しても量子H/Wでの結果は優れていて、(量子計算の)古典シミュレータの結果は芳しくない。量子H/Wの優位性をアピールしたかったのだろうか。

Appendix3 NISQの限界を実証したと解釈できる論文 
【0】はじめに
 インド工科大学マドラス校と印ITサービス企業タタ・コンサルタンシー・サービシズは、DNN-VQEアプローチについて、幅広く検討した論文[*A-8](以下、本論文)を発表した(23年12月4日)。DNN-VQEアプローチとは、計算精度(予測精度)を上げるために、VQE†1を深層学習(DNN)で支援したアプローチである(詳細は後述)。
 本論文では、NISQデバイス†2を含めて、DNN-VQEアプローチの評価が行われている。「NISQデバイスを使用して実行されるVQE の結果は、ノイズのない状態ベクトル・シミュレータや、古典コンピュータで得られた結果から大きく乖離することがよくある」ため、実機であるNISQデバイスを含めている。
†1 Variational Quantum Eigensolver:変分量子固有ソルバー法。ただし、和訳は数種類存在する。また、VQA(Variational Quantum Algorithm)と言ってもほぼ同じ意味。
†2 Noisy Intermediate-Scale Quantumデバイス。量子誤り訂正が施されていない「量子コンピュータ」。誤り訂正の代わりに、誤り軽減が適用される。

【1】本論文から導かれる結論 
(1) DNN-VQEアプローチは、VQEアプローチよりも、高い精度で予測できる。
(2) 誤り緩和策を使っても、NISQデバイスで予測できるのは、H2分子まで。

【2】事前整理
(1) DNN-VQE
 分子の結合距離とパラメータθで構成されるデータセットで、学習された深層ニューラルネットワーク(DNN)の出力θを、初期パラメータとして使用するVQEを、DNN-VQEという。ここで、θは特定の結合距離における分子の基底状態エネルギーを与えるパラメータである。本論文で扱う分子は、 H2及びLiHであるから、{H-H及びLi-Hの結合距離、θ}がデータセットとなる。学習済モデルは、学習データにはない結合距離における最適なパラメータを予測できる。
 本論文では、 2 つの異なるDNN-VQE、DNN1とDNNFを用いている。DNN1は、VQEで最適化されたパラメータと学習済DNNの出力を同一視する。つまり、学習済DNNが予測したパラメータθをそのまま使って、基底エネルギーを計算する(VQEは実行しないため、厳密に言えば、DNN-VQEという表現はおかしい)。DNNFは、学習済DNNが予測したパラメータθを初期パラメータとしてVQEを行なう、いわゆる普通のDNN-VQEである。通常のVQEは、ランダムな値を初期パラメータとして使用する。

(2) 結合クラスター法
 電子に対する平均場近似であるハートリー・フォック(HF)近似に、電子相関(HF波動関数と厳密な波動関数との差)を取り込む手法には、配置間相互作用法(CI法)、摂動法、結合クラスター法(Coupled Cluster:CC法)などがある。本論文では、CC法が取り上げられている。
 CC法は、HF基底配置から、励起配置を作る励起演算子を導入することで、電子相関を取り込むという戦略を採用する。CCD(Coupled Cluster Double.他にもあるが省略。以下、同。また、日本語では、2電子励起結合クラスターと呼ばれる)というCC法は、2励起演算子のみを、考慮する。CCSD( Coupled Cluster Single and Double)は、1励起演算子及び2励起演算子を考慮する。CCSD(T)は、 Coupled Cluster Singles, doubles and perturbative Triplesの略であり、CCSD計算の結果に、3電子励起の効果を、摂動的に加える。Tに付いている()は、一般的に用いられる()よりも、ちゃんとした意味を持っている。分かり辛いが、Tに付いている()は、「3電子励起の効果は、摂動的に取り込んだ」ことを意味している。故に、CCSDTも存在するし、CCSD[T]というCC法もある(が、説明省略)。
 精度はCCSD(T)が最も高いが、計算コストも高い。精度と計算コストのバランスを取ることは重要であり、CC法では、CCSD(T)が代表的手法(Gold Standard)と呼ばれている。本論文では、CCSD法が採用されている。

(3) アンザッツ及び、鈴木・トロッター分解
 VQEでは、アンザッツとよばれるパラメータ付き量子回路を導入し、古典的にパラメータを最適化することで、計算対象の基底エネルギーを求める。アンザッツは、参照波動関数と呼ばれる初期状態にユニタリー演算子を作用させることで構成することができる。CCSD法を採用した場合のアンザッツ、つまり 1励起演算子及び2励起演算子を考慮する場合のアンザッツは、2つの励起演算子を考慮したユニタリーCCSD演算子(UCCSD演算子)を参照波動関数に作用させることで構成できる。
 NISQデバイスも誤り耐性量子コンピュータも、ゲート形式量子コンピュータであるが、ゲート形式の量子コンピュータは、通常、1量子ゲートと2量子ゲートで構成される。従って、ゲート形式量子コンピュータを使用する場合、UCCSD演算子も1量子ゲートと2量子ゲートに分解する必要がある。この分解は、鈴木・トロッター近似を使用して実行される。鈴木・トロッター近似では、演算子の指数和が指数演算子の積に分解される。UCCSD 演算子を正確に分解するには、多数の近似次数(ステップ) が必要である。多数のステップは、量子回路の深さを、深くする。
 本論文には、以下の先行研究を引用している:小分子であれば、トロッター・ステップが1回であっても、基底状態エネルギーが正確に計算できる。本論文て扱う分子は、H2 やLiHのように小分子であるため、トロッター・ステップは1回を採用している。

(4) ジョルダン・ウィグナー(Jordan-Wigner)変換
 反対称性を考慮した多体量子系(多粒子系)の計算を、系統的かつ効率的に行うためには、第2量子化の手法は便利である。つまり、多電子系の電子状態を求める量子化学では、第2量子化の手法が有効である。ただし、第2量子化の基本要素である「消滅演算子及び、生成演算子」は、量子コンピューターで使用される量子ビット演算子(パウリ演算子)と、直接的に=何らかの「変換」を施すことなく、置き換えることはできない。消滅演算子及び、生成演算子をパウリ演算子に「変換」する手法は、ブラヴィ・キタエフ変換とジョルダン・ウィグナー変換等が存在するが、本論文では、最も単純と言われるジョルダン・ウィグナー変換を選択している。
 なお、ブラヴィ・キタエフ変換を使ったほうが、ハードウェア効率が高いことが知られている。つまり、量子ビット数やゲート数が少なくて済む。ただし、本論文では、ジョルダン・ウィグナー変換後に、パリティ・マッピングとZ2対称性を使用して、量子ビット数を減らしている。ちなみに、これらの変換を自動で行ってくれるPythonライブラリ(OpenFermion[例えば、*A-9])がある。

(5) Twirled Readout Error eXtinction(T-REX)誤り緩和策
 誤差を軽減した平均値を推定するために、測定回路と校正回路を追加することによって、測定ノイズを低減する、一般的かつ効果的な手法である[*A-10]。IBM発の量子コンピュータ用SDKであるQiskitに実装されている。
 測定直前にXゲートを介して量子ビットをランダムに反転させ、Xゲートが適用された場合は対応する測定ビットを反転させることにより、測定に関連するノイズチャネルを対角化することで測定誤差を低減する。対角化されたノイズ・チャネルからのリスケーリング項は、ゼロ状態で初期化されたランダム回路のベンチマークによって学習される。これにより、読み出しノイズに起因する期待値のバイアスを除去することができる[*A-11]。

【3】DNN-VQEの検証結果 
(0) セットアップ
1⃣ 計算環境 
❶ 状態ベクトル量子シミュレータ ⇒ ibmq_qasm_simulator
❷ NISQデバイス ⇒  ibm_brisbane(127量子ビット)
2⃣ ニューラルネットワーク環境 
❶ VQEのオプティマイザー → L-BFGS_B(Broyden-Fletcher-Goldfarb-Shannon Bound) 
❷ DNNのオプティマイザー → Adam 
❸ DNNの活性化関数 → ReLU 
❹ コスト関数 → 平均絶対パーセント誤差(MAPE) 
❺ 基底関数 → STO-3G 
❻ ショット数(量子回路の測定回数) → 4,000 

(1) 検証の概要
  グランドトルゥース(正解)は、古典コンピュータ上でCCSD法使い計算した結果である。評価指標は、基底エネルギー(の差)である。比較対象は、シミュレータ(ノイズなし、ノイズあり)とNISQデバイスを使って、実行されたVQE、DNN1、DNNFの結果である。H2は、結合距離0~3Åにわたり計算した。量子回路として、1量子ビット量子回路(深さ1)を選択している。LiHは、0.7~3.7Åにわたって計算した。量子回路は、6量子ビット量子回路(深さ482)である。
 VQEは、UCCSDアンザッツを使用している。シミュレータに取り込んだノイズは、NISQデバイスibm_brisbane のデバイス・ノイズである(今は、そういうことが、出来るようになっている[らしい])。

(2) 検証結果の詳細
1⃣ ノイズがない状態ベクトルシミュレータでの結果
❶ H2分子
 DNN1による基底状態エネルギーの予測値とグランドトルゥースとの差(偏差)は、結合距離に対して変動するが、変動幅は、1 × 10–7から 1 × 10–5ハートリーの範囲に収まっている。結合距離が伸びるにつれて、差は、横這い~やや減少傾向にある。DNNFの偏差は、VQEの偏差と区別がつかない程、同じである。結合距離に対して変動するが、変動幅は、1 × 10–10から 1 × 10–7ハートリーの範囲に収まっている。結合距離が伸びるにつれて、差は、減少傾向にある。
 3者の比較は、VQE≒DNNF>DNN1、である(VQEとDNNFの予測精度は同程度。DNNFは、DNN1より予測精度が高い)。ただ、VQE/DNNF/DNN1の全てで、偏差は許容できる。
❷ LiH分子
 DNN1の偏差は、変動幅は、1 × 10–6から 1 × 10–5ハートリーの範囲に収まっている。結合距離が伸びるにつれて、差は、減少傾向にある。DNNFの偏差と、VQEの偏差は、結合距離およそ3Å以上の範囲を除いて、同じである。変動幅は、1 × 10–10から 1 × 10–7ハートリーの範囲に収まっている。結合距離が伸びるにつれて、差は、減少傾向にある。
 比較は、VQE≒DNNF>DNN1、であり、偏差は全て許容できる。
2⃣ ノイズがある状態ベクトルシミュレータでの結果
 ノイズがある状態ベクトルシミュレータでの結果は、NISQデバイスでの結果と一致することは、示されている。
❶ H2分子
 DNN1と DNNFの偏差は、1 × 10–4から 1 × 10–2ハートリーだけズレている。VQEの偏差は、ほぼ1 × 10–1ハートリーだけズレている。この結果は、結合距離に、ほぼ依存しない。
 なおDNN1とDNNFとを比較した場合、結合距離の全範囲において、DNNFの精度が高い。その傾向は、結合距離が短いと顕著である。結合距離が長くなると、差は、ほぼない。また結合距離が長くなると、DNN1の偏差は、やや縮小する傾向がみられる。一方、DNNFでは、やや増大する傾向がみられる。
 また、まとめ的に3者を比較すると、DNNF≒DNN1>VQE、である。
❷ LiH分子
 DNN1、DNNF、VQEのいずれも、偏差は1.1~1.6ハートリーと大きくズレている。この差は、許容範囲を超えており、シミュレーション結果として使えない。細かくみることは、ほとんど意味がないが、結合距離が短い範囲ではDNNF≒VQE、長い範囲ではDNN1≒VQE、という傾向がみられる。
 本論文では、この原因は、量子ビット数の増加と、量子回路の深さが深くなったことにある(ことを実証している)。

[参 考] 計算時間
 T-REX誤り緩和策を用いた、ノイズありシミュレータでの計算時間を以下に示す[*A-12]。なお、結合距離によって計算時間が変わるので、値には幅がある。
1⃣ H2分子
❶ VQE → 15~34分 
❷ DNNF → 14~32分 
❸ DNN1 → およそ1分 
2⃣ LiH分子 
❶ VQE → 3~8日 
❷ DNNF → 3~6日 
❸ DNN1 → 23~26分 

【4】感想など・・・
(1) 本論文の趣旨は、DNN-VQEの検証。しかし、デバイス・ノイズが存在する実機である「NISQデバイス」での計算が、使い物にならないという衝撃が大き過ぎる。ノイズがありだと、水素分子以外は、使い物にならない。LiH分子では、量子誤り緩和策を適用しても、NISQデバイスは使えない。従って(ノイズがありで、水素分子の場合)、DNN-VQE>VQEであるものの、そのインパクトは、ほぼない(イメージ)。
(2) NISQデバイスでも有用ですよ!という趣旨の論文は、実際は、古典シミュレータの結果から判断している。実際どうなの?ということで、検証してみたら・・・案の定という結果。ノイズの影響を公平に比較するために、ノイズありシミュレータとノイズなしシミュレータで比較している。NISQデバイス=ノイズありシミュレータは、担保されている(実機固有のデバイス・ノイズをシミュレータに反映できる)。
(3) 直ぐに浮かぶ試行策は、以下のようなものだろう:㊀CCSD(T)を使ったらどうか。㊁トロッター・ステップを増やしたらどうか。㊂ブラヴィ・キタエフ変換を使ったらどうか。㊃誤り緩和策として、ZNEやPEC等を適用したらどうか。
(4) 各種試行しても、NISQデバイスでは、水素分子以外はダメとなったら、誤り耐性量子コンピュータを待つしかない、という結論だろうか。

Appendix4 忠実度1の量子回路は、確率的に探索可能と主張する論文
【0】はじめに
 ゲート方式の量子コンピュータで、忠実度=1を満たす最小の量子回路規模を、事前に知っておくことは、非常に価値がある。いわゆる、量子リソース推定という作業である。量子リソース推定はスパコンを使った量子シミュレーションによって行われるが、推定できるのは、量子ビット数が小さい場合に、現状、限られている。
 情報通信研究機構他[*A-13]の研究者は、量子ビット数が大きい場合でも、「忠実度=1の量子回路を探索する方法を構築」し、その手法の「有効性を実証した」と主張する論文[*A-14](以下、本論文)を発表した(24年5月6日@arXiv)。

【1】本論文の主張
 本論文は、以下を主張する:
(1) 量子ビット数nを与えた場合に、 忠実度=1を達成する最小CNOTゲート数を推定することができた。推定の対象は、状態準備とトランスパイルである。
(2) 忠実度=1を達成するために必要な最小CNOTゲート数を超えると、忠実度=1の量子回路の割合が急速に増加する。

【2】事前整理
(1) 状態準備 
 量子コンピュータにおいて任意の操作を行う(演算を実行させる)には、量子状態を作成する必要がある。量子実験のデータをそのまま量子コンピュータの入力として使用するような場合を除けば、入力データは古典状態にある。従って量子演算を実行するには、なんらかの量子操作が必要となる。この操作を、(初期)状態準備と呼ぶ。
 なお、量子複製不可能原理が存在するため、量子演算の場合、演算する度に状態準備が必要となる。量子計算は、演算速度は速いと目されている一方で、演算(を繰り返す)回数は多い。従って、状態準備にかかる計算コストが過大であると(=長い準備時間を要すると)、量子計算の魅力の一つとされる演算に要するトータル時間が、相対的に長くなってしまう。これが、いわゆるデータ・ローディング問題である。データ・ローディング問題のため、量子アルゴリズムは2次加速では不足で、指数加速が必要と考えられている。

(2) トランスパイル 
 量子演算におけるコンパイルは、しばしばトランスパイルと呼ばれる。本論文では、ユニタリー演算子の合成と呼ばれている。トランスパイルは、ユニバーサルゲート・セットの中から、特定の量子演算を実行する、量子ゲート・シークエンスを構築する手続きである。量子ゲート・シークエンスの構築は、特定の量子演算を、ユニタリー演算子で分解・再構築することと等価である。(基本的な)量子ゲート・シークエンスは、しばしば量子回路と呼ばれる。
 ユニバーサルゲート・セットは、一意に定まらない。特定の量子演算を実行する量子ゲート・シークエンスも、一意ではない。最も少ない量子ゲート数で、特定の量子演算を実行する、量子ゲートの組み合わせを見つけることが、トランスパイルの目的である。本論文では、ユニバーサルゲート・セット✒1として、{適当な1量子ビットゲート+CNOTゲート}を選択している✒2。CNOTゲートを選択した理由は、「CNOTゲートは、超伝導方式量子デバイスにとって、自然な2量子ビットゲート」であるため、とされている。
 なお、Bゲート✒3及び、トフォリ・ゲートについての議論は、割愛する。
✒1 ユニバーサルゲート・セットが実装されていれば、任意の量子計算が可能である。
✒2 ソロヴェイ・キタエフの定理より、適当な1量子ビットゲート+CNOTゲートは、ユニバーサルゲート・セットを構成する。
✒3 Bゲートは、次のように表される[*A-15]:exp(π/2・i/2・σ1xσ2x)・exp(π/4・i/2・σ1yσ2y) ここで、σ1xσ2xは、σxⓍσxを意味する(添え字yでも同じ意味)。σxは、パウリのx行列である。B ゲートを使用すると、CNOT ゲートよりも効率的に任意の 2 量子ビット ゲートを合成できることはよく知られている。しかし、B ゲートを実装する際の実験上の困難さは、B ゲートが提供する利点を上回る可能性がある、とも言われている。

(3) 忠実度 
 忠実度(fidelity)Fは、量子状態の類似度を表す指標である。状態準備の場合は、初期量子状態|0⟩にユニタリー演算子を作用させてた準備した量子状態と、ターゲット量子状態の類似度を表す。ターゲット状態は、機械学習の言葉を使えば、グランドトルゥースである。状態準備のFを式で表せば、
   F=tr[ρFU(T)ρ0U(T)]
となる。trはトレース。ρ0は、初期密度演算子(すべての量子ビットが状態|0⟩)である。ρFは、ターゲット量子状態を表す密度演算子である。U(T)は、量子回路によって生成されるユニタリー演算子(時間発展演算子)で、U(T)はU(T)のエルミート共役(一般にh.c.と略される)である。U(T)ρ0U(T)は、初期密度演算子が時間発展した密度演算子を表すから、
   F=tr[ρFρ(T)]
と表すこともできる。こちらの方が、見た目上、ユニタリー演算子合成の場合と平仄が合うかもしれない。
 ユニタリー演算子合成の場合は、
   F=|tr[UFU(T)]/2n|2
で表される。UFは、ターゲットとなるユニタリー演算子である。
 なお、Fは、1 − F < 10−8で1とみなされる。10−8が選択された理由は、この値を下回る F = 1 からの偏差が数値誤差に起因すると考えられるほど十分に小さいためである。

(4) 先行研究による知見 
  n 量子ビットを使って構成可能な全てのCNOT ゲートを考える。ユニタリー演算子の合成の場合、nが3から4に増加すると、ゲート構成の数は、約 1041倍増加する。このような超指数関数的な増加のため、「忠実度=1」を達成するCNOT ゲートを、総当たり方式で探索することは不可能である。ちなみに状態準備でも、nが6から7に増加すると、約 1045倍増加する。
 幸いなことに、構成可能なCNOTゲートの”わずか”20%を探索することで、忠実度=1で量子演算を実行できるCNOTゲートを見つけられることがわかった。この発見の重要な帰結は、CNOTゲートをランダムにいくつか作成して忠実度を調べる、という確率的なアプローチでも、忠実度=1を達成するCNOTゲートを見つけられるだろうという仮説である。☛本論文は、この仮説を検証している。

【3】本研究の結果 
(1) 最小CNOTゲート数Nminの推定 
 状態準備の場合、忠実度=1を達成する最小CNOTゲート数Nminは、⌈(2nー1ーn)/2⌉と推定される。ここで、nは量子ビット数、⌈x⌉は、 x以上である最小の整数を表す。ユニタリー演算子合成の場合は、⌈(4nー1ー3n)/4⌉と推定される。

(2) 状態準備 
 先の式を使うと、4 量子ビット(n = 4)の場合、忠実度= 1を達成するために必要な CNOT ゲートの最小数は Nmin = 6 と推定される。つまり⌈(24ー1ー4)/2⌉=⌈(16ー1ー4)/2⌉=⌈5.5⌉=6となる。Nmin = 6でも、量子回路の 8%は、忠実度= 1 である。N を増やすと、この確率は急激に増加し、Nmin = 10 では、量子回路の 94% が 忠実度 = 1 である。言い換えると、n = 4 かつNmin = 10 の量子回路を(乱数生成器を使って)ランダムに生成すると、量子回路は、ほぼ確実に(94%の確率で)忠実度が1である。ただし、1量子ビットの回転パラメータは、最適化済みとする✒4
 n=5の場合、Nminは、⌈(25ー1ー5)/2⌉=13となるが、ランダムな量子回路を100個作成しても、忠実度=1は実現できなかった! ただし、Nmin=14にすると、 量子回路の 13%で、忠実度= 1が達成された。つまり、推定値は1だけズレていた。この微妙なズレは、n ≥ 5 では常に発生し、n=6ではズレ1。n=7,8だとズレ2となる。
✒4 最適制御アルゴリズムである、GRAPE(Gradient Ascent Pulse Engineering)アルゴリズムの修正バージョンを使用して最適化されている。最適化手順は最大 105回繰り返される。忠実度が 1 − 10−12 を超えるか、103 回の反復で 10−12未満しか増加しない場合、アルゴリズムは早期終了する。

(3) ユニタリ演算子
 n=4の場合、忠実度= 1を達成するために必要な CNOT ゲートの最小数Nminは ⌈(44ー1ー3×4)/4⌉=⌈60.75⌉=61と推定される。しかし、ランダムな量子回路を100個作成しても、忠実度=1は実現できなかった!Nmin=62にすると4%、65にすると76%で忠実度=1が達成された。
 n=5の場合、Nminは ⌈(45ー1ー3×5)/4⌉=⌈252⌉=252であるが、259で初めて、忠実度=1が達成された。266では80%の量子回路で忠実度=1が達成された。

【4】考察 
(1) 本論文によると、状態準備の場合かつn=5の場合、1つのゲート配置に係る時間は約5分でゲート配置の数は1013である。1年は365日×24時間×60分なので、およそ5×105分である。ゲート配置にかかる時間(分)=5×1013を年換算すると、5×1013/(5×105)≃10=1億年となる。
 ユニタリー演算子合成の場合は、n=3でも、10×4.8×106/(5×105)=2×4.8×10≃100年かかる。n=4になると 60×1047/(5×105)=12×1042年となって、実際の意味はないほど大きな数字になる。
(2) 本論文の方法では、忠実度= 1を達成するために必要な CNOT ゲートの最小数がピッタリは算出されない(ズレが発生する!)。しかし、目安を与えるだけでも、十分意味がある。地味であるが、重要な研究成果だと思われる。

Appendix5 最初の量子優位性は、物性シミュレーションで観測されると予測した論文
【0】はじめに
 量子技術研究界隈は、人工知能研究(を襲った冬の時代)を他山の石[*A-16]とすべく、大言壮語を避け、合理的な予測を語り始めた。マイクロソフト・テクニカルフェロー兼量子部門バイスプレジデントMatthias Troyerが、「量子コンピュータが優位性を示せるのは『計算化学と材料科学』のみ」と該社公式ブログに投稿したのは、ほぼ1年前の23年5月1日であった(内容は、こちらを参照)。ここまで強い主張に対しては議論の余地ありだろうが、量子加速に関する研究が、「主に、暗号解読と量子化学の2つの分野に集中している」であれば、ほぼ肚落ちであろう。そこに一石を投じた研究が以下である。
 東京大学他[*A-17]の研究者は、「物性シミュレーションでは、暗号解読や量子化学よりも少ない物理量子ビット数で、量子優位性が発現する」と主張する論文[*A-18](以下、本論文)を発表した(24年4月29日@npj quantum information)。ちなみに、些細な誤植が若干存在する。

【1】本論文の主張
 本論文は、物性シミュレーションのお題¦P¦において、古典アルゴリズム¦C¦の実行時間と、量子アルゴリズム¦Q¦の実行時間を比較する。その上で、以下を主張する:¦Q¦の実行時間が、¦C¦の実行時間を下回る、物理量子ビット数は、105のオーダーである。もちろん、付帯条件¦S¦が付く。具体的な¦P¦¦C¦¦Q¦¦S¦の内容については、後述する(☛【3】(0))。
 いわゆる量子優位性が発現する規模(物理量子ビット数)を、量子化学で106、暗号解読で107とすれば、物性シミュレーション(¦P¦)で、量子優位性が真っ先に発現する、と結論付けている。量子化学の議論は”微妙”で、暗号解読の議論は”やや強引”と思われるが、結論は揺るがないだろう(☛【7】(1)及び(2)を参照)。

【2】事前整理
(0) ゲート複雑性⚔1
 特定の量子状態、またはユニタリー演算子を生成する⚔2ことが、どの程度複雑であるかを示す尺度である[*A-19]。従って、特定の量子状態、または特定のユニタリー演算子を生成する⚔2(再)ために、量子回路内で必要なプリミティブ量子ゲートの最小数によって与えられる。プリミティブ量子ゲートとは、入出力数が 1 または 2 となるゲートのことであり、量子回路の量子コストは、その構成に使われたプリミティブ量子ゲートの数である[*A-20]。
⚔1 量子回路複雑性とも呼ばれる。
⚔2 ある程度の誤差で近似する、でも良い。

(1) 古典アルゴリズム:テンソルネットワーク法 
0⃣ テンソルネットワーク法 
 テンソルネットワーク(TN)法の本質は、情報圧縮にある。TN法では、特異値分解(シュミット分解)を利用した、少数の”支配的な”特異値を抽出する。波動関数は、それら特異値に対応する基底関数を用いて、高精度に近似できる。量子状態は、当該基底関数を使って生成する縮約した密度演算子によって表現される。テンソルネットワークによる表現には、EPS(Entangled Plaquette State)やSBS(String Bond State)など、他にも沢山ある。
1⃣ DMRG( Density Matrix Renormalization Group:密度行列繰り込み群) 
 1次元系に最適と評価されるDMRGは、行列積状態(MPS)ベースの変分量子回路上で、変分最適化を実行する。縮約した密度演算子を使って基底状態のエネルギー期待値を表現し、変分法を使って(変分パラメータを最適化することによって)基底状態のエネルギー期待値を求める。縮約とは、テンソル間の積である。
 MPSは、1次元の境界則もつれ量子状態を効率的に捉えるように設計されているが、2次元系を含む、1次元を超える量子多体系にも適用できる。
2⃣ PEPS(Projected Entanglement Pair State)
 PEPSは、TPS(Tensor Product State:テンソル積状態)とも呼ばれる⚔3。ちなみに、PEPSに和訳はないと思われる。DMRGとPEPSの違いはMPSとTPSの違いである。つまり本質的には、1次元と2次元の違いに過ぎない。
 DMRGは、2次元系にも適用可能であるが、基底状態エネルギーの精度を(同一に)保ちながら、系の サイズを増やすと、計算コストが指数関数的に増加する可能性がある。PEPS の計算コストは、系のサイズが増加するにつれて、多項式に増加すると予想される。このため、系のサイズが大きい場合には DMRG よりも効率的になる可能性がある。逆に言うと、系のサイズが小さい場合には、DMRGが効率的であると考えられる。
⚔3 テンソルネットワークは、さまざまな物理系に対して、多くの研究者が独立して、発見を繰り返していることもあり、呼び名が様々あったりする。

(2) 量子アルゴリズムー量子位相推定法 
 量子位相推定法(Quantum Phase Estimation:QPE)は、ユニタリー演算子の固有値を効率的に推定できる量子アルゴリズムである。波動関数の時間発展をシミュレートし(ハミルトニアン・シミュレーション)、時間発展で生じる位相差を補助量子ビットに書き込む。この位相差を、逆量子フーリエ変換で読み出すことで、与えられたユニタリー演算子の固有値の位相ϕを取得するように設計されている。なお、QPEは、古典アルゴリズムに対して、「指数加速」が保証されている。ただし、この場合の古典アルゴリズムは、完全配置間相互作用法(Full-CI法)である。
 QPEをエンド・ツー・エンドで、ステップに分解すると、次のようになる:状態準備→ハミルトニアン・シミュレーション(制御されたユニタリー演算子のべき乗演算)→逆量子フーリエ変換→測定(及び位相推定)。量子操作の文脈で、”制御された(controlled)”とは、量子ビット(制御量子ビットと呼ばれる)が、特定の状態にある場合にのみ、当該(制御)量子ビットに操作を実施することを言う。

【3】本論文のオリジナリティ
(0) お題等の整理 
1⃣ ¦P¦ 
 本論文における物性シミュレーションとは、「強相関量子多体模型において、基底状態エネルギーを求めること」である。強相関量子多体模型は、2種類取り扱っている。❶2次元J1-J2ハイゼンベルグ模型と、❷2次元フェルミ・ハバード模型である。
 ❶は、2次元正方格子上の最近接サイトと次近接サイトの相互作用のみを考慮したモデル(反強磁性モデル)で、幾何学的フラストレーションの効果が表現されている。量子スピン液体相が発現すると期待されているモデルでもある。
 ❷は、量子物質における電子的・磁気的挙動の本質を捉えたフェルミオン模型の一つと評価されている。「電子が固体中を量子力学的に運動できるという効果と、電子間に非線型な反発力の相互作用が働いている効果だけをギリギリ取り入れた、いわば極小モデル」[*A-21]でありながら、超流動・超伝導、量子磁性など、さまざまな特徴を示す。極小モデルでありながら、2次元以上で、厳密解は得られていない。
2⃣ ¦C¦ 
 ¦P¦に適用する古典アルゴリズムは、テンソルネットワーク(TN)法である。計算アルゴリズムとしてのTN法は、特異値分解(シュミット分解)を利用した、少数の”支配的な”特異値による近似というアプローチを採用する。量子(多体)系への適用であれば、少数の”支配的な”特異値に対応する基底によって生成される密度演算子を使った期待値に対して、変分法を適用する。具体的には、㊀DMRGと㊁PEPSが適用されている。
3⃣ ¦Q¦ 
 QPEである。反復量子位相推定法やベイジアン量子位相推定法ではなく、逆量子フーリエ変換を用いる、正統的なQPEである。
4⃣ ¦S¦ 
 ㊀系のサイズ(格子サイズ)と㊁計算精度が限定された上での結論である。㊂状態準備と㊃測定の複雑性に関しては、ここでは、結論・頭出しだけ行う:他ステップの複雑性で抑えられる特定の物理系を対象とすることで、結果的に無視する。また、㊄古典計算には、高速化の余地が残されている。
㊀ 系のサイズNsite(格子サイズは、Nsite×Nsite)は、❶に対して{4,6,8,10,12}、❷に対して{4,6,8,10}が考慮されている。結論が導かれるサイズの上限は❶❷ともに、10×10まで❚補遺❚
㊁ 計算精度は0.01と設定されている。
㊂ 状態準備の複雑性に関する詳細は、【5】(2)を参照。
㊃ 測定の複雑性に関する詳細は、【7】(3)を参照。
㊄ 比較対象となる古典計算には、どこまでのチューンが許されるのだろうか。GPUも使い、CPUも複数使って並列化し、イン・メモリー計算を行い・・・というセットアップだと、本論文の結論は成立しない可能性がある。
❚補遺❚
 ❷に対して、厳密対角化の限界は20サイト前後で現れる。すなわち数値計算でも、近似なしでは、20サイト前後で限界が来る。本論文で考慮した格子サイズ{4,6,8,10}で言うと、6以上なら、6×6=36>20であり、近似あり数値計算が必要になる。つまり、格子サイズ10×10は、十分意味があることになる。

(1) 本論文のオリジナリティと論理構成 
 誤り耐性量子計算を前提に、量子アルゴリズムの実行時間をエンド・ツー・エンドで評価している。本論文での実行時間解析は、演算時間のみならず、状態準備に要する時間まで含めた”込み込み”時間を算出し、古典アルゴリズムと比較している。また演算時間(run time)も、いわゆるelapsed timeを使用している。elapsed timeとは、CPU稼働時間+CPU及びCPU以外の待機時間、であり、本当の run time と見做されている。日本語では、経過時間と訳される。
 状態準備に要する時間まで含めた古典アルゴリズムとの比較が実施されていなかった理由は、状態準備に要する時間の解析が難しかったからである。本論文では、特定の(強相関)量子多体模型では、状態準備を効率的に行える(要する時間を多項式時間で抑えられる)ことを、数値シミュレーションの結果として示すことで、この壁を越えている。ここが、本論文のキモである。
 本論文の論理構成は、次のようなものである:(強相関)量子多体模型に対して、古典アルゴリズムと量子アルゴリズムの実行時間が同程度になる模型サイズを求める。そして、その模型サイズに対応する物理量子ビット数を算出する。この物理量子ビット数が、105のオーダーであることを示し、量子化学計算や暗号解析に必要と見做されている物理量子ビット数よりも少ないことを確認する。
 物理量子ビット数の推定には、魔法状態工場の数や魔法状態工場の”床面積”も考慮されている(ので、最先端なのだろう。☛【6】参照)。

【4】古典アルゴリズムの実行時間解析 
 古典アルゴリズム(DMRGとPEPS)の実行時間は、実際にシミュレーションを実行して推定された。尚、GPUの使用及び複数CPUによる並列化は採用されていないが、採用すれば、高速化が可能であると推測されている(10倍程度の高速化を合理的に予想している)。
(1) DMRGシミュレーションの実行時間推定 
 シミュレーションのハードウェア実行環境は、以下の通り:東大のスパコン(CPUは、AMD EPYC 7702。4コア)を使用して、マルチスレッド並列化を実施。クロック周波数は、2.0GHz。ソフトウェア実行環境は、ITensor⚔4
 系のサイズNsiteと結合次元の最大値Dmax及び計算精度εによって、実行時間は異なる。計算精度εは、シミュレーションで得られる基底状態のエネルギー(以下、計算値)と、正確な基底状態のエネルギー(以下、厳密値)との差=エネルギー誤差、に対して設定される。
❶ J1-J2ハイゼンベルグ模型 
 この模型に現れるパラメータは、J1とJ2である。エネルギー誤差ε=0.01は、J1(=1)に対して定められている(ようである)。
 ㊀J1=1.0、J2=0.0、㊁J1=1.0、J2=0.5の場合が取り上げられている(㊁は量子スピン液体相の実現が期待されるモデルに相当する)。㊀㊁ともに、Nsite=10(つまり格子サイズは10×10)に対しては、Dmaxが3000と設定されており、経過時間は104秒オーダーと考えられる(㊀3.7、㊁7.9)。なお、Nsite=12及びDmax=2500では、経過時間は106秒オーダーと考えられる(㊀0.96、㊁1.3)。
❷ フェルミ・ハバード模型 
 この模型に現れるパラメータは、ホッピング係数tと、クーロン反発を表す係数Uである(一般的に、当該アルファベットが用いられる)。エネルギー誤差ε=0.01は、t(=1)に対して定められている(ようである)。
 ㊀t=1、U=1、㊁t=1、U=4、㊂t=1、U=8の場合が取り上げられている(が㊀は規模が小さいので割愛)。㊁㊂ともに、Nsite=10とすると、Dmaxは㊁4500、㊂5000と設定されている。経過時間は、㊁7.1×109秒、㊂3.7×108秒である。
⚔4 量子多体系を、テンソルネットワークを使って解析するためのツールを提供してくれる、C++ライブラリ。

(2) PEPSシミュレーションの実行時間推定 
 (厳密な)実行には、#P困難問題を解く必要があるなど、PEPSシミュレーションの実行時間推定は難しい。一方で、先述の通り、系のサイズが小さい場合は、DMRGの実行時間が短いと考えられる。それを利用して、PEPSの実行時間が考える必要がない小さいサイズを対象にしている、と考えられる。 念の為、環境だけ記しておく。シミュレーションのハードウェア実行環境は、以下の通り: 東大のスパコン(CPUはIntel Xeon Platinum 8280。28コア)を使用してマルチスレッド並列化を行った。クロック周波数は、2.7GHz。ソフトウェア実行環境は、 QUIMB⚔5
⚔5 量子多体系を、テンソルネットワークを使って解析するためのツールを提供してくれる、Pythonライブラリ

【5】量子アルゴリズムの実行時間解析 
(1) 問題の在処ー状態準備のコストが問題である 
 本論文では、QPEを3つのステップに分解し、それに併せて、QPEを実行する量子回路のゲート複雑性Cを3つの項に分解する:C ~ CSP+CHS+CQPE†。初項は、(量子)状態準備のコスト。次項は、制御されたハミルトニアン・シミュレーション⚔6のコスト。最後の項は、逆量子フーリエ変換⚔7のコストである。
 最後の項CQPE†はO(log(N))であり、最も複雑性が低いとして無視される。ここで、Nは、物理量子ビット数である。第2項も、多くの場合⚔8、 CHS = O(poly(N))として評価されるため、ひとまず無視される。
 本論文は、第2項及び第3項に比べて『第1項のCSPのスケーリングは、非自明である』として、その解析に全精力を注ぐ。
⚔6 所与のハミルトニアンHによる時間発展シミュレーションは、ハミルトニアン・シミュレーションと呼ばれる。つまり、exp(-iHt)で与えられるユニタリー時間発展演算子を使ったシミュレーションである(tは、時間変数)。
⚔7 量子フーリエ変換(QFT)・逆量子フーリエ変換を使わないQPE(ベイジアンQPE)も存在する。それは、「QFTは、多数のゲート操作が必要であるため、量子誤りの蓄積を惹起」し、「量子誤り訂正を施した誤り耐性量子コンピュータ(FTQC)でなければ実行できない(と考えられている)」ためである。つまりNISQマシン前提の議論である。ここでの議論は、FTQCが前提であるし、さらにQFTのコストが最も軽いので、QFTを使わないQPEという議論には意味がない。
⚔8 ハミルトニアンが疎であったり、局所的であったり、多項式で構成されている場合。

(2) 状態準備のコスト評価 
 本論文では、状態準備スキームとして一般的である、断熱状態準備(ASP)スキームを採用している。このスキームは、時間間隔tASPの時間発展を通して、基底状態を準備する決定論的方法である。具体的には、基底状態が、時間依存のシュレディンガー方程式によって、準備されるスキームである。
 まず、「物性問題で重要な基底状態の多くは、多項式コストで容易に準備できると広く信じられている」と身も蓋もないことを持ち出して来る。本論文では、J1-J2ハイゼンベルグ模型並びにフェルミ・ハバード模型に対し「数値的な発見」を使って、この広く信じられている”コンセンサス”の裏付けを取っている。これは、あくまで数値的な発見を使って得られた結論であって、理論的に導出された結論ではない(ことは、明記されている)。
 上記した「数値的な発見」とは、ハイゼンベルJ1-J2グモデルに対してtASPの数値計算を行い、tASPにおけるスケーリング則が成立していることを、発見したことを指している。少し具体的に言うと、スケーリング係数β≒1.5が、J1-J2ハイゼンベルグモデルにおけるtASPのスケーリングに対して正確な予測を与えていた。
 このスケーリング係数を真とすれば(正確にはβ<2であれば)、CSPはCHSを越えないと考えられる(らしい)。正確には、β<2であればO(Nβ/2) < O(N) ≤ O(poly(N))が言えるので、これを使って、CSP < CHSを主張していると考えられる。なおフェルミ・ハバード模型に対しては、β<2が明示されていないと思われるが、成立しているのだろう。

(3) 制御されたハミルトニアン・シミュレーションのコスト|準備 
 特定の強相関量子多体系では、状態準備のコストは支配的ではないことが、数値的な発見により示された。従って、残りは、制御されたハミルトニアン・シミュレーションのコストである。つまり、以降は、制御されたハミルトニアン・シミュレーションの量子リソース推定を細かく行うステージである。量子リソース推定を行う前提は、以下の通りである:ユニバーサルゲート・セットは、クリフォード・ゲート+Tゲート。量子誤り訂正符号は表面符号で、符号距離17~25(→21~25?)。論理演算は、ツイスト・ベースの格子手術⚔9に基づいて構築される。物理誤り率は10-3(標準的な設定値)。計算精度は10-2
 制御されたハミルトニアン・シミュレーションを実行するには、ユニタリー演算子のべき乗を計算する必要がある。教科書的に言うと、このべき乗計算には、鈴木・トロッター分解が使われる。本論文では、より新しい方法を含めた複数の手法を比べて、リソースを最も要しない手法を選択している。複数の手法とは、(ランダム化)トロッター積公式、qDRIFT、Taylorization法、qubitization法である(ここは、深堀しない)。また、この場合の量子リソースはTゲートの数である。
 いくつかの格子サイズにわたり、J1-J2ハイゼンベルグ模型(J1=1.0、J2=0.5)及びフェルミハバード模型(t=1、U=4)に対して、量子コンパイル(トランスパイル)を行い、Tゲートの数を計測した結果、qubitization法は最も、Tゲートの数が少なかった。qubitization法に対する和訳は、未だないと思われる(Taylorization法も同様)。
⚔9 格子手術は、誤り耐性量子コンピュータでマルチ量子ビットの論理演算を効率的に実現するための、最も有望な戦略であることが知られている。格子手術では、マルチ論理量子ビットの論理パウリ測定は、対応するブロックを適切な円周で接続することによって実現され、すべての論理クリフォード演算は、格子手術と論理アダマールおよび位相ゲートを使用した論理測定を介して、実行される。

(4) 制御されたハミルトニアン・シミュレーションのコスト|実行時間の評価 
 適切な実行時間の見積もりは、ハードウェア構成⚔10とコンパイル設定に大きく依存する。妥当なコストで実際の実行時間を推定するには、2 つの方法がある: ヒューリスティックな方法と、シミュレーションを用いる方法である。前者は、TカウントやT深さ⚔11等の重要なパラメーターからヒューリスティックに実行時間を推定する方法。後者は、誤り耐性量子コンピューターのソフトウェア・シミュレーションを使用して、実行時間を計算する方法である。本論文では、後者つまり、シミュレーションを用いる方法が採用されている。
 格子手術演算用に論理量子ビットを再配置した量子回路に対して、シミュレーションを実行し、実行時間解析を行った⚔12。その結果は、格子サイズ10×10のJ1-J2ハイゼンベルグ模型及びフェルミ・ハバード模型で、経過時間(elapsed time)は、概ね10-4秒である。
⚔10 量子モダリティによって、大きく変わることは、容易に理解できる。
⚔11 Tカウントは、文字通りTゲートの数。T深さは、並列化可能なTゲートをグループと見做した時の、グループの数である。
⚔12 格子手術演算には、ターゲット論理量子ビットを接続する補助論理量子ビット セルが必要であるため、格子手術演算のスループットは、論理量子ビットの割り当てや、補助量子ビット・パスの配線などのトポロジ上の制約によって決まる。

【6】物理量子ビット数の評価 
 qubitization法を使ってTゲートの数を絞り、さらに格子手術用に論理量子ビットを再配置した量子回路を対象に物理量子ビット数の評価を行う。論理量子ビットの数をO(102)、魔法状態工場⚔13の数をO(1)、符号距離を≃20とする。さらに、本論文で行われている通り、魔法状態工場の床面積を176とすれば、物理量子ビット数はO(105)となる。
⚔13 Eastin-Knillの定理より、量子誤り訂正符号はユニバーサルゲート・セット(本論文の場合は、Tゲート)を、トランスバーサルに実装できない。表面符号も例外ではない。表面符号で符号化した論理量子ビットにTゲート操作(非クリフォード演算)を行うためには、「魔法状態」を量子テレポーテーション回路を用いて、量子ゲート・テレポーテーションを実行する必要がある。この「魔法状態」の準備を繰り返すためだけに、量子ビット平面割り当てられた領域を、魔法状態工場と呼ぶ。
 なお、トランスバーサルとは、物理量子誤りが論理量子誤りに広がらない(あるいは、「量子誤りが、量子回路全体に、制御不能に拡散しない」)という意味である。

【7】考察 
(1) 暗号解読の議論について 
 暗号解読について、大規模×短時間であれば、2,000万量子ビット×8時間で2048ビットのRSA暗号(RSA2048)を解読できるらしい[*A-22]。小規模×長時間であれば、1万量子ビット×104日間でRSA2048を解読できるらしい[*A-23]。もちろん、2,000万、8時間、1万、104日という数字は、丸めた数字である。
 さて、暗号解読の量子優位性は、量子アルゴリズムが、2048ビットのRSA2048を古典アルゴリズムよりも速く解読できるという意味になる。スパコンでRSA2048を解読するのに108年かかるらしい[*A-24]。本論文のロジックと平仄を併せると、比較すべきは、8時間でRSA2048を解読できる古典アルゴリズムである。そんな古典アルゴリズムは存在しないから、それ自体は無理である。一方、1万量子ビット×104日間と比較することは、可能である。つまり、2,000万~107ではなく、少なくとも1万=104量子ビットで量子優位性が発揮される!そうすると、物性シミュレーションが最初に量子優位性を発現するという結果が覆る。しかし、それだと、104量子ビットだと104日=103時間もかかるため、「物性シミュレーションが『数時間で』量子優位性発現」と平仄が合わない。
 『数時間』に相当する107と比較するのが妥当とも言えないが、無理やり外挿して105量子ビットに対応する時間を求めても、102時間を要するから、物性シミュレーションが最初に量子優位性を発現すると言っても良いのだろう。

(2) 量子化学との比較について 
1⃣ 本論文において量子化学計算に必要とされている物理量子ビット数106については、一先ず深堀しない。本論文で扱った物性シミュレーションに必要な物理量子ビット数が、量子化学計算のそれより少ないことに、違和感はないと思われる。本論文で取り上げている量子多体模型は、シンプルなミニマム・モデルである。シンプルでミニマムであるにも関わらず、豊かな表現力を有するという、まさに物理好みのモデルである。故に、状態準備コストが小さいという結論にも、驚きはないだろう。
2⃣ ただし、その分、商業的価値は量子化学計算に劣るであろう。J1-J2ハイゼンベルグ模型は、量子スピン液体相を議論するには有用であろうが、商業的な価値を有する材料を作り出すモデルとはならないだろう。
3⃣ 本論文でも言及されている通り、計算環境次第で、古典アルゴリズムはずっと速くなるだろう。そうなると、量子優位性が発現する問題のサイズ(格子のサイズ)は、大きくならざるを得ない。そうすると、量子化学に必要な物理量子ビット数106に近接して、結論が微妙になるかもしれない。もっとも、古典計算の実行環境をバキバキにチューンする影響は、量子化学にとっても同様に作用するはずだから、順番自体に影響はないのかもしれない・・・
4⃣ ちなみに、量子化学計算に量子位相差推定法を使った場合、物理量子ビット数106は、どういう影響を受けるのであろうか?
5⃣ 量子化学計算と言っても、カバー範囲は広い。337頁に及ぶ量子アルゴリズムに関する広範なレビュー論文[*A-25]によると、必要と考えられる論理量子ビット数は、FeMo-Co⚔14で200~2000程度。200とすれば、物性シミュレーションの論理量子ビット数と変わらない。シトクロームP450⚔15、クロム2量体、ルテニウム触媒⚔16、イブルチニブ⚔17で103なので、物理量子ビット数は106ということになる。リチウムイオン電池材料や遷移金属触媒だと、おおよそ104~105なので、物理量子ビット数は107~108ということになるだろう。
⚔14 大気中の窒素分子を、プロトン存在下で還元してアンモニアに変換する酵素ニトロゲナーゼの代表的な活性中心。
⚔15 一般的に、肝臓において解毒を行う酵素として知られている。
⚔16 様々な化学反応に用いられる触媒。例:医薬品の合成、アンモニア合成及びアンモニア(の窒素への)分解、NOx等の排ガス浄化、燃料電池電極など。
⚔17 B細胞性腫瘍の治療に用いられる、経口投与可能な抗がん剤。経口投与可能=低分子=必要な量子ビット数が少なくて済む。B細胞性腫瘍 ∊ 非ホジキンリンパ腫 ∊ 悪性リンパ腫。

(3) 測定(の複雑性)に関して
 【2】(2)で分解したQPEのステップは、状態準備、ハミルトニアン・シミュレーション、逆量子フーリエ変換、測定の4つであった。エンド・ツー・エンドを謳うのであれば、測定のコストも明示すべきである。結果だけ述べると、このコストはO(1/γ・1/ε)で与えられる。ここでγ=|⟨ψiniexact⟩|。|ψini⟩は準備した初期状態、|ψexact⟩は厳密な量子状態(波動関数)。すなわちγは、「厳密な量子状態」に対する「準備した初期状態」の一致度である。εは計算精度である。つまり、Nには依存しない。γ≃1、ε=0.01としてO(102)となる(し、その結果、無視できる)。
 ただし、これはポスト・セレクション⚔18が効率的に行えることが前提であろう。そして、本論文で扱われた強相関量子多体模型❶及び❷は、該当するという理解で良いのだろう。いずれにしても、状態準備と併せて、「105オーダーの物理量子ビット数で、量子優位性が発現」という結論の成立は、特定の物理系に限定されるということになるのであろう。
 なお、イコール・フッティングという意味で述べると、量子化学計算にも、状態準備と測定の議論は必要となる。状態準備と測定を考慮すると、106は、益々限定的であろう。それどころか、エンド・ツー・エンドだと、現実的でない可能性もあるだろう。
⚔18 誤差のある測定結果を優先的に拒否し、誤差の少ない測定結果の部分を特定すること。

(4) 物性シミュレーション以外の物理的アプリケーションについて 
 為念・・・[*A-26]は、量子化学計算のQPE適用先として、固有振動数解析を提案している論文である。解析対象は、1次元に配置された質点が、バネでつながれた物理系である。量子演算を行う前提を『表面符号、符号距離23~27、格子手術に基づく論理演算、物理誤り率10-3、計算精度10-2』と設定した場合、質点数が{32,64}というサイズで、物理量子ビット数は105オーダーになる(と推定されている)。先にあげた前提『・』は、本論文の前提と"全く"同じである(qubitization法が採用されている点も同じ)。なお、質点数が128になると、物理量子ビット数は106オーダーになる(と推定されている)。

(5) 古典アルゴリズムについて 
 本論文で採用されている古典アルゴリズム「テンソルネットワーク法」の代替え手段としては、制限付きボルツマン・マシンが考えられるが、結論に影響は与えないだろう。

Appendix 6 テンソルネットワークを使ってLLMを、上手く圧縮した主張する論文
【0】はじめに
 大規模言語モデル等のバックボーンである生成AIモデルは、莫大なエネルギーを消費することが問題視されている。ChatGPT-3 の(事前)学習には電気代だけで、推定1億ドルを要する(とOpenAIのCEOが語ったらしい)。さらに、モデルの学習にかかるコストは10 か月ごとに倍増すると予測されている(らしい)。この問題解決につながる研究成果を、西マルチバース・コンピューティング他[*A-27]の研究者が示した。具体的に言うと、「テンソルネットワークを利用することで、正解率(accuracy)を保ったまま、大規模言語モデル(LLM)のサイズ等を大幅に圧縮できた」と主張する論文[*A-28](以下、本論文)を発表した(24年5月13日@arXiv)。☛正確な意味は【1】を参照。なお本論文の成果は、量子LLMでもなく、量子インスパイアードLLMでもない。あくまで古典の範疇に留まる(故にAppendix)。
 この成果に対して、マルチバースは「AI-BOOST†1による大規模 AI グランド・チャレンジにおいて、(マルチバースの成果を適用することで大幅に圧縮されることが期待される)LLM構築に、スパコンを使用する時間80万時間を獲得した」と発表した(24年6月27日)[*A-29]。最低300億個のパラメータを持つ大規模LLMを開発する。
†1 AI-BOOSTは、欧州の人工知能(AI)コミュニティのベンチマークとなるよう設計された、オープン チャレンジ・プログラム。AI-BOOST の全体的な目的は、EU および関連諸国全体から才能ある人材を集め、AI の科学的進歩を推進することである。

【1】本論文の主張
 本論文は、以下を主張する:
(1) テンソルネットワーク(TN)と量子化†2を組み合わせることで、LLMのサイズ等を大幅に圧縮した。
(2) (1)のサイズ等を大幅に圧縮したLLM(以下、本論文LLMと呼称)は、
   ⓵ 学習時間を、50%高速化
   ⓶ 推論時間を、25%高速化
する。
 TNとは、具体的には、行列積演算子(Matrix Product Operator:MPO)である。LLMは、具体的には、米メタが開発したLlama-2 7Bである(☛【2】を参照)。サイズ等の(大幅な)圧縮とは、以下⓷及び⓸を意味している。
   ⓷ メモリサイズを、93%削減
   ⓸ パラメータ数を、70%削減
(3) LLMのサイズ等を大幅に圧縮した一方、正解率の低下は、⓹2~3%に抑えられた。
 なお、⓵及び⓶は、⓷及び⓸により、GPU-CPU転送時間が大幅に短縮されるために生じる(と説明されている)。
†2 深層学習の文脈における量子化とは、モデルの軽量化を目的として、計算機上で高精度表現されている数値を、低精度の数値で置き換えることを言う。とびとびの離散的な値しか取らない、前期量子論における”量子化”概念を踏襲している。現状一般的に使われる、古典⇆量子の意味での、量子化とは異なる。

【2】事前整理
(1) Llama及び他LLMのパラメータ数 
 Llamaは、米メタが開発したLLMであり、オープンソースでところに、他LLMとの違いがある。Llama-2は、Llamaの第2世代である。2 兆を超えるトークンで事前学習されており、コンテキストの長さは 4096、100 万を超える人間の注釈による再学習が行われている。Llama-2には、パラメータ数が異なる3つのサブ・モデルが存在する。パラメータ数70億のLlama-2がLlama-2 7Bである(つまり最軽量モデル)。他には、パラメータ数130億の13Bと、700億の70Bがある。最新のLlamaはLlama-3で24年4月に公開された(パラメータ数は80億と700億)。
 参考までに、GPT-4のパラメータ数は5,000億~1兆と推測されている。NTTのtsuzumiは6億と70億、PFN(プリファード・ネットワークス)のPLaMo-13Bは130億と公表されている。ソフトバンクは、3,500億パラメータのLLMを開発する意向と報道されている。なお、サカナAIは、自社開発したパラメータ70億のLLMが、パラメータ数700億のLLMを凌駕したことを発表している†3
†3 https://sakana.ai/evolutionary-model-merge-jp/ 

(2) LLM用ベンチマーク 
1⃣ MMLU 
 MMLU=Massive Multi-task Language Understanding(マルチタスク言語理解ベンチマーク)。カリフォルニア大学バークレー校、コロンビア大学、シカゴ大学、イリノイ大学アーバナ・シャンペーン校の研究者が開発した(2021年1月12日@arXiv[*A-30])。MMLU は、法律、医学、物理学など幅広い領域にまたがる 57 個のタスク、計 17,844 問の 4 択問題で構成されている[*A-31]。
2⃣  HellaSwag 
 HellaSwag は常識推論用のベンチマークで、ワシントン州立大学とアレン人工知能研究所の研究者が開発した(2019年5月19日@arXiv[*A-32])。アレンとは、マイクロソフト共同創業者のポール・アレンのことであり、ワシントン州立大学はポール・アレンの母校(ただし、2年で中退)。機械(コンピューター)に常識を理解させることの難しさは、昔から有名である。[*A-32]には、「人にとっては自明な(正解率†495%超)常識問題でも、機械(人工知能)にとっては-それが例え最先端の人工知能であったとしても-正解率は48%未満に過ぎない、と書かれている。
3⃣ BoolQ 
 BoolQは、NQ†5から派生した自然な yes/no 質問に焦点を当てたQAデータセット。BoolQは NQ より仕様を簡単化しており、yes/no のどちらかの答えをもつ質問文のみを採用し、文書全体ではなく 1 つの段落を質問文とペアにしている。non-factoid†6な質問文が多く含まれており、解くために多様な推論能力が必要とされる[*A-33]。ワシントン大学とグーグルの研究者が開発した(2019年5月24日@arXiv[*A-34])。
4⃣ TriviaQA 
 TriviaQA は、クイズ問題集の Web サイトから収集されたクイズ問題に Web ページやWikipedia 記事を文書として付与した、読解型 QA のデータセットである[*A-35]。常識的推論(HellaSwag)と同じく、ワシントン州立大学とアレン人工知能研究所の研究者が開発したベンチマーク(2017年5月13日@arXiv[*A-36])である。
5⃣ GSM8K 
 GSM8K は、高品質かつ言語的に多様な小学校レベルの算数文章問題8,500問で構成されるデータセット。オープンAIの研究者によって開発されたベンチマークである(2021年11月18日@arXiv[*A-37])。
†4 正解率と訳した原語はaccuracy。
†5 NQ(Natural Questions)とは、人間の情報欲求から自然発生する質問からなるQAデータセット。
†6 non-factoid 型質問:理由や事象の説明に基づく正答を求める質問。factoid 型質問:名称や日付け・数値など事実に基づく正答を求める質問。出所:http://unicorn.ike.tottori-u.ac.jp/2008/s052014/paper/graduation-thesis/node16.html

【3】本論文の研究フロー
(0) 前説 
1⃣ 概要
 本論文では、以下の3ステップを踏んで、本論文LLMを開発した:
㊀ ニューラルネットワーク・モデルにおける重み行列をMPOで置き換える。
㊁ MPOによる圧縮と量子化を併せて、 圧縮LLMを構築する。
㊂ 圧縮LLMを、数回再学習する。
2⃣ 特異値分解とMPO
 Llama-2 7Bの主な構成要素は 32 個のアテンション・ブロックである。各アテンション・ブロックは 4 つのマルチ・ヘッド・アテンション層と 3 つのMLP層で構成されている。MPOで置き換える重み行列とは、(モデルアーキテクチャ的には、トランスフォーマーでしかないLlamaの)デコーダー・ブロック内の自己注意(セルフ・アテンション)層及び、多層パーセプトロン(MLP)層の、重み行列である。
 難しいことはさて置き、ザックリ言うとMPOとは、すなわち行列の効率的な表現である。そしてMPOを決定するプロセスでは、特異値分解(SVD)を使用する。SVDは、処理対象とする行列の「値が大きい、固有値」を抽出する手段である。主成分分析の主成分(第一主成分、第二主成分)を抽出することと本質的には同じである。各重み行列に対して、連続的に特異値分解(SVD)を実行し、各 SVD で最大の結合次元のみを保持する。この結合次元の切り捨てにより、特定の層内のモデル・パラメーター間の相関関係が、最も関連性の高い相関関係だけに、効果的に切り捨てられる。

(1) ㊀→MPO 
1⃣ 感度分析 
 アテンション・ブロックの位置に応じて、MPOで置き換えるシミュレーションを行った結果から、以下を推奨している:シミュレーションにおけるブロック位置は、0~31の中から、0,5,15,31を選択した。シミュレーションの結果、位置に応じてMPO置き換えに対する”感度”が異なることがわかった。感度が異なるとは、タスク†7において、MPO置き換えに対する正解率(accuracy)の変化が異なるという意味である。具体的には、ブロックの先頭及び前半(0及び5)はMPO置き換えに敏感であり、ブロックの中間及び後半(15及び31)では感度が低下した。
†7 タスクとしては、MMLU(Massive Multi-task Language Understanding:大規模マルチタスク言語理解)を採用している。☛【4】(0)を参照。
2⃣ 小括 
 結論として、先頭及び前半の置き換えは50% 未満にすることを推奨している。一方、中間及び後半では90%まで置き換え可能としている。さらに、MLP層は極めて敏感であり、MPOへの置き換えから除外することを推奨している。
3⃣ パラメータ数の削減割合の試算 
 32個のアテンションブロック前半16個の50%をMPOで置き換え→50%×16個=8個。後半16個の10%をMPOで置き換え→10%×16個=1.6個。(8+1.6)/32個=30%。これをもって、パラメータ数70%削減としているのだろうが、正確には成立していないと思われる。 

(2) ㊁→量子化 
 オリジナルのLlama-2 7Bは、float-32、つまり32ビットの浮動小数点数である。本論文では、これに対して4種類の量子化を試行している。具体的に言うと、❶float-32→int-8、❷float-32→int-4、❸float-32→float-16、❹float-32→「ミックス」である。❶及び❷の量子化モデルは、bitsandbytes†8量子化ライブラリ(フレームワーク)を使用した。本論文LLMは、「重み行列のMPOによる置き換え+❹の量子化」を行って、⓵~⓹(☛【1】参照)を達成している。
 int-8(int-4)とは8ビット(4ビット)の整数である。 float-16は、16ビットの浮動小数点数。「ミックス」では、MPOで置き換えた層に対してはfloat-32→float-16を適用し、 MPOで置き換えなかった層に対しては float-32→int-4を適用する。
†8 量子化ライブラリ(フレームワーク)は、bitsandbytesとautoGPTQの2つがメジャーらしい。後者は、「量子化に学習データを要する一方で、高速化できる」。前者は、「データ不要(なので手軽)」らしい(参照:https://blog.shikoan.com/minigpt4-autogptq-quality/)。

(3) ㊂→再学習 
 圧縮LLMの構築後には、(数回の)再学習が不可欠である。その理由を本論文では次のように説明している:「TNアルゴリズムのいわゆる”単純な更新”に似た、ローカルな層ごとの MPO への切り捨ては、特定の層の重み行列を切り捨てるときに、他の層の影響が明示的に考慮されないという意味で、一般に最適ではない可能性があるためである」。ただ、この再学習は、モデル パラメータ数が大幅に少ないため、元モデルの学習よりもはるかに効率的である。故に、再学習を行っても本論文LLMは、サイズ等の大幅な圧縮が可能とされている。
 なお、再学習†9には、Ultrachat†10、Alpaca†11、OpenHermess†12 などの汎用チャット・データセットが使用された。
†9 healingという再学習手法を使用したらしい。再学習の詳細は(意図的に?)明らかにされていない。
†10 Ultrachatは、ChatGPT Turbo APIを利用した、オープンソースの大規模・多ラウンド対話データセットらしい(出所https://note.com/npaka/n/nf71d2eb2fb25)。
†11 Alpacaデータセットは、Alpaca 7Bの再学習に用いられたデータセット(らしい)。Alpaca 7Bは、米スタンフォード大学の研究者が、LLaMA 7Bモデルを再学習したモデルである。出所: https://crfm.stanford.edu/2023/03/13/alpaca.html。
†12 詳細不明。

【4】検証結果 
(1) 概要 
 ⓪オリジナルのLlama-2 7B、①MPOによる重き行列の置き換え+量子化❶、②MPO+❷、③MPO+❸、④MPO+❹=本論文LLM、が比較検証される。
1⃣ 指標 
 比較検証に用いられた指標は、正解率(accuracy)と学習時間及び推論時間である。 
2⃣ タスク 
 正解率に関しては、以下5つのタスクに対して検証を行った:言語理解(MMLU)、常識的推論(HellaSwag)、読解(BoolQ)、世界知識(TriviaQA)、数学(GSM8K)。学習時間に関しては、 MMLUに対してのみ比較検証を行った。推論時間は、5つのタスクに対して行った。

(2) 結果 
1⃣ 正解率 
 5つのタスク全てに対して、正解率は⓪>①>②>③>④である。世界知識で、差(⓪~④)が最も小さく(グラフの目視で1%程度か)、 数学で差が最も大きい(グラフの目視で3~4%)。
2⃣ 時間 
 学習時間は、⓪~②が20分。③及び④が11分程度なので、⓪→④で50%高速化としている(正確には、45%程度か)。
 推論時間の結果は、やや複雑である。まず定性的に言うと、3つのグループに分かれて、②が最も悪く(時間がかかる)、⓪と①は同程度で、③と④が速い。タスク別に言うと、 HellaSwag 以外の全てで、 ④>③>①>⓪>②。HellaSwagのみ③>④>⓪>①>②、である。定量的に言うと、②は1.1~1.2ミリ秒。⓪及び①は、概ね1ミリ秒を下回る程度。③及び④は、概ね0.7ミリ秒程度である。この結果から、推論時間については、⓪→④で25%高速化としている。

【5】考察 
(1) 本論文の駆動力は、次の2つと推量される。
1⃣ 枝刈り、知識蒸留🐾1、低ランク近似などの従来の”圧縮方法”は、ネットワーク内の有効なニューロン数を減らすことに重点を置いている。また、量子化は、ニューロン数を固定したまま、モデルサイズを縮小するために個々の重みの数値精度を下げることに重点を置いている。これらの”圧縮方法”は実際には比較的成功しているが、ニューロン数を切り捨てることが最適な戦略であると信じる説得力のある理由はない。
🐾1 学習済みモデルの予測結果を学習目標として、他のモデルを学習させる手法。蒸留を使うことで大きなデータセットを大きなモデルで学習し、その結果を小さなモデルに移すことが可能となる。出所:https://xtech.nikkei.com/atcl/nxt/mag/rob/18/00007/00040/
2⃣ 標準的な LLM は、実際には過剰にパラメータ化されている(と考えられている)。つまり、パラメータ数を増やせば増やすほど性能が高まる、というわけではない可能性がある。
 その上で、
3⃣ 本質的に重要である小数の物理量で記述できるであろう現実的な物理系では、比較的少数の特異値のみを考慮して縮約したテンソルが、十分に良い近似となっていることが知られている。
ので、LLMの重み行列をテンソルネットワークを使って、(試しに)情報圧縮してみた。本論文は、そういうことであろう。なぜ大幅圧縮できたか?は、結果的に、「2⃣標準的な LLM は実際には過度にパラメータ化されている」ことを是とすれば、説明できるのだろう。

(2) もっとも、サカナAIは、パラメータ数を1/10(700億を70億)にしても、性能が落ちるどころか、むしろ凌駕すると言っている。それに比べれば、本論文LLMは、「⓸パラメータ数70%減で、⓹正解率2~3%落ち」であり、「若干ショボく」感じる。
 ついでに【1】の⓵~⓹について評価すると、以下のようになるであろう:⓵は、やや誇張。⓶は、誇張なし。⓷は、定量的な証拠は示されていない。⓸は、誇張あり。⓹は、誇張なし。→さらにショボい? 
👉 別の評価軸-例えば、作話(confabulation。一般的には、ハルシネ-ションと呼ばれる)について、本論文LLMとサカナAIのLLMでは、どうなっているのだろうか? 

(3) ちなみに、スイスの"総合"量子スタートアップであるテラ・クォンタム(TQ)も、LLM圧縮に関する論文[*A-38]を発表している(24年1月29日@arXiv)。こちらも、重み行列を圧縮するが、手法は「一捻りを加えた」クロネッカー分解である。TQの手法をGPT-2smallに適用したTQCompressedGPT-2は、パラメータ数を1億2400万個から、8100万個に減らした(!)。Wikitext-2、Wikitext-103、および Lambadaデータセットを使って、GPT-2small、KnGPT2🐾2、DistilGPT2🐾3と比較した。ただし、学習データ量が揃っているのはKnGPT2のみ。パープレキシティを指標として、KnGPT2とTQCompressedGPT-2とを比較すると、TQCompressedGPT-2が、1.71%~4.48%下回る(😓)。
🐾2 GPT-2をクロネッカー分解したモデルらしい。
🐾3 知識蒸留したGPT-2らしい。

(4) 本論文LLMを再現(自身でスクラッチから構築)しようとした場合、再学習の部分がネックとなるのだろう。

【尾註】
*A-1 https://www.riken.jp/pr/news/2021/20211215_3/index.html
*A-2 https://hbr.org/2013/10/special-forces-innovation-how-darpa-attacks-problems
*A-3 https://wellcomeleap.org 
*A-4 https://wellcomeleap.org/q4bio/ 
*A-5 PASQALは、仏Qubit Pharmaceutical(及びユニタリーファンド)と協業するようである。Qubit Pharmaceuticalは、現状スパコン上で稼働している創薬プラットフォームをNISQ、FTQCへとデプロイしていく意向。
*A-6 Tanvi P. Gujarati et al.、Quantum computation of reactions on surfaces using local embedding、https://www.nature.com/articles/s41534-023-00753-1
*A-7 npj Quantum Informationで公開されたのが23年9月12日。arXivには22年4月7日(第2版、第1版は3月14日)に公開されている。
*A-8 Kalpak Ghosh et al.、Deep Neural Network Assisted Quantum Chemistry Calculations on Quantum Computers、https://pubs.acs.org/doi/10.1021/acsomega.3c07364
*A-9 https://dojo.qulacs.org/ja/latest/notebooks/6.1_openfermion_basics.html
*A-10 https://arxiv.org/ftp/arxiv/papers/2304/2304.04516.pdf
*A-11 https://docs.quantum.ibm.com/run/configure-error-mitigation
*A-12 Supporting Information for Deep Neural Network Assisted Quantum Chemistry Calculations on Quantum Computers、https://pubs.acs.org/doi/suppl/10.1021/acsomega.3c07364/suppl_file/ao3c07364_si_001.pdf
*A-13 理研、東京理科大、東大。
*A-14 Sahel Ashhab et al.、Quantum circuit synthesis via a random combinatorial search、https://arxiv.org/pdf/2311.17298
*A-15 Jun Zhang et al.、Minimum construction of two-qubit quantum operations、https://arxiv.org/pdf/quant-ph/0312193
*A-16 人工知能(AI)研究に冬の時代があったことは、広く知られている。AIゴッドファーザーの一人、ヤン・ルカンは、NEC北米研究所に在籍していたが、NEC本社がAIに興味を失った(事業リストラで、それどころではなかった?)ため、NECを離れることとなった🛡1。NECに先見の明があれば、日本のAI風景は全く違っていたかもしれない。
🛡1 ヤン・ルカン、ディープラーニング 学習する機械 ヤン・ルカン、人工知能を語る、講談社サイエンティフィック、2021
*A-17 NTTコンピュータ&データサイエンス研究所、大阪大学。
*A-18 Nobuyuki Yoshiokaet al.、Hunting for quantum-classical crossover in condensed matter problems、https://www.nature.com/articles/s41534-024-00839-4#Sec12
*A-19 Johannes Aspman et al.、Robust Quantum Gate Complexity: Foundations、https://arxiv.org/pdf/2404.15828
*A-20 柴田心太郎、ゴミラインをもつ量子桁上げ伝播加算器回路の深さに関する最適化、https://www.st.nanzan-u.ac.jp/info/ma-thesis/2019/yokoyama/pdf/m18se012.pdf
*A-21 田崎晴明、Hubbard 模型の物理と数理、https://www.gakushuin.ac.jp/~881791/pdf/KBHubbard.pdf
*A-22 Craig Gidney et al.、How to factor 2048 bit RSA integers in 8 hours using 20 million noisy qubits、https://arxiv.org/pdf/1905.09749
 ちなみに、日本総合研究所の資料🛡2には、200万と書かれている(つまり誤植)。
🛡2 株式会社日本総合研究所先端技術ラボ、量子コンピュータの概説と動向~量子コンピューティング時代を見据えて~、2020年7月14日、https://www.jri.co.jp/MediaLibrary/file/column/opinion/pdf/11942.pdf
*A-23 23年1月、富士通の発表(https://pr.fujitsu.com/jp/news/2023/01/23.html)。ちなみに、21年9月に発表された別の論文(https://arxiv.org/pdf/2103.06159)では、13,436量子ビットで177日だったので、少し進歩している。
*A-24 https://www.zapata-ai.jp/post/quantum-cryptography-jp
*A-25 Alexander M. Dalzell et al.、Quantum algorithms: A survey of applications and end-to-end complexities、https://arxiv.org/pdf/2310.03011
*A-26 Yasunori Lee & Keita Kanno、Modal analysis on quantum computers via qubitization、https://arxiv.org/pdf/2307.07478
 日本語かつ噛み砕いた資料だと、以下:菅野恵太、量子位相推定アルゴリズムを用いた量子コンピュータによる固有振動数解析、https://unit.aist.go.jp/g-quat/ja/events/img/CAE_20240509-10/20240510_10_Kanno.pdf
*A-27 カタロニア・ナノサイエンスおよびナノテクノロジー研究所(ICN2)、ドノスティア国際物理センター財団、バスク科学財団(Ikerbasque)
*A-28 Andrei Tomut et al.、CompactifAI: Extreme Compression of Large Language Models using Quantum-Inspired Tensor Networks、https://arxiv.org/pdf/2401.14109
*A-29 https://multiversecomputing.com/resources/eu-funded-ai-boost-project-selects-multiverse-computing-to-develop-and-train-large-scale-ai
*A-30 Dan Hendrycks et al.、MEASURING MASSIVE MULTITASK LANGUAGE UNDERSTANDING、https://arxiv.org/pdf/2009.03300
*A-31 尹 子旗他、プロンプトの丁寧さと大規模言語モデルの性能の関係検証、言語処理学会 第30回年次大会 発表論文集(2024年3月)、https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/A7-5.pdf
*A-32 Rowan Zellers et al.、HellaSwag: Can a Machine Really Finish Your Sentence?、https://arxiv.org/pdf/1905.07830
*A-33 植松 拓也他、日本語 Natural Questions と BoolQ の構築、https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/C3-3.pdf
*A-34 Christopher Clark et al.、BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions、https://arxiv.org/pdf/1905.10044
*A-35 鈴木 正敏、JAQKET: クイズを題材にした日本語 QA データセットの構築、https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/P2-24.pdf
*A-36 Mandar Joshi et al.、TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension、https://arxiv.org/pdf/1705.03551
*A-37 Karl Cobbe et al.、Training Verifiers to Solve Math Word Problems、https://arxiv.org/pdf/2110.14168
*A-38 V. Abronin et al.、TQCompressor: improving tensor decomposition methods in neural networks via permutations、https://arxiv.org/pdf/2401.16367


お問い合わせ
  

TOP