MerchantBank Consulting
サブページ画像

材料開発・創薬支援における機械学習・深層学習・強化学習

 革新的な材料や医薬品を創造する行為を突き詰めると、量子スケールを支配する物理を考慮する必要性が生じる。そして、量子スケールを支配する物理を、厳密な意味で材料開発や創薬の支援に適用するには、計算機の力を借りる必要がある。具体的には、誤り訂正符号付き量子コンピューター(FTQC)を使用した量子化学計算(QC)が要求される、というのが一般的なコンセンサスである。
 ただし、QCだけで材料や医薬品が、新たに開発できるわけではない。機械学習ML(深層学習DL及び強化学習)とのコラボレーションが欠かせない。ML・DLの進歩は目覚ましく、材料開発・創薬支援の分野で、多くの成果が出ている。
 なお2020年代前半は、あくまでスパコン+ML・DLというスタイルである。これが徐々に、NISQ+ML・DLとなり、最終的にFTQC+ML・DLに推移していくと考えられる。FTQCの時代になっても、このスタイルは変わらない。グーグルは、2029年までにFTQCを実用化するとアナウンスしている。
 なお、多層の(深層の)ニューラルネットワークは、あらゆる関数を近似できる(万能近似定理)。つまり深層ニューラルネットワークは、量子多体系を含めた任意の物理系を表現することが可能と考えられる(このため、少なくともFTQC+DLは機能すると考えられる)。重要なポイントは、深層ニューラルネットワークが、既に知られている物理則を表現できるのみならず、未知の概念や物理則を構築できると考えられている点である。

【事前の整理】
1⃣ Matlantis
❶ プリファード・ネットワークス(PFN)とエネオスは、2021年7月6日、汎用原子レベルシミュレーター「Matlantis(マトランティス)」を開発し、クラウドでのサービス提供を開始したと発表している[*1]。変分原理では対処できない励起状態を扱う必要がある触媒の開発を目指している。マトランティスを使うことで、第一原理計算(密度汎関数法(DFT))を実行せずに、DFTを実行して得られる物性値を、得ることが出来る。深層学習システムとしては、ニューラルネットワーク・ポテンシャルNeural Network Potential(NNP)†1が用いられている。マクロな構造変化で物性が変化する場合は、(当然)適用対象外なので、別アプローチを構築しているという[*3]。
 PFN独自の大規模言語モデルPLaMoは、㊀材料設計の方向性を"日本語で"プロンプト入力すれば、㊁パイソン・コードを自動生成してくれる、らしい[*5]。PLaMoの最新バーション13Bは、23年9月28日に公開されている。13Bは、その名の通り、パラメータ数が約130億個である[*6]。
†1 一般的には、機械学習ポテンシャル(Machine Learning Potential:MLP)あるいは機械学習原子間ポテンシャル(Machine-Learning Interatomic Potential:MLIP)と呼ばれる。
❷ 機械学習ポテンシャルのバージョンが8になったことを発表(25年7月16日)[*7]。サービス提供(21年7月)から初めての”大規模アップデート”で、学習データを変更した。新しい学習データは、交換相関汎関数として「r2SCAN汎関数」を使用したDFT計算で作成した。これまでは、広く用いられるPBE汎関数を使用していた。PBE(Perdew-Burke-Ernzerhof)†2は、GGA†3汎関数と呼ばれるファミリーに、r2SCAN(restored-regularized Strongly Constrained and Appropriately Normed)はメタGGA汎関数†4と呼ばれるファミリーに属する†5
†2 (近似式に現れる)パラメータを決定するために用いられる3つの物理条件の内、「1つが間違っている」✚「条件間に矛盾がある」という、驚くべき欠陥品である(さはさりながら、近似である以上、精度とコストが相反する、という事情から逃れられない)。出所:https://www2.riken.jp/qcl/members/tsuneda/web/dft05-sec2.pdf
†3 GGA=一般化勾配近似。電子密度のみを使って表現されるLDA(局所密度近似)を、密度勾配を用いて補正した、交換相関汎関数の近似手法の一つ。
†4 メタGGAは、GGAをさらに、密度の2次勾配or運動エネルギー密度を使って補正した近似法。
†5 新しく開発され、近似精度が高い「SCAN汎関数及びrSCAN汎関数」なるものが、そもそも存在する。r2SCANは、それらの改良版と考えて良い。精度の対価は、計算コストである。
2⃣ 化合物による医薬品開発を考えた場合、疾患に関与する(生体内)タンパク質との相互作用が強い化合物が、有力な医薬品候補として選択される。タンパク質と化合物との相互作用を評価するアプローチは主に、3つある:①ドッキングシミュレーション、②分子動力学法、③分子軌道法。精度並びに計算コストは①→③方向で高まる。
 ドッキングシミュレーションはタンパク質の構造が既知であることが前提である。①に関する深層学習のトピックスは、ディープマインドの「アルファ・フォールド」である。アルファ・フォールドは、タンパク質の折り畳み構造を学習する深層学習システムである。2018年12月のタンパク質構造予測精密評価(CASP)で総合ランキング1位を獲得したバージョン1を改良した「アルファ・フォールド・バージョン2」 は、2020年11月のCASPで驚異的な成果をあげた。
 MD法は、原子間の相互作用を古典近似しているために、精度が低い。②に関する深層学習のトピックスは、MD+深層学習という合わせ技で精度と計算コストのバランスをとるである。量子化学計算の結果得られる原子間の相互作用を再現するような深層学習システムが導入される。この場合の深層学習システムとしては、先にも触れた、ニューラルネットワークポテンシャルNeural Network Potential(NNP)が広く用いられている。
 MO法は、代数方程式を(近似的に)解くことでエネルギー固有値及び分子軌道(分子の波動関数)を求める。③に関する深層学習のトピックスは、グラフ畳み込みニューラルネットワーク(GCN)あるいはメッセージパッシング・ニューラルネットワーク(MPNN)である。これは、ホーヘンベルグ=コーンの定理が満たされることを拘束条件として、分子軌道からエネルギー固有値を学習する、ことと同値である[*2]。

 ❶ Fermiネットを改良したという論文は、Appendix2を参照。22年10月11日
 ❷ 断熱ショートカットに触発されたプロトコルをタンパク質折り畳み問題に適用し、良い結果を得たという論文は、こちらを参照。22年12月27日
 ❸ 加トロント大が「機械学習ツールが薬物放出速度を正確に予測できるかどうかを調査した論文」は、Appendix1を参照。23年1月10日
 ❹ 分子特性予測において、「文字列ベース学習モデル>GNN」と主張する論文は、Appendix3を参照。23年4月20日
 ❺ 低分子医薬品候補物質の発見において、「量子古典ハイブリッドGAN>古典GAN」と主張する論文は、こちらを参照。23年5月13日
 ❻ ブラックボックス関数最適化問題において、量子NN>古典NN、と主張する論文は、こちらを参照。23年6月8日
 ❼ GNoME:熱力学的に安定な相を発見する材料探索モデルを構築した、と主張する論文は、Appendix4を参照。23年11月29日
 ❽ 量子古典ハイブリッド生成モデルは、古典生成モデルより、高質なヒット化合物を探索できると主張する論文は、こちらを参照。24年2月13日

❚FYI・為参考❚ スタンフォード大学・人間中心AI研究所(HAI)は、2017年から毎年「AI Index Report」という調査報告書を公開している。2024年版から「科学と医療」と名付けられた章が追加されている。2025年版の第5章 科学と医療 5.6 AI Foundation Models in Scienceには、「注目すべきモデル」が9つ取り上げられている。2/9は、分野が、化学及び材料科学である。具体名をあげると、Crystal LLMとLlaSMol。こちらを参照。

【研究成果】
(70) p型酸化物半導体をAIで見つけたい 
◎ メソドロジー 
○ 日付 2025.12.12
○ 研究主体:東北大学
○ 出所:https://www.tohoku.ac.jp/japanese/2025/12/press20251212-01-AI.html
論文:https://journals.aps.org/prl/pdf/10.1103/h66h-y5k6(⇒本論文)
(補足情報→https://journals.aps.org/prl/supplemental/10.1103/h66h-y5k6/defect_ML_SI_v3.pdf)
● 概要・・・結晶構造データのみから、複数の電荷状態における「欠陥形成エネルギー」を予測する機械学習フレームワークを開発した。
❚背 景(問題意識)❚ 
 代表的な実用材料である「半導体」においては、欠陥が重要な役割を果たす。その一方で、マテリアルズ・インフォマティクスにより導出される候補材料は、欠陥特性に基づいてスクリーニングすることが困難である。その主因は、結晶構造データから、複数の電荷状態における欠陥形成エネルギーを予測するための、一般的な枠組みが存在しないことである ➡この課題を解決したい。
❚フレームワークの概要❚ 
 フレームワーク(体系)=モデル(道具)+プロトコル(使い方)。本論文における機械学習モデルのモデル・アーキテクチャは畳み込みニューラルネットワーク(CNN)。入力データは結晶構造であり、グラフで表現する。つまり、グラフCNNになる🐾1
 プロトコルを構成する技術要素は、3つある:㊀フェルミ準位を揃える(☞❚モデルの詳細❚〖1〗)、㊁異なる電荷状態におけるエネルギー分布の標準化(☞❚モデルの詳細❚〖2〗)、㊂摂動ホスト状態を持つ欠陥の取り扱い(☞❚モデルの詳細❚〖3〗)。
❚プロトコルの詳細❚
〖1〗フェルミ準位を揃える
 ザックリ言えば、「複数の電荷状態における欠陥形成エネルギーを(同一のフレームワークで)予測する」ために必要な手続きである。電荷𝑞≠0 の場合、欠陥形成エネルギーはフェルミ準位𝜀𝐹に依存するため、化合物(本論文では、酸化物)間で𝜀𝐹を揃える必要がある。最も単純な選択は、𝜀𝐹=𝜀VBMとすることである。ここで、𝜀VBMは価電子帯最大値のエネルギー準位である。しかし、𝜀VBMは酸化物間で大きく異なるため、これは不十分である。そこで、本論文では、コア・ポテンシャル🐾2を用いることを提案している。
 具体的には、異なる酸化物(本論文の例では、ZnO(酸化亜鉛)とMgO(酸化マグネシウム))におけるコア・ポテンシャルが同じになるように調整する。例で言うと、MgOのコア・ポテンシャルを下方にシフトさせて、ZnOのコア・ポテンシャルと同水準(同準位)になるように調整する。このように調整することで、異なる酸化物間でフェルミ準位を揃えている。
〖2〗異なる電荷状態におけるエネルギー分布の標準化 
 ザックリ言えば、「GNNを効率的に学習する」ために必要な手続きである。ここで言及している標準化の意味は、「正規分布を標準正規分布にするために用いる”標準化”」と同じ意味である。つまり本質的には、分布毎に計算される平均値の差を最小化する手続きである。
 GNNを効率的に学習するには、異なる電荷状態におけるエネルギー分布を、可能な限り重なり合うようにすることが有効である。つまり、標準化が有効である。本論文では、フェルミ準位の決定には任意性があることを利用して、「平均値の差」を最小化するように、フェルミ準位を決定している。言わずもがなであるが、平均値とは、異なる各電荷状態におけるエネルギー分布の平均値である。
〖3〗摂動ホスト状態を持つ欠陥の取り扱い
 ザックリ言えば、「予測精度を向上させる」ために必要な手続きである。具体的には、データセットから『摂動ホスト状態(Perturbed Host State:PHS)を持つ欠陥』を除外している。
❚モデルについて❚
〖1〗全体像 
 まず、原子種と結合長をベクトル符号化し、畳み込み層に渡す。次に、プーリング層で酸素サイトの特徴量を抽出し🐾3、電荷状態𝑞が特徴量ベクトルに追加される(連接される)。最後に、これらのデータを全結合ニューラルネットワークに入力し、3つの電荷状態(0、+1、+2)における酸素空孔形成エネルギーを予測する。
〖2〗ハイパーパラメータ等 
 エポック数とバッチサイズはそれぞれ150と32に固定した。オプティマイザーは、Adamを使用。畳み込み層数2、原子種の埋め込み次元64、隠れ層数48。ハイパーパラメータはOptunaを使ったチューニングされた:学習率1.3×10-2、ドロップアウト率0.1。
❚比較結果及び成果❚
〖0〗データセット
 2,090の非等価サイトを持つ932種の非磁性酸化物からなるデータベースから、データセットを取得した🐾4。当該DBは、旧東工大グループにより2021年に行われたDFT計算から得られたデータを収集したものである。データセットは、学習:検証:テスト=0.7:0.15:0.15の比率で分割された。
〖1〗比較結果
 ZnOを対象に、0(中性)、+1、+2の電荷状態に対して計算した形成エネルギーを〖0〗データセットの値と比較した🐾5。その結果、q=0で0.29eV、q=+1で0.22eV、q=+2で0.37eV改善された。為念:eV=電子ボルト。
〖2〗成果 
 両極性(ambipolar)光起電力材料として有望なBaGaSbOを含む、89種類の正孔ドープ可能な酸化物を特定した。詳細は割愛。
❚課 題❚ 
㈠ フェルミ準位はコア・ポテンシャルを用いてアライメントされている。この手法は、格子間欠陥の場合には、単位格子内の対応する位置を占める原子が存在しないため、直接適用できない。
㈡ 機械学習モデルによって導入される誤差が、第一原理計算由来の誤差に加算される。
❚感 想❚ 
 p型酸化物半導体をAIで見つけることができたら、インパクトは大きいのであろう。酸化物では、酸素空孔が(欠陥が生み出す電子が正孔を消失させる)「電荷補償」を引き起こしやすく、p型にする(正孔をキャリアにする)ことが難しい。
ーーーーーーーーーー
❚註  釈❚
🐾1 ちなみに、グラフCNNは不変性(invariant)を持つアーキテクチャであるから、「並進操作、回転操作、及びパリティ操作」において、出力(つまり、形成エネルギー)は不変である。
🐾2 量子化学計算において、内殻電子を個々に扱うのではなく、静電ポテンシャルとして扱う場合のポテンシャル・エネルギーを指す。
🐾3 空孔については、プーリング中に空孔が導入された酸素サイトについてのみ、特徴量を抽出。
🐾4 異なるサイトへ移動する、または隣接する原子に伴って対称性が高い格子間原子へ移動する酸素空孔を除外。また、動的に不安定なホスト構造中の酸素空孔も除外している。
🐾5 本論文では、ジョイント・モデルなどの他モデルの結果についても示されているが、割愛。 
学習データ:{入力|出力}={結晶構造|形成エネルギー}。結晶構造=ユニットセル(単位胞)構造と不等価酸素サイトのインデックス。
学習モデル: グラフ・ニューラルネットワーク

(69) 転移学習で材料探索の効率を向上させるフレームワーク 
◎ メソドロジー 
○ 日付 2025.12.10
○ 研究主体:物質・材料研究機構、筑波大学
○ 出所:https://www.nims.go.jp/press/2025/12/202512100.html
論文:https://www.nature.com/articles/s41524-025-01851-8.pdf(⇒本論文)
● 概要・・・分野横断的知識の共有が、新規材料探索の効率を向上させる(が、低下はさせない)ような機械学習フレームワークを構築し、機能することを実証した。
❚背 景(問題意識)❚
 探索空間が拡大し続けるにつれて、従来の経験的アプローチに支えられた材料探索は持続性を失い、{ロボット工学|材料シミュレーション|機械学習}を統合した探索システム🐾1が登場した。しかし、当該探索システムの各部分システムは、あくまで独立に動作しているに過ぎないため、全体的な効率は制限されていた。そこで、次のように考えた:ヒトの研究者と同様に、知識を共有・活用した探索を可能にすれば、もっと効率的な新規材料発見ができるのではないか?
❚モデルの概要❚
 本論文フレームワークは、新規材料探索⊕知識共有で構成される。新規材料探索に用いるモデルは、ベイズ最適化である。知識共有には転移学習を適用する。ベイズ最適化には、様々な機械学習手法🐾2が利用可能であるが本論文では、転移学習との相性を鑑みてアンサンブル・ニューラルネットワーク(ENN)🐾3を採用した。
❚モデルの詳細❚
〖0〗全体像の詳細 
 3つの物性をターゲット特性として、新規材料を探索するシステムを考えている。3つの物性とは、磁化(M)、キュリー温度(Tc)、スピン分極(Sp)である🐾4。材料記述子には、(N成分からなる)単純な組成ベースのベクトルを用いた。
〖1〗アンサンブル・ニューラルネットワーク(ENN) 
 アンサンブルを構成する各ニューラルネットワーク(NN)はフィード・フォワードNN🐾5である。アンサンブル内の10個のニューラルネットワークは、入力層+3つの隠れ層+出力層で構成される。入力層は、材料記述子を入力として受け取る。3つの全結合隠れ層は、それぞれ、100個、100個、10個のニューロンを含む。出力層は、予測されたM、Tc、あるいはSpを出力する。ENN全体の予測値は、個々のFNNの出力を平均化することで得られる。
 すべての層には、スケール付き指数線形ユニット活性化関数(SELU)を使用している。ネットワークの表現力を向上させるため、切断正規分布を用いて重みの初期化を行っている。学習率=5×10-4、バッチサイズ=8、L2正則化ペナルティ=1×10-3。早期停止を採用しており、patienceは100エポック。
〖2〗転移学習 
 例えば、次のように転移学習モデルを構築する🐾6:Mをターゲット特性とした事前学習済みモデルENNMに、Tc及びSpに基づく知識を転移して(追加学習を行って)、Tcを予測する転移学習モデルENNM→Tc及び、Spを予測する転移学習モデルENNM→Spを構築する。事前学習モデルの最初の2つの隠れ層は固定、最後の隠れ層だけ追加学習される。Tc及びSpについても、同様に転移学習モデルを構築する。
 学習率=5×10-4、バッチサイズ=8、L2正則化ペナルティ=1×10-3。つまり、ENNと全く同じ。早期停止を採用しており、patienceは100エポック。これもENNと同じ。
 検証損失を評価し、転移学習で性能が低下する場合は、転移学習モデルの結果を採用しない(負の転移を回避する)。
〖3〗ベイズ最適化の獲得関数 
 獲得関数として、代表的な獲得関数の一つである、上限信頼区間(Upper Confidence Bound:UCB)を採用している。具体的には、以下の通り:
     UCB =μ+α×σ 
ここで、μとσは、与えられた候補材料の予測平均値と標準偏差を表す。αはハイパーパラメータ。本論文では、3.0に固定されている。
❚デモ用データセット❚
 DFT(密度汎関数法)計算でデータセットを構築した。このデータセットには、B2結晶(塩化セシウム型)構造を持つ16,908種類の三元合金のM、Tc、Spの値が含まれている。16,908=32+8+16,868と分割された。学習用=32、テスト用=8、汎化性能の試験用=16,868である。
❚比較結果❚
〖0〗前説 
 デモ用データセットを使って、⓪転移学習なし(=知識共有なし)、①転移学習あり(=知識共有あり)、を比較した。ターゲット特性は❶M、❷Tc、❸Spである。比較指標は、探索効率である。具体的には、グランドトルゥースの90%に相当する物性値に到達するまでの探索回数を比較した。なお探索回数は、10回の試行の平均値である。
〖1〗⓪と①の比較 
 まず、ざっくり総論:❶は⓪と①で有意な差は生じなかった(☞❚考察❚〖1〗)。❷及び❸は、⓪に比べて①の性能が高い。
 具体的に数値をあげると、❶{⓪=20.2回、①=19.5回}。改善率で言うと、(20.2-19.5)/20.2=3.5%。❷{⓪=31.8回、①=27.4回}。改善率で言うと、(31.8-27.4)/31.8=13.8%。❸{⓪=24.9回、①=17.4回}。改善率で言うと、(24.9-17.4)/24.9=30.1%。
〖2〗汎化性能 
 汎化性能は、MAE(平均絶対誤差)で評価した。❷及び❸は、⓪より①のMAEが小さい(汎化性能が高い)。❶は探索回数100未満では、⓪≒①。100超では①のMAEが小さい(ように見える)。❸は比較的、探索回数によらずMAEが安定している。❷は、探索回数20回まで、MAEが増加する(汎化性能が低下する)が、その後は減少する。❶は探索回数が100を超えると、MAEが増加していく。
 本論文によると、この汎化性能の低下=MAEの増加は、ベイズ最適化における既知の副作用であり、一般的にサンプリング・バイアスに起因するとされている。
❚課 題❚
 本論文は、3つの課題を上げている:㈠材料記述子、㈡通信プロトコルやメタデータ管理🐾7、㈢ベイズ最適化及び知識共有のアルゴリズム選択。
㈠については、次のように整理されている・・・本論文では、単純な組成ベースのベクトルを採用している。同ベクトルは無機系には有効であるが、高分子系ではしばしば問題となる。また、探索精度を向上させるには、探索モダリティに合わせた追加の記述子を組み込む必要があるかもしれない。
㈢については、次のように整理されている・・・ベイズ最適化のアルゴリズム選択(☞🐾2)は、探索効率をさらに向上させる可能性がある。知識共有は転移学習のみに依存する必要はない。例えば、マルチタスク・ニューラルネットワークは、明示的な転移学習なしに効率的な知識共有を可能にする可能性がある。知識共有のためのフレームワークと手法は、体系的に調査する必要がある。
❚考 察❚
〖0〗相関関係が存在する他変数に関する情報(知識)を援用すると性能がアップするという理屈は、肚落ちが良い(☞〖2〗)。
〖1〗❶は、探索速度が速くデータ量も多いため、TcとSpの転移学習が上手くハマらなかったのではないか、と考察されている。
〖2〗転移学習は、対象特性間に相関関係がある場合に一般的に効果的とされる。3つの物性M、Tc、Sp間の相関を調べて、ある程度の相関が示されている。ただし、MとSpとの相関は、かなり弱いように感じられる。
ーーーーーーーーーー
❚註  釈❚
🐾1 自律型新規材料探索システムと呼ばれる。
🐾2 ベイズ最適化と言えば、ガウス過程回帰(GPR)に基づくベイズ最適化が想起率第一位だろう。本論文ではGPRの他に、逐次的モデルベース・アルゴリズム設定(Sequential Model-based Algorithm Configuration:SMAC)、木構造パルツェン推定器(Tree-structured Parzen Estimator:TPE)が上げられている。Parzenには、パーゼンやパルゼンといった読み方もある。
🐾3 ENNは、独立して学習された複数のNNの出力を集約することで、予測不確実性を定量化する機械学習フレームワークである。
🐾4 測定に関して、以下のように記述されている:Mは、振動試料磁気測定法や超伝導量子干渉デバイスなどの技術を用いて比較的迅速に測定できる。Tcの測定には時間がかかる。Spの測定は特に困難である。
🐾5 TensorFlowバージョン2.13.1のKerasアプリケーション・プログラミング・インターフェースを用いて実装され、Python 3.8.10環境で実行された。
🐾6 環境もENNと同じ。つまり、🐾5と同じ。
🐾7 内容は、割愛した。
学習データ:{入力|出力}={材料記述子|物性}。
学習モデル: アンサンブル・ニューラルネットワーク

(68) 大規模データに対応可能な高性能分子生成モデル 
◎ メソドロジー 
○ 日付 2025.8.8
○ 研究主体: 北里大学
○ 出所:https://www.kitasato.ac.jp/jp/news/20250808-01.html
論文:https://www.nature.com/articles/s42004-025-01640-w.pdf(⇒本論文)
● 概要・・・従来モデルの課題を克服した、医薬品開発を(主)目的とする分子生成モデルFRATTVAEを開発した。
❚背 景(問題意識)❚
 SMILESを用いた分子生成モデルは、構造正確度🐾1を維持しながら大規模で複雑な化合物を扱う際に限界に直面している。グラフベースの分子生成モデルも、計算速度及び大規模データセットの取り扱いにおいて課題を有する。そこで、それらの制限に対処する分子生成モデルFRATTVAEを開発した。
❚モデル概要❚
 FRATTVAEはFragment Tree-Transformer VAEの略である。文字通り、生成モデルとしては、VAE(Variational Auto Encoder-decorder:変分自己符号化器)である。そしてモデル・アーキテクチャには、LSTM(Long Short Term Memory)ではなく、トランスフォーマーを採用している。データの持ち方としてFRATTVAE は、(医薬品候補)化合物分子をフラグメント🐾2の集合として扱う。さらに化合物分子を、フラグメントを(グラフの)ノードとする木構造🐾3で表現することにより、大規模で複雑な化合物を効率的に扱うことを可能としている🐾4
 トランスフォーマーの多頭自己注意機構が、フラグメント間の複雑な長距離依存関係をモデル化可能としている。トランスフォーマーを用いることで、並列処理への対応が可能になり、従来モデルの制約であった大規模データセットの処理が実現した。
❚FRATTVAEまとめ❚ 
 定性的なザックリ議論で言うと:
㈠ 大規模データを扱えることが、ウリである。 
㈡ 再現能力という意味での生成能力、データセットの特性を正確に捉えて(生成して)いるという意味での生成能力において、優れている。
 定量的な議論で言うと:
㈢ 様々なベンチマーク・データセットを対象とした分布学習🐾5により、FRATTVAEは再構成正確度(☞❚補足1❚①を参照)と品質(☞🐾22参照)のバランスを取りながら、多くの指標において一貫して高い性能を発揮することが示された(☞❚性能比較結果❚〖1〗)。
㈣ 分子最適化タスクにおいて、FRATTVAEは構造アラート🐾6を回避しながら、所望の特性を持つ高品質で安定した分子を生成した(☞❚性能比較結果❚〖2〗)。
㈤ 医薬品開発に関連する重要な性質においても、既存手法を一桁以上上回る性能を達成した(☞❚性能比較結果❚〖1〗弐╏)。
❚モデルの特徴を深堀り❚
 モデル・アーキテクチャとしてLSTMを採用していた従来型のグラフベース分子生成モデルは、LSTM特有の逐次処理を原因として、計算速度及び大規模データセットの取り扱いにおいて課題が生じていた。FRATTVAEは、LSTMの逐次処理がダメであることを起点に、トランスフォーマー・ベースのモデルを志向したと考えられる。つまり、並列化処理で高速化することを前提にトランスフォーマーの採用をまず決定した、と推量される。その上で、トランスフォーマーの性能を発揮できるように、データの持ち方を工夫したと考えられる。具体的には、㊀分子→フラグメント🐾7+㊁木構造→位置符号、という持ち方を採用している。
 ㊀フラグメント自体が薬理活性と物理化学的特性を有するため、フラグメントの集合構造を保持することで分子の特性を捉えることができる。㊁位置符号は、木(ツリー)内の位置に基づいて各フラグメントに、固有の位置情報が割り当てられる。位置符号化は、トランスフォーマーがフラグメント間の階層構造と分岐関係を理解するために不可欠である。
 損失関数は、 交差エントロピー損失関数とカルバック・ライブラ情報量の線形結合で与えられている(重みについては、☞❚補足2❚を参照)。こうすることで潜在空間においては、化学的特性が反映され、かつ多様性が促進される、とする。
❚学習データセット❚
 ChEMBL🐾8とDrugBank🐾9の全分子データセット、およびChemBERTa🐾10で使用されているPubChem10Mデータセット🐾11から1,200万個の分子を学習したモデルを開発した。FRATTVAEモデルのパラメータ総数は10億に達した。
❚性能比較結果❚
〖0〗セットアップ 
1⃣  ベンチマーク・データセット
 様々なデータセットにおけるFRATTVAEの適応性を示すため、分子数と分子量が異なる5つデータセット:⓵ZINC250K、⓶MOSES、⓷GuacaMol、⓸Polymer、⓹SuperNatural3を使用している。MOSESとGuacaMolは、分子生成を評価するためのベンチマークデータセット。SuperNatural3は、天然物データセット。
2⃣ 比較モデル 
 比較モデルは、グラフベースのVAEモデル×5(❶JTVAE🐾12、❷HierVAE🐾13、❸PSVAE🐾14、➍MoLeR🐾15、❺NPVAE🐾16)+SMILESベースのVAEモデル×2(❻SMIVAE、❼SMITransVAE)。SMIVAEのモデル・アーキテクチャはLSTMで、SMITransVAEはトランスフォーマーである。
3⃣ 比較指標 
 評価指標は、以下の通り❚補足1❚:①再構成正確度、②再構成類似度、③妥当性、④一意性、⑤新規性、⑥FCD、⑦カルバック・ライブラ(KL)情報量、⑧log P、⑨QED、⑩NP類似度、⑪SAスコア。
4⃣ 備考
 すべてのモデルにおいて、生成化合物は、正規分布N(0,I)から10,000個の潜在変数をランダムにサンプリングすることによって生成された。つまり、VAEにより構築された連続潜在空間をランダムウォークで探索することで、新しい化合物を生成していることになる。このプロセスを5回繰り返し、各指標の平均を計算した。新規性⑤を除くすべての指標が、有効な生成化合物を用いて計算された。
 本論文では『FCD⑥は、分布学習の質を評価する上で最も代表的な指標である』とされている。
〖1〗比較結果1・・・ベンチマーク・データセットの学習能力評価 
 5 つのベンチマーク・データセット⓵~⓹における、各手法❶~❼の分布学習の結果について、本論文は、次のように評価している:
㈠ ❻及び❼の⑥は、低い。←❻×{⓵,⓸,⓹}と❼×{⓶,⓹}は、低くない。
㈡ ❻は分子生成能力が制限されている。→①が低いという意味。
㈢ ❼は、①は高いが、③と⑥は低い。←⓶及び⓹の⑥は、低くない。
㈣ ❶,❷及び❺は、⓷のような多様で大規模なデータセットを処理できなかった。→本論文の表1に結果が表示されていない。
 FRATTVAEについて、次のように評価している:
壱╏ ❶~❼と比較して、最も高い①を達成。←⓸及び⓹のみ。⓵~⓷では次点。
弐╏ ⓷及び⓹において、他と比較して1桁以上良い⑩及び⑪を達成。←⓷の⑩のみ1桁違う。
参╏ ⑧及び⑨に関して外れ値がない。
肆╏ ⓸及び⓹において、他手法を上回る①と⑥を達成した。←⑥は、❷×⓸がより大きい。
伍╏ ⓵において、①×❼を除いて、他と同等の結果を示した。
陸╏ 天然化合物のような不均質な構造も扱う能力がある。→❻×⓹よりも、④を除いて優れていることから。そもそも(多くのモデルが、天然物に含まれる巨大な分子を扱うことができないため)、⓹では❻との比較のみ結果掲載。
〖2〗比較結果2・・・分子特性最適化能力の評価
 本タスクでは、特定の特性(複数可)を最大化(最適化❚補足2❚)する分子を生成することを目指す。具体的には、データセット⓵において、⑥の最大化とペナルティlogP🐾17(→⑫とする)の最大化を目指す。❸と➍をベースライン・モデルとして選択した。最適化アルゴリズムには、 分子群最適化法(MSO)🐾18を用いた。各プロパティ目標に対して、100個の粒子群🐾19を用いてMSOを100回反復実行した。これにより、モデルと目標ごとに最大10,000個の最適化分子が生成された。
 ⑥に関しては、FRATTVAEと、❸,➍の結果は全く同じ🐾20。一方⑫に関しては、FRATTVAEは、❸,➍に比べて優れていた(16対5~9)。
〖3〗比較結果3・・・目標指向最適化能力の評価 
 ⓷に含まれる「20の難易度の高い目標指向最適化タスク」で比較した。➍を、ベンチマーク🐾21として、各タスクにおいて200個の粒子を用いて250回の反復でMSOを実施した。FRATTVAEは、20タスクのうち12のタスクで➍を上回った。平均スコアでも➍を上回った。品質🐾22及び⑪についても、FRATTVAEが上回った。
❚為参考1・・・条件付き生成能力の評価❚
 分子量、⑧、⑨、⑩、⑪、TPSA🐾23といった複数の条件を同時に組み込んだ条件付きモデルC-FRATTVAEを開発し、その生成能力を評価した。データセットには⓵を用いた。ランダムにサンプリングした10,000個の潜在変数と指定されたプロパティ値を復号器に入力し、分子を生成した。さらに、複数のプロパティに整合した分子生成能力を示すため、分子量、⑧、⑨、⑪ を組み合わせた条件下で10,000個の分子を生成した。
 ⓵は本来、限られた範囲の特性を持つ化合物で構成されているため、条件付き生成は困難である。しかし、C-FRATTVAEは、条件分子の生成は概ね可能であった。
❚為参考2・・・スケーリング則の確認❚
 より大きな学習データセットで学習したモデルの性能を調べたところ、平均的には、わずかにスコアが上昇するに留まった。特定タスクでは改善を示すが、別のタスクでは、性能が低下した。
❚為参考3・・・計算時間❚
 同じH/Wを用いて、事前処理・学習・生成速度に対して、FRATTVAEの計算時間を他のグラフベース VAEモデル❸,➍,❺と比較した🐾24。 データセットは、⓵、⓶、⓸を使用した。FRATTVAE は、事前処理と学習において、❸,➍,❺よりも高速だった。これは、トランスフォーマーの能力によるものである。
 生成では、FRATTVAE は小分子データセット⓵及び⓶に対して、➍ より遅い。❺は、計算負荷が大き過ぎて⓵及び⓶では、評価できなかった。大規模データセット⓸では、FRATTVAE は事前処理・学習・生成のすべてで、❸,➍,❺よりも高速だった。これらの結果をもって、「FRATTVAEは 、大規模データセットに対して、スケーラブルで効率的である」と結論している。
❚考 察❚
〖1〗本質的には、データの持ち方における工夫が、高性能の理由ということになるだろうか。
〖2〗過大評価な記述も散見されるが、FRATTVAE は、バランスが取れていることは間違いないだろう。
❚補足1❚
 ⑧,⑨,⑪は医薬品開発において通常、参照される指標である。なお、⑧,⑨,⑩では、正解値と生成値との差異として、L1ワッサースタイン距離が使用されている。
①再構成正確度( Reconstruction Accuracy):テスト・データセット内の分子のうち、分子Mの潜在変数から復号された分子M′がMと完全に一致するSMILES表現を持つ分子の割合。
②再構成類似度(Reconstruction Similarity):テスト・データセット内の分子Mとその復号された分子M′の平均谷本係数。
③妥当性(Validity):生成された分子のうち、有効な分子の割合。妥当性は、RDKit分子構造パーサーによってチェックされ、芳香族結合の原子価と一貫性が検証される。
④一意性(Uniqueness):有効な生成された分子のうち、一意である(曖昧さがない)分子の割合。値が低い場合、モデルが破綻しており、典型的な分子が少数しか生成されていないことを示す。
⑤新規性(Novelty):学習データセットに存在しない有効な生成分子の割合。値が低い場合、過学習を示している可能性がある。
⑥FCD(Fréchet ChemNet🐾25 Distance):画像生成手法を比較するための提案された性能指標である Fréchet Inception Distance(FID)🐾26に類似した指標。FIDを、分子生成モデルの評価指標として使用できるように拡張した。FCDは、生成モデルが与えられたデータセットの化学的および生理学的特性と分布をどれだけ正確に捉えているかを評価することを可能にする。分子特性の分布が類似している場合、FCDは低くなる。
⑦カルバック・ライブラ(KL)情報量:本ケースでは、生成された分子とテスト・データ間の物理化学的特性のKL情報量を計算する。具体的には、分子量、芳香環の数、回転結合の数などの物理化学的記述子から計算する。FCDと同様に値の範囲は0から1で、値が高いほど、生成された分子とテストデータ間の物理化学的特性が近いことを示す。
⑧log P:医薬品開発の文脈では、オクタノール/水分配係数と呼ばれる、分子の親油性(疎水性)を表す。Pは、分子の有機層(オクタノール層)と水層中の平衡状態における濃度比率。大きい数字は、脂溶性が高いことを意味する。医薬品化合物には、中程度の親油性が求められる。
⑨QED(Quantitative Estimate of Drug-likeness):薬らしさ、と訳される。既存の経口薬に基づいて計算されるため、経口薬類似性の指標とみなすことができる。0から1の間の値で表され、値が1に近いほど、経口医薬品に近い構造を示す。
⑩NP類似度(Natural Products-likeness):特定の分子が、既知の天然物にどの程度類似しているかを推定するために設計された尺度。
⑪SAスコア(Synthetic Accessibilityスコア):合成難易度、と訳される。分子構造に基づく合成の難易度を表すスコア。1から10までの値で表され、10に近いほど合成の難易度が高いことを示す。
❚補足2❚
 オプティマイザーはAdam。学習率は、1.0×10-4。ドロップ・アウト率は0.1。損失関数におけるKL情報量の重みは、5.0×10-4。交差エントロピー損失関数の重みは、2.0。
ーーーーーーーーーー
❚註  釈❚
🐾1 英語ではaccuracy。accuracyは、正解に近いという意味。この場合、正しい化学構造に「近い」という意味になる。
🐾2 日本語では、部分構造という文言が宛てられる。化学分野においては、分子の一部を構成する特定の小さな構造を指す。
🐾3 この場合、グラフ理論における木構造を意味している。グラフ理論における木構造とは、閉路を持たないグラフ構造(非巡回グラフ)を指す。木構造は化合物に特徴的な分岐構造を、効率的に表現することができる。
🐾4 分子を、フラグメントをノードとする木構造として処理することで、従来のグラフ表現では困難であった、立体異性体の取り扱いや、塩や溶媒を含む分子の管理が容易になった。
🐾5 分布学習とは、データセットの特徴的な分布に対する学習を意味している。
🐾6 英語では、structural alert。創薬において、体内動態や人体に悪影響を及ぼす化合物の部分構造(フラグメント)あるいは官能基を指す。具体的に言えば、毒性発現に関与する部分構造あるいは官能基、変異原性に関与する部分構造あるいは官能基、がん原性に関与する部分構造あるいは官能基、などが該当する。変異原性とは、遺伝情報に変化を引き起こす作用を指す。
🐾7 フラグメントへの分解は、事前定義されたルールに従う。なお、フラグメントのトークン埋め込みには、一般的な、ECFP(Extended Connectivity Circular FingerPrints)が使用された。
🐾8 創薬を目的とした生理活性をもつ化合物や小分子(いわゆる、生物活性分子)のDB。欧州分子生物学研究所の1部門「欧州バイオインフォマティクス研究所」よって管理・運営されている。
🐾9 医薬品及び医薬候補化合物の化学的、薬理的、薬事的データ及び、医薬品及び医薬候補化合物のターゲット(配列、構造、パスウエイ)に関するDB。加アルバータ大学で管理・運営されている。
🐾10 化学分野の大規模言語モデル(LLM)であり、RoBERTaがベースとなっている。この場合のLLMの言語は、SMILESである。
🐾11 PubChemは、米NCBI(米国立生物工学情報センター)が提供するDBで、化学・生物学文献から小分子を抽出している。
🐾12 木分解(Junction-Tree)VAE。分子量500程度の小さな分子に特化している。グラフの木分解とは、グラフから木構造を抽出する技術であり、閉路があるグラフでも木を用いて表現することができる(木とは、閉路がないグラフであった)。部分グラフ同士の接続関係の情報は含まれないため、分子グラフ生成時にはその情報を補う必要がある。
🐾13 階層型(Hierarchical)VAE。比較的大きなフラグメント単位で分子構造を扱うことで、ポリマーのような繰り返し構造を持つ大きな化合物からなるデータセットにおいても高い再構成精度を示す。
🐾14 主要(Principal)部分グラフVAE。データセットから、重要な部分構造を自動発見する。Principalな部分グラフとは、親グラフにおいて、頻繁に現れる最大の繰り返しパターンを意味している。
🐾15 MoLeR(Molecular-level Representation)は、スキャフォールド・ベースの分子生成器。
🐾16 Natural Product-oriented VAE。天然化合物のような複雑で大きな分子を扱うことに特化したVAE。FRATTVAE同様、北里大学グループが開発した。
🐾17 望ましくない構造的特徴によってペナルティが課せられた分子のlog Pとして定義。
🐾18 モデルの連続潜在空間を探索することで分子を最適化するように設計されており、分子生成に適用される粒子群最適化の亜種である。
🐾19 各粒子はアルゴリズムによって精緻化される候補潜在点。
🐾20 正確にはC-FRATTVAEを含めて比較しているが、C-FRATTVAEの結果は割愛した(シンプルに言えば、C-FRATTVAEの結果は優れている)。
🐾21 為参考として、a)グラフベースの遺伝アルゴリズム(Graph GA)と、b)ルールベースのフラグメント突然変異手法(CReM)とも比較している。FRATTVAE に対する戦績は、a)が20戦20勝。b)が20戦19勝。つまり、a)とb)の圧勝であり、ヒューリスティクス恐るべし、ということになる。
🐾22 GuacaMol医薬品化学フィルターの構造アラートを用いて測定される指標。同フィルターは、「不安定(な化合物)、反応性(が高い化合物→反応性の高さは、医薬品候補としては禁忌)、または毒性代謝物」を生成する可能性が高いことが知られている特定の望ましくない部分構造を含む分子にフラグを付ける。品質指標は、このフィルターを通過した(つまり、構造アラートがない)分子の割合。合成可能性/扱いやすさの指標となる。
🐾23 何ら説明無く裸でTPSAが出ているが、普通に考えるとトポロジカルPSA(極性表面積)であろう。PSAは、極性原子のファン・デル・ワールス表面積の和であり、膜透過性との相関が高い。PSAが140Å2以上だと、ヒトにおける消化管吸収性(経口吸収性)がきわめて低いとされる。TPSAは近似的に求められたPSAである。TPSAでは、2次元構造からフラグメント原子群に割りあてたパラメータ値を合計して(PSA)を求める。PSAは本来、3次元構造から直接求めるべき。
🐾24 先行研究に基づき、❶と❷は大幅に遅く、スケーラビリティが低いことが分かっているため、計算時間の比較から除外されている。
🐾25 ChemNetとは、薬物活性を予測するように学習された深層ニューラルネットワークを指す。
🐾26 Fréchetは、フレシュ距離で近さを測るところから来ている。フレシェ距離は空間図形の類似度を計量化する尺度として用いられる。FIDはInceptionスコアの改良版である。Inceptionは、グーグルが開発した画像識別モデルの名前であり、Inceptionモデル用のスコアとしてInceptionスコアが開発された。
学習データ:{入力|出力}={化学構造|化学構造}。化学構造=フラグメントをグラフのノードとする木構造、に変換した化合物の化学構造。化合物は、ChEMBL、DrugBank及びPubChemから取得。
学習モデル:VAE(トランスフォーマー・ベース) 

(67) イオン液体開発を促進する生成器と予測器 
◎ 物性予測 
○ 日付 2025.6.16 
○ 研究主体: 金沢大学
○ 出所:https://www.kanazawa-u.ac.jp/wp/wp-content/uploads/2025/06/20250616.pdf
論文:https://jcheminf.biomedcentral.com/counter/pdf/10.1186/s13321-025-01018-z.pdf
● 概要・・・イオン液体(IL)の生成器を開発。生成器の出力データで学習した予測器を使って、効率的に特定用途特化型ILを開発する。
❚背 景❚ セルロースは汎用性の高い材料であるが、難溶解性材料である。ILはセルロースに対して高い溶媒和能を持つことが分かっているものの、セルロースに対して溶解度が高いという「特定用途特化型」ILの開発は、試行錯誤的にならざるを得ない。開発を効率化するために、機械学習を使う動機が生まれる。
❚モデル概要❚ 生成器=再帰型ニューラルネットワーク(RNN)+モンテカルロ木探索(MCTS)。予測器は、2種類:セルロース溶解度と融点を予測する。
❚データセット❚
 データセットは80%が学習データ、20%がテスト用に使われた。
(1)セルロース溶解度 
 41件の発表研究から、332種類の異なるILにわたる、674のデータポイントを含む包括的なデータセットを得た➡データ・クレンジング🐾1の結果、187の異なるILにわたる379のデータポイントに縮小。各データポイントには、ILの構造、溶解温度、溶解時間、使用したセルロースの種類を表すSMILES文字列が含まれている。RDKit 2023.9.4を使用して、SMILES文字列は数値記述子に変換される。特徴量の数は759個。
(2)融点 
 3つの文献から融点の重複を除去し、2,276データポイントの統合データセットが収集された。特徴量の数は754個。
❚ワークフロー❚ 
(1)生成
 IL研究において機械学習は、「融点、CO2溶解度、毒性、イオン伝導度」を予測するためには利用されている。しかし、溶解度の予測に関しては十分に利用されていない。本研究は、この理由を、「ILにおけるセルロースの溶解度に関する実験データが乏しいことに起因している」と考えている。そこで、データを生成しよう、という動機が生まれる。また、既存のIL330種類を調べた結果によると、その大多数(240種類)は溶解度が低かった。
 化学分野に適用可能な生成器(生成モデル)として、変分自己符号化器(VAE)やRNN、RNN+MCTSなどがある。本研究では、改良したRNN🐾2+MCTS🐾3を使用する。改良は、生成速度を上げる🐾4、である。入力、出力ともに、SMILESである。生成器は、約9,000億個の潜在的新規IL候補を生成した🐾5
(2)予測
 溶解度予測器は、IL中のセルロース溶解度を回帰予測する。融点予測器は、特定の温度設定における固体ILのろ過を支援するために開発された。
1⃣ 溶解度予測器は、4つの学習モデル🐾6を選択候補とし、その中から、ニューラルネットワークが選ばれた🐾7。SHAP分析を行い、化学的知見との整合性を確認することで、選択したモデルの妥当性を担保している。
2⃣ 融点予測器も、溶解度予測器と同じ4つの学習モデルを選択候補とし、ランダムフォレストが選択された🐾8。同じくSHAP分析を行い、選択したモデルの妥当性を担保している。
(3)検証・スクリーニング
 生成器が生成した膨大な潜在的新規IL候補は、まず適応領域(AD)スクリーニング🐾9が施される。続いて、2つの予測器でスクリーニングする🐾10。スクリーニングされた有望な🐾11候補「745個のIL」を、COSMO-RS🐾12を用いて、さらに、検証・スクリーニングする。
❚結 果❚ 
 セルロース溶解度15wt%以上と予測された745個の内、グランドトルゥース🐾13とマッチしたのは、535(約72%)であった。←これは、やや低調な結果と言えるのではないだろうか? 
❚制 限❚ 
① 本研究では、計算設計した構造の合成可能性や安定性、あるいは同定された有望なIL候補の合成経路については検討していない。
② 学習データセットの多様性に限界がある。←これは、本質的に、問題であろう。
❚註  釈❚
🐾1 どの学習モデル(→🐾6)を使っても決定係数が0.7を超えなかったため、クレンジングを行った。具体的には、水分含有量が1%を超えるデータポイントは、すべてデータセットから除外した。
🐾2 Keras 2.13.1を使用して構築。ネットワークは、それぞれ256個の隠れユニットを持つ2つのGRU(Gated Recurrent Unit)層とソフトマックス活性化関数を備えた最終出力層で構成。GRU層には、過学習を防ぐため、ドロップアウト率0.2が適用。損失関数は、多クラス交差エントロピー。オプティマイザは、Adam。学習率は0.001。
🐾3 ㊀選択ステップ→UCBスコアが最も高いノードが選択。㊂シミュレーション・ステップ→各子ノードについて、10 個の完全な SMILES 文字列が生成されるまでRNN予測を繰り返し実行する。㊃逆伝播ステップ→子ノードが、化学的に有効なSMILESを少なくとも1つ生成する場合に報酬1が与えられる。左記のSMILESが生成されない場合、報酬は0。
🐾4 何が生成速度を向上させたのか、よく分からない。
🐾5 化学的妥当性はRDKit 2023.9.4を用いてチェックされ、新規性はSMILES文字列がPubChemデータセットに含まれているかどうかを識別することによって検証される。
🐾6 ランダムフォレスト(RF)、XGBoost、リッジ回帰モデル、ニューラルネットワーク(NN)の4つ。RF、XGBoost、リッジ回帰モデルは、Scikit-learn 1.3.0によって実装された。ハイパーパラメータはデフォルト設定。
 NNは、Keras 2.13.1 を使用して実装された。活性化関数はReLUで、オプティマイザはAdam。学習率は、0.0001。損失関数はRMSE。
🐾7 選択指標は、決定係数とRMSE(二乗平均平方根誤差)。NNの決定係数は0.874、RMSEは2.886であった。
🐾8 ランダムフォレストの決定係数は0.863、RMSEは11.106であった。
🐾9 適応領域とは、学習セットによって定義された化学空間内の理論的な領域を表す。ADスクリーニングを行うことで、信頼性が増すと考えられる。
🐾10 セルロース溶解度予測において、加熱温度は80 ℃、加熱時間は24時間、セルロースの種類は微結晶に設定された。
🐾11 具体的には、セルロース溶解度が15wt%(重量パーセント)以上、融点が80℃未満を、「有望」な条件としている。
🐾12 COSMO-RSは、溶媒中の分子の熱力学的特性を予測するためのソフトウェアツール。医薬品開発における、溶解度の予測に有用とされる。
🐾13 COSMO-RSにより、セルロース溶解度15wt%以上と言う結果が出たIL。
学習データ:
 RNN・・・{説明変数|目的変数}={SMILES|SMILES}。
 溶解度予測器・・・{説明変数|目的変数}={759個の特徴量|セルロース溶解度}。
 融点予測器・・・{説明変数|目的変数}={754個の特徴量|融点}

学習モデル: ニューラルネットワーク、ランダムフォレスト 

(66) 薬物設計用報酬ハッキング策を施した生成AI 
◎ 物性予測 
○ 日付 2025.3.14 
○ 研究主体: 横浜市立大学・理化学研究所
○ 出所:https://www.yokohama-cu.ac.jp/res-portal/news/2024/20250314terayama.html
論文:https://www.nature.com/articles/s41467-025-57582-3.pdf
● 概要・・・報酬ハッキングを回避するとともに多目的最適化を実行する、医薬品候補物質(薬物)設計フレームワークDyRAMO🐾1を開発した。
❚背 景❚ 強化学習を用いない生成AIを使った薬物設計は、リード化合物の最適化との相性が悪かった。一方、強化学習を用いた生成AIを使った薬物設計では、報酬ハッキング🐾2が問題となる🐾3。報酬ハッキングを避ける一般的な枠組みは存在するものの、薬物設計に対しては有効性が低かった。そこで、薬物設計に対応できる報酬ハッキング回避策を考案した。
❚モデル概要❚ まず、生成AIの「適用範囲(Applicability Domain:AD)」を考慮することを、報酬ハッキング回避策とした。縛りを付けることで、生成AIの暴走を防ぐというイメージである。薬物設計では、複数特性の同時最適化(多目的最適化)が必要であるが、これをADの視点で表現すると、縛りの要件を緩めることを意味する。一方で、緩めすぎると、縛りを付けた意味が。実質的になくなる。従って、縛りの要件をどの程度緩めるか(緩める基準)、がキモとなる。本研究では、緩める基準を、ベイズ最適化を使って動的に探索する。
❚モデル・ワークフロー❚ 
 DyRAMOは、信頼性水準の全組み合わせを探索するまで、以下3つのステップを繰り返す。探索を効率化するためにベイズ最適化が使用される。なお、ADは、タニモト係数(MTS)🐾4の最大値によって定義される。
ステップ1・・・各特性に対する信頼性水準ρが、適当に設定される。ρは、パラメータσによって調整される。
ステップ2・・・生成AIを使用して分子を設計する。生成AI(分子生成器)には、ChemTSv2🐾5を採用した。学習モデルの分子Aと生成AIが生成した分子BとのMTS最大値が、信頼性水準ρを超えた場合、両者は同じADに属する。
ステップ3・・・生成AIによる分子設計が、「信頼性と特性」という2つの側面から評価される。設計した分子から特性を予測するモデルは、下記❚特性予測モデル❚を参照。評価は、DSS(信頼性と複数の特性最適化の同時満足度)スコアを使用して行われる。ここで、
     DSS=(Π特性毎に標準化した信頼性水準)1/n×報酬
である。nは特性の数(Πは、1~nまで掛け合わせる)。「報酬」は、設計された分子の上位X個の報酬値の平均であり、多目的最適化がどの程度達成されたかを示す。本研究では、設計された分子の報酬値の上位10%が対象となった。
❚特性予測モデル❚
 入力特徴量は、Morganフィンガープリント。RDKitソフトウェアを使用して計算した。学習モデルは、LightGBM。ハイパーパラメータは、Optuna ソフトウェアを使用して最適化した。予測性能は、5分割交差検証を使用して評価した。学習データは、ChEMBLから取得した。
❚ベンチマーク❚ 
 薬物設計の文脈で分子設計を実施した。薬物ターゲットとして、抗がん剤の開発でターゲットとされているEGFR(上皮細胞増殖因子受容体)を選択した。
 薬物設計では、薬理活性に加えて、薬物動態特性の最適化が必要である。薬理活性として、EGFR阻害活性を選んでいる。薬物動態特性として、代謝安定性、膜透過性を選んだ。つまり、3つの特性を選択した。
❚ベンチマークの結果❚ 
① 特性に対して最適化された信頼性水準は、EGFR阻害活性→0.66、代謝安定性→0.55、膜透過性→0.43であった。
② DyRAMOが生成した分子は、既知のEGFR阻害剤の特徴的な部分構造であるキナゾリン部分構造を持っていた。これは、DyRAMOが、EGFR阻害剤の本質的な特徴を捉えられていることを示唆している。
③ 承認薬が特性予測モデルの学習データから削除された場合でも、DyRAMO は望ましい予測特性を持つ分子を設計した。
④ DyRAMOが生成した分子は、これまで調査されていなかった空間にも広がっていることが示された。
⑤ ベイズ最適化は、効率的な探索を行った。
⑥ DyRAMOは、ターゲット特性間の優先順位を反映して信頼性を調整できる。
⑦ 各学習データセット内の分子が類似していない場合でも、DyRAMOは薬剤候補を特定できる可能性がある。
❚結 論❚ 
 信頼性レベルを適切に調整することで、既知の薬剤(ゲフィニチブ🐾6)を含む有望な分子が、信頼性水準を適切に調整することで、設計できた。
❚追 記❚ 
㈠ DyRAMOは、MTS以外の指標を使ってもADを定義可能であることを実証している。
㈡ アクティビティ・クリフ🐾7に注意が必要である。
㈢ ベイズ最適化について
 ㊀ PythonライブラリPHYSBO(optimization tool for PHYSics based on Bayesian Optimization)を使用。(日本人が開発)
 ㊁ 獲得関数は、期待改善量を使用。
 ㊂ エピソード➡「初期化のために10回のランダム探索。その後、30回の探索」。
 ㊃ 計算シナリオの各セットに対して、5つのエピソードが実行された。
❚註  釈❚
🐾1 Dynamic Reliability Adjustment for Multi-objective Optimization 
🐾2 強化学習において、AIが報酬を最大化するためだけに採る「不正行為」を指す。最適化をガイドするために使用される報酬関数が、予想されるシナリオから(大幅に)逸脱した入力のために、意図しない出力を生成する場合に発生する。
🐾3 (薬物に限らず)新規物質の探索は、学習データの外挿に該当するから、「予想されるシナリオから(大幅に)逸脱した入力」は、"通常運転"である。故に、報酬ハッキングは不可避、と言えることに注意。
🐾4 タニモト係数(Tanimoto similarity)は、分子構造の類似度を評価する代表的な指標。分子構造を変換したフィンガープリントの類似度を、分子間の類似度とする。
🐾5 ChemTSv2は、ChemTSのUI/UXを向上させ、並列化を施した第2世代 ☞こちら参照。
🐾6 分子標的治療薬に分類される経口投与(つまり低分子)の抗がん剤。適応がん種は、EGFR(上皮細胞増殖因子受容体)遺伝子変異陽性の手術不能又は再発非小細胞肺癌。作用機序は、EGFRチロシンキナーゼの選択的阻害。その結果、EGFRの自己リン酸化(=シグナル伝達)が阻害され、がん細胞の増殖や生存に必要な下流のシグナル・カスケードが抑制される。
🐾7 構造的に類似した分子が著しく異なる活性を示す現象。
学習データ:
 特性予測モデル(LightGBM)・・・{説明変数|目的変数}={Morganフィンガープリント|特性}。ChEMBLから取得。
 ChemTSv2のRNN・・・{説明変数|目的変数}={SMILES|SMILES}。ChEMBLから取得。

学習モデル: 生成AI(ChemTSv2 ☞こちら参照)、ベイズ最適化(PHYSBO)及びLightGBM。 

(65) 計算コストの低い結晶構造予測アルゴリズム 
◎ 構造予測 
○ 日付 2025.3.4 
○ 研究主体:統計数理研究所(及びパナソニック) 
○ 出所:https://www.ism.ac.jp/ura/press/ISM2024-08.html
論文:https://www.nature.com/articles/s41524-024-01471-8.pdf (以下、原論文)
● 概要・・・単純ながら、再現率(recall)が高い「結晶構造予測」を可能とする機械学習アルゴリズムを開発した。
❚背 景❚ 結晶構造が複雑な場合🐾1、第一原理計算を用いる既存手法で結晶構造を解くことは、計算コストの意味合いで難しい。そこで、機械学習を用いた代理モデルによって、計算コストを下げる試みを行った。
❚モデル概要❚ ❶結晶構造生成器を用いて仮想結晶構造を生成✚予測器(識別器)で絞り込み ➡ ❷エネルギー予測器を用いて候補を作成(→❸🐾2)。開発したアルゴリズムは、ShotgunCSP🐾3と命名された。
❚モデル・ワークフロー❚ 
❶ 結晶構造生成器を用いて仮想結晶構造を生成✚予測器(識別器)で絞り込み 
㈠ 概要・・・仮想結晶構造を生成するために、元素置換(ShotgunCSP-GT)とワイコフ位置生成器(ShotgunCSP-GW)の2つのアルゴリズムを開発した。安定性と多様性の二兎を追うために、2つのモデルが必要となる。
㈡ 結晶構造生成器其の壱:ShotgunCSP-GT・・・ターゲット化学組成(クエリ組成)Xと同じ化学組成を持つテンプレートにおいて、同じ組成比の元素が、ランダムに置換される🐾4。テンプレートとは、既に合成された結晶、または理論的に合成可能な結晶を指しており、マテリアルズ・プロジェクト・データベースから取得した。空間群予測器を使用して、探索空間を絞り込む。
❑補足❑ データベース内の複数の結晶は、同じプロトタイプ構造を持っている。このことを考慮して、テンプレート構造の多様性を維持しながらクエリ組成Xと関連性の高いテンプレートを選択するため、クラスターベースのテンプレート選択手順が導入された。テンプレートをクラスターに分類し、化学組成をXenonPy🐾4を使用して290次元(=58🐾4×5)の記述子に変換した。次に、Xと同じクラスターに属するテンプレートのみを選択して、組成の類似性🐾4が高いテンプレートのセットを識別した。さらに、構造的に冗長なテンプレートを削除するために、ツール🐾5を使用して、同一のプロトタイプ構造を持たない一意のテンプレートのセットを構築した。
㈢ 結晶構造生成器其の弐:ShotgunCSP-GW・・・クエリ組成Xに対して、空間群🐾6が事前に与えられている若しくは予測されている場合、ワイコフ位置🐾7のすべての可能な組み合わせから、原子座標をランダムに作成する。ワイコフ・パターン予測器を使用して、ワイコフ記号割り当ての自由度を効率的に削減する。
❑補足❑ ShotgunCSP-GTは、置換可能なテンプレートがなければ適用できないため、適用範囲が制限される。この制限を回避するために、テンプレートがない場合でも新しい構造を生成できるShotgunCSP-GWが開発された。
㈣ ShotgunCSP-GTの予測器(識別器)・・・学習データは下段を参照。学習モデルはニューラルネットワーク。結論として、上位30位🐾8の予測で、92.61%の空間群を特定できる。
㈤ ShotgunCSP-GWの予測器(識別器)・・・学習データは下段を参照。学習モデルは、ランダムフォレスト。結論として、安定構造のワイコフ記号が化学組成から予測可能(=制御可能)。従って、クエリ組成Xのワイコフ記号の出現確率を使用することで、ワイコフ記号割り当ての自由度を効率的に削減することも可能。
❷ エネルギー予測器を用いて候補を作成 
㈠ 概要
 実現する結晶構造は熱的に安定しているから、生成エネルギー🐾9が最低の仮想結晶構造が、候補となる。従って、結晶構造が与えられた場合"リアリティ・チェック"として、生成エネルギーを評価する必要がある。従来は、第一原理計算で生成エネルギーを計算していたが、これでは計算コストが高いので、機械学習を使った代理モデルで置き換えようと考えたのであった。事前学習した結晶グラフ畳み込みニューラル・ネットワーク(CGCNN)を再学習して、エネルギー予測器を作る。学習データは下段を参照。
㈡ エネルギー予測器の再学習 
 事前学習したCGCNNでは、特定の化学組成における、異なる原子配座の局所的なエネルギーの違いを区別することはできない。このため、特定の化学組成に対して、シングル・ポイント・エネルギー計算(自己無撞着場計算)を実行して、ランダムに生成された最大3,000個の仮想結晶の生成エネルギーを計算。
㈢ 再学習によるモデルの改善
 事前学習モデルの平均絶対誤差(MAE)は6.126eV/原子。再学習モデルのMAEは0.488 eV/原子。6.126/0.488≒12.6倍の改善が見られた。
❚ベンチマークセット❚
(1) 概要 
 ShotgunCSPアルゴリズムの性能は、3つのベンチマークセットⅠ、Ⅱ、Ⅲで評価された。
(2) ベンチマークセット
Ⅰ=文献調査に基づいて選択された🐾1040個の安定した結晶で構成される。単位格子内の原子数の平均及び標準偏差は、23.13及び24.09。
Ⅱ=マテリアルズ・プロジェクト・データベースから50個の安定した結晶をランダムに選択した。単位格子内の原子数の平均及び標準偏差は、32.68及び45.41。
Ⅲ=マテリアルズ・プロジェクト・データベースから、テンプレートが存在しない30個の安定した構造をランダムに選択した。単位格子内の原子数の平均及び標準偏差は、66.50及び34.40。原子数がⅠ及びⅡに比べて多い。
❚ベンチマークの結果❚ 
(1) ShotgunCSP-GT➡❷の結果 
 ベンチマークセットIとIIの成功率は、それぞれ82.5%と86.0%であった。成功率=再現率だと思われる。なお、マテリアルズ・プロジェクト・データベースに同一の組成比を持つテンプレートがなかった例を除くと成功率は、84.6%と93.5%であった。
(2) ShotgunCSP-GW➡❷の結果 
 ベンチマークセットIとIIの成功率は、それぞれ77.5%と78.0%であり、ShotgunCSP-GTに比べて低い。これは、「空間群予測の失敗」と説明されている。
(3) USPEXとShotgunCSP-GWの比較 
 ベンチマークセットIとIIから抽出した(同じ)データセットを使って、USPEX🐾11とGWを比較した。USPEXの成功率は、92.3%と91.7%。GWは、84.6%と83.3%。計算時間は、USPEXが37.7時間🐾12で、GWが21.4時間。
❚結 論❚ 
(1) ベンチマーク結晶90個(ベンチマークセットⅠ+Ⅱ)において、ShotgunCSP-GTは84.4%、ShotgunCSP-GWは74.4%🐾13を予測することに成功した。
(2) USPEXに対して、ShotgunCSP-GWは同等以上の予測精度を達成(原論文ママ)し、計算時間を約 40%短縮した🐾14
(3) ベンチマークセットⅢに対しては、ShotgunCSPアルゴリズムは有効ではない。
❚考 察❚ 
(1) グーグルのGNoMEをある程度意識しており(原論文で言及有り)、基本的な枠組みを踏襲している(と思われる)。GNoMEは、「構造パイプライン+組成パイプライン」+「第一原理計算(DFT)によるエネルギー予測器」。本研究は、「元素置換(GT)+原子座標作成」+「機械学習によるエネルギー予測器」である。DFTより機械学習の方が計算コストが低い、ことがウリとなっている。新しい構造を作る前半部分では、(前半部分に注力している)GNoMEに軍配が上がるだろう(というか圧勝)。
(2) 計算コストが低いと言っても、高々40%強の削減である(比較対象はUSPEXであり、GNoMEではない)。代理モデルとして削減しているのであるから、桁が違う程度のインパクトは欲しいと思われる。なお(そのインパクトを正しく理解できていないが・・・)原論文によるとGNoMeは、「特定システムの事前緩和エネルギーの予測には適しておらず」、「対象システムの異なる構造エネルギー差を定量的に区別することはできない」。
(3) ShotgunCSP-GWがGT🐾15よりも再現率(成功率)が高ければ、よりインパクトが大きかったように思われる。
(4) USPEXに対して、GWが同等以上の予測精度を達成したという表現は、誤解を生むように思われる。
❚註  釈❚
🐾1 単位胞(ユニットセル)内に、30~40個以上の原子を含む場合を指している。
🐾2 最後に(=❸)、絞り込んだ候補構造に対して、第一原理計算によるエネルギー緩和を実行し、最小エネルギーに達した結晶構造を安定構造として予測する(ので、❸は、機械学習アルゴリズムとは関係ない)。
🐾3 Shotgun=ショットガン(散弾銃)、CSP=crystal structure prediction:結晶構造予測、である。散弾銃は、広範囲に散弾し、的に命中したものを精査するというイメージに基づいているらしい。
🐾4 2つ以上の元素が同じ組成比を持つ場合、最も類似した元素を置換した。類似度の尺度は、XenonPyライブラリに実装されている記述子58個の正規化ユークリッド距離。XenonPyは、統計数理研究所が物質・材料研究機構と共同開発しているマテリアルズ・インフォマティクスのオープンソースプラットフォーム。記述子生成クラスでは、マテリアルズ・プロジェクトで取得した記述子から新たな記述子を生成できる。
🐾5 pymatgenのStructureMatcherモジュール。
🐾6 結晶構造において対称性を満たす操作(対称操作)が形成する群を、空間群という。3次元の空間群は、230種類ある(位数は無限大)。なお、空間群に関する記述において、対象操作と対称要素は区別されないことがあるので、初見だと部外者には分かり辛い。対称要素は対象操作に用いられる"要素"(という説明では何も伝わらない)。対称操作=回転なら、対称要素は回転軸ということになる。対称操作=映進(※)なら、対称要素は映進面。※映進=鏡映+(鏡映面に平行に)並進、である。
🐾7 ワイコフ位置は、特定の空間群の対称操作において、許容される原子配置の自由度を表す。
🐾8 学習とテストを独立して100回繰り返した。平均再現率が高い順番に、空間群にラベルを張っていった。その上位30という意味。
🐾9 物理的と言うか熱力学的には、ギブス自由エネルギーという理解で良いはず。
🐾10 「空間群、構成元素、原子数、元素種の多様性」と「バッテリーや熱電材料などの用途の多様性」という2つの基準で選択された。
🐾11 USPEX(Universal Structure Predictor: Evolutionary Xtallography)は、ロシアで開発された(人気のある=ポピュラーな)結晶構造予測パッケージ。モデル・アーキテクチャは遺伝アルゴリズム(進化的アルゴリズム)で、材料の化学組成のみから結晶構造を予測できる。USPEXは、ロシア語で成功を意味するuspekhともかかっている。
🐾12 各ノードで2.40GHzで動作する76コアのIntel Xeon Platinum 8368 CPUを2つ備えた大阪大学の「SQUID スーパーコンピュータ・システム」で実行された。
🐾13 (31+39)/(40+50)≒77.8%なので、計算が合わないように思える・・・
🐾14 (37.7-21.4)/37.7≒43%。
🐾15 ドラゴンボールのsequelのような名称である。
学習データ:マテリアルズ・プロジェクト・データベースから取得 
 ShotgunCSP-GT・・・{説明変数|目的変数}={結晶構造の化学組成33,040|空間群213}。化学組成は、290次元の記述子ベクトルに符号化(変換)。
 ShotgunCSP-GW・・・{説明変数|目的変数}={空間群213|ワイコフ記号の出現頻度}。
 CGCNN事前学習・・・{説明変数=結晶構造126,210|目的変数=生成エネルギー}。
 CGCNN再学習・・・{説明変数=仮想結晶構造3,0000|目的変数=生成エネルギー}。生成エネルギーは、仮想結晶構造に対して、自己無撞着場計算で算出。

学習モデル:ニューラルネットワーク、ランダムフォレスト、グラフ畳み込みニューラルネットワーク 

(64) ポリファーマコロジーを支援 
◎ メソドロジー 
○ 日付 2025.1.17 
○ 研究主体:名古屋大学(・九州工業大学・東京大学) 
○ 出所:https://www.nagoya-u.ac.jp/researchinfo/result/upload_images/20250117_i.pdf
論文:https://www.cell.com/action/showPdf?pii=S2589-0042%2824%2902753-6
● 概要・・・複数の治療標的タンパク質と相互作用する「マルチ標的化合物」を合理的に設計するAIを開発した。
❚背 景❚ 「カクテル療法🐾1」は多因子疾患の潜在的に効果的な治療法であるが、複数薬物を盲目的に組み合わせると有害な副作用が発生する可能性がある。そのため、1つの薬剤が複数の治療標的に同時作用することで、相乗効果が得られることが理想である。このような「ポリファーマコロジー」の可能性は長い間認識されてきたが、マルチ標的化合物を合理的に設計することの難しさにより、その進歩は制限されてきた。👉 AIを活用することで、マルチ標的化合物の化学構造を、合理的に設計した。
❚対象疾患と治療標的タンパク質❚ 
 モダリティ=小分子(経口薬が前提とされているはず)
 対象疾患=気管支喘息
 治療標的タンパク質=アデノシン A2a 受容体🐾2(ADORA2A)及び、ホスホジエステラーゼ 4D🐾3(PDE4D)
❚モデル概要❚ マルチ標的化合物の化学構造を生成する「生成器」×2。以下、AI生成器と呼ぶ。
1⃣ 一つは、遺伝的アルゴリズム(GA)を使用したフラグメント・ベース🐾4生成器DualFASMIFRA。化学構造は、標的タンパク質に対して活性化合物フラグメントを組み立てるGAによって生成される。←機械学習・深層学習・強化学習ベースの方法ではないので、基本的に割愛。
2⃣ もう一つは、トランスフォーマーをベースとしたエンコーダーとデコーダーを備えた、敵対的生成ネットワーク(GAN)に基づく生成器DualTransORGAN。GANは、いわゆるワッサースタインGAN(☞❚モデル・アーキテクチャ❚)である。化学構造は、(確率的方策勾配法を使用した強化学習によって)化合物の意味的特徴を捉える妥当な構造として生成される。確率的方策とは、方策に対して、モンテカルロ木探索を実行することを意味している。
0⃣ AI生成器が2つある理由は以下の通り:2の生成器を併用することで、より効果的で多様な分子が得られると考えた。DualTransORGANは、化学構造の多様性を促進するという利点を持つ。DualFASMIFRAは、医薬品になるであろう予見性が高い分子を効率的に生成するという利点を持つ。医薬品になるであろう予見性には、リード・ライクネス╏補足(1)╏、経口薬としての可能性、合成容易性等が含まれる。構造アラート╏補足(2)╏も含まれているのであろう。
❚データセットのセットアップ|DualTransORGAN❚ 
 DualTransORGANは、分子量(モル質量)が ≤500g/mol、SMILES長が10~60の500,000の化合物で学習された。そのデータは、ChEMBLデータベース🐾5に登録されている2,105,464の化合物から取得された。ADORA2A及びPDE4Dに対する活性を持つ化合物構造の生物活性データも、ChEMBLから取得された🐾6。ここで言う、生物活性は、pIC50である🐾7。データセットは、学習データセット(80%)とテストデータセット(20%)に分割された。
❚モデル入出力|DualTransORGAN❚ 入力=SMILES|出力= canonical SMILES🐾8
❚モデル・アーキテクチャ|DualTransORGAN❚ 
(1) 全体論1:ワッサースタイン距離 
 従来型のGAN🐾9において、しばしば直面する学習の不安定性とモード崩壊🐾10に対処するため、ワッサースタイン距離が使用されている(いわゆる、ワッサースタインGAN)。ワッサースタインGANでは、(厳密さを犠牲にして単純化して述べれば)ワッサースタイン距離を最小化するように学習が行われる。ワッサースタイン距離は、㊀実際のSMILES分布に基づいた期待値と、㊁生成器が出力した分布に基づいた期待値の差で与えられる。実際は、sup[㊀-㊁]であるが、それを含めて、"標準レシピ"通りである(※「標準レシピ」という文言が、GANや強化学習の文脈で、標準的に使われているわけではない)。
(2) 全体論2:離散変数GANなので、やや複雑に・・・ 
 離散変数GANにおける標準レシピの一つは、「方策勾配法とモンテカルロ木探索による識別器からの期待報酬により、生成器を更新する」である(と理解)。つまり強化学習を使って、生成器は更新される。DualTransORGANも、この標準レシピを踏襲している。言うまでもなく、方策勾配法は目的関数J(θ)の勾配を用いて最適な方策を求める手法である。J(θ)は、次のように構成されている。
     J(θ)=∑方策×期待報酬 (式❶)
     期待報酬=λ×ワッサースタイン距離+(1-λ)×pIC50スコア×モード崩壊のペナルティ・スコア (式❷)
     λ:適当なパラメータ
 「期待報酬」は、正確には、方策に対するモンテカルロ木探索N回に渡る平均値を使用する。
(3) 個別論1:生成器 
 SMILES文字列のエンドtoエンド学習に、トランスフォーマー符号化器(エンコーダー)・復号化器(デコーダー)アーキテクチャを使用。符号化器は、自己注意機構を使用してバリアントSMILES文字列から特徴量を抽出する。復号化器は、それらの特徴量をcanonical SMILESに復号する。注意スコア等は、標準レシピ通り。
(4) 個別論2:識別器 
 識別器は、まず「生成されたSMILES文字列と実際のSMILES文字列を区別する役割を担う、畳み込みニューラルネットワーク(CNN)」として実装される。次に、最大プーリング演算子を使用して、各プーリング領域で、畳み込み演算の特徴量マップの最大値を選択する。最後に、入力SMILES文字列が真として認識される確率を決定する。
❚事前学習及び学習❚
(1) 生成器 
 意味的および構文的特徴を学習するために、500,000個のSMILES文字列を使用して、250エポックの事前学習が実施された。事前学習後、生成器は生物活性予測モデル🐾11を使用して学習された。最初に、以前に構造特性を再学習した生成器を使用して、化学構造を持つSMILES文字列が生成された。生成された各構造の活性は、確立された生物活性予測モデルを使用して予測され、化学構造の存在確率は識別器を使用して決定された。予測された化学構造の活性と存在確率は、生成器への報酬として返された。
(2) 識別器 
 事前学習された生成器と500,000個の生成されたSMILES文字列を使用して、10エポックの事前学習が実施された。事前学習後、生物活性値に基づいて特性を事前学習した生成器を使用して、識別器を学習した。
❚再学習❚
 生成器は、生成した化学構造の構造特性を再学習し、報酬を最大化する化学構造(以前の構造よりも存在確率と生物活性が高い構造)を生成する。
❚ハイパーパラメータ❚
 トークン・ベクトル次元は128、最大トークン数は77、トークンタイプの数は81。
 ドロップアウト率は0.2。
 エンコーダー層4、デコーダー層4、マルチ・ヘッド・アテンションのヘッド数4。
 オプティマイザーはAdam。学習率スケジューリングなし、早期停止なし。
 事前学習及び学習における学習率:0.001(生成器及び識別器)
 再学習における学習率:4×10−5(生成器)
❚為念:学習環境❚ 
 PyTorch1.8.1、Anaconda4.10.3のPython3.6.10。
❚成果と結論❚ 
 10種類の化合物🐾12を合成した。10個中3個が、ADORA2AとPDE4Dの両方と相互作用した。目的の活性を持つヒット化合物は、AI生成器が生成した4つの化合物から合成された。合成ヒット化合物が、学習データセットには存在しない既知のリガンドを正常に再現したことをもって、AI生成器は、望ましい活性を持つマルチ標的化合物の開発を加速できると結論付けている。
❚制 約❚ ←医学系の論文には、コレが付くことが多い。
(1) 提案方法の対象は、小分子である。最近のモダリティには、中分子、高分子(化合物)が含まれている。提案方法が中分子および高分子を有用に予測できるかどうかは不明である。
(2) 予測された化学構造は結合アッセイによってのみ検証された。今後は、用量や毒性などの他の観点からの実験的検証に取り組む意向である🐾13
❚考 察❚ 
(1) 医薬品設計しかもマルチ標的化合物の構造設計というお題に対して、生成モデルを上手く適用した研究と言えるのだろう。もっとも、今回、マルチ標的化合物の構造設計が成功した理由には、「ADORA2AとPDE4D」に、何らかの類似性があるからだろうと想像(同じシグナル伝達パスウェイに連なっているように思われるから)。その定量化が行えると、本提案手法が有効である対象疾患を網羅的に探索できるような気がする。
(2) 創薬の文脈で、本研究のAI生成器DualTransORGANが生成する化合物を表現すると、「生物活性(pIC50)のみに焦点を当てた」リード化合物ということになるだろう。生物活性のみによる創薬は実効性に乏しい。それをカバーするために、DualFASMIFRAがある、という見方も出来る。薬理活性等を含めてDualTransORGANが機能することを検証する場合には、式❷が変更されるだけでなく、生成器が、生物活性モデル以外の活性モデルでも学習される必要がある。ただ、アンサンブル学習を実施するにしても、一筋縄ではいかないのだろう。
╏補足╏
(1)リード・ライクネス(Lead-likeness)
 リード・ライクネス(リード化合物らしさ)は、ドラッグ・ライクネス(薬らしさ)を要件を緩めた選択基準で、アストラ・ゼネカの研究者が2001年に提唱したらしい。ドラッグ・ライクネスは、明らかに経口薬を前提とした基準である。ドラッグ・ライクネスの主要プロパティには、「分子量、脂溶性、極性表面積、水素結合ドナーの数、水素結合アクセプターの数、回転可能結合の数、芳香環の数」などがある。出典:https://www.jstage.jst.go.jp/article/fpj/149/4/149_180/_pdf
(2)構造アラート 
 狭義には『毒性が懸念される部分構造=トキシコフォア』を指すが、広義には「医薬品として開発するにあたって、医薬品に望ましくない部分構造」を指す。
❚註  釈❚
🐾1 複数薬物の組み合わせによる相乗効果を利用する療法。
🐾2 アデノシンA2a受容体(ADORA2A)は、アデニル酸シクラーゼ促進性のGたんぱく質と共役するGPCR(Gタンパク質共役受容体)である。線条体(大脳基底核の主要な構成要素のひとつ)や大脳皮質、海馬、冠血管、肺、血小板など生体内の幅広い部位に分布している。その生理機能は、神経活動の制御、血管拡張、内蔵平滑筋の弛緩など多岐に渡る。一般的には、パーキンソン病等の神経変性疾患に対する医薬品候補の文脈で語られることが多いと思われる。
🐾3 ホスホジエステラーゼ4D(PDE4D)は、環状アデノシン1リン酸(cAMP)の分解を阻害する酵素である。このため、細胞内のcAMPの蓄積を可能にし、気管支平滑筋を弛緩させる。また、PDE4DはADORA2Aを標的にして、細胞内のcAMP濃度を増加させ、気管支平滑筋の収縮を阻害する。なお、PDE4D阻害剤は、神経細胞内のシグナル伝達系を制御することで、アルツハイマー病の改善並びに進行遅延の両作用を有するとされる。
🐾4 フラグメントとは、分子の部分構造を指している。構造置換アプローチで、化合物を生成しているのが「フラグメント・ベース」という理解で良い(と思う)。
🐾5 ChEMBLは創薬を目的とした生理活性をもつ化合物や小分子(いわゆる、生物活性分子)のDB。生物活性分子と、その標的やアッセイ情報を紐付けて収載しており、創薬に広く使用されている。欧州分子生物学研究所の1部門「欧州バイオインフォマティクス研究所」(所在地:英ヒンクストン)よって管理されており、バッチ効果が最小限になるように努力されている(らしい)。バッチ効果とは、「実験のバッチ(グループ)や実験条件といった、生物学的差異ではなく、技術的要因によって惹起されるデータのシステマティックなバイアス」を指す(出典:https://www.yodosha.co.jp/jikkenigaku/keyword/%E3%83%90%E3%83%83%E3%83%81%E5%8A%B9%E6%9E%9C/id/116132)。
🐾6 これらのデータのうち、309 と 903 の化合物構造がそれぞれ ADORA2A と PDE4D を標的としていた。
🐾7 pIC50=-log10IC50。IC50(50%阻害濃度または半数阻害濃度)は、化合物の生物学的または生化学的阻害作用の有効度を示す値である。どの濃度で、その薬物が標的としている物の半数(50%)の働きを阻害できるかを示す。
🐾8 一意に定められた規則に従って、元素記号の並び順を記述した「正規化」されたSMILES文字列。
🐾9 ちなみに、従来型のGANでは、ジェンセン・シャノン情報量(本質的にカルバック・ライブラ情報量)を最小化するように学習が行われる。
🐾10 生成器が、変わり映えのしない、同じようなデータしか生成しなくなる現象。
🐾11 本研究における生物活性予測は、定量的構造活性相関を予測する回帰モデルである。定量的構造活性相関とは、化学物質構造と生物学的(薬学的あるいは毒性学的)活性との間になりたつ量的関係のことである。回帰モデルのモデル・アーキテクチャには、ランダムフォレスト(RF)が採用されている(scikit-learnのライブラリを使用)。SMILES文字列は、Morganフィンガープリントに変換され、2048次元のベクトルとして表現された。もちろんモデルは、RFに限定する必然性はなく、「勾配ブースティング、ロジスティック回帰、カーネル回帰、深層ニューラルネットワークなどの他の機械学習方法も、使用できる」と記述されている。
🐾12 AI生成器が生成した化合物の中から、合成しやすい化合物が10個選択された。
🐾13 結合アッセイによってのみ検証するアプローチをフラグメント・ベース創薬という方法論として捉えれば、「用量や毒性など・・・」は従来のリード探索手法を指しているのであろうか。
学習データ:{説明変数|目的変数}={治療標的タンパク質の構造データ及び生物活性|マルチ標的化合物の構造データ}。
学習モデル: ワッサースタインGAN 

(63) アルコールの誘電特性理解を促進する学習モデル 
◎ 物性予測 
○ 日付 2024.10.26 
○ 研究主体:東京大学 
○ 出所:https://www.s.u-tokyo.ac.jp/ja/press/10544/
論文:https://journals.aps.org/prb/abstract/10.1103/PhysRevB.110.165159
● 概要・・・分子液体の双極子モーメントを予測する学習モデルを構築した。
〚感想〛 ↓LLMによる論文サポートと親和性が高そう。
❚背 景❚ セントラルドグマは、材料設計←誘電関数←双極子モーメント←ワニエ・センター🐾1。精緻な第一原理分子動力学法でワニエ・センター(WC)を求めることは、計算コストが高い。そこで、深層学習を使って代理モデルを構築する。ポイントは、先行研究で採用された「ワニエ重心🐾2を予測する」のではなく、「化学結合ごとに割り当てたWCを予測する」ことである。
❚データセットのセットアップ❚ 学習データはCPMDパッケージ🐾3を使用して生成された。具体的には、電子基底状態、化学結合、およびWCを計算した❚補足❚。90%が学習に、10%が検証に使用された。
❚モデル入出力❚ 入力=分子構造||出力=双極子モーメント
❚モデル・アーキテクチャなど❚ 
 隠し層3、ノード数50。活性化関数はReLU。オプティマイザーはAdam。ミニバッチ学習スキームを使用(バッチサイズ32)。過学習対策として、early stopping(早期停止)採用。なお、メタノールとエタノール、ガス相と液体相のモデルは、個別に学習されている。
❚ハイパーパラメータ❚
 学習エポック数は100に固定。学習率(スケジューリング)は、1×10−3から、1×10−5に指数関数的に減少させた。
❚成 果❚ 
 気相・・・メタノール・エタノールともに双極子モーメントの、DFT計算と学習モデルとの差(RMSE)は、0.03D🐾4以下(エタノールのCC結合=0.035D、を除く)。1Dは、WCの変位約0.1Åに対応するので、非常に高精度と言えるだろう。
 液相・・・メタノール・エタノールともに双極子モーメントの差(諸々同じ)は、0.03D以下。ただし、エタノールのCC結合(0.036D)とメタノールの酸素孤立電子対(0.040D)を除く。
❚(DFT計算に関する)補足❚
 交換相関汎関数には、Grimmeの分散力補正🐾5D2🐾6を使用した、一般化勾配近似(GGA)フレームワーク内のBecke-Lee-Yang-Parr(BLYP)関数を採用。擬ポテンシャルは、Goedecker-Teter-Hutter(GTH)を採用。
❚註  釈❚
🐾1 ブロッホ関数(ブロッホ波)を波数空間に関してフーリエ変換することにより得られる、(実空間上の格子点に)局在した関数を、ワニエ関数と呼ぶ。ワニエ関数の中心位置(≒ワニエ・センター)は、電子分布の平均位置を表すので、双極子モーメントの情報が得られる。ワニエ関数の自乗は電子の分布を表すので、化学結合に関する情報が得られる。一般に、ワニエ関数は一意に定まらない。ワニエ関数の広がりが、最小になるように変換することにより得られる、一意に定まる関数を最大局在ワニエ関数(MLWF)と呼ぶ。MLWFの中心がWCである。
🐾2 WCの平均位置は、ワニエ重心(centroid)と呼ばれる。水分子には4つの WCしかないが、大きな分子になると、WCが増える。
🐾3 カー・パリネロ(CP)法ベースの分子動力学(MD)計算パッケージ。CPMDコンソーシアムにより開発・管理されている。
🐾4 Dは、SI単位系ではないものの、双極子モーメントの単位として使われる「デバイ」。D≒3×10-30クーロン・メートル。SIだと小さ過ぎる!
🐾5 分散力補正とは、「交換相関汎関数に(GGAやLDAで、取りこぼした)弱い相互作用(実質的に、≒ファン・デル・ワールス力)を考慮する」こと。※ザックリ言うと、ファン・デル・ワールス力は、双極子モーメント間の相互作用。
🐾6 一般的には、D3が採用されることが多い。なお、D2がパラメータ固定、D3はパラメータ可変、ということらしい。
学習データ:{説明変数|目的変数}={化学結合|ワニエ・センター}。
学習モデル: ニューラルネットワーク

(62) 「普遍的な」アンサンブル埋め込み層を備えたGNN 
◎ 物性予測 
○ 日付 2024.10.15 
○ 研究主体:東北大学 
○ 出所:https://www.tohoku.ac.jp/japanese/newimg/pressimg/tohokuuniv-press20241015_01_ai.pdf
論文:https://onlinelibrary.wiley.com/doi/epdf/10.1002/adma.202409175
● 概要・・・小さなデータセットで、高品質の光学予測を可能とする、学習モデルを開発した。
❚背 景❚ 結晶構造から第一原理計算で光学特性を求めることは、計算コストが高い。一方、機械学習による結晶構造からの光学特性の予測においては、効率的な「埋め込み表現」が存在しないため、高品質の予測は困難である。そこで、効率的な埋め込み表現を(人間の直感に頼ることなく、)自動で生成する手法を開発することによって、高品質の光学予測を可能とするグラフニューラルネットワーク(GNN)モデルを開発した。GNNOpt(Graph Neural Network for Optical Spectra)と命名。
❚データセットのセットアップ❚ Materials Project🐾1からAPIを使用して取得された944の材料に対する{説明変数|目的変数}={結晶構造|周波数依存光学スペクトル}。ここで言う光学スペクトルとは、独立粒子近似(IPA)🐾2で実行された「周波数依存誘電関数と対応する吸収係数」。733/942=約80%が学習データ、97/942=約10%が検証データ、110/942=約10%がテストデータ。
❚モデル入出力❚ 入力=結晶構造→入力特徴量= 原子量、分極率、共有結合半径||出力=光学スペクトル→複素誘電関数、吸収係数、複素屈折率、反射率
❚モデル・アーキテクチャ❚ 
1⃣ GNNOptは、アンサンブル埋め込み層を備えたGNN。GNNは、E(3)同変🐾3グラフ畳み込みニューラルネットワーク。アンサンブル埋め込み層は、特徴量埋め込み表現に学習可能な重みを割り当てる。アンサンブルとは複数の入力特徴量(今の場合、原子量、分極率、共有結合半径)にそれぞれの重みをかけて、混ぜ合わせることを意味する。このためGNNOptは、複数の入力特徴量から、特定の物理的特性における最も重要な入力特徴量を、自動的に識別できる⇒光学特性の場合、ほぼ共有結合半径。
2⃣ 重みは、予測スペクトルとグラウンドトゥルース・スペクトル🐾4間の平均二乗誤差・損失関数を最小化することによって最適化される。なお、活性化関数はReLU。
❚ハイパーパラメータ❚ オプティマイザーはAdamW。学習率は、5×10ー3×0.96k。ここでkは、エポック数。オプティマイザーの重み減衰係数は 0.05。
❚成 果❚ 
1⃣ (クラマース・クローニッヒの関係式を使って)誘電関数の実数部または虚数部のみから、吸収係数、屈折率、反射率などのすべての周波数依存光スペクトルを抽出することができた⇒太陽電池アプリケーション向けの高性能材料のリストを特定した。
2⃣ 光学特性と基底状態トポロジーの関連性により、複数の非自明なトポロジーを持つ量子材料をスクリーニングすることができた。
❚註  釈❚
🐾1 材料に関する第一原理計算結果のデータベース。米MITの研究グループが運営を行っている。結晶構造、バンド構造、熱力学量、相図、磁気モーメントなどのデータが含まれており、リチウム・イオン電池材料のデータが特に充実しているとされている。
🐾2 全波動関数を、1つ1つの構成粒子の軌道関数によって表わす近似を、独立粒子近似(IPA)と言う(軌道近似とも言う)。実験スペクトルを再現するには、IPAで十分であるとされている。
🐾3 数学的(幾何学的)に表現すると、ユークリッド幾何学における「合同変換」に対して、変化しない性質を言う。合同変換=並進(平行移動とも呼ばれる)、回転、鏡映(反転、線対称移動とも呼ばれる)。物理寄りに表現すると、(グラフが)並進・回転・鏡映対称性を、自然に保持するという性質を指す。
🐾4 第一原理計算の結果。計算には、お馴染みのQuantum ESPRESSOを使用。交換相関汎関数として、スタンダードとされる一般化勾配近似(GCA)に属する、(GCA型で代表的な)PBE(Perdew-Burke-Ernzerhof)汎関数を選択。擬ポテンシャルとして、 ノルム保存型Vanderbilt擬ポテンシャルを選択。
学習データ:{説明変数|目的変数}={結晶構造|複素誘電関数、吸収係数}。
学習モデル: E(3)同変GNN

(61) ターゲット特性を考慮したクラスター分析 
◎ メソドロジー 
○ 日付 2024.8.7 
○ 研究主体:東京工業大学、横浜市立大学 
○ 出所:https://www.yokohama-cu.ac.jp/res-portal/news/2024/20240807terayama.html
論文:https://onlinelibrary.wiley.com/doi/10.1002/aisy.202400253
● 概要・・・ターゲット特性並びに、材料の基本的特徴の両方の観点から、類似の材料をグループ化するクラスター分析手法を提案。
❚背 景❚ 材料のクラスター分析は、材料の特徴に基づいて類似性に従って材料を分類し、材料間の関係についての洞察を提供する。ただし、従来のクラスター分析における材料の特徴とは、基本的特徴に留まっていた。ここで言う、基本的特徴とは、化学組成と結晶構造から得られる特徴を指す。つまり、バンドギャップや誘電率などのターゲット特性は考慮されていなかった。当然ながら、このようなアプローチでは、ターゲット特性に従って材料を分類するという要求を満たさない。
❚学習モデル❚ ターゲット特性を表す特徴量の選択・抽出には、ランダムフォレストを使用。ランダムフォレストの結果をクラスター分析に使用する際に、ワンホット符号化を採用。
❚成 果❚ ターゲット特性として、生成エネルギー・バンドギャップ・電子系誘電率を取り上げ、クラスター分析を行った。その結果、広いバンドギャップと大きな電子系誘電率を両立するような物質の設計指針を得ることができた。
学習モデル: ランダムフォレスト

(60) 1,600次元超を2次元に圧縮 
◎ メソドロジー 
○ 日付 2024.8.2 
○ 研究主体:九州大学 
○ 出所:https://www.kyushu-u.ac.jp/ja/researches/view/1130
論文:https://chemistry-europe.onlinelibrary.wiley.com/doi/10.1002/celc.202400252
● 概要・・・アニオン交換膜材料†1を対象に、2つの教師なし機械学習モデルを連携させることで、化学構造情報に基づく材料マップを作成した。
❚学習モデル❚ 主成分分析(PCA)とUniform Manifold Approximation and Projection(UMAP)。PCAでは、1,600次元超を32次元に圧縮。UMAPで、さらに2次元に圧縮。☛複雑な化学構造に含まれている情報を保持しつつ、高次元空間から低次元空間への変換を実現。
†1 燃料電池や水電解装置の中核部品を担う。
†2 代表的な次元削減の手法として、PCA、t-SNE(t-distributed Stochastic Neighbor Embedding)及びUMAPが、広く知られている。UMAPはt-SNEより高速とされる。UMAPはデータをグラフ構造で表現し、高次元グラフに"類似する"低次元グラフを作成することで、低次元化を実行するらしい。"類似する"は圏論的に定義されるらしい。グラフ構造を保持する射による関係性(類似性)で、低次元グラフを選別していくという理解で良いだろうか?
学習モデル: PCA、UMAP

(59) 電池の寿命予測 
◎ 物性予測 
○ 日付 2024.7.24 
○ 研究主体:物質・材料研究機構、ソフトバンク 
○ 出所:https://www.nims.go.jp/press/2024/07/202407240.html
論文:https://onlinelibrary.wiley.com/doi/10.1002/advs.202402608
● 概要・・・金属リチウム負極とニッケル過剰系正極で構成される高エネルギー密度金属リチウム電池の寿命を予測するモデルを構築した。
❚特徴量エンジニアリング1❚
1⃣ 電池を57個を製造し、57 個のうち 48 個を使用して機械学習モデルを構築した。充電、放電、電圧緩和プロセスを含むサイクル試験全体で得られた生の電圧および容量データから合計 35 の特徴量を抽出した。35の特徴量は、充電、緩和、放電関連の3グループに分類された。
2⃣ 次に、ピアソンの相関係数を計算することにより、35の特徴量と観測されたサイクル寿命との相関関係を体系的に調査。サイクル寿命と強いまたは中程度の相関関係を示す 12 の特徴が抽出された。
❚データのセットアップ❚ 4分割交差検証を採用。
❚学習モデル❚ ElasticNetが期待外れだったため、XGBoostを使用。
❚特徴量エンジニアリング2❚ XGBoostを使って、12の特徴量を組み合わせた4,095通りの予測精度を評価。その結果、6つの特徴量(放電関連の5つと緩和関連の1つの特徴量)を抽出した。指標は、相関係数(R2)と二乗平均平方根誤差(RMSE)。
❚成 果❚ R2=0.89、RMSE=8.29を達成。
学習モデル: XGBoost

(58) リッチデータを使って、副作用予測モデルを高性能化 
◎ 「記述子」の提案 
○ 日付 2024.6.21(報道解禁日) 
○ 研究主体:名古屋大学、岡山大学 
○ 出所:https://www.okayama-u.ac.jp/up_load_files/press_r6/press20240621-1.pdf
論文:https://www.sciencedirect.com/science/article/pii/S2589004224012574
Supplemental information=https://ars.els-cdn.com/content/image/1-s2.0-S2589004224012574-mmc1.pdf
● 概要・・・❶新しい記述子”PBAS†1”を提案。❷PBASの有効性検証。❸副作用予測におけるPBASの有用性を実証。❹他記述子と比較。
❚概要を詳細化❚
❶ タンパク質1⃣Ⓧ薬剤2⃣に、ドッキング・シミュレーション†2を実施 → PBASプロファイル作成。1⃣は、3次元構造が実験的に決定されていないタンパク質も含む。このため、結果として、PBASはリッチになっている(ことが本質的に重要)。
❷ (機械学習とは直接関係ないので、割愛) 
❸ PBASプロファイルを説明変数†3、副作用(の有無)を目的変数とする、副作用予測モデルを構築3⃣、検証4⃣を行った。 ❹ 他の3つの記述子に対して、副作用予測性能の比較を行った。さらに、PBASとのハイブリッド記述子とPBASとの比較も行った。
❚データセット❚
1⃣ 19,135 個のヒトタンパク質の3次元構造を、AlphaFold タンパク質構造データベース(AlphaFoldDB)から取得。
2⃣ 7,582 個の薬剤を、京都遺伝子ゲノム百科事典(KEGG)†4薬剤データベースから取得。 
3⃣ 「副作用あり」の学習データ(目的変数)は、SIDER†5データベースから取得した、既知の薬物副作用(285個)のデータ。
4⃣ 「副作用あり」の検証データは、SIDER及びFAERS †6から取得した。
❚機械学習モデル❚ 
 副作用は稀な事象であるから、薬剤副作用予測モデルとして、スパース・モデリング†7に基づく、二値分類器(識別器)を採用。具体的には、L1ノルムを用いた正則化ロジスティック回帰モデルを採用。
❚予測性能の比較に使われた記述子❚ 
 ⓪PBAS、①フィンガープリント†8、②TESS†9、③TELR†10。さらに、④PBAS+フィンガープリント、⑤PBAS+TESS、⑥PBAS+TELRも使用された。
❚予測性能の比較に用いた指標など❚ 
 指標は、AUCとAUPR†11。なお、各記述子による予測性能評価は、5 分割交差検証で行われ、5 分割交差検証は 30 回繰り返された。故に、(下記で示す)AUCとAUPRは平均値。
❚予測性能の比較結果1 →PBASとのタイマン ❚ 
 最良値を太字で示す。☛ PBASが最良。
㈠ SIDER・AUC・・・ ⓪0.7352、①0.6996、②0.7077、③0.7216
㈡ SIDER・AUPR・・・⓪0.3720、①0.3212、②0.3006、③0.2851
㈢ FAERS・AUC・・・ ⓪0.6423、①0.6158、②0.6223、③0.6321
㈣ FAERS・AUPR・・・⓪0.3205、①0.2926、②0.2752、③0.2716
❚予測性能の比較結果2 →PBASとのハイブリッド❚ 
 最良値を太字で示す。☛ ハイブリッドにより、性能は上がる。
㈠ SIDER・AUC・・・ ⓪0.7352、④0.7361、⑤0.7426、⑥0.7368
㈡ SIDER・AUPR・・・⓪0.3720、④0.3734、⑤0.3815、⑥0.3752
㈢ FAERS・AUC・・・ ⓪0.6423、④0.6388、⑤0.6439、⑥0.6400
㈣ FAERS・AUPR・・・⓪0.3205、④0.3190、⑤0.3192、⑥0.3202
❚本研究で得られた知見❚ 
⓵ スパース・モデリングは、本質的な特徴量を自動的に判別する技術なので、スパース・モデリング基づく本研究の副作用予測モデルは、本質的な特徴量を抽出する機能を備えていると考えられる。噛み砕いて言うと、副作用予測モデルの入力として使われたタンパク質の中で、重み付けの高いタンパク質は、副作用の発現に関与するタンパク質であると考えられる。
 本研究の副作用予測モデルにおいて、少数のタンパク質が各副作用の重要なタンパク質として選択されていることが確認された。
⓶ すべてのヒトタンパク質との相互作用パターンが、薬剤間で著しく異なることが明らかになった。
❚本研究の制約❚ 
 本研究のドッキングシミュレーションでは、
㊀ タンパク質ごとに 1 つのリガンド結合ポケットのみが考慮された。
㊁ 固定パラメータのみを使用した。
㊂ タンパク質構造はモノマーのみだった。
❚註  釈❚
†1 Proteome-wide binding affinity score:ヒトタンパク質に対する結合親和性スコア
†2 AutoDock Vinaを使用。なお、AutoDock に対しては、以下のような記述も存在する:「無料で、かつ使い方も簡単な AutoDock ですが、そのドッキング結果は必ずしも正確ではありません。AutoDock で示された結果をあまり鵜呑みにしないほうが良いです」。出所:https://computational-chemistry.com/top/blog/2017/04/26/autodock-vina/
†3 記述子、特徴量という文言を使っても良い(同じ意味)。 
†4 https://www.genome.jp/kegg/kegg_ja.html 
†5 SIDER(Side Effect Resource)は、医薬品の添付文書から収集された副作用データセット。
†6 FAERS(FDA Adverse Event Reporting System)は、米国食品医薬品局(FDA)の副作用報告システム。FAERS は医薬品が市場に出回った後に発生する医薬品の有害事象から収集されたデータセット。
†7 本質的な特徴量を自動的に判別する技術。出所:大関真之、今日から分かるスパースモデリングと深層学習、http://www-adsys.sys.i.kyoto-u.ac.jp/mohzeki/Presentation/Tokyodat20160218_web.pdf 
†8 分子構造記述子に基づく、化学部分構造プロファイル。
†9 Target Estimation with Similarity Search:TESS。類似構造検索を使用して推定された、薬物-タンパク質相互作用に基づく、標的タンパク質プロファイル。
†10  Target Estimation with Logistic Regression:TELR。教師あり学習(ロジスティック回帰)によって推定された、薬物-タンパク質相互作用に基づく、標的タンパク質プロファイル。
†11 Area Under the Precision-Recall curve:AUPR。適合率-再現率(PR)曲線の下面積。駐:AUCは、ROC曲線の下面積。
学習データ:{説明変数|目的変数}={タンパク質プロファイル|副作用の有無} 
学習モデル: L1正則化ロジスティック回帰モデル

(57) 群知能で探索した最安定構造を、初期状態にすることでDFTを高速化 
◎ メソドロジー
○ 日付 2024.6.14 
○ 研究主体:京都工芸繊維大学 
○ 出所:https://www.kit.ac.jp/wp/wp-content/uploads/2024/06/news240614.pdf
論文:https://pubs.acs.org/doi/10.1021/acs.jpca.4c01685
● 概要・・・粒子群最適化法(PSO†1)を用いて、ホスト†2-ゲスト†3材料における、エネルギー的に安定したゲスト分子配向(最安定構造)を見出した。ホスト–ゲスト相互作用は、レナード–ジョーンズ(LJ)・ポテンシャル†4で近似。PSO-LJ法による最安定構造を、密度汎関数法(DFT)†5計算の初期状態として使用することで、DFT計算を高速化できる。
†1 Particle Swarm Optimization
†2 アームチェア型単層カーボン・ナノチューブ(CNT)。単層CNTは、カイラル指数(n,m)で表現される幾何学構造の違いにより、金属や半導体といった異なる物性を示す。アームチェア型(n=m)は、金属である。 
†3 トリヨードベンゼン分子。
†4 引力=ファン・デル・ワールス力、斥力=交換斥力。
†5 正確には、ファン・デル・ワールス力(分散相互作用)を取り入れた、分散力補正DFT。
学習モデル:粒子群最適化 

(56) ベイズ最適化を使った鉄系高温超伝導磁石の合成プロセス条件決定 
◎ メソドロジー
○ 日付 2024.6.7 
○ 研究主体: 東京農工大学、九州大学
○ 出所:https://www.jst.go.jp/pr/announce/20240607/pdf/20240607.pdf
論文:https://www.nature.com/articles/s41427-024-00549-5
● 概要・・・研究者と機械学習モデルが協働して、世界最高性能の、鉄系高温超伝導(IBS)永久磁石†1を開発した。
❚研究者が行ったこと1❚ 定量化可能なプロセス・パラメータを系統的に分類し、結果の特性に大きく影響するものを特定した → 機械学習モデルの説明変数に。
❚機械学習モデル❚ ガウス過程回帰に基づくベイズ最適化。獲得関数は、期待改善度(Expected Improvement)獲得関数。
 最適化する(目的)変数は、臨界電流密度。説明変数(合成プロセス条件)は、x = ランピング・レート†2、y = 最高温度†2(同)、z = 保持時間†3
❚研究者が行ったこと2、及び機械学習モデルが行ったこと❚ 最適な合成プロセス条件を決定した。
❚結  果❚
① 磁力:最大捕捉磁場(正確には、磁束密度)は、中心†4で2.83T(テスラ†5)。これは、IBS永久磁石に関する従前の記録1.03Tの約2.7倍。
② 磁場安定性:捕捉磁場は、中心で2.0 T、表面†6で1.5T。30万秒(=3.47日)後でも、ほとんど減衰しなかった。☛医療用MRIスキャナーにとって重要な性質。
❚👉本研究で得られた知見❚
 機械学習モデルがプロセス設計した試料には、高温超伝導でこれまで見られなかった構造が存在した。それは、間隔が数十~数百nmに及ぶ、二峰性の粒界ネットワークである。☞IBS磁石の、さらなる性能向上に資するかもしれない。
❚註  釈❚
†1 具体的には、Ba0.6K0.4Fe2As2(別名:Kドープ Ba122)。IBS永久磁石は、ニオブ(Nb)ベースの超伝導磁石に依存する粒子加速器、医療用磁気共鳴画像(MRI)スキャナー、磁気浮上式鉄道他の性能を大幅に向上させることができる、とされる。
†2 Kドープ Ba122は、スパーク・プラズマ焼結(SPS)で生成される。SPS装置は、ランピング・レートx(単位は℃/分)に従って、最高温度(y)まで上昇する。
※ランピング・レート(日本語では、ランプ・レートとも表記される)は、様々な文脈で、異なる意味で使用されるので、注意。
†3 SPS装置で、最高温度(y)が、z分間「保持」される。
†4 中心とは、2つのバルクの間を意味する。
†5 ちなみに、地磁気の磁束密度は、50μT。多くの場合、物理量の単位は、自然界における実際の量を表す際、小さ過ぎる。磁束密度は例外で、1Tは、相当大きい。
†6 2つのバルクを重ねた(スタックした)バルクの表面を意味する。
学習データ:{説明変数|目的変数}={ランピング・レート、最高温度、保持時間|臨界電流密度} 
学習モデル:ガウス過程回帰に基づくベイズ最適化 

(55) 高速高精度代理モデル用”学習データの構築法” 
◎ 「データセット」の作成
○ 日付 2024.5.24 
○ 研究主体: 東北大学
○ 出所:https://www.tohoku.ac.jp/japanese/newimg/pressimg/tohokuuniv-press20240523_02web_modeling.pdf
論文:https://www.sciencedirect.com/science/article/pii/S1385894724031462
● 概要・・・データセットを工夫することで、化学反応†1の反応速度を予測する、深層学習・代理モデルの構築が可能。つまり、データがキモ。そのようなデータを作成する方法論を構築した。なお、代理モデルは、詳細モデル†2と同等精度を達成する一方、計算速度を400倍以上高速化した†3
❚データセット❚ Cantera†4を使用して、学習データセットが作成された。使用した詳細な反応速度論(素反応モデル)は、GRI-Mech 3.0†5である。圧力は、1気圧(≒0.1MPa)に設定。説明変数(入力)と目的変数(出力) は、以下の通り。
① 説明変数:化学種の濃度と、反応温度の逆数。化学種=反応物、生成物。具体的には、CO、CO2、H2、H2O、N2。濃度は、モル分率の対数表示値。ただし、対数の底は10。
② 目的変数:㊀反応速度の符号と、㊁log10|反応速度|。反応速度の符号は、正反応の場合は1、逆反応の場合は0とされた。|・|は絶対値を表す。
❚データのセットアップ【1】❚ 80%が学習用、20%が検証用。検証損失が最小となるパラメータを採用する。前処理として、説明変数は正規化され、目的変数は標準化された。
❚ハイパーパラメータ等❚ 隠れ層数3、ノード数32。活性化関数は、シグモイドとReLU。重み初期化には、He初期化を採用。ドロップアウト率は、0.0。オプティマイザはAdam。
❚モデルのセットアップ❚ 損失関数は、㊀反応速度の符号には、二値交差エントロピーを使用。㊁log10|反応速度|には、平均二乗誤差を使用。全体の損失関数=㊀×20%+㊁×80%とした。学習は、TensorFlowとKerasを使用して実行された。
❚データのセットアップ【2】❚ DB1~DB4†6を使って予測精度を検討した結果、DB4がひとまず採用された。さらに、極端な組成を含むデータセット DBL†7とDB4を、1:1.32 の比率で組み合わせて、新しいデータセットDB5を作成した。
❚評価及び、評価指標❚
 詳細な反応速度論に基づく結果をグランドトルゥースとして、本研究の代理モデルの精度を検証。評価指標は、モル分率の経時変化。化学種としては、一酸化炭素を選択。
❚結  果❚
 DB5を使用すると、加熱シナリオ1†8では精度が向上し、詳細な反応速度論に基づく結果を再現できた。加熱シナリオ2†9では、精度の向上は見られなかった。つまり、本研究手法には、限界がある。
❚👉本研究で得られた知見:高質な学習データ作成に不可欠な要素❚
㈠ 対数空間と実数空間の両方で偏りのない初期濃度を決定する☞ 濃度の合計は固定されている(例えば、質量分率の合計が1になる)ため、一様乱数を使用して複数の化学種の濃度を決定すると、実数空間にバイアスが生じる可能性がある。
㈡ 平衡組成から離れたデータの量を増やす☞ 反応速度をサンプリングしながら、反応速度論の計算を実行すると、平衡組成に近いデータが優勢になる。
㈢ 詳細な速度論メカニズムで任意の濃度を提供する場合は、ラジカル濃度を、準定常状態レベルに設定する☞ ラジカル濃度を非現実的な値であるゼロに設定すると、無限速度で加熱することになり、サンプリングすべきではない期間が作成される。これらの期間を除外すると、平衡から離れたデータの量が減り、バイアスが生じる。
❚註  釈❚
†1 具体的には、水性ガスシフト反応。一酸化炭素と水(水蒸気)から、二酸化炭素と水素を生成する反応。この反応は工業的に重要であり、メタノールやジメチルエーテルの合成、アンモニア製造プロセス、水蒸気改質(=合成ガスの組成調整)、炭素回収・利用・貯留(CCUS)、など様々なプロセスに関連している。ただし、本研究では、「水素還元製鉄」を顕に想定している。
†2 詳細な化学反応速度論に基づくモデル。
†3 行列計算にOpenBLASを使用した場合。NumPyのnumpy.dot、Fortranの MATMUL、OpenBLAS で評価した結果、OpenBLASが最速であった。反応時間が 15.0 秒に達した時点でシミュレーションは終了させた。ハードウェア実行環境は、CPUが、「クアッド・チャネルモード。4枚の32GB DDR4-2933 DRAMメモリカードを実行するIntel Xeon W-2255」であった。
†4 反応速度論に基づく燃焼反応シミュレーション・ソフトウェアであり、Pythonベースのオープンソース・ソフトウェアである。本研究では、ゼロ次元の完全撹拌反応器を使用している。
†5 天然ガスの燃焼に関連する 77 の実験結果を再現するように最適化された詳細素反応モデル。53 の化学種と325 本の素反応式から成り、広い温度(1000~2500K)・圧力範囲(0.001~1.0MPa)で、メタンを主成分とする天然ガスの燃焼を表現できるとされている。
☛出所:https://www.jstage.jst.go.jp/article/kikaib/77/773/77_773_186/_pdf/-char/ja
†6 DB1=まず、「生成物、反応物、窒素」の 5 つの化学種に対する仮想組成を、一様乱数を使用してランダムに決定する。次に、これら 5 種の合計で割って正規化し、合計組成が 1 になるようにする。DB2=まず [0–1]の一様乱数を使用して窒素のモル分率Nモルを取得。次に、残りの 4 つの化学種のモル分率を、一様乱数を使用して決定する。それらの合計で割り、1-Nモルを掛けて、これら 4 つの化学種のモル分率の合計が1-Nモルに等しくなるようにする。なお、Nモルという表記が、本研究で使われているわけではない。DB3=適当な確率分布を基に、組成が決定された。DB4=DB3 に基づいた方法であるが、DB2 と同様に窒素濃度に重みを割り当てる。最初に窒素のモル分率は、一様乱数を使用して取得され、残りの組成は DB3 と同様に確率分布に従って取得された。
†7 極端な組成とは、「生成物や反応物などの特定の化学種のみを含む組成」という意味である。
†8 等温(1073 K,1373 K,1573 K)及び、反応器を(平均温度上昇率)約7.20 K/分で加熱するシナリオ。なお、加熱シナリオ1という文言が、本研究で使われているわけではない。
†9 反応器を(平均温度上昇率)72.0 K/分、720 K/分で加熱するシナリオ。なお、加熱シナリオ2という文言が、本研究で使われているわけではない。
学習データ:{説明変数|目的変数}={濃度、1/反応速度|反応速度の符号、log10|反応速度|} 
学習モデル:ニューラルネットワーク 

(54) 薬剤設計に”GAT”を上手く当てはめる枠組みを開発
◎ メソドロジー
○ 日付 2024.4.9 
○ 研究主体: 東京工業大学
○ 出所:https://www.titech.ac.jp/news/2024/068979
論文:https://www.nature.com/articles/s42004-024-01155-w
補足情報☛https://static-content.springer.com/esm/art%3A10.1038%2Fs42004-024-01155-w/MediaObjects/42004_2024_1155_MOESM2_ESM.pdf 
● 概要・・・モダリティが低分子化合物である薬剤設計が対象。リガンドの特性及び活性の予測モデルに対して、❶学習性能と❷解釈を強化したモデルMMGX†0を構築した。MMGXを構成する「ノード埋め込みモジュールには、Graph Isomorphism Network🖋1」、「分子埋め込みモジュールには、グラフ・アテンション・ネットワーク🖋2(GAT)」を採用している。
 ❶は、入力を薬剤設計の文脈でリッチにすることで達成する。❷は、GATで、達成する。
🖋1 GNNやグラフ畳み込みニューラルネットワーク(GCN)の性能向上をヒューリスティックスに依存するのではなく、数理的・系統的に実行したいという動機から生まれたらしい。Weisfeiler-Lehmanテストというグラフ同型判別テストをベースにしている。このため、同型グラフ判別においてはGCNやGNNより性能が良い(ことが保証されているらしい)。ちなみに、和訳は(おそらく)ない。
🖋2 GNNは、異なるグラフ構造を扱うことができない。注意機構に基づくGATは、異なるグラフ構造を処理することができる。本研究は、下記に示す通り、4つの異なる分子グラフ表現を使用するので、そもそもGNNは使えず、GATが自然な候補となる。
❚データセット❚ 3系統・20種類のデータセットを用意した。
 モデルの性能を測定する①モデル検証、モデル学習と背景知識を比較する②知識検証、解釈を統計的に評価する③説明検証、各々に対してデータセットを用意:①→MoleculeNet†1(分類2+回帰3個のベンチマーク・データセットで構成)、②→薬剤エンドポイント・タスク用データセット(分類6+回帰4個のデータセットで構成)、③→既知のグラウンド・トゥルース(分類5個のデータセットで構成)。
❚データのセットアップ❚ ❶に対して、①及び②を使用。❷に対しては、③を使用。学習データとテストデータは、8:2の比率で分割。5分割交差検証を採用。
❚ハイパーパラメータ等❚ ハイパーパラメータの調整は、Optuna®を使用。学習率、重み減衰、ドロップアウト率、バッチ正規化について、定量的・詳細な記述無し。エポック数は300。検証セットのパフォーマンスが連続30エポックで改善されない場合、早期停止(early stopping)。
❚モデルのセットアップ❚
❶ 性能強化・・・4つの異なる分子グラフ表現(※1)を使用することで、学習性能を強化する。
※1 原子グラフ(A)、ファーマコフォア・グラフ†2(P)、接合木グラフ†3(J)、機能グループ・グラフ†4(F)。これら4つの組み合わせ、を評価対象とする。
❷ 解釈強化・・・
フロントエンド --- GATを使用した分子埋め込みプロセスにおいて、グラフ内の各ノードに「注意の重み」が割り当てられる。「注意の重み」は、特定の予測に対する各ノードの重要性を示すものとみなされ、モデルの説明因子として解釈できる。
バックエンド --- 3つの解釈機能(※2)を提供する。※2 ㊀原子単位の予測、㊁ノード特徴の可視化、㊂有用な部分構造の可視化。
❚評価指標❚
❶ 性能強化・・・回帰タスクではRMSE、分類タスクではAUC-ROCを使用。平均ランキング(AvgRank)と、平均Zスコア(AvgZScore)を併用。
❷ 解釈強化・・・略
❚結  果❚
❶ 性能強化・・・分子グラフ表現の3種盛り合わせ(例えば、A+P+F)及び全部盛り(A+P+J+F)は、2種盛り合わせに比べて、性能が大幅に向上しないので、2種盛りで十分と判断した†6。その上で、MMGX、グラフ畳み込みニューラルネットワーク(GCN)、attentive-FP†5に対して、「A、A+F、A+P、A+J」で、AvgRankとAvgZScoreで比較。A+Fの成績が最も良かった†7,†8。さらに、5つのモデル(PharmHGT、HimGNN、ML-MPNN、FunQG、RG-MPNN)と"2種盛り・MMGX"とを比較して、「常に上回る性能を発揮するわけではないが、同等の性能を示した」としている†9
❷ 解釈強化・・・㊀略。㊁A+FあるいはA+Jは、すぐに理解できる、より包括的な機能を提供する。㊂重要な部分構造(臭素及び、スルホン酸結合炭素原子グループ)を抽出できた。まとめると、解釈が強化された。
❚研究者自身による評価❚ MMGXによる化合物の予測と解釈は、AIによって医薬品開発を加速させるAI創薬の進展に大きく貢献する。
❚まとめ❚ 入力をリッチにすると、そもそも選択肢はGATの、ほぼ一択。GATで性能を調べたら、それほど遜色はなかった。かつ、GATは説明可能性が高い。
👉 三方よし。(物理屋さんは、入力をリッチにするなら出力がリッチになるのは当然でしょ・・・という感想か。とは言え、解釈可能性が上がっているから、良し。)
❚註  釈❚
†0 Multiple Molecular Graph eXplainable discovery 
†1 分子機械学習の標準ベンチマークデータ
†2 結合活性とファーマコフォアの特徴から構築された縮約グラフ。ノード特徴には、6つのファーマコフォア特性のワンホット符号が埋め込まれている。
†3 最終的なグラフにループ構造が含まれないように、結合、環、および接合原子をノードに変換することによって生成される木ベースの縮約グラフ。
†4 官能基情報を統合した縮約グラフ。事前定義された官能基、環の種類、原子のペアに基づく元の部分構造は、単一のノードに変換される。
†5 分子表現用に標準的に使用される、グラフニューラルネットワーク。
†6 5つのベンチマーク(回帰(FreeSolv、ESOL、Lipo)、分類(BACE、BBBP))の内3つで、2種盛りが最善。3種盛り、全部盛りが1つずつ。AvgRankとAvgZScoreは3種盛りが最善。故に、微妙。
†7 AvgRankとAvgZScoreで見ると、MMGXは、GCN及びattentive-FPと比較して、必ずしも優れていない(論文の表3)。RMSEとAUC-ROCでみると、MMGXが優れているように見える。
†8 A+Fは、Physiology(生理学)では優れているが、Physical chemistry(物理化学)と Biophysics(生物物理学)では必ずしも優れていない(論文の表2)。補足情報の表S5を見ると、Biophysicsでも優れているように見える。
†9 補足情報表S13を見る限り、そう判断できるだろう。
学習データ:BACE、BBBP、FreeSolv、ESOL、Lipo|AmesMutag、hERG20、CYP2C8、CYP3A4、Hepatotoxicity、ROCKII、HumanPPB、AqSolDB、HIV1、JAK1|Logic6,7,9,14、3MR
学習モデル:GIN、GAT

(53) 複雑さを乗り越えるための転移学習†0
◎ メソドロジー
○ 日付 2024.3.29 
○ 研究主体: 東北大学、東京工業大学
○ 出所:https://www.tohoku.ac.jp/japanese/newimg/pressimg/tohokuuniv-press20240401_03web_band.pdf
論文:https://pubs.acs.org/doi/full/10.1021/jacs.3c13574
● 概要・・・「表面の方位と終端面の位置の情報」のみから、イオン化ポテンシャル(IP)と電子親和力(EA)を予測するモデルを構築した。
❚データセット❚ 
1⃣ 二元系非金属酸化物のデータセット・・・個数は127で、無極性表面のデータは2,195個。表面原子配列を記述する、記述子(具体的にはSOAP†1)が、説明変数。目的変数は、第一原理計算†2により計算したIPとEA。
2⃣ 三元系非金属酸化物のデータセット・・・個数は344で、無極性表面のデータは718個。
❚グランドトルゥース❚ 第一原理計算(DFT計算)による計算値。
❚データのセットアップ❚ データセットは、8:1:1 の比率で分割。それぞれ、学習、検証、テストに割り当てられた。
 本研究では、複数のカチオン種が含まれる複雑な三元系非金属酸化物用SOAPとして、”学習可能な重み付けSOAP「L-SOAP」”を開発している。L-SOAPは、通常のSOAPとは異なり、原子の位置が原子種ごとに個別に考慮されるわけではない。代わりに、カットオフ半径内の原子に対して、重みを付ける。L-SOAPは、データサイズを抑えたSOAPの近似版である。
❚モデルのセットアップ❚ 
1⃣ 二元系酸化物に対する学習モデル・・・❶注意機構を備えたニューラルネットワーク(NN)モデル、❷注意機構なしのシンプルなNNモデル、❸L-SOAPを使用したNNモデル。隠れ層の数は最大で3。活性化関数はReLU。出力層と結合されていない隠れ層のドロップアウト率は 0.5 に固定。ハイパーパラメータを評価するために(検証データセットを使用した)5分割交差検証を実施。オプティマイザは、Adam。学習率は、1×10-3で最大エポック数は200。
 正則化項の重みに対する減衰率は、1×10-4、1×10-3、1×10-2、1×10-1及び0を使用した、と(Supporting Informationに)記されている。
2⃣ 三元系酸化物に対する学習モデル・・・❹L-SOAPを使った転移学習モデル。つまり、L-SOAPを使って、二元系に対する学習済NNモデルを三元系酸化物データセットで再学習したモデル、❺SOAPを使った転移学習モデル、 ❻L-SOAPを使った(スクラッチ)モデル。つまりL-SOAPを使用して、三元系酸化物データセットで学習したNNモデル。
❚評価指標❚  ㊀決定係数R2、㊁二乗平均平方根誤差(RMSE)、㊂平均絶対誤差(MAE)。
❚結  果❚ 
1⃣ 二元系酸化物について・・・注意機構を備えたNNは、表面領域内の関連原子を自動的に特定することができるため、予測性能が高い(❶>❷という評価)。
 IPに対して❶㊀0.90㊁0.29eV㊂0.21eV、❷㊀0.90†3㊁0.31eV㊂0.22eV、❸㊀0.90†4㊁0.31eV†5㊂0.23eV。
 EAに対して、❶㊀0.93㊁0.27eV㊂0.19eV、❷㊀0.90†6㊁0.32eV㊂0.23eV、❸㊀0.91㊁0.29eV㊂0.21eV。
👉 ❸は、L-SOAPが"使える"という検証か?
2⃣ 三元系酸化物について▪其の壱:転移学習・・・❹と❻を比較すると、❹が㊀~㊂の全てにおいて優れている。なお、学習データの割合を全体データの「10%、30%、50%、70%」と変化させているが、全ての割合で❹>❻である。
3⃣ 三元系酸化物について▪其の弐:転移学習×L-SOAP・・・❹と❺を比較すると、㊀~㊂の全てにおいて、ほぼ❹>❺である。学習データの割合「10%、30%、50%、70%」全てにおいて、ほぼ該当する(IPのMAEとRSMEにおいて、割合50%及び70%でわずかに❹<❺である)。
❚研究者自身による評価❚ L-SOAPと転移学習を組み合わせると、三元系酸化物のIPとEAを正確に予測できる。
†0 マテリアルズ・インフォマティクスにおける転移学習は、データの少なさに対応することが動機となっていることが多いと思われる。本研究は、"複雑な"3元酸化物に対応するために、転移学習を採用している。
†1 Smooth Overlap of Atomic Positions。原子の局所的幾何学的特徴を表現する記述子、とされる。
†2 VASPパッケージを使って、PAW法で計算。交換相関汎関数はPBE(正確には、ハバード補正項を加えたPBEsol)を使用。平面波カットオフエネルギーは、520 eV(※1)と400 eV(※2)に設定された。構造最適化のための k 点メッシュ間隔は 0.2 Å-1未満に設定された。
†3 ❶と❷で同じであるが、原論文ママ。
†4 ❶と❸で同じであるが、原論文ママ。
†5 ❷と❸で同じであるが、原論文ママ。
†6 IPとEAで同じであるが、原論文ママ。
※1 格子パラメータ緩和を含むバルク構造の最適化計算の場合。
※2 格子パラメータを固定した他計算の場合。
学習データ:{説明変数=SOAPあるいはL-SOAP、目的変数=IP及びEA}
学習モデル: ニューラル・ネットワーク

(52) HOBO-LUBOで、化学反応を予測する 
◎ メソドロジー
○ 日付 2024.3.28
○ 研究主体: 千葉大学
○ 出所:https://www.chiba-u.jp/news/files/pdf/240328_NC_02.pdf
論文:https://www.nature.com/articles/s41467-024-46523-1
● 概要・・・合成化学の主目的†1を達成するために、結合軌道†2データを使用して、単一の化合物与える化学反応を予測する回帰モデルを開発した†3。回帰モデルは、最高被占結合軌道(HOBO)を成すエネルギー準位と最低非占結合軌道(LUBO)を成すエネルギー準位を出力する(HOBOとLUBOが重なり合うように、化学反応が起きる)。
❚データセット❚ {目的変数=HOBOとLUBOのエネルギー準位、説明変数=分子データセット}。目的変数は、DFT計算†4により取得。分子データセット≒SMILES。
❚データのセットアップ❚ 分子記述子として、Avalon(1024、2048、4096)、Morgan(4096)、MACCS keys、Topological torsionを使用。
❚モデルのセットアップ❚ ①エラスティック・ネット、②決定木、③ランダム・フォレスト、④サポート・ベクター・マシン、⑤Light勾配ブースティング・マシン、⑥ニューラル・ネットワーク(NN)†5」で作成した回帰器†6から、最良モデルを選択。3分割交差検証を採用。総合的に判断すると、ニューラル・ネットワーク✖4,096ビットのAvalonフィンガープリントが最良だった(LUBOだけ見ると、NN✖2,048ビットAvalonが最良)。
❚評価指標❚ 決定係数と平均絶対誤差(MAE) →最良モデルを、この指標で判定した。
❚結果❚ 特定の「環化付加型反応†7」を起こす、化合物・活性種を同定可能な学習モデルを構築できた。精度は80%以上。
†1 複数の選択性を制御しながら、複雑な分子を迅速かつ正確に作成する。
†2 結合性軌道(電子波動関数の位相が同じ)及び、反結合性軌道(電子波動関数の位相が逆)。
†3 HOMO(最高被占軌道)-LUMO(最低空軌道)相互作用を用いるフロンティア軌道論では、軌道の重なりが少ない、立体障害、芳香族安定性などの要因により、反応を効果的に予測できない場合があることを鑑みた結果である。HOBOとLUBOについて日本語で記述されている資料は極めて少ない(例えば、※1)。分子内反応を考える場合は、HOBO-LUBOを用いるようである(参照先は、※2)。
†4 DFT計算はGaussian16で実行。
†5 隠れ層数=3
†6 ①441+②56+③3006+④118+⑤9,800+⑥33,600=47,021。分子記述子を14種類使ったため、47,021×14=658,294個のモデルに対して、最良モデルを選択した。
†7 2 つの反応成分が 2 つの結合を形成し、環状化合物を生成する反応。
※1 https://www5.hp-ez.com/hp/calculations/page321
※2 https://www.jstage.jst.go.jp/article/kakyoshi/67/1/67_28/_pdf
学習データ: {説明変数=SMILES、目的変数=結合軌道のエネルギー準位} 
学習モデル: ニューラルネットワーク(隠れ層数3)

(51) 層間化合物の安定性を表現する線形回帰式を改良 
◎ メソドロジー
○ 日付 2024.3.8
○ 研究主体: 東京大学
○ 出所:https://www.iis.u-tokyo.ac.jp/ja/news/4461/
論文:https://pubs.acs.org/doi/10.1021/acsphyschemau.3c00063?goto=supporting-info&ref=pdf
● 概要・・・層間(インターカレーション)化合物の安定性を議論する指標として「インターカレーションに必要なエネルギー=インターカレーション・エネルギー」Eintを提案した。Eintは、インターカラント(侵入種)に由来する2因子の線形結合で表現できる。線形結合係数は、ホスト(母材)由来の8因子で表現できる。
❚データセット❚ カチオン性インターカラント(41個)×塩基性ホスト(169個)=6,929個。アニオン性インターカラント(7個)×酸性ホスト(24個)=168個。6,929+168=7,097個の層間化合物を対象とする。
❚データのセットアップ❚ まず第一原理計算†1で構造緩和を実行し、プリミティブ・セルの体積及び原子の位置を固定する。それから、Blöchl補正を使った四面体法を使用して総エネルギーを計算する。Eintは、層間化合物、インターカラント、ホストの総エネルギーから、算出される。
❚モデルのセットアップ❚ 複雑な化合物の安定性を表現するために提案されている定量式(※)と、HSAB原理†2とを鑑みて、Eintを、線形回帰式で表現した。説明変数は、インターカラント・イオンの標準ギブス生成エネルギーΔGと、イオン半径rである:Eint=α×ΔG+β/r+γ。
 係数α、β、γはホスト由来の8因子で表現する。因子は(scikit-learnライブラリを使用した)ランダムフォレスト回帰を使って、(さらに)推定された。
❚評価指標❚ 修正済み決定係数Adj.R2、F検定統計量のp値
❚結果❚ 過去に提案されている定量式(※)と比較して、Adj.R2が大きく、p値が0.05未満。☞つまり、改善されたという結果。
†1 第一原理計算(密度汎関数(DFT)法)には、平面波基底を用いたPAW法を採用。層間化合物=層状の物質に対するDFT法では、交換相関汎関数に分散力(ファンデルワールス力)を考慮している。具体的には、(濱田幾太郎博士が考案した)rev-vdW-DF2法を使用。スピン分極計算は実行されたが、スピン軌道相互作用は考慮されていない。k点サンプリングはMonkhorstーPack法を使用(0.25Å-1未満の間隔でサンプリング)。カットオフ・エネルギーは650eV。自己無撞着計算の収束エネルギーは10-4eVに設定。
†2 以下の原理をHSAB(Hard and Soft Acids and Bases)原理と呼ぶ:硬い酸は、硬い塩基とイオン性物質を形成する傾向がある。柔らかい酸は、電子雲の広がりにより、柔らかい塩基と共有結合を形成する傾向がある。ここで"硬い"とは、イオン半径が小さい=電子対を原子核側に引き寄せて、強く束縛している状態を意味する。"軟らかい"とは、イオン半径が大きい=電子対の束縛が弱い状態を意味する。
学習データ: {説明変数=インターカラント由来因子とホスト由来因子、目的変数=インターカレーション・エネルギー(安定性)} 
学習モデル: 線形回帰式、ランダムフォレスト回帰式 

(50) 新規抗菌剤探索を深層学習で行うための記述子を提案 
◎ 「記述子」の提案
○ 日付 2024.3.6
○ 研究主体: 東北大学
○ 出所:https://www.tohoku.ac.jp/japanese/2024/03/press20240306-01-csn.html
論文:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10876936/pdf/41598_2024_Article_53888.pdf
● 概要・・・計算コスト及び実験コストを抑制した上で、新規抗菌剤探索を深層学習で行うために、新しい記述子CSN(Combined Substitute Number)を考案した。CSNを使って生成された分子ライブラリの精度は、スクリーニングされた分子の増殖阻害実験によって確認された。
❚データセット❚ 抗菌剤としてキノロン系を選択。4-キノロン足場を有する分子を「CheMBL」データベースからスクリーニングし、大腸菌に対する最小阻害濃度(MIC)を取得した。分子の各構造情報から 4-キノロン足場を除去し、残った断片を置換位置ごとに個別に記録した。記録されたフラグメントには、各置換位置の出現頻度順に置換基IDが番号付けされる(複数の置換位置に結合する置換基は、個別に記録)。水和水と対イオンも自由位置フラグメントとしてカウントした。
❚データのセットアップ❚ MICはμg/mlに単位を統一して、常用対数に変換し、置換基IDの組み合わせで格納した。重複している化合物並びに、大腸菌のMICデータがない化合物を除外した。異常値(10,000 μg/mlより高いか、0.001μg/mlより低い)を示したMICも削除した。最終的に、約 10,000 個のデータが準備された。このデータは、(pandasライブラリのPythonスクリプト・コマンドを使用して)学習データセットと検証データセットに、9 対 1 にランダム分割された。
❚モデルのセットアップ❚ モデルアーキテクチャは、多層パーセプトロン(出力層1、隠れ層は全結合)。活性化関数は、tanh。オプティマイザはRMSprop。過学習を避けるため、エラスティック・ネット正則化とドロップアウトを使用。ハイパーパラメータ(隠れ層の数、ノードの数、学習率、正則化のパラメータ、ドロップアウト率、エポック数)は、OPTUNA™を使用して決定した。
❚評価指標❚ 決定係数(R2)と二乗平均平方根誤差(RSME)
❚結果❚ 学習データのR2は 0.732。検証データのR2は0.519(高くはない)。学習データのRMSEは0.385、検証データのRMSEは0.501(こちらも、決して高くはない)。
❚研究者自身による評価❚CSN は、学習データセットの主要な足場が限られており、構造変化が大きな新規薬剤の開発や、新規作用機序の発見に貢献することは困難。その反面、CSNは合成が比較的容易な分子を生成できる。結論として、CSN は成熟した研究分野に特に貢献することができる(抗菌剤開発は、まさに当てはまる)。
学習データ: {説明変数=CSN、目的変数=log10MIC} 
学習モデル: 多層パーセプトロン(エラスティック・ネット) 

(49) 分子構造のみで、単分子磁石を探索する 
◎ メソドロジー
○ 日付 2024.2.20
○ 研究主体: 東京理科大学
○ 出所:https://www.tus.ac.jp/today/archive/20240219_0910.html
論文:https://journals.iucr.org/m/issues/2024/02/00/yc5046/yc5046.pdf
● 概要・・・3次元畳み込みニューラルネットワーク(3D-CNN)を深層学習モデルとして採用し、分子構造に基づいて、分子が単分子磁石(SMM)であるか否かを予測する二値分類モデルを作成した。つまり分子構造から、SMM/非SMMを分類できるかを検証した。
❚データセット❚ SMM分子の母集団として金属サレン錯体が選択された。Google Scholarに「サレン(salen)+ SMM」を入力して検索された、2011年から2021年までの約800件の論文を使用して、作成された。論文から、結晶構造とそれらがSMM挙動を示すかどうかに関するデータが収集された。非SMM分子は、磁気緩和挙動を示さない分子として定義された。CIFファイル†1は CSD†2から取得した。分子構造は分子構造ファイル(XYZファイル†3)に変換され、座標データとして利用された。分子構造の入力表現として、ボクセルが採用された。
❚データのセットアップ❚ SMM:非SMM が 2:1の不均衡なデータであったため、アンダーサンプリングを使用してSMMデータを削減した。データは6:2:2 に分割され、学習データ・検証データ・テスト データに割り当てられた。
❚モデルのセットアップ❚ 活性化関数はReLUとシグモイド関数(出力層)。過学習緩和のために、バッチ正規化及びドロップアウト(ドロップアウト率20%)を適用(併せて、データ拡張も実行)。オプティマイザーは、AMSGrad。ハイパーパラメータは、ε=1×10-7(1×10-8が多いか?)。β1=0.9、β2=0.999(1次及び2次モーメント用の係数は、どちらも標準値)。学習率は、コサイン減衰に従って、初期値1×10-2から1×10-5に減少させた。バッチサイズは8、エポック数は1,000。コスト関数は、交差エントロピー誤差。
❚評価指標❚ 正解率とAUC
❚結果❚ テストデータを使った正解率は70%、AUCは0.7269。
❚研究者自身による評価❚ 従来の、化学者によって得られた結果よりも優れた結果ではない。この枠組みは、革新的なSMMを取得するには、力不足。
†1 Crystallographic Information File:結晶構造データ交換のための標準形式として、国 際結晶学連合IUCr(International Union of Crystallography)が定めたテキストファイル
†2 ケンブリッジ結晶構造データベース
†3 各原子の3次元空間(直交座標系)における座標を、オングストローム単位で記述したファイル 
学習データ: 分子構造(→二値分類する) 
学習モデル: ResNet(CNN) 

(48) 制約付きベイズ最適化で最適成膜条件を発見 
◎ メソドロジー
○ 日付 2024.2.19
○ 研究主体: 北陸先端科学技術大学院大学、理化学研究所
○ 出所:https://www.jaist.ac.jp/whatsnew/press/2024/02/19-1.html
論文: https://pubs.acs.org/doi/10.1021/acsami.3c16202
● 太陽電池用薄膜の最適成膜条件の発見に、「制約付き」ベイズ最適化を適用した。制約付きベイズ最適化では、実現困難な実験条件をあらかじめ排除し、残りの条件の中からキャリア再結合抑止性能を最良化する可能性のある実験条件を提示させた。さらに、所望の膜厚を得るための製膜時間を逆算できるよう設計した。 
学習モデル: ベイズ最適化 

(47) BOCSⓍ量子アニーリング 
◎ メソドロジー
○ 日付 2024.1.30
○ 研究主体: 東北大学
○ 出所:https://www.tohoku.ac.jp/japanese/2024/01/press20240130-01-qc.html
論文: https://www.frontiersin.org/articles/10.3389/fcomp.2023.1286226/full
● マテリアルズ・インフォマティクスからというより、量子アニーリングからのアプローチであり、「やってみた」という感じの研究(Frontiersだし・・・)。
 組み合わせ構造に対するベイズ最適化(Bayesian Optimization of Combinatorial Structures:BOCS)の枠組みを、化学物質発見タスクに適用したという内容。獲得関数の最適化に、量子アニーリング(QA)を適用している。BOCS≒FM(Factorization Machines)として、QAを用いたFMとしてFMQA(量子抜きのFMAもある)という文言はあるが、BOCSQAという文言はなさそうである。BOCSやFMは、従来の最適化手法に比べて、少ない回数で最適化できると期待されている。
 代理関数は、疎なベイズ線形回帰式を採用している(式形は、FMと同じ)。パラメータは、多変量ガウス分布からのサンプリングでセットする。獲得関数も式形は同じ(パラメータが異なる)。入力は、(バイナリ・ベクトルに変換した)分子骨格の特定部位への置換基の割り当て。出力は、基底エネルギーと励起エネルギー(割り当てられた置換基の基づいてDFT計算で求める)。
 ランダム・サンプリング(ベースライン)よりもbetterという結論。betterとは、決定係数R2を基に判断。R2は、初期データセット(サンプルポイント992点)と、(BOCSにおいて)追加されたサンプルポイントから計算されている。
† FM(A)≒BOCSの適用範囲に対する知見は少ない、とされる(出典は、https://www.jstage.jst.go.jp/article/jnns/29/4/29_164/_pdf/-char/ja)
学習データ: {置換基の配置、基底エネルギー及び励起エネルギー} 
学習モデル: BOCS 

(46) ヒルシュフェルト表面解析✖深層学習 
◎ 物性予測
○ 日付 2024.1.25
○ 研究主体: 東京理科大学
○ 出所:https://www.tus.ac.jp/today/archive/20240125_6231.html
論文: https://www.sciencedirect.com/science/article/pii/S2667134423000615?via%3Dihub 
● この研究は、「結晶構造と分子間相互作用の特性に基づいて、過塩素酸塩の爆発特性に関連する成分とそうでない成分を区別することが可能であるという仮定の概要を提供する」ことを目的★としているそうである(爆発物の実験は危ないから、実験せずに済めば、メリットは大きい!)
 上記目的を達成する手段として、深層学習(変分オートエンコーダ;VAE)を使う(過塩素酸塩の分子量が大きくて、量子化学計算が非現実的であるため)。正確には、ヒルシュフェルト表面解析(※1)を経由したVAEを用いる。ヒルシュフェルト表面解析は、電子密度解析手法(※2)の一種であり、分子間相互作用を解析する。ヒルシュフェルト表面解析では、2次元フィンガープリント・プロット(※3)を用いることで、さまざまなタイプの分子間相互作用の寄与をより詳細に表示することができる。もっともフィンガープリントには、相互作用に関する情報のみならず、格子定数などの結晶構造に関する情報も含まれている。この研究では、フィンガープリントの幾何形状を結晶分子の物理的特性に関連付けて、目的★にアプローチする。
 具体的には、変分オートエンコーダを使って、学習データから16個の特徴量を抽出した。16個の特徴量は、t-SNE(t分布型確率的近傍埋め込み法)を使って、さらに2次元に変換され解析した。これらの解析(ヒルシュフェルト表面解析)によって、「爆発性は過塩素酸部位の結合や構造による可能性が高いこと」が示唆された。
[まとめ] トポロジカルデータ解析という枠組みで捉えて良いのだろう。アナロジーとしては、パーシステント・ホモロジー(パーシステント図→特徴量抽出→・・・)⇔ヒルシュフェルト表面解析(フィンガープリント・プロット→特徴量抽出→・・・)。ただし、ヒルシュフェルト表面解析の場合、特徴量抽出後のアクションが不明瞭。
※1 ヒルシュフェルト(Hirshfeld)表面解析:電子密度解析の一種。Hirshfeldによるstockholder partitioning schemeを結晶に応用し、結晶内を分子が占有する領域で分割することで、パッキング様式や分子間相互作用を可視化できるようにした解析手法(出典は※4)。ヒルシュフェルト表面は、着目する分子の電子密度が結晶全体の電子密度の1/2となる分子表面である。
※2 電子密度解析は、「物性を、結晶内の原子・分子間距離や角度のみで議論する」のではなく、電子密度分布まで含めて、より詳細に議論しようとする解析手法である。マシンパワーが上がっていることから現実的になった。
※3 フィンガープリント・プロット:Hirshfeld表面から、最も近い外側の原子までの距離と、最も近い内側の原子までの距離をプロットした2次元図。分子間相互作用を精緻に表現できる、とされる。
※4 https://mylibrary.toho-u.ac.jp/webopac/bdyview.do?bodyid=TD28175724&elmid=Body&fname=td28175724_cover.pdf
学習データ: (サレン型金属錯体の)ヒルシュフェルト・フィンガープリント・プロット画像(2423個) 
学習モデル: 変分オートエンコーダ 

(45) セラミックス物性のfew-shot予測 
◎ 物性予測
○ 日付 2023.12.27
○ 研究主体: 産総研
○ 出所:https://www.aist.go.jp/aist_j/press_release/pr2023/pr20231227/pr20231227.html
論文: https://www.sciencedirect.com/science/article/abs/pii/S0272884223041652?via%3Dihub 
● 絶縁放熱基板用セラミックス(窒化ケイ素焼結体)の熱伝導率を、製造プロセス情報から精度よく予測できた。焼結助剤(の種類や、その混合割合)が、重要な"説明変数"であるというドメイン知識を活かした。
 ドメイン知識なしの決定係数0.7未満⇒ドメイン知識ありの決定係数0.8超。さらに、通常必要とされる数百~数千のサンプルが、100程度で賄えた。
学習データ: {製造プロセスデータと熱伝導率}のデータセット・174個 
学習モデル: サポート・ベクター・マシン 

(44) 人間と機械学習のコラボで迅速材料探索 
◎ メソドロジー
○ 日付 2023.11.30
○ 研究主体: 物質・材料研究機構
○ 出所:https://www.jst.go.jp/pr/announce/20231130-4/pdf/20231130-4.pdf
論文:https://pubs.acs.org/doi/10.1021/acscentsci.3c01009  
● 「データ数によって進化するAI」と銘打っているが、その意図するところがわからない。 
 高価な白金族金属(PGM)を使わない電極触媒の探索が主題。PGMフリー電極触媒の用途は、水電解装置(=水素発生装置)。OER(酸素発生反応)活性が高く、過電圧が低い材料を探索する。結論として、提示したモデルは、優れた成果を上げた。優れたとは、「少ないサンプル数で、ベンチマークを超える材料を探索できた」。ベンチマークは、(二)酸化ルテニウムRuO2。少ないとは、「48個/2,772個<2%」を意味している。48=学習データ10個+下記(1)の32個+下記(2)の6個。2,772個は❸を参照。提示モデルが優れている理由は、ランダムフォレストのスクリーニング精度が高かったことであった。
(1) まず、OER活性が高い材料を探索する。
1⃣ ヒトがやること
❶ 組成原子として、11原子を選ぶ(そういう方針を立てた上で・・・)。
❷ 11の組成原子から5原子を選び、5元素による電極触媒を、材料探索の対象とする(という方針を立てる)。
❸ 以下の2タイプ㊀及び㊁の材料を作成するという方針を立てる:㊀5元素を全て同じ組成比(つまり1:1:1:1:1)にした材料。㊁5元素の一つを0.5にした組成比(例えば、5番目が0.5だと1:1:1:1:0.5。結果、5パターン存在する)にした材料。㊀は、11C5なので、(11×10×9×8×7)/(1×2×3×4×5)=462個。㊁は、その5倍で2,310個。㊀+㊁=2,772個。
❹ 下記、機械学習①が選んだ組成を使って、材料を作成する。当該材料に対して実験を行い、OER活性データを取得する。
2⃣ 機械学習がやること
① 組成の選別。ガウス過程回帰を用いたベイズ最適化(BO)を適用する。パイソン・ライブラリPHYSBOを使用して実行する。
(2) 次に、OER活性が高い材料の中から、過電圧が低い材料を選別する。
1⃣ ヒトがやること
 特になし。
2⃣ 機械学習がやること
② ランダムフォレスト(RF)で、過電圧が低い材料を選別(分類)する。ライブラリは、scikit-learnを使用。
③ BOを使って選別した結果を使って、RF分類器を再学習する。
学習データ: BO:㊀+㊁=2,772個からランダムに選んだ10個の材料から得たOERデータ 
学習モデル: BO及びRF 

(43) 機械学習ポテンシャルを用いた分子動力学法を高密度シリカガラスに適用 
◎ 構造予測
○ 日付 2023.11.16
○ 研究主体: 日本原子力研究開発機構
○ 出所:https://www.jaea.go.jp/02/press2023/p23111601/
論文:https://www.nature.com/articles/s41598-023-44732-0
補足情報:https://static-content.springer.com/esm/art%3A10.1038%2Fs41598-023-44732-0/MediaObjects/41598_2023_44732_MOESM1_ESM.pdf
● 機械学習ポテンシャルを用いた分子動力学シミュレーションを使って、高密度シリカガラスの構造特性を正確に再現した。その上で、高密度シリカガラスのFSDP†1に影響を与える2つの主因を特定した。機械学習ポテンシャルについては、(39)(26)も参照。
 機械学習ポテンシャルを学習するためのデータ作成には、工夫を凝らした。学習モデルは、標準的。学習データ作成に用いたDFT計算ツールも、標準的。
(1) 学習データは、「石英、クリストバル石、リン珪石、スティショフ石、アモルファス、液体構造」を対象に、2段階で生成。まずTersoffポテンシャル†2を用いたMDシミュレーションにより、石英etcの構造について様々な配置を生成した。次に、DFT計算により、その配置のエネルギーと力(原子間に働く力;force)を再評価し、学習データとする。DFT計算には、Vienna Ab initio Simulation Package(VASP)を使用。エネルギーカットオフは、500eV、kスペーシング†3は、0.25˚A-1。交換相関汎関数は、meta-GGA(一般化勾配近似)を採用。
(2) 機械学習ポテンシャルの学習には、Behler-Parrinello型ニューラルネットワークに基づく、n2p2コードを用いている。対称性関数以外のパラメータは、CUR行列分解により選択された。
†1 FSDP(First Sharp Diffraction Peak)とは、構造因子において、低波数で観測される回折測定のピークを指す。FSDPに対応する秩序は、物理的には、構造不規則系(今の場合は、ガラス)の中距離秩序を表す。
†2 Si結晶が表現できるポテンシャルとして広く用いられる。
†3 k点間の最小許容間隔(をオングストロームの逆数単位で表したもの)。VASPのデフォルトは0.5。
学習データ: MD→DFT計算により作成したデータ。90%を学習データ、10%をテストデータ。 
学習モデル: ディープ・ニューラルネットワーク(ノード数20、活性化関数softmax、隠れ層2) 

(42) 深層生成モデルを活用した創薬 
◎ 構造予測
○ 日付 2023.10.2
○ 研究主体: 名古屋大学、高輝度光科学研究センター
○ 出所:https://www.nagoya-u.ac.jp/researchinfo/result/2023/09/-ai-3.html
論文:https://www.nature.com/articles/s42003-023-05334-8
● 深層生成モデルを活用して、既存薬を上回るプロトンポンプ阻害活性を持つ胃酸抑制剤候補化合物の創生した。ワークフローは、深層生成モデルが予測した化合物を化学合成→電子顕微鏡で解析→ヒトが改良。
 深層生成モデル=事前ネットワーク+エージェント・ネットワーク:事前ネットワーク=RNNに基づくSMILES生成モデル、エージェント・ネットワーク=強化学習モデル。事前ネットワークの出力が、エージェント・ネットワークの入力。深層生成モデルは、各種ソフトウェアを組み合わせて構築。各種ソフトウェア・・・㊀REINVENT、㊁Ligand Scout。
 ㊀事前ネットワークとして、オープンソースのPythonアプリケーションREINVENTを採用。ただし、REINVENTは強化学習で調整するなどのカスタマイズが可能なので、結果的にREINVENT(のみ)で深層生成モデルを構築している。さらに、早期停止(Early Stopping)とTabuリストをREINVENTに実装。Tabuリストに含まれる足場(scaffold)と同じ足場を持つ化学構造が生成するのを回避している。
 ㊁Ligand Scout(のスコアリング機能)が出力するファーマコフォア・スコアを使って、強化学習モデルを学習。同スコアは、一致するファーマコフォアの特徴の数と、ファーマコフォア・アラインメントのRMSD[平均二乗偏差。タンパク質構造の非類似性や誤りの指標として使われる]に基づいて算出。
学習データ: ChEMBLから取得した分子のSMILES(←事前ネットワーク) 
学習モデル: RNN、強化学習 

(41) 潜在変数空間探索に適用したRBMのサンプリングを量子アニーラで実施 
◎ メソドロジー
○ 日付 2023.5.22
○ 研究主体: ロシア量子センター、Gero(シンガポール:AI創薬スタートアップ)
○ 論文:https://www.nature.com/articles/s41598-023-32703-4
● 創薬を対象としたVAEにおいて、よりリッチな探索を可能たらしめるには、量子化が決め手と予測して、その準備検証を行っている。創薬を対象としているので、VAEの入力及び出力は、SMILESを使用。VAEが量子VAEになるとbetterの見立て。
1⃣ 変分自己符号化器(変分オートエンコーダ,VAE)の旧来的枠組み[*4]は、
「エンコーダ=1次元CNN、デコーダ=RNN。連続的な潜在変数が従う確率分布を設定(例:多次元正規分布)」。これに対して、論文で提案されている枠組みは、
「エンコーダ=トランスフォーマー(TF)、デコーダ=TF。潜在変数空間の確率分布(事前分布)を、RBMで生成」。TFを使うことで、薬らしい分子の生成が期待できるはず。計算量的には重いが、RBMを使うことで、探索はリッチになっているはず(ただし今回、そこは、あまり問題にしていない)。なお、エンコーダのTFの前に、前処理として1次元CNNがセットされている。
 VAEにおいて頻繁に発生する事後崩壊(posterior collapse:学習された潜在空間が情報を失う現象)を避けるため、KL情報量に係数= 0.139をかけている。
2⃣ トランスフォーマーの諸元は、以下の通り:マルチヘッド・アテンションのヘッド数=10、活性化関数=GeLU、ドロップアウト率=0.1、オプティマイザー=Adam。初期学習率=6×10−5。スケジューリングは、学習プロセスの50%、75%、95% に相当するタイミングで学習率に、1/2をかける。
3⃣ RBMのサンプリングは、❶古典コンピュータ上で、持続的コントラスティブ・ダイバージェンスを使用したギブスサンプリングと、❷量子アニーリングマシン(D-Wave Advantage)を使ったサンプリング。RBMのサイズは、128ユニットの層×2。再パラメータ化トリックを適用。RBMが量子ボルツマンマシンになればbetterとの見立て。
 ❶より❷が遅い。❷は75エポックでダウン(❶は300エポック)。👉 古典的サンプリングは機能する。他方、"量子化"は、ノイズの影響が大きく、現状の量子H/Wでは厳しい。
学習データ: ChEMBLデータベース(リリース26)から選択した、有機サブセットのみの原子を含む192,000個の分子(のSMILES文字列)。 
学習モデル: トランスフォーマー、RBM、VAE。 

(40) AI✖ヒトで、高温強度が向上する熱処理スケジュールを考案 
◎ メソドロジー
○ 日付 2023.9.25
○ 研究主体: 物質・材料研究機構、名古屋大学
○ 出所:https://www.nims.go.jp/news/press/2023/09/202309250.html
論文:https://www.nature.com/articles/s41598-023-39589-2
● ニッケル基合金を対象に、等温時効処理ベンチマークを上回る非等温時効処理(NIA)ルートを設計した。
1⃣ まずは、AI・・・UCBアルゴリズムに基づいた強化学習(モンテカルロ木探索MCTS)を使って、NIAルートを設計した。UCBスコアは、高温強度(0.2%耐力※)で構成する。ノードは、処理温度で、500℃~700℃の間を25℃間隔で区切った値(9つ)。ツリーの最大深さは、10。深さは時効時間を表すので、最大時効時間が10分。1分間隔で、10個に区切った。ランダムロールアウトでツリーを(完成させて)探索する。NIAは、わずか2分で、等温時効ベンチマークを上回った(等温時効処理の時効時間は、10分で固定)。
 等温時効ベンチマークは、MIntという「ニッケル基超合金について、時効熱処理条件から組織の時間発展を計算し、その結果に基づいて、高温強度を予測する」シミュレーション・ソフトを使った計算値。同ソフトは、NIMS・名大が開発した。
[参 考] MCTSで得られたNIAルート(単位℃):700→700→550→500→500→550→600→525→575→600→500。確かに、こんなパターンをヒトが見つけられるわけがない。ヒトが見つけられないと思われるパターンを見つけることは、いわゆるセレンディピティと言われるものであろう。AIをうまく使うことで、セレンディピティを効率的に発現させることができれば、インパクトは大きいのだろう。
2⃣ 次にヒト・・・MCTSで得られたNIAルートは、㊀高温短時間の時効処理と、㊁低温長時間の時効処理、を組み合わせている。㊁の「小さく複雑な温度変化」が本質的に効いている💡と予測して、新たなNIAルートを考案したところ、MCTSが見つけたルートを上回った→MCTSは0.2%耐力が788.50MPa、ヒトが見つけた0.2%耐力は789.53MPaだった(等温時効ベンチマークは、784.48MPaなので0.5~0.6%の改善)。
†時効処理は、金属に対する熱処理の一種で、この処理を施すと強度が増す。
※明確な降伏点が現れない金属・合金は、0.2%の歪が生じた時点での応力(0.2%耐力)を降伏点とみなす。 
学習モデル: 強化学習(モンテカルロ木探索) 

(39) パーシステントホモロジーを使った記述子で機械学習ポテンシャルを構築 
◎ メソドロジー
○ 日付 2023.8.22
○ 研究主体: 大阪大学
○ 出所:https://www.jst.go.jp/pr/announce/20230822/index.html
論文:https://arxiv.org/ftp/arxiv/papers/2206/2206.13727.pdf
● アモルファス炭素を対象に、機械学習ポテンシャルを、新しい記述子を使って構築。記述子の作成手段は、Handcrafted(手動)とニューラルネットワーク(GNN)に大別される。前者はSOAP(Smooth Overlap of Atomic Positions)記述子が代表的である。SOAPは、ハイパーパラメータ調整の必要性がある(ので煩雑でしょう、というのが当該研究者の主張)。提案する新しい記述子は、パーシステントホモロジー(PH)に基づいている。PHを使って作成する、パーシステント図(PD)は、原子の結合状態と分布に関する情報を捕捉し、化学的に同等な原子の空間移動、回転、反射、置換に対して不変である(ため、[機械学習]ポテンシャルに要請される対称性を満たす)。
 VASPソフトウェアを使用した密度汎関数理論(DFT)計算でアモルファス構造を作成。DFT計算には、LDA近似の交換相関汎関数、擬ポテンシャルと平面波基底関数を適用。PHには、HomCloudを使用。PDは(パーシステント・イメージを使って?)ヒストグラム(確率分布関数)に変換。PH記述子(PD記述子)に基づき、リッジ回帰とCNNを使用して、機械学習ポテンシャルを構築(MI分野では、PH+リッジ回帰はお馴染み→(31)や(22)を参照)。当然、リッジ回帰<CNN。かつCNNを使っても、SOAP記述子+NN[PyTorch/損失関数MSE、Adamオプティマイザー、学習率(0.001からマイルストーンごとに半減)]の精度には至らない。
 精度が低い反面、ハイパーパラメータの調整が不要であり、予測の解釈可能性があることをアピールしているが、現状、実用性は低いだろう。
学習データ: パーシステント図に基づく記述子。 
学習モデル: リッジ回帰(Scikit-learn/正則化パラメータ200)及びCNN(PyTorch/損失関数MSE、ネステロフの加速勾配降下法[モメンタム項0.9、重み減衰0.001]、学習率0.0015[初期値]からマイルストーンごとに半減、活性化関数はReLU)。 

(38) ChemTSv2:ChemTSを大規模並列化 
◎ メソドロジー
○ 日付 2023.8.18
○ 研究主体: 横浜市立大、理研、九大
○ 出所:https://www.yokohama-cu.ac.jp/news/2023/20230818terayama.html
論文:https://wires.onlinelibrary.wiley.com/doi/epdf/10.1002/wcms.1680
● ChemTSのUI/UXを向上させ、並列化も施した「ChemTSv2」が、無償公開された。ChemTSは、UCB1方策ベースのモンテカルロ木探索とRNNを使用したSMILES生成器である。並列化した場合のUCB値には、tiとTという2つの追加変数が含まれる。tiは、子ノードiのサブツリーを探索するプロセスの数。T=∑ti.
 tiは子ノードへの訪問回数に、Tは親ノードへの訪問回数に加算される。
学習モデル: 強化学習(モンテカルロ木探索)✖再帰型ニューラルネットワーク:GRU(Gated Recurrent Unit)ベース、活性化関数はtanh(及びソフトマックス)、ドロップアウト率30%。 

(37) マルチタスク学習を量子化学計算に適用 
◎ パラメータ同定
○ 日付 2023.7.13
○ 研究主体: 統計数理研究所及び三菱ケミカル
○ 出所:https://www.ism.ac.jp/ura/press/ISM2023-03.html
論文:https://pubs.acs.org/doi/pdf/10.1021/acs.macromol.2c02600及びhttps://pubs.acs.org/doi/suppl/10.1021/acs.macromol.2c02600/suppl_file/ma2c02600_si_001.pdf
● ポリマーと溶媒の相溶性を表す相互作用パラメータ(フローリー・ハギンズχパラメータ)を予測する代理モデルを開発した。背景・・・量子化学計算は計算コストが高い/機械学習で予測するにはデータ不足→マルチタスク学習を採用。マルチタスク学習は、(実は)強い関連性をもつ複数のタスクに対して、背後にある共通した潜在変数(特徴量)を抽出し、関連した複数タスクを効率的に学習する、というアプローチ。
 データ不足の場合、データ拡張や転移学習が用いられることが多く、マルチタスク学習が採用されることは多くないと思われる(ので面白い)。研究者が、「機械学習に基づく予測が、精度の点で、従来法を上回る可能性があること」を、この研究の重要性としているところもsound good。
 損失関数=(1-λs)×|実験データーモデル出力|2+λs×|シミュレーションデータ-モデル出力|2ーλc×ロジスティック回帰の損失関数。PINNとのアナロジーを感じる。λs=0.51、λc=1.0。
学習データ: 実験データ(ポリマー46種類と溶媒分子140種類からなる1,190ポリマー・溶媒ペア)、シミュレーションデータ(COSMO-RS法による、9,129ポリマー・溶媒ペア)、実データ(29,777種類のポリマー・溶媒の組み合わせについて、溶媒が良溶媒か貧溶媒かを表すデータ) 
学習モデル: ニューラルネットワーク(マルチタスク学習)。隠れ層3層、バッチ正則化、活性化関数:シグモイド関数、エポック数50、ミニバッチサイズ5~20、学習率3.5×10-3、オプティマイザー:Adam(AMSGrad)、特徴量の数=34。 

(36) 分子記述子のみで構造相転移を予測 
◎ 1⃣メソドロジー及び、2⃣物性予測
○ 日付 2023.7.10
○ 研究主体: 早稲田大学
○ 出所:https://www.waseda.jp/top/news/91898
論文:https://pubs.rsc.org/en/content/articlelanding/2023/DD/D3DD00034F 及び https://www.rsc.org/suppdata/d3/dd/d3dd00034f/d3dd00034f1.pdf
参考:https://www.jstage.jst.go.jp/article/jcrsj/65/2/65_139/_pdf/-char/ja
● 分子記述子+Positive-Unlabeled学習(ElkaNoto手法)という座組で、有機固体の構造相転移を扱っている。グラフベースでなく、transformerも使わない、シンプルなアプローチ。結晶多型は区別できないので、少なくとも、創薬には向かないと思われる。
 1⃣ 構造相転移の分類タスク・・・構造相転移の有無を分類。分子記述子として7つ(ECFP,Avalon,Mordred,ErG,Estate,RDKit,MACCSKeys)、学習モデルとして4つ(ニューラルネットワーク(NN)、サポートベクターマシン(SVM)、ランダムフォレスト(RF)、勾配ブースティング決定木)を採用。NNは隠れ層50、活性化関数ReLU。SVMのカーネルは、ポピュラーなRBF(Radial Basis Function、ガウス・カーネルとも呼ばれる)。
 評価指標として真陽性率×選択倍率、を採用(それぞれ、10分割・交差バリデーションの平均値)。AvalonとSVMの組み合わせが、最良の結果を出した。
 2⃣ 構造相転移の回帰タスク・・・(回帰の)目的変数は、吸熱転移の転移温度・転移エンタルピー及び、発熱転移の転移温度・転移エンタルピー。分子記述子は、1⃣と同じ。学習モデルは、NN(隠れ層は100)、RF及び転移学習NN。評価指標は、平均絶対誤差(MAE)(5分割・交差バリデーションの平均値)。
 転移温度に関しては、MordredとRFの組み合わせが最良だった。一方、この座組では、転移エンタルピーの回帰予測は、うまくいかなかった。[データ量が比較的少ない場合に(物性予測のケースでも)、ツリー系モデルは、良い結果を出すことが多いとされている(データ量が増えるとNNに抜かれる)。ただ、RFは(一般論では)データ量が少ないと過学習を起こしやすいとされている(例えばextremely randomized treeは、起こしにくいとされている)。]
学習データ: (データ量は少ない。)文献・論文において、示差走査熱量計による熱物性測定and/orX線結晶構造解析により、㊀構造相転移が確認された分子の分子構造、㊁転移温度、㊂転移エンタルピー。(分子構造は、ケンブリッジ結晶構造データベースから、SMILES形式で取得。)
学習モデル: (結果的に)ランダムフォレスト、サポートベクターマシン

(35)  PINNを応用した物質設計手法を開発 
◎ メソドロジー
○ 日付 2023.3.2
○ 研究主体: 理化学研究所、東京大学
○ 出所: https://www.t.u-tokyo.ac.jp/press/pr2023-03-02-001 (https://www.nature.com/articles/s42005-023-01132-0)
● 逆問題形式のPhysics-Informedニューラルネットワーク(PINN)の枠組みを応用した、所望の物性を示す物質の設計手法(以下、本手法)を開発した。PINNは次元の呪いを避けられ、ill-posed(適切性条件未充足)でも逆問題に対応できる(と言われている)。PINNであれば、支配方程式を損失関数とするところ、本手法では「所望の物性」を損失関数で表現する。勾配降下法で損失関数を最小化するパラメータを探索する(このパラメータを使って、ハミルトニアンが構成される)。
学習モデル: (PINN)

(34) 分子フラグメントの物性のみから、イオン液体の物性を予測
◎ 物性予測(ハイパーパラメータ同定)
○ 日付 2023.2.27
○ 研究主体: 中央大学、日本大学、地球環境産業技術研究機構、金沢大学
○ 出所: https://www.chuo-u.ac.jp/aboutus/communication/press/2023/02/64885/ (https://pubs.acs.org/doi/10.1021/acs.jpcb.2c07305)
参考:https://www.jstage.jst.go.jp/article/jccj/18/5/18_2019-0046/_pdf/-char/ja
● 機械学習モデルを使って、多数のイオン液体(IL)からCO2溶解度の高いILを、直接かつ迅速に探索した。機械学習モデルは、ガウス過程回帰モデル(計算には、MATLABを使用)。カーネル関数は、ARDMatern 5/2。ARD(関連度自由決定)なので、予測子毎に異なる特性長スケールを持つ。
 学習モデルの出力変数は、ヘンリー定数。ヘンリー定数は、COSMO-RS (Conductor-like Screening Model for Realistic Solvation)法を使って算出(COSMOtherm C30_1705を使用)した化学ポテンシャルから計算。
 入力変数は、ILを構成するカチオン・アニオンの幾何的物性データ及び電子的物性データ。電子的物性データは、密度汎関数法による第一原理計算(TURBOMOLE7.0を使用)から(得られた安定構造から)、表面電荷分布を作成して構築。汎関数はBecke-Perdewで、基底関数は、TZVP。幾何学的物性データは、構造異性体数、表面積、体積、分子量。
学習データ: (幾何的及び電子的物性データ、熱力学物性データ)
学習モデル: ガウス過程回帰モデル

(33) タンパク質の水和構造を予測
◎ 構造予測
○ 日付 2023.2.22
○ 研究主体: 理化学研究所
○ 出所: https://www.riken.jp/press/2023/20230222_1/index.html
● タンパク質の水和構造を予測する人工知能の開発に成功した。
 3次元畳み込みニューラルネットワーク(CNN)を使って、水和水分子周辺のタンパク質原子分布を学習させた。
学習データ: 2,145個のX線結晶構造解析モデルから5,310,762個のデータを作成
学習モデル: 3次元CNN

(32) 遺伝的アルゴリズムで熱電変換材料の化学組成及び加工条件を最適化
◎ パラメータ同定
○ 日付 2023.2.21
○ 研究主体:鳥取大学 
○ 出所: https://www.tottori-u.ac.jp/secure/20517/prof.chen.pdf#ContentPane (https://www.sciencedirect.com/science/article/abs/pii/S254252932300007X)
● "機械学習"により、Bi-Te-Se系バルク熱電材料の化学組成や加工条件の最適化に成功した。プロセスは以下の通り:(1)3つの機械学習モデルから1つを選択。具体的には、ニューラルネットワーク、サポートベクターマシン、ランダムフォレストから1つを選択。(2)選択に用いる計量指標は、相関係数と平均自乗誤差。(3)機械学習モデルに用いる入力変数は、ピアソン相関分析で抽出。具体的には、加工条件=❶押出し温度及び、化学組成変数=❷Teの含有量、❸Cuの添加量、❹Cu粒子のサイズ。(4)比較の結果、ランダムフォレストを選択。(5)遺伝的アルゴリズムを用いて、ランダムフォレストをチューニング(変数を最適化)。
 材料系において機械学習で作製条件を同定するというタスクでは、(ランダムフォレスト等の)予測モデル+ベイズ最適化、という枠組みが用いられることが多い(印象)。今回は、予測モデル(=ランダムフォレスト)+遺伝的アルゴリズム、という枠組み。
 なお、Quantum Extremal Learningという「(機械)学習済モデルのアウトプットを最適化する、アルゴリズムを見つける手法」がある。仏Pasqal(中性原子方式H/Wスタートアップ)と米ジョンソン&ジョンソンが開発した(https://arxiv.org/pdf/2205.02807.pdf)。
 ニューラルネットワークよりランダムフォレストのパフォーマンスが良かった理由は、単純に、学習データ量が(止むを得ず)少なかったから・・・と考えられる。そういうケースでは、アンサンブル学習が強いのだろう(過学習の危険は付きまとうが)。
学習データ: (少量の)実験データ
学習モデル: 最適化に用いたのは、遺伝的アルゴリズム。予測モデルは、ランダムフォレスト。

(31)  パーシステントホモロジーを磁気メモリ設計に適用
◎ 物性予測、構造解析
○ 日付 2022.11.29
○ 研究主体:東京理科大 
○ 出所: https://www.tus.ac.jp/today/archive/20221117_5026.html ※オリジナル論文https://www.nature.com/articles/s41598-022-21971-1
● 低消費電力・次世代磁気メモリの設計をお題に、画像を入力データとして、物性とエネルギーの関係を学習するモデルを構築。機械学習・深層学習の分野で特徴量抽出と言えば、オートエンコーダやCNNが定番だが、ここでは「複雑なデータをMIに活用するための代表的な処方箋」であるパーシステントホモロジー(PH)を使用。従前は、ガラスやアモルファス・シリコンといったエキゾチックな並進対称性を持つ物質が、PHの主な対象だった(ように思われる)。MI分野における、PHを使った機械学習でポピュラーな、パーシステンス・イメージ(PI)+線形回帰モデルという枠組みを採用している。
 ①"複雑な"磁区構造の顕微鏡画像データから、パーシステント図(PD)を作成。②PIを使ってPDをベクトル化して、特徴量を抽出。PIのコンセプトは、ヒストグラムにおける「柱状棒」の頻度数をベクトル要素とする、というもの。ただし"ヒストグラム"は、PDの生成元で作られる分布関数である。③この特徴量を使った機械学習(リッジ回帰)を用いて、磁区構造とエネルギーの関係式を構築→低消費電力の次世代磁気メモリ設計につなげる。(磁区構造とエネルギーの関係式を軟磁性材料に適用した結果は、https://www.tus.ac.jp/today/archive/20221201_1224.html。磁気渦の制御メカニズムの解析に適用した結果は、https://www.tus.ac.jp/today/archive/20221207_1620.html。)
 パーシステントホモロジー解析ツールは、HomCloud(https://homcloud.dev/)を使用。
学習データ:顕微鏡画像 
学習モデル:リッジ回帰モデル(及び主成分分析) 

(30) 高分子物性値のハイスループット計算法の確立
◎ メソドロジー
○ 日付 2022.11.9
○ 研究主体:統計数理研究所、東工大、東大 
○ 出所: https://www.jst.go.jp/pr/announce/20221109-2/index.html 
● 高分子物性値を、精度を保ち、ハイスループットで計算する方法論を確立した。高分子の種類は膨大であり、多様な物性値をリアルデータとして取得・DB化することは、現実的に難しい。そこで、第一原理計算(分子動力学シミュレーション)により物性値を計算するという選択肢が選ばれる。一方で、高分子物性の計算条件は、個別要因が大きいため共通化が難しく、大量のアウトプットにつながっていなかった。違う言葉を使えば、高分子物性の第一原理計算は、計算コストが高かった。
 今回、標準的な計算条件をあらかじめセットした上で、個別要因による違いを「転移学習」によって"吸収"することで、計算コストを抑えることに成功した。なお、第一原理計算には、LAMMPS(Large-scale Atomic/Molecular Massively Parallel Simulator)を使用している。米サンディア国立研究所が開発したオープンソースソフトウェアである。
 成果として、アモルファスポリマーの熱物性に関する複数物性値の同時分布、及びパレートフロンティアを得ている。もちろん重要なポイントは、今回確立した方法論で得られるデータをDB化して、マテリアル・インフォマティクスに活用することである。
学習モデル:転移学習 

(29)  より低オーバーヘッドで、タンパク質をデザイン
◎ メソドロジー(機械学習・深層学習とexplicitには無関係)
○ 日付 2022.10.19
○ 研究主体:名古屋大学 
○ 出所: https://www.nagoya-u.ac.jp/researchinfo/result/upload/20221019_i.pdf 
● 以前の研究(cf.(6))を発展させた。(6)の枠組みは、「タンパク質デザインをパラメータ推定問題として規定。パラメータ推定にはMCMCを使用」。今回の枠組みは、確率推論に基づくパラメータ推定である。方法論は、不規則系の統計力学における代表的な解析法の一つ、キャビティ法(空洞法)である。空洞法は平均場近似の一つで、確率変数に関する結合分布を表現したファクターグラフがハイパーツリーとなる。小さな2次元格子疎水性極性タンパク質モデルの場合、計算コストは大幅に削減しながら、MCMC法と同等の精度で設計ができたという。
 『本手法はタンパク質の詳細な性質に依存しないので、新素材・新デバイスの設計問題などへの応用』を模索するようだが、ファクターグラフがハイパーツリーでない場合は、(多項式?)オーバーヘッドが発生するはず。どこまで有効性が示されるか、期待したい。

(28)  複雑な組織構造を持つ材料の物性を高い精度で予測
◎ 物性予測
○ 日付 2022.9.30
○ 研究主体:産総研 
○ 出所: https://www.aist.go.jp/aist_j/press_release/pr2022/pr20220930/pr20220930.html 
● 窒化ケイ素セラミックスの破壊靭性を予測するAIを開発。組織画像と破壊靭性に関する実験データをCNNで学習させた。加えて、敵対的生成ネットワーク(GAN)を使って、高破壊靭性な窒化ケイ素セラミックス組織のモデル画像を生成した。こうすることで、最適な成形手法や焼結条件を見出すことが可能となる。判断根拠の説明には、Grad-CAMを採用している。
学習モデル:畳み込みニューラルネットワーク(CNN)及び、条件付き敵対的生成ネットワーク(Conditional-GAN、CGAN) 

(27) 社会実装に適したMIを実現する学習モデル
◎ 物性予測
○ 日付 2022.7.22
○ 研究主体:早稲田大学 
○ 出所: https://www.waseda.jp/top/news/82180 
● 社会実装に適した(本件では、分子構造が化学的に安定している)MIを実現するために、パイプライン①+②を構築。①深層生成モデルとしての制限ボルツマンマシンRBMで、化学的に安定な分子構造(の特徴量)を学習。②分子構造と電気伝導度の関係を学習。モデルは明示されておらず、複数のモデルを使用しているかもしれない。研究者のプロファイル等から、少なくとも一つは、グラフニューラルネットワーク(GNN)と推測される。なお、候補群からの抽出作業には、富士通の「古典イジングマシン」デジタルアニーラが使われている。
学習モデル:パイプライン=制限ボルツマンマシン(RBM)+グラフ・ニューラルネットワーク(GNN) ※GNNは推測 

(26) 機械学習ポテンシャルの新しい構成法
◎ メソドロジー(機械学習・深層学習とexplicitには無関係)
○ 日付 2022.7.19
○ 研究主体:北陸先端科学技術大学院大学 
○ 出所: https://www.jaist.ac.jp/whatsnew/press/2022/07/19-1.html 
● 第一原理量子モンテカルロ法の実行を念頭に、(機械学習ポテンシャルの作成法として有名な)「Behler-Parrinelloの方法」とは異なる方法を提案。対称性関数の替わりに、類似度=カーネル(SOAPカーネル)を導入。SOAP=Smooth Overlap of Atomic Positions.
 以下のプロセスで、機械学習ポテンシャルを作成する:①密度汎関数法による原子間ポテンシャルを入力データとして、第一原理量子モンテカルロ法による原子間ポテンシャルを再現する学習モデルを構築する。②①モデルで再現した原子間ポテンシャルを実現する、原子配置を算出。③原子に働く力を予測したい原子配置と、②の原子配置の類似度を、SOAPカーネルに基づいて計算する。④SOAPカーネル=類似度を入力として、適当なモデルを使って、原子間ポテンシャルを計算する。

(25) 多原子分子の電子状態を計算できる、新しい変分アルゴリズム開発
◎ メソドロジー(機械学習・深層学習とexplicitには無関係)
○ 日付 2022.7.14
○ 研究主体:東京大学 
○ 出所: https://www.s.u-tokyo.ac.jp/ja/press/2022/7972/ 
● NISQデバイスで、CO2分子の振動エネルギー準位を計算するために、新しいアルゴリズムを開発した。具合的には、①→②:①多数個の原子からなる分子を扱えるように、VQEを改良したMC-VQE。②MC-VQEさらに改良した縮約MC-VQE(RMC-VQE)。
 RMC-VQE法では、波動関数を古典系と量子系の2種類の基底関数の線形結合で表すことによって、エネルギー準位を計算する。量子コンピューターは、古典コンピューターでは計算することが難しい重要な計算にのみ使用される。一部とはいえ量子コンピューターを使うため、古典コンピューターのみを使うよりも正確なエネルギー準位の計算が可能となる。量子コンピューターでの計算において発生するエラーに対する量子誤り抑制は、量子コンピューターと古典コンピューターの計算結果比較によりエラーを見積ることで行う。なお、量子コンピューターの使用を限定しているため、量子誤りの発生自体が抑えられている。
 (NISQデバイスに限らずFTQCでも、古典コンピューターと量子コンピューターを使い分ける必要がある。その最適な配分を制御することは、FTQC時代を見据えた量子コンピュータービジネスにおいて、肝になると思われる。)
 参考:https://avs.scitation.org/doi/10.1116/5.0091144

(24) 高い結晶磁気異方性をもつ材料を効率的に探索することに成功
◎ パラメータ同定
○ 日付 2022.7.1
○ 研究主体:東京理科大学 科学技術振興機構
○ 出所: https://www.jst.go.jp/pr/announce/20220701-2/index.html 
● 従来比約5倍の速度で、高結晶磁気異方性材料の候補物質を、自動探索できた。実際に候補物質を作製し、既存物質を超える新しい磁性材料の創製に成功。
 学習データ:第一原理計算の入出力データ(計算結果は、磁気異方性エネルギー)
 学習モデル:ベイズ最適化

(23)  GANを使って複雑材料の機能予測を可能に
◎ 物性予測
○ 日付 2022.6.30
○ 研究主体:産総研
○ 出所: https://www.aist.go.jp/aist_j/press_release/pr2022/pr20220630_2/pr20220630_2.html
● 敵対的生成ネットワーク(GAN)を使って、各種配合条件に対応した材料の物理的・化学的構造を反映した画像、並びに分光スペクトルを生成した。
 学習データ1:{母材、添加剤、充填剤など} 
 学習モデル1:GAN →{画像、分光スペクトル}を生成 → テスト・データ
 学習データ2:入力={画像、分光スペクトル}、出力={ヤング率、ガラス転移温度、表面電気抵抗、貯蔵弾性率など}
 学習モデル2:回帰モデル

(22) トポロジーと機械学習を使って、高精度な物性値予測に成功
◎ 物性予測、構造解析
○ 日付 2022.6.24
○ 研究主体:分子科学研究所
○ 出所:https://www.ims.ac.jp/news/2022/06/220624.html
● 具体的には、まず、分子動力学法によりアモルファス・シリコンのモデル構造を作成。この構造から、パーシステント図を作成(パーシステント図は、'穴'の存続性を可視化した図)。パシステント図をベクトル化(特徴量を抽出)し、機械学習モデルを訓練した。その結果、熱伝導率を高精度に予測することに成功。さらに、熱伝導率の高低を決めているミクロな構造を、主成分分析とパーシステント図の逆解析(パーシステント図の生成元から生成元を構成している原子配置を特定)から求めた。
 学習データ:数値化したパーシステント図と、熱伝導率
 学習モデル:リッジ回帰

(21)  相変化メモリ(PRAM)の物性パラメータを効率的に決定
◎ パラメータ同定
○ 日付 2022.3.25
○ 研究主体:東北大学
○ 出所:https://www.tohoku.ac.jp/japanese/newimg/pressimg/tohokuuniv-press20220325_02web_semiconductor.pdf
● ベイズ最適化を使用して、PRAMに利用されている相変化材料の物性パラメータを、効率的に決定することが出来た。「メモリ材料自体の電気抵抗に対する電極接触抵抗の比」が重要であるという新たな知見が得られた。
 学習モデル:ベイズ最適化

(20) 深層学習・強化学習及び量子化学計算を活用して、蛍光有機分子を開発
◎ メソドロジー
○ 日付 2022.3.10
○ 研究主体:理化学研究所 横浜市立大学 物質・材料研究機構
○ 出所: https://www.nims.go.jp/news/press/2022/03/202203100.html
● 有機分子の構築パターンを学習させた再帰型ニューラルネットワーク(RNN)と、モンテカルロ木探索(MCTS)とを使い、有機分子を生成する。RNNとMCTSとの組み合わせは、自然文の文章作成でも用いられるポピュラーな組み合わせである。
 RNN+MCTSで作成した有機分子は、必ずしも、蛍光性を示すわけではない。比喩的に言えば、以下と同じであろう:文法的に成立する文を作ることと、笑えるネタを書くことは、質的に全く異なる。量子化学計算(密度汎関数法DFT)で、蛍光性を評価する(アノテーションする)ことで、RNN+MCTSで蛍光有機分子を作成するAIシステムを構築した。これも比喩的に言えば、お笑い芸人が分別することで「面白い」文を作成できるAIシステムを構築した、となる。
 学習モデル:RNN、強化学習(MCTS)

(19) カーボンナノチューブCNTの最適なインク化条件を予測
◎ メソドロジー
○ 日付 2022.1.18
○ 研究主体:奈良先端科学技術大学院大学 京都工芸繊維大学
○ 出所: http://www.naist.jp/pressrelease/files/20220118.pdf
● 少ない変数で、CNT の分散特性を高精度に予測可能なモデルを構築した。特徴量エンジニアリング(特徴量選択)に、遺伝的アルゴリズムGAとベイズ最適化を利用している。
 学習モデル:GA、ベイズ最適化

(18) 低解像度データからでも、難構造を予測可能な深層学習モデル
◎ 構造予測
○ 日付 2021.12.20
○ 研究主体:横浜市立大学
○ 出所: https://www.yokohama-cu.ac.jp/news/2021/202112ikeguchi_scirep.html
● 低解像度データからでも、局所的な難構造である「ループ領域の構造」を決定可能な学習モデルを構築できた。「電子密度マップ」を特徴マップとしている。低分子化合物のドッキング・シミュレーションの精度向上を通じて、効率的な創薬に資すると考えられる。
 学習データ:(公共DBに登録されている)高解像度データから作成した「電子密度マップ」と「タンパク質構造」
 学習モデル:3次元畳み込みニューラルネットワーク(3D-CNN)

(17)  最小限の実験で最適な作製条件を、能動学習で予測 
◎ パラメータ同定
○ 日付 2021.11.15
○ 研究主体:物質・材料研究機構
○ 出所: https://www.nims.go.jp/news/press/2021/11/202111150.html
● 機械学習により、ネオジム磁石の最適な作製条件を、限られた実験データから予測することに成功した。(枠組み全体の)方法論は、能動学習(アクティブラーニングAL)で、作製条件を最適化する手法は、ベイズ最適化を採用している(※)。
 枠組みの第一段階として、ランダムフォレスト(RF)法(回帰)を用いた予測モデルを作成する。この予測モデルを用いて、「実験条件と予測結果」から成るデータセットを作成。次に、このデータセットをもとにベイズ最適化で、作製条件を提示する。
 提示された作製条件を用いて実際に試料を作製。作製条件と得られた実験結果から、新たなデータセットを作成。再びRF法による予測モデルを作成する。このサイクルを3 回繰り返した結果、ALの活用により、比較的高い精度で磁気特性を予測できることが確認された。
 ※研究グループはこの枠組みを、Active Learning pipeline assisted by Machine Learning and Bayesian Optimization(ALMLBO)と呼んでいる。能動学習の一連のプロセス(パイプライン)に、機械学習(この場合はRF法)とベイズ最適化を、組み込みこんでいることが表されている。

(16) 検知できなかった理由をニューラルネットワークで解明 
◎ 機構解析
○ 日付 2021.11.9
○ 研究主体:NIMS 京大 早大 豊田理化学研究所
○ 出所: https://www.nims.go.jp/news/press/2021/11/202111091.html
● 高温超伝導体の実験データを再現するように、人工ニューラルネットワーク(ANN)の学習を行った。学習は、物理則を満たすようにANNを制御しながら行われた。ANNは、任意の関数を表現できるため、(物理則を満たす)任意の物理系を構築することが可能。
 ANNを構築したことで、高い超伝導転移温度の起源を、検知できなかった理由が明らかになった。これまでANNの用途は、物性予測や条件等の絞り込みが主流だった。今後、隠れた物理量の抽出、あるいは新たな概念の発見などが期待される。

(15)  測定データを利用した物性予測を可能とする機械学習モデルを開発 
◎ 物性予測
○ 日付 2021.10.26
○ 研究主体:NIMS、三井化学
○ 出所: https://www.nims.go.jp/news/press/2021/10/202110250.html
● プロセス加工後の構造が物性に強く影響する場合(例えば、高分子材料を開発する場合など)には、測定データを利用した物性予測が、マテリアルズ・インフォマティクスを活用した材料開発において有効となる。
 機械学習モデルの学習データは、記述子で規定した材料に対する「測定データと材料物性」である。ちなみに、記述子は、分子量、立体規則性、および射出成型冷却温度。測定データは、X 線回折や示差走査熱量測定等の測定データ。材料物性は、シャルピー衝撃試験と引張弾性率。
 機械学習モデル(実験的計画法)としては、ベイズ最適化に基づく方法並びに、不確実性サンプリングに基づく方法が、提案されている。ベイズ最適化は、ブラックボックス関数を含むシステムを最適化することを目的とした機械学習である。可能な限り少ない試行で、ブラックボックス関数(=実験)を最適化する。これが、ベイズ最適化の基本思想である。
 一方の不確実性サンプリングは、能動学習(アクティブ・ラーニング)における獲得関数の1つの基準である。サンプルを選択する基準を与える。能動学習では、最小限の入出力ペアを用いて、良いモデルを学習することを目指す。

(14)  内殻電子励起スペクトルから、他の物性情報を抽出 
◎ 物性予測
○ 日付 2021.10.18
○ 研究主体:東京大学
○ 出所: http://www.iis.u-tokyo.ac.jp/ja/news/3674/
● 研究グループは、①炭素から得られる内殻電子励起スペクトルに、②3つの情報を追加したデータを学習データとして使った、③(順伝播型の)ニューラルネットワーク(NN)システム、を構築した。③用いて、有機分子から11種類の物性を、高精度に抽出することに成功した。この物性の中には、内殻電子励起スペクトルとは無関係と考えられてきた「光学特性、振動特性、分子の質量や、分子の安定性(内部エネルギー)に関する情報」が含まれていた。
 第一原理計算を行わなくても、機械学習・深層学習で、物性を高精度に予測できることを、肚落ちさせてくれる結果。

(13) 結合エネルギーを機械学習で予測。DFT計算より1.3億倍高速 
◎ 物性予測
○ 日付 2021.10.13
○ 研究主体:千葉大学
○ 出所: https://research-er.jp/articles/view/103909及びhttps://www.nature.com/articles/s41598-021-99369-8.pdf
● 学習データは、「分子の構造名」と「超原子価ヨウ素の結合エネルギー」とのセット。結合エネルギーは、スパコンを用いたDFT(密度汎関数法)計算によって算出した。機械学習モデルは、①エラスティックネット、②サポートベクターマシン(回帰)、③ニューラルネット(活性化関数はReLU)、④ニューラルネット(活性化関数はシグモイド(ロジスティック)関数)、⑤ランダムフォレスト(回帰)、⑥ライト・勾配ブースティングマシン(回帰)、を適用。
 DFTによる計算結果(テストデータ)と機械学習の予測結果を、平均絶対誤差(MAE)と決定係数(R2)で評価して、最も精度が高かった①エラスティックネットを、学習モデルとして選択している。構築した結合エネルギー予測モデルは、DFT計算より1.3億倍速く、結合エネルギーを予測することができた。

(12) 新発見が難しい物質の合成条件をAIで発見 
◎ パラメータ同定
○ 日付 2021.09.30
○ 研究主体:京大
○ 出所:https://research-er.jp/articles/view/103513 
● ①既知の合成実験データに、新たな実験失敗データを含めて、学習データを用意。②学習データから、合成を成功させる「隠れ因子(パラメータ)」を見つけ出す非線形生成モデルを構築。③見出したパラメータを基に、合成を成功させる条件を推薦する推薦モデルを構築。

(11) 重合反応率の予測モデル 
◎ 物性予測、パラメータ同定
○ 日付 2021.09.29
○ 研究主体:量子科学技術研究開発機構
○ 出所:https://research-er.jp/articles/view/103470 
● 重合反応に使用するモノマーの物性情報だけで、重合反応率を、瞬時に予測できるAIモデルを構築した。量子化学計算で算出したモノマーの物性、及び原子情報を学習データとした。さらに、このAIモデルを構成する49種類のパラメータについて影響度を解析した結果、モノマーの「分極率」と「NMR化学シフト」が重要であることを見つけ出した。

(10) graph構造に対する深層学習モデル(MPNN)で化合物の、CNN・Transformer・AACでタンパク質の物性を予測 
◎ メソドロジ-
○ 日付 2021.09.27 
○ 研究主体:九州大学
○ 出所: https://www.kyushu-u.ac.jp/ja/researches/view/667
● 予測した物性値を含む物性情報に薬理学的知識を加えることで、「薬らしさ」を表現できるAIを構築した。学習データは、既存の「化合物-タンパク質ペアのデータ」が使われた。
 化合物の物性予測モデルには、メッセージパッシング・ニューラルネットワーク(MPNN)が用いられている。タンパク質の物性予測モデルには、自然言語処理でも広く用いられている「畳み込みニューラルネットワーク(CNN)、Transformer[入力データの'潜在的な'意味を学習することができるNN]」並びにAACが用いられている。

(9) 深層学習を利用して、タンパク質と化合物の相互作用を推測 
◎ 物性予測
○ 日付 2021.09.09 
○ 研究主体:京都薬科大学 PFN 
○ 出所: https://www.kyoto-phu.ac.jp/exam_information/news/detail.html?itemid=984&dispmid=972
● PFN はAIによる分子設計を実施し、新型コロナウイルスSARS-CoV-2の増殖に必須な酵素の活性を阻害する化合物を複数提示した。京都薬科大学は、それらを合成、活性評価を行った結果、新型コロナウイルス(SARS-CoV-2)の増殖に必須な酵素(メインプロテアーゼ)メインプロテアーゼの活性を阻害する作用を確認した。

(8) 高分子合成の成否に影響を与えるパラメータを同定 
◎ パラメータ同定
○ 日付 2021.09.03 
○ 研究主体:関西学院大学
○ 出所:https://www.kwansei.ac.jp/news/detail/4414
● 合成困難な高分子の合成成否に影響を与えるパラメータを、機械学習で明らかにした。その過程は、以下の通り:(1)失敗した実験データを、クラスタリング解析で自動分類。(2)分類結果と合成実験条件の関係とを、ランダムフォレスト及び決定木により解析。(3)「反応温度」並びに、「反応系中の水素イオン濃度」が、重要なパラメータであることを明らかにした。

(7) 複雑な構造をもつ機能性材料の物性予測に成功 
◎ 物性予測
○ 日付 2021.08.30 
○ 研究主体 先端素材高速開発技術研究組合、日本ゼオン、産総研
○ 出所:https://www.nedo.go.jp/news/press/AA5_101472.html
● 複雑な構造をもつ機能性材料の物性予測を、素早く・高精度に行えた。詳細は以下の通り:①カーボンナノチューブCNT膜の「構造画像と物性」を、AIに学習させる。②種類の異なるCNTを任意の配合で混合した場合の、さまざまなCNT膜の構造画像を、敵対的生成ネットワークGANで生成する。③構造画像②を使って、AI①を学習させた結果、混合したCNTの物性(電気特性及び比表面積)を、高精度(決定係数で0.99)に予測できた。④さらに、最適な組成割合を導く時間を大幅に(98.8%)短縮した。

(6) タンパク質デザインをパラメータ推定問題として規定 
◎ メソドロジー
○ 日付 2021.08.25 
○ 研究主体:名大
○ 出所: https://www.nagoya-u.ac.jp/about-nu/public-relations/researchinfo/upload_images/20210825_i.pdf
● タンパク質デザイン用機械学習モデルとして、ベイズ学習モデルを採用することで、タンパク質デザインをパラメータ推定問題として規定した。パラメータ推定にはMCMCを使用。尤度関数は、グランドカノニカル分布(大分配関数)を使用。事前分布に、「タンパク質の自由エネルギーを最小にする配列の出現確率が最も高くなる」という仮説を反映した。サンプリング法は、ギブス・サンプリングを使用(事前分布が既知であるため、使用可能)。
 パラメータ推定問題としたことで大幅な計算時間短縮を達成したが、精度には課題を残す。ただし、「タンパク質表面の水和効果をコントロールする要素を取り入れることで、タンパク質を正しくデザインできるケース」では、この学習モデルが有効であることを示した。

(5) ベイズ最適化を用いることにより、短時間でパラメータ同定を完了
◎ パラメータ同定
○ 日付  2021.8.20
○ 研究主体:名大
○ 出所: https://www.nagoya-u.ac.jp/about-nu/public-relations/researchinfo/upload_images/20210820_ps.pdf
● 少数標本と最低限の仮定にもとづいて確率的な予測を行える「ガウス過程回帰」を駆使することにより、20件のデータから相関情報の予測に成功した。また、ベイズ最適化を用いた結果、10,500通りの中から20回以下の検討により、マイクロフロー合成法のパラメータ同定に成功した。
 ベイズ最適化は、ブラックボックス関数(=実験)を含むシステムを最適化することを目的とした機械学習である。可能な限り少ない試行で、ブラックボックス関数を最適化する。これが、ベイズ最適化の基本思想である。

(4)新規プロトン伝導性電解質を発見 
◎ 物性予測
○ 日付 2021.08.05
○ 研究主体:理研 九州大 岐阜大 宮崎大
○ 出所:https://www.kyushu-u.ac.jp/ja/researches/view/644
● プロトン伝導性電解質である未知材料を、1 回の実験で発見するAIモデルを開発した。詳細は以下の通り:(1)既存材料のプロトン濃度データにより、学習データを構築した。次に、(2)学習データを、①構成元素情報を示す記述子、②プロトン導入反応の物理化学的知見、と共に学習させた。そして、(3)未知材料のプロトン濃度の温度依存性を予測する AI モデルを開発した。

(3)証拠理論を利用した材料開発 
◎ データ生成 
○ 日付  2021.07.21
○ 研究主体:JAIST 産総研 物材研
○ 出所: https://www.jaist.ac.jp/whatsnew/press/2021/07/21-1.html
● 「証拠理論(Dempster-Shafer理論)」を適用し、未知の体心立法構造の金属薄膜を合成することに成功した。具体的には、以下の通り:(1)複数のデータ源から、未知の組成が存在する可能性を示す「証拠」を収集・結合。(2)その証拠に基づいて新規材料の組成を提案した。

(2)機械学習で準結晶を形成する化学組成を同定 
◎ 物性予測
○ 日付 2021.07.21 
○ 研究主体:東大 東京理科大 統計数理研究所
○ 出所:https://www.tus.ac.jp/today/archive/20210721_0901.html
● 化学組成のみを入力とする機械学習モデルが、(1) 経験則(1原子当りの平均遍歴電子数が特定の値をとる組成で安定化する、というヒューム=ロザリーの電子濃度則)を再発見した。(2)準結晶の相形成に関する法則(ファンデルワールス半径や電気陰性度等に関する、5つの単純な数式で表される)を明らかにした。

(1)構成元素の情報のみから熱伝導率を予測
◎ 物性予測
○ 日付 2021.07.08
○ 研究主体:名古屋工業大学
○ 出所:https://www.nitech.ac.jp/news/press/2021/9066.html
● ハーフホイスラー化合物を構成する原子の「原子半径および原子質量」から格子定数を学習し、その後に熱伝導率を学習するという機械学習モデルを構築した。この学習モデルは、熱伝導率を低コストかつ高精度で予測できた。
 学習データは、様々な元素を含んだ多種類のハーフホイスラー化合物に対して、熱伝導率を第一原理計算により計算することで準備した。

Appendix1 機械学習による薬物放出速度の予測
1 前捌き
 加トロント大学の研究者は、 機械学習ツールが薬物放出速度を正確に予測できるかどうかを調査した論文を発表した(23年1月10日)[*A-1]。(以下、*A-1を本論文と呼ぶ。)
 慢性疾患の治療における最も有望な治療戦略の1つと考えられている長時間作用型注射剤(LAI)は、長期間にわたって薬物を放出するように設計される。しかし、過去20年間で、高分子LAIはわずか30品目しか承認されていない。これは、同時期に承認された経口薬が数千品目であるのとは対照的である。所望期間にわたって最適な量の薬物放出を達成するには、膨大な試行錯誤が必要で、LAI開発における重要なボトルネックとなっている。
 トロント大の研究者は、機械学習(ML)によるアプローチが、このボトルネックを解消できるのではないか?という仮説を検証することにした。

2 モデルの評価及び結果
(1) データセット
 MLモデルの学習に用いたデータセットは、本論文著者のグループ・他の研究グループによる既発表の研究から構築されている。本論文著者のグループが行った研究では、球状および円柱状のポリマー製LAIが含まれている。外部からのデータは、Web of Scienceの検索エンジンとキーワード「高分子微粒子」と「ドラッグデリバリー」で特定される。データセット構築のために選択された各研究論文では、それぞれの製剤からの薬物のin vitro放出が特徴づけられた。
 最終的なデータセットは、様々な低分子薬剤、ポリマー材料、LAIの記述子、in vitro薬剤放出プロファイル、薬剤放出プロファイルが生成された実験条件から構成されている。合計で、43種類の薬物とポリマーの組み合わせによる181種類の薬物放出プロファイルと3783個の分数放出測定値が含まれている。
 LAIは、PLGA、ポリ乳酸(PLA)、ポリカプロラクトン(PCL)などの市販のポリマーから形成されており、分子量やラクチド-グリコリド比は様々である。

(2) 記述子
 様々なMLモデルのLAI処方を記述するための特徴量として、17の分子的および物理化学的記述子が、ドメイン知識に基づいて最初に選択された。これには、薬物、ポリマー、LAIシステムの物理化学的特性を記述する特徴量、およびin vitro放出研究が実施された実験条件を説明する特徴量が含まれている。
 モデルは特定のLAIに対する各薬物放出プロファイルについて、(特徴量である)薬物放出測定のタイムポイントのみを変化させ、他のすべての特徴量を一定に保つように訓練された。

(3) 評価した機械学習モデル
 MLを使用してLAIからのin vitro薬物放出を予測する過去の取り組みは、もっぱらニューラルネットワーク(NN)ベースのモデルを検討し、狭い応用領域を調査してきた。低データ領域での教師あり学習タスクにNNを使用することは、通常、疎なデータ問題に適しているツリーベースモデルやガウス過程などの代替MLアルゴリズムと比較して、過学習のリスクを増加させる可能性がある。
 そのため、❶重回帰、❷ラッソ回帰、❸部分的最小二乗回帰、❹決定木、❺ランダムフォレスト、❻Light勾配ブースト・マシン(LGBM)、❼エクストリーム勾配ブースト(XGB)、❽自然勾配ブースト(NGB)、❾サポートベクターマシン回帰(SVR)、❿k-近傍法(kN)および⓫ニューラルネットワーク(NN)、の11種類のアルゴリズムで学習・評価を行った。

(4) モデルの評価法
 (複数のアルゴリズムを比較して、その中から最適なアルゴリズムを決定するので)選択されたMLモデルは、「入れ子構造の交差検証戦略」を使用してトレーニングおよび評価された。各MLモデルについて、データセット中の薬剤・ポリマー群の20%がテストセットとして、ランダムに選択された。残りの80%はモデル開発に使用された。モデルのトレーニングとハイパーパラメータのチューニング (内部ループ)では、各モデルを k分割交差検証(k=10)でハイパーパラメータを最適化する手順を実施した。
 モデルのハイパーパラメータは、ランダムなグリッド・サーチを使用して調整される。目的関数は、薬剤とポリマーの組み合わせの k分割グループにわたる平均モデル性能とされた。内側ループで「最適」なハイパーパラメータを選択した後、モデル評価(外側ループ)でテストセットに対してモデルを評価した。この入れ子構造の交差検証を各MLモデルに対して10回実施し,ランダムに生成されたテストセットに対する平均的なモデル性能を決定した。
 すべてのケースで、モデル性能は平均絶対誤差(MAE)=予測薬物放出速度と実験値との平均絶対差で評価された。

(5) 結果
 検証の結果、ツリーベースのモデルは、平均して他のモデルよりも正確であった(MAE< 0.16)。中でも、LGBM[*A-2]モデルのパフォーマンスが優れていた:①LGBMモデルは、全体的な予測精度が最も高く、内側ループと外側ループでそれぞれ0.125(±0.039)と0.114(±0.036)のMAE値が得られた。②LGBMモデルはテストデータの絶対誤差の値の分布が最も狭い。③LGBMモデルで生成された絶対誤差の値は、他のモデルと比較して統計的に有意な差がある(p値 が5%未満)。
 また,比較のため,入力特徴量として薬物放出の初期測定値を含まない(すなわち,T = 0.25,T = 0.5,T = 0.1の特徴を含まない)一連の ML モデルの学習と評価も行った。few-shotモデル(※)は、予測を行う前に最初の数点の実験値を測定する必要があるが、その結果、より精度の高いモデルが得られることが多い。本研究では、薬物放出の初期測定値を追加すること(=few-shotモデル)は、優れた性能をもたらすことがわかった。
※ 初期実験値を入力とするモデルを few-shotモデル、入力としないモデルをzero-shotモデルと呼ぶ。

(6) 考察
 LGBMのようなツリーベースのモデルの実装は、LAI製剤の開発に関わる時間とコストを削減する可能性を持っている。これは、中規模のデータセット(~10Kサンプル)に対して、ツリーベースのモデルが依然として最先端であることを示した最近の研究と一致する。
 つまり、データセットのサイズが小さく(<4000観察)、データポイントのほとんどが薬剤またはポリマーの特性である変数を含んでいたため、ニューラルネットワークモデルのパフォーマンスが冴えなかったと考えるべきである。製剤開発におけるMLの利用が増えるにつれて、より大きなデータセットが利用可能になり、ニューラルネットワークの有用性が増すと予想される。
 最新のML技術の強みは、モデルがどのようにして予測に至ったかについての洞察を提供する能力である。本論文では、MLモデルがLAIからのin vitro薬物放出を高い精度で予測するために使用できるだけでなく、そのようなモデルの解釈が新しい製剤候補の設計を導くために使用できることを実証している(ただし、割愛)。
[参考] 山梨大・千葉大の研究グループは、川崎病臨床データから、IVIG(大量免疫グロブリン静注)不応を予測する機械学習モデルを構築した(発表は、23年3月。論文[*A-8]発表は23年1月)。3つのモデル(LGBM、XGB、ランダムフォレスト)を対象に、3つの指標(AUC、感度、特異度)で評価した結果、LGBMが最善であった。

3 補記:MLモデルの実装
 機械学習モデルは、すべてPythonで構築され、評価された。ニューラルネットワークモデルは TensorFlow のバックエンドで Keras パッケージを使用して構築した。LGBM モデルは lightGBM パッケージ、XGB モデルは XGBoost パッケージ 、NGB モデルは NGBoost パッケージ、を使用した。その他のモデルは 、Scikit learn ライブラリを使用して構築した。
 すべての場合において,ML モデルを学習する前に、データを標準化するためのデータ前処理を実施した。これは,Scikit learn ライブラリで利用可能な、標準スカラーパッケージを使用して行われた。MLモデルのハイパーパラメータは、Scikit learnのランダム・グリッドサーチ・パッケージを使用して調整され、負の平均絶対誤差メトリックが採用された。

Appendix2 新しい、深層学習に基づく変分モンテカルロ法

【1】論文の主張
 墺ウィーン大学の研究者他が、「深層学習に基づく変分モンテカルロ法の新手法を開発し、類似する他の手法より優れた結果を出した」と主張する論文[*A-3](以下、本論文)を発表した(arXivにて22年10月11日公開)。「物理的な事前知識が多すぎると、最適化が阻害され、精度が低下する」ことを示した点が、面白い。

【2】学術的な整理
 本論文の手法(本手法)は、従来の「深層学習に基づく変分モンテカルロ法」の一つであるFermiネットを改善している。改善点の一部は、これまた類似手法であるPauliネットの一部を取り入れている。そこで、先行例として、両者を簡単に整理する。
 なお、Pros&Cons的にまとめると、Fermiネットは通常 Pauliネット よりも低い(つまりより正確な)エネルギーに到達するが、 Pauliネットは、より速く収束する。

(0)Slater-Jastrow-backflow型試行波動関数
 まずは出発点として、各論文で共通して使われている試行波動関数について、整理する。多体電子状態を記述する試行波動関数の中で、次の㊀×㊁×㊂が、(スタンダードである)Slater-Jastrow-backflow型試行波動関数である。㊀×㊁は、Slater-Jastrow型試行波動関数と呼ばれる。
 ㊀ベースライン:平均場近似(ハートリー・フォック近似)のSlater(スレーター)行列式(電子の反対称性制約を。数学的にシンプルに表現するために、行列式を用いる)。
 ㊁相関の考慮:電子の実空間配置に対して”近距離相関”を取り入れるために、Jastrow(ジャストロー)因子を、スレーター行列式に掛ける。
 ㊂電子軌道の”節(面)”の最適化:数学的に言うとバックフロー変換は、「スレーター行列式を構成する単電子軌道の座標を、仮想的な座標系に変換」する。物理的な意味合いは、「近傍の電子の位置に依存する量だけ、全ての電子の位置を移動させる」。なお、節(節面とも言う)とは、電子軌道(原子軌道とも言う)における電子が存在しない部分である。

(1)Pauliネット
 独ベルリン自由大学、ベルリン工科大学他の研究者が開発した。最初の論文はarXivに投稿[*A-4]され、最終的には、natureに投稿された[*A-5](こちらは23年1月時点で、オープンアクセスではない)。以下の内容は、[*A-4]に寄っている。
 Pauliネットは、SchNet[*A-6]というグラフ畳み込み深層ニューラルネットワークをベースにしており、 『ジャストロー因子とバックフローを、 ニューラルネットワークで表現』している。
 ベースラインの波動関数には、多参照ハートリーフォック法で得られる電子軌道を用いる。具体的には、小さな完全活性空間を持つ多参照ハートリーフォック(HF)計算を用い、線形係数の大きさに基づいて、最も支配的な行列式とその軌道を選択する。HF計算で得られた単電子軌道は、その後Pauliネットの入力として用いられ、学習中はバックフロー変換によってのみ修正される。バックフローは、単電子軌道に多電子関数を乗じる形式をとっている。
 加藤のカスプ条件は、直接Pauliネットの関数形に組み込まれている。 ジャストロー因子とバックフローは、カスプがないものしている。
 本論文では『Pauliネットは、物理的な事前知識を最大化することに重点を置いている。ニューラルネットワークは、比較的小さな(約100kの重み)ネットワークを使用している』と総括している。

(2)Fermiネット
 Fermiネットという通り名で知られるFermionic Neural Networkは、グーグル傘下の英ディープ・マインドの研究者他がフィジカル・レビューに投稿した論文[*A-7](以下、F論文)において、お披露目された(2020年9月16日。ただし、それ以前にarXivに投稿されている)。F論文で著者たちは、「スレーター-ジャストロー-バックフロー型試行波動関数を使用した変分量子モンテカルロ法(VMC)の精度を大幅に向上させることに成功した」と主張した。
 Fermiネットは、スレーター行列式を単電子軌道で構成しない。単電子軌道を(反対称性制約さえ満たせば、何でも良いので)反対称性制約を満たす多電子関数で置き換える。F論文では、この多電子関数を順列不変関数(permutation equivalent function)と呼んでいる。スレーター行列式は、順列不変関数からなる行列式に置き換わる。そして『順列不変関数を、ニューラルネットワークで構築』する。
 ニューラルネットワークで行列式を構成することで、行列式の表現力が増す、と主張する。単一スレーター行列式の代わりに複数スレーター行列式を使うことで表現力を増すのではなく、ニューラルネットワークを使うことで表現力を増している、と解釈できるだろう。また、バックフロー変換は、位置座標のみならず、スピン座標も変換する。
 最終的なアウトプットである波動関数は、先にあげた多電子関数(順列不変関数)に、パラメータ付きのenvelope(包絡線)関数Ωを掛けることで、求める。envelope によって、波動関数が原子核から遠く離れてゼロになるという境界条件が強制される。FermiネットでのΩは(Pauliネットとは異なり)、指数関数の和で表現されており、Jastrow因子が考慮されている。
 活性化関数は、tanh関数を使用。最適化アルゴリズムは、クロネッカー因子分解(Kronecker-factored approximate curvature;KFAC)(の修正版)を使用している。また、加藤のカスプ条件は、明示的に組み込まれていない。

【3】本論文の成果
(1)本論文の問題意識
 本論文は、次のように論点整理している:深層学習-変分モンテカルロ法(VMC)における最初のステップは、 生の(つまり、バックフロー変換などしていない)電子の座標rと原子核の座標{RI}から適切な特徴量を計算することである。特徴量は3つの特性を持つ必要がある。①物理的な波動関数を表現するのに十分な表現力を持っていること。②幾何学的な変換に対して不変であること。③特徴量は粒子の局所的な環境に依存することが望ましい。
 その上で『公開されたアーキテクチャは、これまでのところ、この3つの点すべてに対処できていない』とする。具体的には、❶Pauliネットは、特徴量として距離のみを使用し、(それゆえに)特徴量を不変で局所的にするが、十分な表現力を持たない、❷Fermiネットは、差分と距離(=|差分|)をそのまま特徴量とし、表現力が豊かで局所的であるが、回転に対して不変でない、と述べる。
 また、以下の問題があるとする:❸Pauliネットのアーキテクチャは2粒子相互作用を重視している。❹Fermiネットのアーキテクチャは、1電子埋め込み(ニューラルネットワークの入力として、単一電子の特徴量)を重視している。さらに、電子-原子核相互作用を明示的に含んでいない。

(2)本論文のアイデア
 本論文は、全ての原子核を中心とした局所座標系を使い、その局所座標系で電子・原子核の差分(及び距離)を評価することを提案している。そうすることで、(1)の問題点①~③を解消したとする。
 そして、❸・❹に対して本論文の手法は、1電子埋め込みと2粒子相互作用の両方を適切にモデル化しているため、Pauliネット、Fermiネットのどちらよりも表現力が高いと主張する。
 基本フレームは、Fermiネットを踏襲している。envelope(包絡線)関数は、指数関数の和で表現する。ニューラルネットワークは、1電子埋め込み(=1次電子ストリーム)と、2粒子間相互作用(同じスピンを持つ電子同士、異なるスピンを持つ電子同士、電子と原子核の相互作用)をモデル化した3つの補助ストリームで構成されている。

(3)セッティング
 レイリー・リッツの変分法を使うと、損失関数=パラメータ付き波動関数によるハミルトニアンの期待値、と定式化される。本論文では、メトロポリス・ヘイスティング法を使ったモンテカルロ積分で、期待値計算を行う。活性化関数は、Fermiネットと同様に、tanh関数を使用している。
 最適化アルゴリズムは、Fermiネットと同様に、クロネッカー因子分解を用いた近似法(Kronecker-factored approximate curvature;KFAC)を使用。ダンピングは、1×10-3。ノルム制約は、3×10-3。バッチサイズは、2048。初期学習率は、5×10-5。スケジューリングは、初期学習率に減衰率をかける(減衰率は、(1+t/6000)-1)。
 KFACは、「カルバック・ライブラー距離を最小化する方向へのパラメータ更新を行う、二次最適化手法である」自然勾配法の近似手法の中で、最もポピュラーな手法である。KFACは、フィッシャー情報行列ℱの逆行列を計算する必要がある。逆行列計算の実行を担保するために、ℱの対角成分に定数を加えることを、ダンピング(damping)という。

(4)本論文の成果
 本論文では、以下🈩、🈔のように、成果をまとめている。
 🈩 本手法は、従来の変分法よりも大幅に低い=より正確なエネルギー、を得ることができた。Fermiネットー変分モンテカルロ法との比較では、大幅に低いエネルギーに到達するだけでなく、3~4倍少ない学習ステップで、各ステップを40%高速化することができた。ニューラルネットワークのアーキテクチャを改善した上で、ハイパーパラメータを微調整し、収束に必要な最適化ステップの数を減らした。F論文で提案されたハイパーパラメータから出発し、KFAC のノルム制約を3倍、学習率を0.5倍、学習率の減少時間を0.4倍減少させることに成功した。
 (約10倍の計算資源を使用する)拡散モンテカルロ法と比較すると、N2やシクロブタジエンなどの分子で同等以上の精度を達成。ベンゼンでは、やや低い精度になった。CCSD(T)(Coupled Clusters Singles and Doubles(Perturbative Triples):1励起と2励起を完全に含み、3励起は摂動論で計算したクラスター結合法)などの非変数的手法では、一部の分子で、本論文の計算より”わずかに”低いエネルギーが得られるが、これらの手法は上界や不確かさの保証がない。

 🈔 多くのアプリケーションでは、絶対的なエネルギーが重要なだけでなく、例えば化学結合を切断するのに必要なエネルギーを決定するために、異なる分子や形状の間のエネルギーの違いが注目される。本手法は、これまでのすべての研究よりも実験的な絶対エネルギーに近く、Fermiネット-拡散モンテカルロ法の結果とほぼ同じである。
 相対エネルギーを比較すると、本手法は他のすべての深層学習ベースの手法と、単参照法であるCCSD(T)を上回り、多参照法で計算コストの高いr12-MR-ACPF(r12-多参照averaged coupled-pair functional)法にのみ負けた。絶対エネルギーと同様に、相対エネルギーも他の深層学習ベースの手法よりも大幅に早く収束し、50000エポック後に相対エネルギーが、ほぼ完全に収束することが分かる。

 🈪 機械学習関連の研究論文で、通常行われるアブレーション研究について、以下のようにまとめている:❶ ブロック対角の行列式ではなく、密な行列式を使用した。計算コストとパラメータ数を増加させた反面、節面をより良く表現できた。❷ハイパーパラメータを変更し、処理能力を2倍程度向上させた。❸電子の埋め込みを強化した。つまり、1電子埋め込み(=1次電子ストリーム)と、2粒子間相互作用(同じスピンを持つ電子同士、異なるスピンを持つ電子同士、電子と原子核の相互作用)をモデル化した。パラメータ数と計算コストが適度に増加している。❹ 局所的で不変な特徴量に切り替えた。つまり、全ての原子核を中心とした局所座標系を使い、その局所座標系で電子・原子核の差分(及び距離)を評価した。❺envelopeの重みの初期化を、1からZ/n変更した(Zは核電荷、nは主量子数)。

【4】まとめ
 本論文は、次のように締めくくっている:”驚くべきことに”、CASSCF(Complete Active Space Self Consistent Field、完全活性空間自己無撞着場法)を参照法とした場合、より単純なハートリーーフォック法と比較して、精度が低下することが観察された。この効果は、事前学習のステップ数を増やすとさらに顕著になる。これは、過剰な事前学習が、変分最適化の際に克服しにくいバイアスを導入することを示唆している。対称性やカスプ条件などの厳密な物理的制約については、一般にモデルに含めることが有効であると思われる。一方、(CASSCFのような)既存の近似解からの事前知識については、状況はより微妙である。

Appendix3 分子特性予測においても、文字列ベースの学習モデルが、グラフニューラルネットワークモデルを凌駕した、と主張する論文

【0】はじめに
 米バイオテクノロジー企業モデルナは、メッセンジャー RNA(mRNA)創薬において、量子コンピューティングや生成AIを探求する契約を、IBMと締結することを発表した(23年4月20日)[*A-9]。モデルナの目標は、体内移動の際にmRNAを保護する脂質ナノ粒子と、mRNA を最適化すること、とされている。
 生成AIについては、IBMによる分子化学計算用生成AIモデルMoLフォーマーを使用する。以下、IBMがarXivに投稿(22年12月14日)したプレプリント[*A-10](以下、本論文)を基に、MoLフォーマーについて整理する(査読付き論文は、nature machine intelligenceにて、22年12月21日公開[*A-11]。IBMの公式ブログ[*A-12]でも簡単に解説されている)。

【1】本論文の主張
 IBMは、次のように主張している:『分子の文字列表現』で事前学習されたトランスフォーマ・エンコーダが、量子力学的特性を含む様々な分子特性の予測において、グラフニューラルネットワーク(GNN)と競合することを初めて示した。これは、分子機械学習における標準的なデータセットを使って、標準的なベンチマーク・テストを実施した結果である。以下、この内容を説明する。

【2】本論文のアイデアの背景
 分子はしばしば、構造式と呼ばれる(2次元に縮約させているとは言え、)トポロジー情報を保持した表記法で表現される。その理由は、分子特性がトポロジー情報に依存するからに他ならない。メッセージ・パッシングと捉えることができるGNNは、グラフの構造を通して、トポロジーを取り込むことができる。このように、グラフがトポロジーを意識するのに対し、文字列ベースの表現はトポロジーは意識しないと考えられている。そのため、文字列ベースの学習モデルは分子特性の予測に採用されているものの、一般的にGNNに劣る、と考えられてきた。
 ただ、分子特性予測におけるGNNには、学習データの不足という問題がある。これは、(分子のラベル)アノテーションを必要とする、化学物質からなる空間のサイズが1060~10100であることから、かなり深刻である。
 従って、様々な分子特性予測タスクに一般化できる分子表現学習が必要とされていた。一方で、❶大規模なラベルなしコーパスで事前学習し、その後❷タスクにとらわれない言語表現を学習する「トランスフォーマ・ベースの生成モデル」が、様々な分野で成功を収めていた。
 そこで、トランスフォーマ・ベースの生成モデルを、分子表現学習に適用してみたら、どうなるだろうか、という興味が、本論文の背景となっている(と思われる)。

【3】事前整理
(1) 学習データ
 MoLフォーマーの事前学習に用いたデータは、PubChemとZINCデータセットから得た「11億個」のラベルなし分子のSMILESシーケンスである。ここで、PubChemは、米NCBI(米国立生物工学情報センター)が提供するデータベースで、化学・生物学文献から小分子を抽出している。ZINCは、カリフォルニア大学サンフランシスコ校が開発したデータベースで、分子の生物学的に関連性のある3次元的な形態を表すことを目的としている。
 また、SMILES(simplified molecular input line entry system)は、化合物の構造を図形ではなく、”文字列”で表記する「標準的」表現法である。先に述べた、『分子の文字列表現』とはSMILESのことである。

(2) SMILESについて
 本論文では、まずSMILESを、以下のように説明している:
 SMILESは、分子グラフを深さ優先のスパニングツリー(全域木)で走査し、各原子、結合、ツリー走査の決定、破断サイクルのシンボルを生成することにより、分子の文字列表現を定義している。したがって、結果として得られる文字列は、分子グラフの全域木を平坦化したものに相当する。SMILESでの学習は、一般的にグラフを含む他の構造表現方法よりもコンパクトであるため、分子の特性予測に広く採用されている。
 次に、SMILESと、その代替表現について、次のように述べて(SMILESを生成モデルの入力として用いる妥当性を主張して)いる:
 SMILESの文法は複雑で制約が多く、適切な文字セットを超えるほとんどの配列は、うまく定義された分子に属さない。(そして、部分構造検索ができるようにSMILESを拡張した)SMARTSやSELFIESのような文字列ベースの代替表現が存在する。(しかし)学習された表現空間における分子最適化タスクに焦点を当てた結果、特に言語モデルがより高度な場合、最適化能力とサンプル効率の点で、SMILESはSELFIESに対して明らかな欠点がないことが示唆された。
 なお、一般的には、SMILESは生成モデルの入力として問題があり、故に(ザパタ・コンピューティングの創業者で、変分量子固有値ソルバーの開発者でもある)アラン・アスプル=グジックはSELFIESを開発した、というのがコンセンサスである。

(3) MoLフォーマーとは?
1⃣ 概要
 ここで改めて、MoLフォーマーについて説明する。MoLフォーマー(MoLFormer)は、Molecular Language transFormerの略であり、言わずもがなトランスフォーマーの一種である。トランスフォーマーの仲間は、ReFormer、RoFormer、PerFormerのように「●●Former」という名称であることが多い。MoLフォーマーの目的は、文字列データ(SMILESデータ)から普遍的な分子表現を学習し、その表現を様々な下流の分子特性予測タスクで評価することである。
 面倒くさいことに、IBMは本論文で、 MoLフォーマー中で最も性能の良いものを、MoLフォーマーXLと命名しており、このMoLフォーマーXLをGNNモデルと比較している(MoLフォーマーXLは、11億個もの分子を含む大規模なコーパスに学習させている)。
2⃣ 枠組み詳細
 MoLフォーマーXLは、SMILESシーケンス内の一定割合のトークンを学習中にランダムに隠し(マスクし)、それらのトークンを予測するmasked言語モデルのフレームワークを用いて開発されている。マスクした(masked)言語モデルは、自己教師あり学習を利用し、文脈学習を可能にする。
 MoLフォーマーXLは、より良い文脈学習と高速な学習を可能にするため、絶対位置埋め込みに代えて、「回転位置埋め込み」を用いている(その意味ではRoFormerの亜種と言って良いかもしれない)。IBMによれば、「(絶対位置埋め込みとは対照的に)回転位置埋め込みを用いて事前学習を行った場合、収束が速くなることが確認された」。
3⃣ ハードウェア効率
 MoLフォーマーの売りの一つは、最大16台のGPU(NVIDIA V100)で、11億の分子を学習できることである。これは、❶アテンションを線形化して計算量を削減したこと、及び❷バッチの適応的バケッティングのおかげとされている(加えて、PyTorch LightningとNVIDIA Collective Communication Libraryで提供されるオープンソースの並列化)。GPU16個の場合、MoLフォーマーXLの事前学習(4エポック)を完了させるのに必要な時間は、208時間であった。
 これに対して、バケッティングと線形アテンションを使わずに、同じ時間でトレーニングを完了するには、1000以上のGPUが必要と推量している。

【4】本論文の結果と限界、そして洞察
 分類タスクと回帰タスクで、MoLフォーマーとGNNを比較している(正確には、GNN以外のモデルも含まれている)。
(1) セットアップ
1⃣ ベンチマークデータ
 本論文では、両タスクにおいてMoleculeNetで定義された学習、検証、テストデータの分割を使用している。MoleculeNetとは、分子機械学習のための標準的なベンチマークデータである。
❶分類タスク
 6つのデータセットBBBP(Blood brain barrier penetration dataset)、ClinTox(Clinical trial toxicity of drugs)、SIDER(Drug side effect on different organ classes)、Tox21(Toxicity measurements on 12 different targets)、HIV( Ability of small molecules to inhibit HIV replication)、BACE(Binding results for a set of inhibitors for β – secretase 1)を選択している。前者4つは生理学的データセットで、後者2つは生物物理学的データセットである。
❷回帰タスク
 QM9( 12 quantum mechanical calculations of small organic molecules with upto nine heavy atoms)、QM8( 12 excited state properties of small molecules)、ESOL(Water solubility dataset)、FreeSolv( Hydration free energy of small molecules in water)、Lipophilicity(Octanol/water distribution coefficient of molecules)という5つのデータセットを選択している。前者2つは量子力学的データセットで、後者3つは物理化学的データセットである。
2⃣ 比較対象とした学習モデル
❶分類タスク
  比較対象とした学習モデルは、以下の12である:㊀5つの教師あり学習モデル+㊁6つの自己教師あり学習モデル+事前学習済み言語モデル(ChemBERTa、トランスフォーマーの1種)。具体的には、以下の通り。
 ㊀教師あり学習モデル  ランダムフォレスト、サポートベクターマシン、MGCN(マルチレベル・グラフ畳み込みニューラルネットワーク)、D-MPNN(有向メッセージ・パッシング・ニューラルネットワーク)、及びDimeNet(directionalメッセージ・パッシング・ニューラルネットワーク)。
 ㊁自己教師あり学習モデル:GIN(Graph Isomorphism Network:GNN)、N-gramグラフ、(分子表現用GNN。N-gramは自然言語処理におけるn-gramと同じ意味。)MolCLR(Molecular Contrastive Learning of Representations:分子表現用GNN)、GraphMVP-C(MultiView Pre-training:分子表現用GNN、3次元情報を取り込む)、GEOMGCL(GEOmetric Graph Contrastive Learning:分子表現用GNN、分子の幾何学的特徴を通して3次元情報を取り込む)、GEM(Geometry Enhanced Molecular:分子表現用GNN、分子の幾何学的特徴を通して3次元情報を取り込む)。
 評価指標としては分類タスクで標準的な、(ROC曲線の)AUCを採用している。
❷回帰タスク
 グラフ畳み込みネットワーク(GCN)、attentive-FP(分子表現用GNN。FPはfingerprint:分子指紋を意味する)モデル、MPNN(メッセージ・パッシング・ニューラルネットワーク)を比較対象とした。
 評価指標としては回帰タスクで標準的な、MAE(平均絶対誤差)とRSME(自乗平均平方根誤差)を採用 している。詳細に述べれば、QM9とQM8 にはMAEを、ESOL、FreeSolv及びLipophilicityには、RSMEを使用。

(2) 結果
❶分類タスク
 6つのデータセットに対して、MoLフォーマーXLが最善であったデータセットは3つ(BBBP、ClinTox、SIDER)。Tox21、HIV、BACEは僅差で2位。従って、非常に高性能と考えられる。
❷回帰タスク
 5つのデータセットに対して、MoLフォーマーが最善であったデータセットは5つ。すなわち全てにおいて、MoLフォーマーがベストであった。極めて高性能と考えられる。

(3) 限界
 分類タスクと回帰タスクにおける好成績の一方で、限界も示した。QM9の内部エネルギー、エンタルピー、自由エネルギーを回帰予測するタスクにおいて、MoLフォーマーXLの性能は、SchNet(グラフ畳み込みニューラルネットワーク、PauliNetのベースとなったモデル)及びDimeNetと比較して惨敗である。最善のDimeNetと比べて、MoLフォーマーXLの値は10倍も大きい。
 この理由としてIBMは、量子化学エネルギー予測において、分子のトポロジー情報が重要な役割を果たしているため、と結論している。

(4) 洞察
1⃣ 化学構造の類似性を示唆する
 谷本距離を用いて推定した分子指紋と、ユークリッド距離を用いて推定したMoLフォーマーXLによる埋込みとの、ペアワイズ類似度の相関関係を分析した。その結果、ChemBERTaと比較して、MoLフォーマーXLの埋め込みは、既知の分子類似性尺度との相関が高いことが示された。IBMによれば、この結果は「これは、MoLフォーマーの埋め込みが、化学構造の類似性を示唆するものである」。 2⃣ 学習した表現に、構造情報や物性情報が現れる
 ❶QM9テストセットのアテンションの値と、❷(QM9ベンチマークで提供される)分子内の原子間距離との、コサイン類似度を分析した。IBMによれば、その結果は「MoLフォーマーXLが、対応するSMILES配列から分子構造情報を、かなりの程度まで復元できることを示唆している」。そして、この結果は、「SMILESの大規模なコーパスに対する事前学習により、MoLフォーマーXLが、構造情報を含む化学物質の基本特性や、量子化学から生理学に至る様々な(下流)特性を学習できるようになったことに起因する」と解釈した。
 最後に、「大規模データで事前学習した、化学言語モデルが学習した表現に、構造情報や多様な物性情報が現れることを確認したのは、我々の知る限り、今回が初めてである」とまとめている。

【5】考察
 文字列ベース(のトランスフォーマー)で、グラフベース(のGNN)を上回る性能が出せたのはなぜか。それは、”創発”が生じたかどうかは別として、トランスフォーマーの「学習データ量が増大するほど、際限なく性能向上する」という驚くべき性質によると考えられる。【4】(4)洞察2⃣で示したように、IBMは、「MoLフォーマーは、多様な化学的性質を予測するのに十分な、化学的・構造的情報を正確に捉えることができた」と解釈している。
 ただし(言葉の表現は厳しいが)、分子機械学習用標準的ベンチマークで、高性能を示しただけであって、商業的インパクトを発生させたわけではない。実際、【4】(3)で示したように、原子化エネルギーの予測は、厳しい。確かなことは、十分な精度で、広大な化学空間を探索できる、ということであろう。この優位性を活かして、(モデルナとの協業では)有望な(mRNA)医薬品候補物質が発見されることを、期待したい。

 Appendix4 GNoME:熱力学的に安定な相を発見する材料探索モデルを構築した、と主張する論文
【0】はじめに
 グーグル・ディープマインドは、能動学習ベースの材料探索モデルGNoME(Graph Networks for Materials Exploration)を開発し、材料探索の効率を1桁向上させた、と主張する論文[*A-13](以下、本論文)を発表した(23年11月29日@nature)。従来の20万個から、1桁上がって、220万個の新規構造を発見した、とする。
 ちなみに、グーグル・ディープマインドは、約2週間前の23年11月14日にも(サイエンスにて)、大きな成果をアピールしていた。機械学習ベースの高精度天気予報モデルGraphCastである(こちらを参照)。GraphCastもGNoMEも、モデル・アーキテクチャはグラフ・ニューラルネットワーク(GNN)である。
❚為参考❚  スタンフォード大学人間中心AI研究所(HAI)は、2017年から毎年「AI Index Report」という調査報告書を公開している(2020年はコロナ禍のため、例外)。2024年版第5章科学と医療[*A-17]には、5.1「注目すべき科学的マイルストーン」というセクションがある。6個のモデルが紹介されているが、その内の一つが、GNoMEである。
 GNoMEは、以下のように紹介されている:グーグルの研究者たちは、グラフ・ニューラルネットワークを大規模なデータセットで学習すると、新しい機能性材料の発見プロセスを迅速化できることを実証した。彼らのモデルGNoMEは、膨大な量の安定した結晶を同定することで、材料探索の主要な手法であるMaterials Projectを凌駕した。GNoMEは220万個の新しい結晶構造を発見したが、その多くは人間の研究者が見落としていたものである。GNoMEのようなAI主導型プロジェクトの成功は、科学的ブレークスルーを加速するデータとスケーリングの力を浮き彫りにしている。

【1】本論論文の主張
 本論文は、「熱力学的に安定な方向に向かって探索する能動学習を通じて、新規材料発見を可能にする最初のモデルを生み出した」と主張している。
 また、GNoMEデータを用いて学習された機械学習ポテンシャルによるゼロショット予測は、従来の機械学習ポテンシャルによるゼロショット予測を上回る、と主張する。

【2】GNoMEの詳細
(0) GNoMEの基本アイデアと基本アーキテクチャ
 最終的に、生成・合成可能な材料(結晶)は、熱力学的に安定している。対照的に、非晶質は熱力学的に不安定である。熱力学的に、より安定な状態を得るために、非晶質は自発的に構造を変化させる。この構造変化が、「緩和」と呼ばれる。緩和は必ずしも、1ステップで終了しない。(通常は?)数ステップを要する。つまり、熱力学的に安定している物質・材料(結果として、結晶)は、熱力学的に進行する可能性がある化学反応を、数ステップ経た先に存在する。そこで、熱力学的に進行する可能性を広く探索することで、新規材料を発見しよう、というのがGNoMEの基本的なアイデアである(と思われる)。熱力学的に進行する可能性は、ギブスの自由エネルギー変化量で、定量化(数値化)可能である。ギブスの自由エネルギー変化量が負になる化学反応が、熱力学的に進行する可能性のある化学反応である[*A-14]。
 GNoMEは、ギブスの自由エネルギー変化量が負になる方向へ探索をしていると思われる(本論文に、その旨、書かれているわけではない)。そして、実装するために能動学習が採用されており、複数回(6回)の探索が実施される。構造と組成の両方で、候補物質を作り出し、ギブスの自由エネルギー変化量を尺度として使い、反応が進行するかを判断していると思われる。候補物質のギブスの自由エネルギーが、既知の場合は、既存のデータベース(マテリアルズ・プロジェクト※)から引用する。未知の場合は、DFT計算で新たに求める。
 まとめを兼ねて図的に言い表すと、GNoMEは、3つのモジュールに大別できる。1つ目は、候補物質を生成して、化学反応が進行するかを選別(filtering)する「構造パイプラインと組成パイプライン」モジュールである。構造情報と組成情報の2つを使って、選別している(学習している)。2つ目は、第一原理計算でギブスの自由エネルギーを計算する、DFTモジュールである。最後の3つ目は、データベースモジュール(GNoMEデータベース)である。
※ マテリアルズ・プロジェクトとは、世界最大級の物質材料用第一原理計算結果データベースの一つである。米ローレンス・バークレー国立研究所の研究者が2011年からインターネットで公開しており、登録すれば、無償で利用できる[*A-14]。

(1) 「構造パイプラインと組成パイプライン」モジュール
 「構造パイプラインと組成パイプライン」モジュールは、GNNで実装されている。役割は、前述の通り、新規材料候補物質を生成し、選別を行うことである。
1⃣  構造パイプライン
 当該パイプラインでは、既知の利用可能な結晶に対して構造置換を行うことで、新規材料候補物質を生成する。従来の構造置換は、既知の物質に近い物質を生成するように行われるが、GNoMEでは逆に、既知の物質とは異なる物質が生成されるように、様々な工夫が凝らされている。「対称性を意識した部分置換(symmetry-aware partial substitution;SAPS)」という方法もその一つである。
 構造パイプラインGNNの入力は、結晶構造である。各原子は、グラフ内の単ノード(頂点)として表される。2 つの原子が原子間距離のカットオフよりも近い場合、グラフにエッジ(辺)が形成される。得られた構造は、ディープ・アンサンブルによる不確実性定量化を使用して、選別される。アンサンブルの使用は、汎化性能を上げるため、である。アンサンブル・メンバー数は、10である。
2⃣ 組成パイプライン
 組成パイプラインGNNの入力は、化学式である。 グラフ内ノードの全ペア間に、エッジが形成される。必要な場合は、非経験的ランダム構造探索(AIRSS)を用いて、ランダム構造を生成する。GNoMEでは、50 meV 以内であると予測される組成ごとに、常に 100 個の AIRSS 構造を生成する。

(2) DFTモジュール
 DFT計算(密度汎関数理論に基づく第一原理計算)は、原子近傍の電子密度分布や波動関数を正確に表現する、平面基底波法の一つである、射影補強波法(Projector Augmented Wave;PAW法)による第一原理計算である。交換相関汎関数は、PBE(パーデュー・バーク・エルンツァーホフ)関数で 、VASP(Vienna Ab initio Simulation Package)で実行された。

(3) GNNに関する情報
 学習率は、5.55×10−4であり、線形減衰学習率スケジュールが適用される。エポック数は、1,000。活性化関数は、Swishを使用する。エッジ埋め込みには、ガウス特徴量抽出器(featurizer)を使用(して、SMILES記法に変換)する。バッチ サイズは256で、すべてのノードとエッジの埋め込み次元は 256 。メッセージパッシングの反復数は、3回である。
 学習データには、2018 年のマテリアルズ・プロジェクトのデータを用いる。具体的には、約69,000個に及ぶ材料のスナップショットで学習される。

(4) ヒット率
 構造パイプラインと組成パイプラインのヒット率は、それぞれ 6% 未満と 3% 未満から始まるが、6回の能動学習を通じて、パフォーマンスは着実に向上する。最終的には、最安定構造のギブス自由エネルギーの予測誤差(平均絶対誤差(MAE))は 、11 meV/atomに改善され(以前は、28 meV/atom)、ヒット率はそれぞれ 80%(構造)と 33%(組成)を超えた。

【3】具体的な成果、比較結果
(1) 具体的な材料の発見
1⃣ 以前の研究では、マテリアルズ・プロジェクトと比較して、約 1,000 の層状材料が安定していることが示唆されている。GNoMEでは、これが、約 52,000に増加した。なお、層状材料は、エレクトロニクスおよびエネルギー貯蔵用の有望なシステムである。
2⃣ 遷移金属の除外やリチウムの割合などのフィルターを使用した、総合的なスクリーニング・アプローチに従って、GNoMEの発見の中から、528 個の有望なリチウムイオン伝導体が見つかった。これは、元の研究と比較して25 倍の増加である。
3⃣ GNoME は、リチウム/マンガン遷移金属酸化物に関して、安定した15の候補を新たに発見した。リチウム/マンガン遷移金属酸化物は、二次電池のコバルト酸リチウム(LiCoO2)に代わる有望なファミリーである。

(2) GNoMEポテンシャル
 イオン緩和からサンプリングされた大規模データを学習データとして、NequIP ポテンシャルを学習した。NequIP ポテンシャルは、GNNベースの機械学習ポテンシャルで、並進不変性と回転不変性を備えている(この性質は、E(3)同変[*A-15]と呼ばれる。不変と同変の違いは、ここでは無視した)。
 上記プロセスで生成された機械学習ポテンシャル「GNoMEポテンシャル」は、 分子動力学データではなく、イオン緩和についてのみ学習されているにもかかわらず、高い精度を示した。具体的に、まず簡潔に述べると、1⃣ある物質が超イオン伝導体であるかどうかの分類において、精度が高い、2⃣未学習材料に対するゼロショット予測で、精度が高い。ちなみに、パラメータ数は、1,624 万個。
0⃣ ハイパーパラメータ等
① 初期学習率 → 2 × 10−3
② 学習スケジューリング → 約 2,300 万ステップ後に2 × 10−4に減少。さらに約 1,100 万ステップ後に 5 × 10−5に減少。
③ オプティマイザー → Adam
④ バッチサイズ → 32
⑤ コスト関数 → エネルギーと力に対するフーバー損失の加重和
1⃣ ㊀GNoMEポテンシャルを使った第一原理計算(非経験的分子動力学シミュレーション)と、㊁NequIP ポテンシャルを使った結果を比較した。第一原理計算は、VASPを使用して行われた。ここでのNequIP ポテンシャルの学習には、M3GNet(という別の機械学習ポテンシャル)を学習するために用いたデータを使った。学習データのサイズは、およそ105程度である。
 ㊁の分類誤差が20%であるのに対し、同じデータサイズで㊀は、13%程度であった。データサイズが増加するにつれて、当然、誤差は減っていく。㊀についてのみ、108程度で、誤差6%程度が示されている。
 なお㊀について(本論文の図では)、ユニーク構造と中間構造という2種類について計算されているが、ここでの議論には無関係なので無視した。ユニーク構造とは、結晶が緩和する最初のステップ後の緩和構造、という意味である。中間構造とは(言語矛盾のように思えるが)、全ての緩和ステップ後の緩和構造という意味である。
2⃣ 原子間に働く力(force)に関するゼロショット予測が3種類上げられている。評価指標は、自乗平均平方根誤差RSME(単位は、meV/Å)である。❶未知材料K24Li16P24Sn8に対して、先に上げた㊀と㊁が比較されている。㊀>㊁という結果である。 ❷Ba8Li16Se32Si8に対して、㊂ランダム初期化を使って予測された結果と、㊃GNoMEポテンシャルのゼロショット予測が比較されている。㊂で数百回学習した精度と㊃が同程度であった。❸銅、ゲルマニウム、リチウム、モリブデン、ニッケル、シリコンを対象に、3つの機械学習ポテンシャルでゼロショット予測の比較を行った。3つの機械学習ポテンシャルとは、M3GNet、CHGNet、GNoMEである。全てのおいて、GNoMEポテンシャルが最も精度は高かった。

【4】感想・・・
(1) GNoMEモデルが多くの新規構造を発見できた理由は(地味ながら)、まず、組み合わせ爆発を引き起こす「候補生成手順」にあると考えられる。
(2) 2番目の理由は、「熱力学的に安定した方向に、能動学習を使って探索を進める」というアイデアであると理解している。このような発想は、なかったということなのだろう。ちなみに富士フィルムは、薬剤候補となる活性化合物を増やすサービス「drug2drugs」を提供している[*A-16]。正確に言うと、標的タンパク質に生理活性を引き起こす既知の活性化合物の構造情報のみから、別骨格の活性化合物を増やすサービスである。提案する別骨格の化合物は、熱的に安定な化合物に限定されている。ただし、このdrug2drugsでは、既知化合物に"近い"化合物が生成される。化合物周辺のアミノ酸20種ごとの存在確率が等しい、という縛りを付けている。GNoMEは、真逆である。そうすると(元の広大な化学空間を探索するのと大差なく)、効率的な探索が無理に思えるが、それを解決する枠組みを提示したところに、イノベーションがあるということだろうか。
(3) なお、機械学習ポテンシャルとしてのGNoMEポテンシャルが優秀な理由は、学習データ(GNoMEデータ)が良質ということに尽きるのだろう。
❚為参考❚
 GNoMEに対して、「GNoMEが安定化合物として予測した提案多く(8割程度)は、現実世界では無秩序な構造になる」等と批判する記事@nature(25年10月1日付け)は、https://www.nature.com/articles/d41586-025-03147-9

【尾注】
*1 https://www.preferred.jp/ja/news/pr20210706/ 
*2 https://academist-cf.com/journal/?p=15800 
*3 データ解析で新しい材料を生む、日経ビジネス、2023.2.6号(No.2177)、p.49
*4 R.Gómez-Bombarelli et al.、Automatic chemical design using a data-driven continuous representation of molecules、https://pubs.acs.org/doi/10.1021/acscentsci.7b00572
 深層学習を使った創薬に関して、原点とも言える論文らしい(プレプリントがarXivに、最初に投稿されたのは2016年)。(41)と上記論文で大枠は、同じ。なお、上記論文の著者には、アラン・アスプル-グジックも名を連ねている。
*5 https://monoist.itmedia.co.jp/mn/articles/2310/24/news063.html#utm_medium=email&utm_source=mn-day&utm_campaign=20231025
*6 https://tech.preferred.jp/ja/blog/llm-plamo/
*7 https://matlantis.com/ja/news/release-250716/

*A-1 Pauric Bannigan et al.、Machine learning models to accelerate the design of polymeric long-acting injectables https://www.nature.com/articles/s41467-022-35343-w
*A-2 2016年にリリースされたLGBMは、マイクロソフトが開発した。2014年リリースのXGB、2019年にリリースされたNGB(原論文(※)に、スタンフォード大、ハーバード・メディカルスクール、Unlearn.aiが等しく貢献したと書いてある)はオープンソース。(TransformerはGoogleであるが)Swin Transformerもマイクロソフトが開発しており、AI分野でも存在感を示している。Open-AIへの出資も気になる。
 米・加州サンフランシスコを拠点とするUnlearn.ai(https://www.unlearn.ai/)は、より小さく、より速い治験の実現をゴールとしている。そのために、患者のデジタルツインを作成し、(新しい)機械学習技術を開発している。22年4月シリーズBで、US$50milを調達した。
 ※Tony Duan et al.、NGBoost: Natural Gradient Boosting for Probabilistic Prediction、https://arxiv.org/pdf/1910.03225.pdf(update版)
*A-3 Leon Gerard et al.、Gold-standard solutions to the Schrödinger equation using deep learning: How much physics do we need? https://arxiv.org/pdf/2205.09438.pdf 
*A-4 Jan Hermann et al.、Deep neural network solution of the electronic Schrödinger equation https://arxiv.org/pdf/1909.08423.pdf 
*A-5 https://www.nature.com/articles/s41557-020-0544-y 
*A-6 Kristof T. Schütt et al.、SchNet: A continuous-filter convolutional neural network for modeling quantum interactions https://arxiv.org/pdf/1706.08566.pdf 
*A-7 David Pfau et al.、Ab initio solution of the many-electron Schrödinger equation with deep neural networks  https://journals.aps.org/prresearch/pdf/10.1103/PhysRevResearch.2.033429 
*A-8 Yuto Sunaga et al.、A simple scoring model based on machine learning predicts intravenous immunoglobulin resistance in Kawasaki disease https://link.springer.com/article/10.1007/s10067-023-06502-1
*A-9 https://newsroom.ibm.com/2023-04-20-Moderna-and-IBM-to-Explore-Quantum-Computing-and-Generative-AI-for-mRNA-Science
*A-10 Jerret Ross et al.、Large-Scale Chemical Language Representations Capture Molecular Structure and Properties https://arxiv.org/pdf/2106.09553.pdf 
*A-11 https://www.nature.com/articles/s42256-022-00580-7
*A-12 https://research.ibm.com/blog/molecular-transformer-discovery
*A-13 Amil Merchant et al.、Scaling deep learning for materials discovery、https://www.nature.com/articles/s41586-023-06735-9
*A-14 村岡恒輝・三浦章、エレクトロニクス用セラミックスの開発、評価手法と応用、https://eprints.lib.hokudai.ac.jp/dspace/bitstream/2115/79152/3/Final_20200804_HUSCAP_4.pdf
*A-15 E(n)とは、n次元ユークリッド空間における等長変換群を意味している。並進と回転に対する不変性を備えている場合は、E(3)と呼ばれる(らしい)。
*A-16 https://labchem-wako.fujifilm.com/jp/custom_service/products/95323.html
*A-17 https://hai-production.s3.amazonaws.com/files/hai_ai-index-report-2024_chapter5.pdf


お問い合わせ
  

TOP