MerchantBank Consulting
サブページ画像

材料開発・創薬支援における機械学習・深層学習・強化学習

 革新的な材料や医薬品を創造する行為を突き詰めると、量子スケールを支配する物理を考慮する必要性が生じる。そして、量子スケールを支配する物理を、厳密な意味で材料開発や創薬の支援に適用するには、計算機の力を借りる必要がある。具体的には、誤り訂正符号付き量子コンピューター(FTQC)を使用した量子化学計算(QC)が要求される、というのが一般的なコンセンサスである。
 ただし、QCだけで材料や医薬品が、新たに開発できるわけではない。機械学習ML(深層学習DL及び強化学習)とのコラボレーションが欠かせない。ML・DLの進歩は目覚ましく、材料開発・創薬支援の分野で、多くの成果が出ている。
 なお2020年代前半は、あくまでスパコン+ML・DLというスタイルである。これが徐々に、NISQ+ML・DLとなり、最終的にFTQC+ML・DLに推移していくと考えられる。FTQCの時代になっても、このスタイルは変わらない。グーグルは、2029年までにFTQCを実用化するとアナウンスしている。
 なお、多層の(深層の)ニューラルネットワークは、あらゆる関数を近似できる(万能近似定理)。つまり深層ニューラルネットワークは、量子多体系を含めた任意の物理系を表現することが可能と考えられる(このため、少なくともFTQC+DLは機能すると考えられる)。重要なポイントは、深層ニューラルネットワークが、既に知られている物理則を表現できるのみならず、未知の概念や物理則を構築できると考えられている点である。

【事前の整理】
1⃣ プリファード・ネットワークス(PFN)とエネオスは、2021年7月6日、汎用原子レベルシミュレーター「Matlantis(マトランティス)」を開発し、クラウドでのサービス提供を開始したと発表している[*1]。変分原理では対処できない励起状態を扱う必要がある触媒の開発を目指している。マトランティスを使うことで、第一原理計算(密度汎関数法DFT)を実行せずに、DFTを実行して得られる物性値を、得ることが出来る。深層学習システムとしては、ニューラルネットワーク・ポテンシャルNeural Network Potential(NNP)が用いられている。マクロな構造変化で物性が変化する場合は、(当然)適用対象外なので、別アプローチを構築しているという[*3]。
 PFN独自の大規模言語モデルPLaMoは、㊀材料設計の方向性を"日本語で"プロンプト入力すれば、㊁パイソン・コードを自動生成してくれる、らしい[*5]。PLaMoの最新バーション13Bは、23年9月28日に公開されている。13Bは、その名の通り、パラメータ数が約130億個である[*6]。
2⃣ 化合物による医薬品開発を考えた場合、疾患に関与する(生体内)タンパク質との相互作用が強い化合物が、有力な医薬品候補として選択される。タンパク質と化合物との相互作用を評価するアプローチは主に、3つある:①ドッキングシミュレーション、②分子動力学法、③分子軌道法。精度並びに計算コストは①→③方向で高まる。
 ドッキングシミュレーションはタンパク質の構造が既知であることが前提である。①に関する深層学習のトピックスは、ディープマインドの「アルファ・フォールド」である。アルファ・フォールドは、タンパク質の折り畳み構造を学習する深層学習システムである。2018年12月のタンパク質構造予測精密評価(CASP)で総合ランキング1位を獲得したバージョン1を改良した「アルファ・フォールド・バージョン2」 は、2020年11月のCASPで驚異的な成果をあげた。
 MD法は、原子間の相互作用を古典近似しているために、精度が低い。②に関する深層学習のトピックスは、MD+深層学習という合わせ技で精度と計算コストのバランスをとるである。量子化学計算の結果得られる原子間の相互作用を再現するような深層学習システムが導入される。この場合の深層学習システムとしては、先にも触れた、ニューラルネットワークポテンシャルNeural Network Potential(NNP)が広く用いられている。
 MO法は、代数方程式を(近似的に)解くことでエネルギー固有値及び分子軌道(分子の波動関数)を求める。③に関する深層学習のトピックスは、グラフ畳み込みニューラルネットワーク(GCN)あるいはメッセージパッシング・ニューラルネットワーク(MPNN)である。これは、ホーヘンベルグ=コーンの定理が満たされることを拘束条件として、分子軌道からエネルギー固有値を学習する、ことと同値である[*2]。

 ❶ Fermiネットを改良したという論文は、Appendix2を参照。22年10月11日
 ❷ 断熱ショートカットに触発されたプロトコルをタンパク質折り畳み問題に適用し、良い結果を得たという論文は、こちらを参照。22年12月27日
 ❸ 加トロント大が「機械学習ツールが薬物放出速度を正確に予測できるかどうかを調査した論文」は、Appendix1を参照。23年1月10日
 ❹ 分子特性予測において、「文字列ベース学習モデル>GNN」と主張する論文は、Appendix3を参照。23年4月20日
 ❺ 低分子医薬品候補物質の発見において、「量子古典ハイブリッドGAN>古典GAN」と主張する論文は、こちらを参照。23年5月13日
 ❻ ブラックボックス関数最適化問題において、量子NN>古典NN、と主張する論文は、こちらを参照。23年6月8日
 ❼ GNoME:熱力学的に安定な相を発見する材料探索モデルを構築した、と主張する論文は、Appendix4を参照。23年11月29日
 ❽ 量子古典ハイブリッド生成モデルは、古典生成モデルより、高質なヒット化合物を探索できると主張する論文は、こちらを参照。24年2月13日

【研究成果】
(58) リッチデータを使って、副作用予測モデルを高性能化 
◎ 「記述子」の提案 
○ 日付 2024.6.21(報道解禁日) 
○ 研究主体:名古屋大学、岡山大学 
○ 出所:https://www.okayama-u.ac.jp/up_load_files/press_r6/press20240621-1.pdf
論文:https://www.sciencedirect.com/science/article/pii/S2589004224012574
Supplemental information=https://ars.els-cdn.com/content/image/1-s2.0-S2589004224012574-mmc1.pdf
● 概要・・・❶新しい記述子”PBAS†1”を提案。❷PBASの有効性検証。❸副作用予測におけるPBASの有用性を実証。❹他記述子と比較。
❚概要を詳細化❚
❶ タンパク質1⃣Ⓧ薬剤2⃣に、ドッキング・シミュレーション†2を実施 → PBASプロファイル作成。1⃣は、3次元構造が実験的に決定されていないタンパク質も含む。このため、結果として、PBASはリッチになっている(ことが本質的に重要)。
❷ (機械学習とは直接関係ないので、割愛) 
❸ PBASプロファイルを説明変数†3、副作用(の有無)を目的変数とする、副作用予測モデルを構築3⃣、検証4⃣を行った。 ❹ 他の3つの記述子に対して、副作用予測性能の比較を行った。さらに、PBASとのハイブリッド記述子とPBASとの比較も行った。
❚データセット❚
1⃣ 19,135 個のヒトタンパク質の3次元構造を、AlphaFold タンパク質構造データベース(AlphaFoldDB)から取得。
2⃣ 7,582 個の薬剤を、京都遺伝子ゲノム百科事典(KEGG)†4薬剤データベースから取得。 
3⃣ 「副作用あり」の学習データ(目的変数)は、SIDER†5データベースから取得した、既知の薬物副作用(285個)のデータ。
4⃣ 「副作用あり」の検証データは、SIDER及びFAERS †6から取得した。
❚機械学習モデル❚ 
 副作用は稀な事象であるから、薬剤副作用予測モデルとして、スパース・モデリング†7に基づく、二値分類器(識別器)を採用。具体的には、L1ノルムを用いた正則化ロジスティック回帰モデルを採用。
❚予測性能の比較に使われた記述子❚ 
 ⓪PBAS、①フィンガープリント†8、②TESS†9、③TELR†10。さらに、④PBAS+フィンガープリント、⑤PBAS+TESS、⑥PBAS+TELRも使用された。
❚予測性能の比較に用いた指標など❚ 
 指標は、AUCとAUPR†11。なお、各記述子による予測性能評価は、5 分割交差検証で行われ、5 分割交差検証は 30 回繰り返された。故に、(下記で示す)AUCとAUPRは平均値。
❚予測性能の比較結果1 →PBASとのタイマン ❚ 
 最良値を太字で示す。☛ PBASが最良。
㈠ SIDER・AUC・・・ ⓪0.7352、①0.6996、②0.7077、③0.7216
㈡ SIDER・AUPR・・・⓪0.3720、①0.3212、②0.3006、③0.2851
㈢ FAERS・AUC・・・ ⓪0.6423、①0.6158、②0.6223、③0.6321
㈣ FAERS・AUPR・・・⓪0.3205、①0.2926、②0.2752、③0.2716
❚予測性能の比較結果2 →PBASとのハイブリッド❚ 
 最良値を太字で示す。☛ ハイブリッドにより、性能は上がる。
㈠ SIDER・AUC・・・ ⓪0.7352、④0.7361、⑤0.7426、⑥0.7368
㈡ SIDER・AUPR・・・⓪0.3720、④0.3734、⑤0.3815、⑥0.3752
㈢ FAERS・AUC・・・ ⓪0.6423、④0.6388、⑤0.6439、⑥0.6400
㈣ FAERS・AUPR・・・⓪0.3205、④0.3190、⑤0.3192、⑥0.3202
❚本研究で得られた知見❚ 
⓵ スパース・モデリングは、本質的な特徴量を自動的に判別する技術なので、スパース・モデリング基づく本研究の副作用予測モデルは、本質的な特徴量を抽出する機能を備えていると考えられる。噛み砕いて言うと、副作用予測モデルの入力として使われたタンパク質の中で、重み付けの高いタンパク質は、副作用の発現に関与するタンパク質であると考えられる。
 本研究の副作用予測モデルにおいて、少数のタンパク質が各副作用の重要なタンパク質として選択されていることが確認された。
⓶ すべてのヒトタンパク質との相互作用パターンが、薬剤間で著しく異なることが明らかになった。
❚本研究の制約❚ 
 本研究のドッキングシミュレーションでは、
㊀ タンパク質ごとに 1 つのリガンド結合ポケットのみが考慮された。
㊁ 固定パラメータのみを使用した。
㊂ タンパク質構造はモノマーのみだった。
❚註  釈❚
†1 Proteome-wide binding affinity score:ヒトタンパク質に対する結合親和性スコア
†2 AutoDock Vinaを使用。なお、AutoDock に対しては、以下のような記述も存在する:「無料で、かつ使い方も簡単な AutoDock ですが、そのドッキング結果は必ずしも正確ではありません。AutoDock で示された結果をあまり鵜呑みにしないほうが良いです」。出所:https://computational-chemistry.com/top/blog/2017/04/26/autodock-vina/
†3 記述子、特徴量という文言を使っても良い(同じ意味)。 
†4 https://www.genome.jp/kegg/kegg_ja.html 
†5 SIDER(Side Effect Resource)は、医薬品の添付文書から収集された副作用データセット。
†6 FAERS(FDA Adverse Event Reporting System)は、米国食品医薬品局(FDA)の副作用報告システム。FAERS は医薬品が市場に出回った後に発生する医薬品の有害事象から収集されたデータセット。
†7 本質的な特徴量を自動的に判別する技術。出所:大関真之、今日から分かるスパースモデリングと深層学習、http://www-adsys.sys.i.kyoto-u.ac.jp/mohzeki/Presentation/Tokyodat20160218_web.pdf 
†8 分子構造記述子に基づく、化学部分構造プロファイル。
†9 Target Estimation with Similarity Search:TESS。類似構造検索を使用して推定された、薬物-タンパク質相互作用に基づく、標的タンパク質プロファイル。
†10  Target Estimation with Logistic Regression:TELR。教師あり学習(ロジスティック回帰)によって推定された、薬物-タンパク質相互作用に基づく、標的タンパク質プロファイル。
†11 Area Under the Precision-Recall curve:AUPR。適合率-再現率(PR)曲線の下面積。駐:AUCは、ROC曲線の下面積。
学習データ:{説明変数|目的変数}={タンパク質プロファイル|副作用の有無} 
学習モデル: L1正則化ロジスティック回帰モデル

(57) 群知能で探索した最安定構造を、初期状態にすることでDFTを高速化 
◎ メソドロジー
○ 日付 2024.6.14 
○ 研究主体:京都工芸繊維大学 
○ 出所:https://www.kit.ac.jp/wp/wp-content/uploads/2024/06/news240614.pdf
論文:https://pubs.acs.org/doi/10.1021/acs.jpca.4c01685
● 概要・・・粒子群最適化法(PSO†1)を用いて、ホスト†2-ゲスト†3材料における、エネルギー的に安定したゲスト分子配向(最安定構造)を見出した。ホスト–ゲスト相互作用は、レナード–ジョーンズ(LJ)・ポテンシャル†4で近似。PSO-LJ法による最安定構造を、密度汎関数法(DFT)†5計算の初期状態として使用することで、DFT計算を高速化できる。
†1 Particle Swarm Optimization
†2 アームチェア型単層カーボン・ナノチューブ(CNT)。単層CNTは、カイラル指数(n,m)で表現される幾何学構造の違いにより、金属や半導体といった異なる物性を示す。アームチェア型(n=m)は、金属である。 
†3 トリヨードベンゼン分子。
†4 引力=ファン・デル・ワールス力、斥力=交換斥力。
†5 正確には、ファン・デル・ワールス力(分散相互作用)を取り入れた、分散力補正DFT。
学習モデル:粒子群最適化 

(56) ベイズ最適化を使った鉄系高温超伝導磁石の合成プロセス条件決定 
◎ メソドロジー
○ 日付 2024.6.7 
○ 研究主体: 東京農工大学、九州大学
○ 出所:https://www.jst.go.jp/pr/announce/20240607/pdf/20240607.pdf
論文:https://www.nature.com/articles/s41427-024-00549-5
● 概要・・・研究者と機械学習モデルが協働して、世界最高性能の、鉄系高温超伝導(IBS)永久磁石†1を開発した。
❚研究者が行ったこと1❚ 定量化可能なプロセス・パラメータを系統的に分類し、結果の特性に大きく影響するものを特定した → 機械学習モデルの説明変数に。
❚機械学習モデル❚ ガウス過程回帰に基づくベイズ最適化。獲得関数は、期待改善度(Expected Improvement)獲得関数。
 最適化する(目的)変数は、臨界電流密度。説明変数(合成プロセス条件)は、x = ランピング・レート†2、y = 最高温度†2(同)、z = 保持時間†3
❚研究者が行ったこと2、及び機械学習モデルが行ったこと❚ 最適な合成プロセス条件を決定した。
❚結  果❚
① 磁力:最大捕捉磁場(正確には、磁束密度)は、中心†4で2.83T(テスラ†5)。これは、IBS永久磁石に関する従前の記録1.03Tの約2.7倍。
② 磁場安定性:捕捉磁場は、中心で2.0 T、表面†6で1.5T。30万秒(=3.47日)後でも、ほとんど減衰しなかった。☛医療用MRIスキャナーにとって重要な性質。
❚👉本研究で得られた知見❚
 機械学習モデルがプロセス設計した試料には、高温超伝導でこれまで見られなかった構造が存在した。それは、間隔が数十~数百nmに及ぶ、二峰性の粒界ネットワークである。☞IBS磁石の、さらなる性能向上に資するかもしれない。
❚註  釈❚
†1 具体的には、Ba0.6K0.4Fe2As2(別名:Kドープ Ba122)。IBS永久磁石は、ニオブ(Nb)ベースの超伝導磁石に依存する粒子加速器、医療用磁気共鳴画像(MRI)スキャナー、磁気浮上式鉄道他の性能を大幅に向上させることができる、とされる。
†2 Kドープ Ba122は、スパーク・プラズマ焼結(SPS)で生成される。SPS装置は、ランピング・レートx(単位は℃/分)に従って、最高温度(y)まで上昇する。
※ランピング・レート(日本語では、ランプ・レートとも表記される)は、様々な文脈で、異なる意味で使用されるので、注意。
†3 SPS装置で、最高温度(y)が、z分間「保持」される。
†4 中心とは、2つのバルクの間を意味する。
†5 ちなみに、地磁気の磁束密度は、50μT。多くの場合、物理量の単位は、自然界における実際の量を表す際、小さ過ぎる。磁束密度は例外で、1Tは、相当大きい。
†6 2つのバルクを重ねた(スタックした)バルクの表面を意味する。
学習データ:{説明変数|目的変数}={ランピング・レート、最高温度、保持時間|臨界電流密度} 
学習モデル:ガウス過程回帰に基づくベイズ最適化 

(55) 高速高精度代理モデル用”学習データの構築法” 
◎ 「データセット」の作成
○ 日付 2024.5.24 
○ 研究主体: 東北大学
○ 出所:https://www.tohoku.ac.jp/japanese/newimg/pressimg/tohokuuniv-press20240523_02web_modeling.pdf
論文:https://www.sciencedirect.com/science/article/pii/S1385894724031462
● 概要・・・データセットを工夫することで、化学反応†1の反応速度を予測する、深層学習・代理モデルの構築が可能。つまり、データがキモ。そのようなデータを作成する方法論を構築した。なお、代理モデルは、詳細モデル†2と同等精度を達成する一方、計算速度を400倍以上高速化した†3
❚データセット❚ Cantera†4を使用して、学習データセットが作成された。使用した詳細な反応速度論(素反応モデル)は、GRI-Mech 3.0†5である。圧力は、1気圧(≒0.1MPa)に設定。説明変数(入力)と目的変数(出力) は、以下の通り。
① 説明変数:化学種の濃度と、反応温度の逆数。化学種=反応物、生成物。具体的には、CO、CO2、H2、H2O、N2。濃度は、モル分率の対数表示値。ただし、対数の底は10。
② 目的変数:㊀反応速度の符号と、㊁log10|反応速度|。反応速度の符号は、正反応の場合は1、逆反応の場合は0とされた。|・|は絶対値を表す。
❚データのセットアップ【1】❚ 80%が学習用、20%が検証用。検証損失が最小となるパラメータを採用する。前処理として、説明変数は正規化され、目的変数は標準化された。
❚ハイパーパラメータ等❚ 隠れ層数3、ノード数32。活性化関数は、シグモイドとReLU。重み初期化には、He初期化を採用。ドロップアウト率は、0.0。オプティマイザはAdam。
❚モデルのセットアップ❚ 損失関数は、㊀反応速度の符号には、二値交差エントロピーを使用。㊁log10|反応速度|には、平均二乗誤差を使用。全体の損失関数=㊀×20%+㊁×80%とした。学習は、TensorFlowとKerasを使用して実行された。
❚データのセットアップ【2】❚ DB1~DB4†6を使って予測精度を検討した結果、DB4がひとまず採用された。さらに、極端な組成を含むデータセット DBL†7とDB4を、1:1.32 の比率で組み合わせて、新しいデータセットDB5を作成した。
❚評価及び、評価指標❚
 詳細な反応速度論に基づく結果をグランドトルゥースとして、本研究の代理モデルの精度を検証。評価指標は、モル分率の経時変化。化学種としては、一酸化炭素を選択。
❚結  果❚
 DB5を使用すると、加熱シナリオ1†8では精度が向上し、詳細な反応速度論に基づく結果を再現できた。加熱シナリオ2†9では、精度の向上は見られなかった。つまり、本研究手法には、限界がある。
❚👉本研究で得られた知見:高質な学習データ作成に不可欠な要素❚
㈠ 対数空間と実数空間の両方で偏りのない初期濃度を決定する☞ 濃度の合計は固定されている(例えば、質量分率の合計が1になる)ため、一様乱数を使用して複数の化学種の濃度を決定すると、実数空間にバイアスが生じる可能性がある。
㈡ 平衡組成から離れたデータの量を増やす☞ 反応速度をサンプリングしながら、反応速度論の計算を実行すると、平衡組成に近いデータが優勢になる。
㈢ 詳細な速度論メカニズムで任意の濃度を提供する場合は、ラジカル濃度を、準定常状態レベルに設定する☞ ラジカル濃度を非現実的な値であるゼロに設定すると、無限速度で加熱することになり、サンプリングすべきではない期間が作成される。これらの期間を除外すると、平衡から離れたデータの量が減り、バイアスが生じる。
❚註  釈❚
†1 具体的には、水性ガスシフト反応。一酸化炭素と水(水蒸気)から、二酸化炭素と水素を生成する反応。この反応は工業的に重要であり、メタノールやジメチルエーテルの合成、アンモニア製造プロセス、水蒸気改質(=合成ガスの組成調整)、炭素回収・利用・貯留(CCUS)、など様々なプロセスに関連している。ただし、本研究では、「水素還元製鉄」を顕に想定している。
†2 詳細な化学反応速度論に基づくモデル。
†3 行列計算にOpenBLASを使用した場合。NumPyのnumpy.dot、Fortranの MATMUL、OpenBLAS で評価した結果、OpenBLASが最速であった。反応時間が 15.0 秒に達した時点でシミュレーションは終了させた。ハードウェア実行環境は、CPUが、「クアッド・チャネルモード。4枚の32GB DDR4-2933 DRAMメモリカードを実行するIntel Xeon W-2255」であった。
†4 反応速度論に基づく燃焼反応シミュレーション・ソフトウェアであり、Pythonベースのオープンソース・ソフトウェアである。本研究では、ゼロ次元の完全撹拌反応器を使用している。
†5 天然ガスの燃焼に関連する 77 の実験結果を再現するように最適化された詳細素反応モデル。53 の化学種と325 本の素反応式から成り、広い温度(1000~2500K)・圧力範囲(0.001~1.0MPa)で、メタンを主成分とする天然ガスの燃焼を表現できるとされている。
☛出所:https://www.jstage.jst.go.jp/article/kikaib/77/773/77_773_186/_pdf/-char/ja
†6 DB1=まず、「生成物、反応物、窒素」の 5 つの化学種に対する仮想組成を、一様乱数を使用してランダムに決定する。次に、これら 5 種の合計で割って正規化し、合計組成が 1 になるようにする。DB2=まず [0–1]の一様乱数を使用して窒素のモル分率Nモルを取得。次に、残りの 4 つの化学種のモル分率を、一様乱数を使用して決定する。それらの合計で割り、1-Nモルを掛けて、これら 4 つの化学種のモル分率の合計が1-Nモルに等しくなるようにする。なお、Nモルという表記が、本研究で使われているわけではない。DB3=適当な確率分布を基に、組成が決定された。DB4=DB3 に基づいた方法であるが、DB2 と同様に窒素濃度に重みを割り当てる。最初に窒素のモル分率は、一様乱数を使用して取得され、残りの組成は DB3 と同様に確率分布に従って取得された。
†7 極端な組成とは、「生成物や反応物などの特定の化学種のみを含む組成」という意味である。
†8 等温(1073 K,1373 K,1573 K)及び、反応器を(平均温度上昇率)約7.20 K/分で加熱するシナリオ。なお、加熱シナリオ1という文言が、本研究で使われているわけではない。
†9 反応器を(平均温度上昇率)72.0 K/分、720 K/分で加熱するシナリオ。なお、加熱シナリオ2という文言が、本研究で使われているわけではない。
学習データ:{説明変数|目的変数}={濃度、1/反応速度|反応速度の符号、log10|反応速度|} 
学習モデル:ニューラルネットワーク 

(54) 薬剤設計に”GAT”を上手く当てはめる枠組みを開発
◎ メソドロジー
○ 日付 2024.4.9 
○ 研究主体: 東京工業大学
○ 出所:https://www.titech.ac.jp/news/2024/068979
論文:https://www.nature.com/articles/s42004-024-01155-w
補足情報☛https://static-content.springer.com/esm/art%3A10.1038%2Fs42004-024-01155-w/MediaObjects/42004_2024_1155_MOESM2_ESM.pdf 
● 概要・・・モダリティが低分子化合物である薬剤設計が対象。リガンドの特性及び活性の予測モデルに対して、❶学習性能と❷解釈を強化したモデルMMGX†0を構築した。MMGXを構成する「ノード埋め込みモジュールには、Graph Isomorphism Network🖋1」、「分子埋め込みモジュールには、グラフ・アテンション・ネットワーク🖋2(GAT)」を採用している。
 ❶は、入力を薬剤設計の文脈でリッチにすることで達成する。❷は、GATで、達成する。
🖋1 GNNやグラフ畳み込みニューラルネットワーク(GCN)の性能向上をヒューリスティックスに依存するのではなく、数理的・系統的に実行したいという動機から生まれたらしい。Weisfeiler-Lehmanテストというグラフ同型判別テストをベースにしている。このため、同型グラフ判別においてはGCNやGNNより性能が良い(ことが保証されているらしい)。ちなみに、和訳は(おそらく)ない。
🖋2 GNNは、異なるグラフ構造を扱うことができない。注意機構に基づくGATは、異なるグラフ構造を処理することができる。本研究は、下記に示す通り、4つの異なる分子グラフ表現を使用するので、そもそもGNNは使えず、GATが自然な候補となる。
❚データセット❚ 3系統・20種類のデータセットを用意した。
 モデルの性能を測定する①モデル検証、モデル学習と背景知識を比較する②知識検証、解釈を統計的に評価する③説明検証、各々に対してデータセットを用意:①→MoleculeNet†1(分類2+回帰3個のベンチマーク・データセットで構成)、②→薬剤エンドポイント・タスク用データセット(分類6+回帰4個のデータセットで構成)、③→既知のグラウンド・トゥルース(分類5個のデータセットで構成)。
❚データのセットアップ❚ ❶に対して、①及び②を使用。❷に対しては、③を使用。学習データとテストデータは、8:2の比率で分割。5分割交差検証を採用。
❚ハイパーパラメータ等❚ ハイパーパラメータの調整は、Optuna®を使用。学習率、重み減衰、ドロップアウト率、バッチ正規化について、定量的・詳細な記述無し。エポック数は300。検証セットのパフォーマンスが連続30エポックで改善されない場合、早期停止(early stopping)。
❚モデルのセットアップ❚
❶ 性能強化・・・4つの異なる分子グラフ表現(※1)を使用することで、学習性能を強化する。
※1 原子グラフ(A)、ファーマコフォア・グラフ†2(P)、接合木グラフ†3(J)、機能グループ・グラフ†4(F)。これら4つの組み合わせ、を評価対象とする。
❷ 解釈強化・・・
フロントエンド --- GATを使用した分子埋め込みプロセスにおいて、グラフ内の各ノードに「注意の重み」が割り当てられる。「注意の重み」は、特定の予測に対する各ノードの重要性を示すものとみなされ、モデルの説明因子として解釈できる。
バックエンド --- 3つの解釈機能(※2)を提供する。※2 ㊀原子単位の予測、㊁ノード特徴の可視化、㊂有用な部分構造の可視化。
❚評価指標❚
❶ 性能強化・・・回帰タスクではRMSE、分類タスクではAUC-ROCを使用。平均ランキング(AvgRank)と、平均Zスコア(AvgZScore)を併用。
❷ 解釈強化・・・略
❚結  果❚
❶ 性能強化・・・分子グラフ表現の3種盛り合わせ(例えば、A+P+F)及び全部盛り(A+P+J+F)は、2種盛り合わせに比べて、性能が大幅に向上しないので、2種盛りで十分と判断した†6。その上で、MMGX、グラフ畳み込みニューラルネットワーク(GCN)、attentive-FP†5に対して、「A、A+F、A+P、A+J」で、AvgRankとAvgZScoreで比較。A+Fの成績が最も良かった†7,†8。さらに、5つのモデル(PharmHGT、HimGNN、ML-MPNN、FunQG、RG-MPNN)と"2種盛り・MMGX"とを比較して、「常に上回る性能を発揮するわけではないが、同等の性能を示した」としている†9
❷ 解釈強化・・・㊀略。㊁A+FあるいはA+Jは、すぐに理解できる、より包括的な機能を提供する。㊂重要な部分構造(臭素及び、スルホン酸結合炭素原子グループ)を抽出できた。まとめると、解釈が強化された。
❚研究者自身による評価❚ MMGXによる化合物の予測と解釈は、AIによって医薬品開発を加速させるAI創薬の進展に大きく貢献する。
❚まとめ❚ 入力をリッチにすると、そもそも選択肢はGATの、ほぼ一択。GATで性能を調べたら、それほど遜色はなかった。かつ、GATは説明可能性が高い。
👉 三方よし。(物理屋さんは、入力をリッチにするなら出力がリッチになるのは当然でしょ・・・という感想か。とは言え、解釈可能性が上がっているから、良し。)
❚註  釈❚
†0 Multiple Molecular Graph eXplainable discovery 
†1 分子機械学習の標準ベンチマークデータ
†2 結合活性とファーマコフォアの特徴から構築された縮約グラフ。ノード特徴には、6つのファーマコフォア特性のワンホット符号が埋め込まれている。
†3 最終的なグラフにループ構造が含まれないように、結合、環、および接合原子をノードに変換することによって生成される木ベースの縮約グラフ。
†4 官能基情報を統合した縮約グラフ。事前定義された官能基、環の種類、原子のペアに基づく元の部分構造は、単一のノードに変換される。
†5 分子表現用に標準的に使用される、グラフニューラルネットワーク。
†6 5つのベンチマーク(回帰(FreeSolv、ESOL、Lipo)、分類(BACE、BBBP))の内3つで、2種盛りが最善。3種盛り、全部盛りが1つずつ。AvgRankとAvgZScoreは3種盛りが最善。故に、微妙。
†7 AvgRankとAvgZScoreで見ると、MMGXは、GCN及びattentive-FPと比較して、必ずしも優れていない(論文の表3)。RMSEとAUC-ROCでみると、MMGXが優れているように見える。
†8 A+Fは、Physiology(生理学)では優れているが、Physical chemistry(物理化学)と Biophysics(生物物理学)では必ずしも優れていない(論文の表2)。補足情報の表S5を見ると、Biophysicsでも優れているように見える。
†9 補足情報表S13を見る限り、そう判断できるだろう。
学習データ:BACE、BBBP、FreeSolv、ESOL、Lipo|AmesMutag、hERG20、CYP2C8、CYP3A4、Hepatotoxicity、ROCKII、HumanPPB、AqSolDB、HIV1、JAK1|Logic6,7,9,14、3MR
学習モデル:GIN、GAT

(53) 複雑さを乗り越えるための転移学習†0
◎ メソドロジー
○ 日付 2024.3.29 
○ 研究主体: 東北大学、東京工業大学
○ 出所:https://www.tohoku.ac.jp/japanese/newimg/pressimg/tohokuuniv-press20240401_03web_band.pdf
論文:https://pubs.acs.org/doi/full/10.1021/jacs.3c13574
● 概要・・・「表面の方位と終端面の位置の情報」のみから、イオン化ポテンシャル(IP)と電子親和力(EA)を予測するモデルを構築した。
❚データセット❚ 
1⃣ 二元系非金属酸化物のデータセット・・・個数は127で、無極性表面のデータは2,195個。表面原子配列を記述する、記述子(具体的にはSOAP†1)が、説明変数。目的変数は、第一原理計算†2により計算したIPとEA。
2⃣ 三元系非金属酸化物のデータセット・・・個数は344で、無極性表面のデータは718個。
❚グランドトルゥース❚ 第一原理計算(DFT計算)による計算値。
❚データのセットアップ❚ データセットは、8:1:1 の比率で分割。それぞれ、学習、検証、テストに割り当てられた。
 本研究では、複数のカチオン種が含まれる複雑な三元系非金属酸化物用SOAPとして、”学習可能な重み付けSOAP「L-SOAP」”を開発している。L-SOAPは、通常のSOAPとは異なり、原子の位置が原子種ごとに個別に考慮されるわけではない。代わりに、カットオフ半径内の原子に対して、重みを付ける。L-SOAPは、データサイズを抑えたSOAPの近似版である。
❚モデルのセットアップ❚ 
1⃣ 二元系酸化物に対する学習モデル・・・❶注意機構を備えたニューラルネットワーク(NN)モデル、❷注意機構なしのシンプルなNNモデル、❸L-SOAPを使用したNNモデル。隠れ層の数は最大で3。活性化関数はReLU。出力層と結合されていない隠れ層のドロップアウト率は 0.5 に固定。ハイパーパラメータを評価するために(検証データセットを使用した)5分割交差検証を実施。オプティマイザは、Adam。学習率は、1×10-3で最大エポック数は200。
 正則化項の重みに対する減衰率は、1×10-4、1×10-3、1×10-2、1×10-1及び0を使用した、と(Supporting Informationに)記されている。
2⃣ 三元系酸化物に対する学習モデル・・・❹L-SOAPを使った転移学習モデル。つまり、L-SOAPを使って、二元系に対する学習済NNモデルを三元系酸化物データセットで再学習したモデル、❺SOAPを使った転移学習モデル、 ❻L-SOAPを使った(スクラッチ)モデル。つまりL-SOAPを使用して、三元系酸化物データセットで学習したNNモデル。
❚評価指標❚  ㊀決定係数R2、㊁二乗平均平方根誤差(RMSE)、㊂平均絶対誤差(MAE)。
❚結  果❚ 
1⃣ 二元系酸化物について・・・注意機構を備えたNNは、表面領域内の関連原子を自動的に特定することができるため、予測性能が高い(❶>❷という評価)。
 IPに対して❶㊀0.90㊁0.29eV㊂0.21eV、❷㊀0.90†3㊁0.31eV㊂0.22eV、❸㊀0.90†4㊁0.31eV†5㊂0.23eV。
 EAに対して、❶㊀0.93㊁0.27eV㊂0.19eV、❷㊀0.90†6㊁0.32eV㊂0.23eV、❸㊀0.91㊁0.29eV㊂0.21eV。
👉 ❸は、L-SOAPが"使える"という検証か?
2⃣ 三元系酸化物について▪其の壱:転移学習・・・❹と❻を比較すると、❹が㊀~㊂の全てにおいて優れている。なお、学習データの割合を全体データの「10%、30%、50%、70%」と変化させているが、全ての割合で❹>❻である。
3⃣ 三元系酸化物について▪其の弐:転移学習×L-SOAP・・・❹と❺を比較すると、㊀~㊂の全てにおいて、ほぼ❹>❺である。学習データの割合「10%、30%、50%、70%」全てにおいて、ほぼ該当する(IPのMAEとRSMEにおいて、割合50%及び70%でわずかに❹<❺である)。
❚研究者自身による評価❚ L-SOAPと転移学習を組み合わせると、三元系酸化物のIPとEAを正確に予測できる。
†0 マテリアルズ・インフォマティクスにおける転移学習は、データの少なさに対応することが動機となっていることが多いと思われる。本研究は、"複雑な"3元酸化物に対応するために、転移学習を採用している。
†1 Smooth Overlap of Atomic Positions。原子の局所的幾何学的特徴を表現する記述子、とされる。
†2 VASPパッケージを使って、PAW法で計算。交換相関汎関数はPBE(正確には、ハバード補正項を加えたPBEsol)を使用。平面波カットオフエネルギーは、520 eV(※1)と400 eV(※2)に設定された。構造最適化のための k 点メッシュ間隔は 0.2 Å-1未満に設定された。
†3 ❶と❷で同じであるが、原論文ママ。
†4 ❶と❸で同じであるが、原論文ママ。
†5 ❷と❸で同じであるが、原論文ママ。
†6 IPとEAで同じであるが、原論文ママ。
※1 格子パラメータ緩和を含むバルク構造の最適化計算の場合。
※2 格子パラメータを固定した他計算の場合。
学習データ:{説明変数=SOAPあるいはL-SOAP、目的変数=IP及びEA}
学習モデル: ニューラル・ネットワーク

(52) HOBO-LUBOで、化学反応を予測する 
◎ メソドロジー
○ 日付 2024.3.28
○ 研究主体: 千葉大学
○ 出所:https://www.chiba-u.jp/news/files/pdf/240328_NC_02.pdf
論文:https://www.nature.com/articles/s41467-024-46523-1
● 概要・・・合成化学の主目的†1を達成するために、結合軌道†2データを使用して、単一の化合物与える化学反応を予測する回帰モデルを開発した†3。回帰モデルは、最高被占結合軌道(HOBO)を成すエネルギー準位と最低非占結合軌道(LUBO)を成すエネルギー準位を出力する(HOBOとLUBOが重なり合うように、化学反応が起きる)。
❚データセット❚ {目的変数=HOBOとLUBOのエネルギー準位、説明変数=分子データセット}。目的変数は、DFT計算†4により取得。分子データセット≒SMILES。
❚データのセットアップ❚ 分子記述子として、Avalon(1024、2048、4096)、Morgan(4096)、MACCS keys、Topological torsionを使用。
❚モデルのセットアップ❚ ①エラスティック・ネット、②決定木、③ランダム・フォレスト、④サポート・ベクター・マシン、⑤Light勾配ブースティング・マシン、⑥ニューラル・ネットワーク(NN)†5」で作成した回帰器†6から、最良モデルを選択。3分割交差検証を採用。総合的に判断すると、ニューラル・ネットワーク✖4,096ビットのAvalonフィンガープリントが最良だった(LUBOだけ見ると、NN✖2,048ビットAvalonが最良)。
❚評価指標❚ 決定係数と平均絶対誤差(MAE) →最良モデルを、この指標で判定した。
❚結果❚ 特定の「環化付加型反応†7」を起こす、化合物・活性種を同定可能な学習モデルを構築できた。精度は80%以上。
†1 複数の選択性を制御しながら、複雑な分子を迅速かつ正確に作成する。
†2 結合性軌道(電子波動関数の位相が同じ)及び、反結合性軌道(電子波動関数の位相が逆)。
†3 HOMO(最高被占軌道)-LUMO(最低空軌道)相互作用を用いるフロンティア軌道論では、軌道の重なりが少ない、立体障害、芳香族安定性などの要因により、反応を効果的に予測できない場合があることを鑑みた結果である。HOBOとLUBOについて日本語で記述されている資料は極めて少ない(例えば、※1)。分子内反応を考える場合は、HOBO-LUBOを用いるようである(参照先は、※2)。
†4 DFT計算はGaussian16で実行。
†5 隠れ層数=3
†6 ①441+②56+③3006+④118+⑤9,800+⑥33,600=47,021。分子記述子を14種類使ったため、47,021×14=658,294個のモデルに対して、最良モデルを選択した。
†7 2 つの反応成分が 2 つの結合を形成し、環状化合物を生成する反応。
※1 https://www5.hp-ez.com/hp/calculations/page321
※2 https://www.jstage.jst.go.jp/article/kakyoshi/67/1/67_28/_pdf
学習データ: {説明変数=SMILES、目的変数=結合軌道のエネルギー準位} 
学習モデル: ニューラルネットワーク(隠れ層数3)

(51) 層間化合物の安定性を表現する線形回帰式を改良 
◎ メソドロジー
○ 日付 2024.3.8
○ 研究主体: 東京大学
○ 出所:https://www.iis.u-tokyo.ac.jp/ja/news/4461/
論文:https://pubs.acs.org/doi/10.1021/acsphyschemau.3c00063?goto=supporting-info&ref=pdf
● 概要・・・層間(インターカレーション)化合物の安定性を議論する指標として「インターカレーションに必要なエネルギー=インターカレーション・エネルギー」Eintを提案した。Eintは、インターカラント(侵入種)に由来する2因子の線形結合で表現できる。線形結合係数は、ホスト(母材)由来の8因子で表現できる。
❚データセット❚ カチオン性インターカラント(41個)×塩基性ホスト(169個)=6,929個。アニオン性インターカラント(7個)×酸性ホスト(24個)=168個。6,929+168=7,097個の層間化合物を対象とする。
❚データのセットアップ❚ まず第一原理計算†1で構造緩和を実行し、プリミティブ・セルの体積及び原子の位置を固定する。それから、Blöchl補正を使った四面体法を使用して総エネルギーを計算する。Eintは、層間化合物、インターカラント、ホストの総エネルギーから、算出される。
❚モデルのセットアップ❚ 複雑な化合物の安定性を表現するために提案されている定量式(※)と、HSAB原理†2とを鑑みて、Eintを、線形回帰式で表現した。説明変数は、インターカラント・イオンの標準ギブス生成エネルギーΔGと、イオン半径rである:Eint=α×ΔG+β/r+γ。
 係数α、β、γはホスト由来の8因子で表現する。因子は(scikit-learnライブラリを使用した)ランダムフォレスト回帰を使って、(さらに)推定された。
❚評価指標❚ 修正済み決定係数Adj.R2、F検定統計量のp値
❚結果❚ 過去に提案されている定量式(※)と比較して、Adj.R2が大きく、p値が0.05未満。☞つまり、改善されたという結果。
†1 第一原理計算(密度汎関数(DFT)法)には、平面波基底を用いたPAW法を採用。層間化合物=層状の物質に対するDFT法では、交換相関汎関数に分散力(ファンデルワールス力)を考慮している。具体的には、(濱田幾太郎博士が考案した)rev-vdW-DF2法を使用。スピン分極計算は実行されたが、スピン軌道相互作用は考慮されていない。k点サンプリングはMonkhorstーPack法を使用(0.25Å-1未満の間隔でサンプリング)。カットオフ・エネルギーは650eV。自己無撞着計算の収束エネルギーは10-4eVに設定。
†2 以下の原理をHSAB(Hard and Soft Acids and Bases)原理と呼ぶ:硬い酸は、硬い塩基とイオン性物質を形成する傾向がある。柔らかい酸は、電子雲の広がりにより、柔らかい塩基と共有結合を形成する傾向がある。ここで"硬い"とは、イオン半径が小さい=電子対を原子核側に引き寄せて、強く束縛している状態を意味する。"軟らかい"とは、イオン半径が大きい=電子対の束縛が弱い状態を意味する。
学習データ: {説明変数=インターカラント由来因子とホスト由来因子、目的変数=インターカレーション・エネルギー(安定性)} 
学習モデル: 線形回帰式、ランダムフォレスト回帰式 

(50) 新規抗菌剤探索を深層学習で行うための記述子を提案 
◎ 「記述子」の提案
○ 日付 2024.3.6
○ 研究主体: 東北大学
○ 出所:https://www.tohoku.ac.jp/japanese/2024/03/press20240306-01-csn.html
論文:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10876936/pdf/41598_2024_Article_53888.pdf
● 概要・・・計算コスト及び実験コストを抑制した上で、新規抗菌剤探索を深層学習で行うために、新しい記述子CSN(Combined Substitute Number)を考案した。CSNを使って生成された分子ライブラリの精度は、スクリーニングされた分子の増殖阻害実験によって確認された。
❚データセット❚ 抗菌剤としてキノロン系を選択。4-キノロン足場を有する分子を「CheMBL」データベースからスクリーニングし、大腸菌に対する最小阻害濃度(MIC)を取得した。分子の各構造情報から 4-キノロン足場を除去し、残った断片を置換位置ごとに個別に記録した。記録されたフラグメントには、各置換位置の出現頻度順に置換基IDが番号付けされる(複数の置換位置に結合する置換基は、個別に記録)。水和水と対イオンも自由位置フラグメントとしてカウントした。
❚データのセットアップ❚ MICはμg/mlに単位を統一して、常用対数に変換し、置換基IDの組み合わせで格納した。重複している化合物並びに、大腸菌のMICデータがない化合物を除外した。異常値(10,000 μg/mlより高いか、0.001μg/mlより低い)を示したMICも削除した。最終的に、約 10,000 個のデータが準備された。このデータは、(pandasライブラリのPythonスクリプト・コマンドを使用して)学習データセットと検証データセットに、9 対 1 にランダム分割された。
❚モデルのセットアップ❚ モデルアーキテクチャは、多層パーセプトロン(出力層1、隠れ層は全結合)。活性化関数は、tanh。オプティマイザはRMSprop。過学習を避けるため、エラスティック・ネット正則化とドロップアウトを使用。ハイパーパラメータ(隠れ層の数、ノードの数、学習率、正則化のパラメータ、ドロップアウト率、エポック数)は、OPTUNA™を使用して決定した。
❚評価指標❚ 決定係数(R2)と二乗平均平方根誤差(RSME)
❚結果❚ 学習データのR2は 0.732。検証データのR2は0.519(高くはない)。学習データのRMSEは0.385、検証データのRMSEは0.501(こちらも、決して高くはない)。
❚研究者自身による評価❚CSN は、学習データセットの主要な足場が限られており、構造変化が大きな新規薬剤の開発や、新規作用機序の発見に貢献することは困難。その反面、CSNは合成が比較的容易な分子を生成できる。結論として、CSN は成熟した研究分野に特に貢献することができる(抗菌剤開発は、まさに当てはまる)。
学習データ: {説明変数=CSN、目的変数=log10MIC} 
学習モデル: 多層パーセプトロン(エラスティック・ネット) 

(49) 分子構造のみで、単分子磁石を探索する 
◎ メソドロジー
○ 日付 2024.2.20
○ 研究主体: 東京理科大学
○ 出所:https://www.tus.ac.jp/today/archive/20240219_0910.html
論文:https://journals.iucr.org/m/issues/2024/02/00/yc5046/yc5046.pdf
● 概要・・・3次元畳み込みニューラルネットワーク(3D-CNN)を深層学習モデルとして採用し、分子構造に基づいて、分子が単分子磁石(SMM)であるか否かを予測する二値分類モデルを作成した。つまり分子構造から、SMM/非SMMを分類できるかを検証した。
❚データセット❚ SMM分子の母集団として金属サレン錯体が選択された。Google Scholarに「サレン(salen)+ SMM」を入力して検索された、2011年から2021年までの約800件の論文を使用して、作成された。論文から、結晶構造とそれらがSMM挙動を示すかどうかに関するデータが収集された。非SMM分子は、磁気緩和挙動を示さない分子として定義された。CIFファイル†1は CSD†2から取得した。分子構造は分子構造ファイル(XYZファイル†3)に変換され、座標データとして利用された。分子構造の入力表現として、ボクセルが採用された。
❚データのセットアップ❚ SMM:非SMM が 2:1の不均衡なデータであったため、アンダーサンプリングを使用してSMMデータを削減した。データは6:2:2 に分割され、学習データ・検証データ・テスト データに割り当てられた。
❚モデルのセットアップ❚ 活性化関数はReLUとシグモイド関数(出力層)。過学習緩和のために、バッチ正規化及びドロップアウト(ドロップアウト率20%)を適用(併せて、データ拡張も実行)。オプティマイザーは、AMSGrad。ハイパーパラメータは、ε=1×10-7(1×10-8が多いか?)。β1=0.9、β2=0.999(1次及び2次モーメント用の係数は、どちらも標準値)。学習率は、コサイン減衰に従って、初期値1×10-2から1×10-5に減少させた。バッチサイズは8、エポック数は1,000。コスト関数は、交差エントロピー誤差。
❚評価指標❚ 正解率とAUC
❚結果❚ テストデータを使った正解率は70%、AUCは0.7269。
❚研究者自身による評価❚ 従来の、化学者によって得られた結果よりも優れた結果ではない。この枠組みは、革新的なSMMを取得するには、力不足。
†1 Crystallographic Information File:結晶構造データ交換のための標準形式として、国 際結晶学連合IUCr(International Union of Crystallography)が定めたテキストファイル
†2 ケンブリッジ結晶構造データベース
†3 各原子の3次元空間(直交座標系)における座標を、オングストローム単位で記述したファイル 
学習データ: 分子構造(→二値分類する) 
学習モデル: ResNet(CNN) 

(48) 制約付きベイズ最適化で最適成膜条件を発見 
◎ メソドロジー
○ 日付 2024.2.19
○ 研究主体: 北陸先端科学技術大学院大学、理化学研究所
○ 出所:https://www.jaist.ac.jp/whatsnew/press/2024/02/19-1.html
論文: https://pubs.acs.org/doi/10.1021/acsami.3c16202
● 太陽電池用薄膜の最適成膜条件の発見に、「制約付き」ベイズ最適化を適用した。制約付きベイズ最適化では、実現困難な実験条件をあらかじめ排除し、残りの条件の中からキャリア再結合抑止性能を最良化する可能性のある実験条件を提示させた。さらに、所望の膜厚を得るための製膜時間を逆算できるよう設計した。 
学習モデル: ベイズ最適化 

(47) BOCSⓍ量子アニーリング 
◎ メソドロジー
○ 日付 2024.1.30
○ 研究主体: 東北大学
○ 出所:https://www.tohoku.ac.jp/japanese/2024/01/press20240130-01-qc.html
論文: https://www.frontiersin.org/articles/10.3389/fcomp.2023.1286226/full
● マテリアルズ・インフォマティクスからというより、量子アニーリングからのアプローチであり、「やってみた」という感じの研究(Frontiersだし・・・)。
 組み合わせ構造に対するベイズ最適化(Bayesian Optimization of Combinatorial Structures:BOCS)の枠組みを、化学物質発見タスクに適用したという内容。獲得関数の最適化に、量子アニーリング(QA)を適用している。BOCS≒FM(Factorization Machines)として、QAを用いたFMとしてFMQA(量子抜きのFMAもある)という文言はあるが、BOCSQAという文言はなさそうである。BOCSやFMは、従来の最適化手法に比べて、少ない回数で最適化できると期待されている。
 代理関数は、疎なベイズ線形回帰式を採用している(式形は、FMと同じ)。パラメータは、多変量ガウス分布からのサンプリングでセットする。獲得関数も式形は同じ(パラメータが異なる)。入力は、(バイナリ・ベクトルに変換した)分子骨格の特定部位への置換基の割り当て。出力は、基底エネルギーと励起エネルギー(割り当てられた置換基の基づいてDFT計算で求める)。
 ランダム・サンプリング(ベースライン)よりもbetterという結論。betterとは、決定係数R2を基に判断。R2は、初期データセット(サンプルポイント992点)と、(BOCSにおいて)追加されたサンプルポイントから計算されている。
† FM(A)≒BOCSの適用範囲に対する知見は少ない、とされる(出典は、https://www.jstage.jst.go.jp/article/jnns/29/4/29_164/_pdf/-char/ja)
学習データ: {置換基の配置、基底エネルギー及び励起エネルギー} 
学習モデル: BOCS 

(46) ヒルシュフェルト表面解析✖深層学習 
◎ 物性予測
○ 日付 2024.1.25
○ 研究主体: 東京理科大学
○ 出所:https://www.tus.ac.jp/today/archive/20240125_6231.html
論文: https://www.sciencedirect.com/science/article/pii/S2667134423000615?via%3Dihub 
● この研究は、「結晶構造と分子間相互作用の特性に基づいて、過塩素酸塩の爆発特性に関連する成分とそうでない成分を区別することが可能であるという仮定の概要を提供する」ことを目的★としているそうである(爆発物の実験は危ないから、実験せずに済めば、メリットは大きい!)
 上記目的を達成する手段として、深層学習(変分オートエンコーダ;VAE)を使う(過塩素酸塩の分子量が大きくて、量子化学計算が非現実的であるため)。正確には、ヒルシュフェルト表面解析(※1)を経由したVAEを用いる。ヒルシュフェルト表面解析は、電子密度解析手法(※2)の一種であり、分子間相互作用を解析する。ヒルシュフェルト表面解析では、2次元フィンガープリント・プロット(※3)を用いることで、さまざまなタイプの分子間相互作用の寄与をより詳細に表示することができる。もっともフィンガープリントには、相互作用に関する情報のみならず、格子定数などの結晶構造に関する情報も含まれている。この研究では、フィンガープリントの幾何形状を結晶分子の物理的特性に関連付けて、目的★にアプローチする。
 具体的には、変分オートエンコーダを使って、学習データから16個の特徴量を抽出した。16個の特徴量は、t-SNE(t分布型確率的近傍埋め込み法)を使って、さらに2次元に変換され解析した。これらの解析(ヒルシュフェルト表面解析)によって、「爆発性は過塩素酸部位の結合や構造による可能性が高いこと」が示唆された。
[まとめ] トポロジカルデータ解析という枠組みで捉えて良いのだろう。アナロジーとしては、パーシステント・ホモロジー(パーシステント図→特徴量抽出→・・・)⇔ヒルシュフェルト表面解析(フィンガープリント・プロット→特徴量抽出→・・・)。ただし、ヒルシュフェルト表面解析の場合、特徴量抽出後のアクションが不明瞭。
※1 ヒルシュフェルト(Hirshfeld)表面解析:電子密度解析の一種。Hirshfeldによるstockholder partitioning schemeを結晶に応用し、結晶内を分子が占有する領域で分割することで、パッキング様式や分子間相互作用を可視化できるようにした解析手法(出典は※4)。ヒルシュフェルト表面は、着目する分子の電子密度が結晶全体の電子密度の1/2となる分子表面である。
※2 電子密度解析は、「物性を、結晶内の原子・分子間距離や角度のみで議論する」のではなく、電子密度分布まで含めて、より詳細に議論しようとする解析手法である。マシンパワーが上がっていることから現実的になった。
※3 フィンガープリント・プロット:Hirshfeld表面から、最も近い外側の原子までの距離と、最も近い内側の原子までの距離をプロットした2次元図。分子間相互作用を精緻に表現できる、とされる。
※4 https://mylibrary.toho-u.ac.jp/webopac/bdyview.do?bodyid=TD28175724&elmid=Body&fname=td28175724_cover.pdf
学習データ: (サレン型金属錯体の)ヒルシュフェルト・フィンガープリント・プロット画像(2423個) 
学習モデル: 変分オートエンコーダ 

(45) セラミックス物性のfew-shot予測 
◎ 物性予測
○ 日付 2023.12.27
○ 研究主体: 産総研
○ 出所:https://www.aist.go.jp/aist_j/press_release/pr2023/pr20231227/pr20231227.html
論文: https://www.sciencedirect.com/science/article/abs/pii/S0272884223041652?via%3Dihub 
● 絶縁放熱基板用セラミックス(窒化ケイ素焼結体)の熱伝導率を、製造プロセス情報から精度よく予測できた。焼結助剤(の種類や、その混合割合)が、重要な"説明変数"であるというドメイン知識を活かした。
 ドメイン知識なしの決定係数0.7未満⇒ドメイン知識ありの決定係数0.8超。さらに、通常必要とされる数百~数千のサンプルが、100程度で賄えた。
学習データ: {製造プロセスデータと熱伝導率}のデータセット・174個 
学習モデル: サポート・ベクター・マシン 

(44) 人間と機械学習のコラボで迅速材料探索 
◎ メソドロジー
○ 日付 2023.11.30
○ 研究主体: 物質・材料研究機構
○ 出所:https://www.jst.go.jp/pr/announce/20231130-4/pdf/20231130-4.pdf
論文:https://pubs.acs.org/doi/10.1021/acscentsci.3c01009  
● 「データ数によって進化するAI」と銘打っているが、その意図するところがわからない。 
 高価な白金族金属(PGM)を使わない電極触媒の探索が主題。PGMフリー電極触媒の用途は、水電解装置(=水素発生装置)。OER(酸素発生反応)活性が高く、過電圧が低い材料を探索する。結論として、提示したモデルは、優れた成果を上げた。優れたとは、「少ないサンプル数で、ベンチマークを超える材料を探索できた」。ベンチマークは、(二)酸化ルテニウムRuO2。少ないとは、「48個/2,772個<2%」を意味している。48=学習データ10個+下記(1)の32個+下記(2)の6個。2,772個は❸を参照。提示モデルが優れている理由は、ランダムフォレストのスクリーニング精度が高かったことであった。
(1) まず、OER活性が高い材料を探索する。
1⃣ ヒトがやること
❶ 組成原子として、11原子を選ぶ(そういう方針を立てた上で・・・)。
❷ 11の組成原子から5原子を選び、5元素による電極触媒を、材料探索の対象とする(という方針を立てる)。
❸ 以下の2タイプ㊀及び㊁の材料を作成するという方針を立てる:㊀5元素を全て同じ組成比(つまり1:1:1:1:1)にした材料。㊁5元素の一つを0.5にした組成比(例えば、5番目が0.5だと1:1:1:1:0.5。結果、5パターン存在する)にした材料。㊀は、11C5なので、(11×10×9×8×7)/(1×2×3×4×5)=462個。㊁は、その5倍で2,310個。㊀+㊁=2,772個。
❹ 下記、機械学習①が選んだ組成を使って、材料を作成する。当該材料に対して実験を行い、OER活性データを取得する。
2⃣ 機械学習がやること
① 組成の選別。ガウス過程回帰を用いたベイズ最適化(BO)を適用する。パイソン・ライブラリPHYSBOを使用して実行する。
(2) 次に、OER活性が高い材料の中から、過電圧が低い材料を選別する。
1⃣ ヒトがやること
 特になし。
2⃣ 機械学習がやること
② ランダムフォレスト(RF)で、過電圧が低い材料を選別(分類)する。ライブラリは、scikit-learnを使用。
③ BOを使って選別した結果を使って、RF分類器を再学習する。
学習データ: BO:㊀+㊁=2,772個からランダムに選んだ10個の材料から得たOERデータ 
学習モデル: BO及びRF 

(43) 機械学習ポテンシャルを用いた分子動力学法を高密度シリカガラスに適用 
◎ 構造予測
○ 日付 2023.11.16
○ 研究主体: 日本原子力研究開発機構
○ 出所:https://www.jaea.go.jp/02/press2023/p23111601/
論文:https://www.nature.com/articles/s41598-023-44732-0
補足情報:https://static-content.springer.com/esm/art%3A10.1038%2Fs41598-023-44732-0/MediaObjects/41598_2023_44732_MOESM1_ESM.pdf
● 機械学習ポテンシャルを用いた分子動力学シミュレーションを使って、高密度シリカガラスの構造特性を正確に再現した。その上で、高密度シリカガラスのFSDP†1に影響を与える2つの主因を特定した。機械学習ポテンシャルについては、(39)(26)も参照。
 機械学習ポテンシャルを学習するためのデータ作成には、工夫を凝らした。学習モデルは、標準的。学習データ作成に用いたDFT計算ツールも、標準的。
(1) 学習データは、「石英、クリストバル石、リン珪石、スティショフ石、アモルファス、液体構造」を対象に、2段階で生成。まずTersoffポテンシャル†2を用いたMDシミュレーションにより、石英etcの構造について様々な配置を生成した。次に、DFT計算により、その配置のエネルギーと力(原子に働く力;force)を再評価し、学習データとする。DFT計算には、Vienna Ab initio Simulation Package(VASP)を使用。エネルギーカットオフは、500eV、kスペーシング†3は、0.25˚A-1。交換相関汎関数は、meta-GGA(一般化勾配近似)を採用。
(2) 機械学習ポテンシャルの学習には、Behler-Parrinello型ニューラルネットワークに基づく、n2p2コードを用いている。対称性関数以外のパラメータは、CUR行列分解により選択された。
†1 FSDP(First Sharp Diffraction Peak)とは、構造因子において、低波数で観測される回折測定のピークを指す。FSDPに対応する秩序は、物理的には、構造不規則系(今の場合は、ガラス)の中距離秩序を表す。
†2 Si結晶が表現できるポテンシャルとして広く用いられる。
†3 k点間の最小許容間隔(をオングストロームの逆数単位で表したもの)。VASPのデフォルトは0.5。
学習データ: MD→DFT計算により作成したデータ。90%を学習データ、10%をテストデータ。 
学習モデル: ディープ・ニューラルネットワーク(ノード数20、活性化関数softmax、隠れ層2) 

(42) 深層生成モデルを活用した創薬 
◎ 構造予測
○ 日付 2023.10.2
○ 研究主体: 名古屋大学、高輝度光科学研究センター
○ 出所:https://www.nagoya-u.ac.jp/researchinfo/result/2023/09/-ai-3.html
論文:https://www.nature.com/articles/s42003-023-05334-8
● 深層生成モデルを活用して、既存薬を上回るプロトンポンプ阻害活性を持つ胃酸抑制剤候補化合物の創生した。ワークフローは、深層生成モデルが予測した化合物を化学合成→電子顕微鏡で解析→ヒトが改良。
 深層生成モデル=事前ネットワーク+エージェント・ネットワーク:事前ネットワーク=RNNに基づくSMILES生成モデル、エージェント・ネットワーク=強化学習モデル。事前ネットワークの出力が、エージェント・ネットワークの入力。深層生成モデルは、各種ソフトウェアを組み合わせて構築。各種ソフトウェア・・・㊀REINVENT、㊁Ligand Scout。
 ㊀事前ネットワークとして、オープンソースのPythonアプリケーションREINVENTを採用。ただし、REINVENTは強化学習で調整するなどのカスタマイズが可能なので、結果的にREINVENT(のみ)で深層生成モデルを構築している。さらに、早期停止(Early Stopping)とTabuリストをREINVENTに実装。Tabuリストに含まれる足場(scaffold)と同じ足場を持つ化学構造が生成するのを回避している。
 ㊁Ligand Scout(のスコアリング機能)が出力するファーマコフォア・スコアを使って、強化学習モデルを学習。同スコアは、一致するファーマコフォアの特徴の数と、ファーマコフォア・アラインメントのRMSD[平均二乗偏差。タンパク質構造の非類似性や誤りの指標として使われる]に基づいて算出。
学習データ: ChEMBLから取得した分子のSMILES(←事前ネットワーク) 
学習モデル: RNN、強化学習 

(41) 潜在変数空間探索に適用したRBMのサンプリングを量子アニーラで実施 
◎ メソドロジー
○ 日付 2023.5.22
○ 研究主体: ロシア量子センター、Gero(シンガポール:AI創薬スタートアップ)
○ 論文:https://www.nature.com/articles/s41598-023-32703-4
● 創薬を対象としたVAEにおいて、よりリッチな探索を可能たらしめるには、量子化が決め手と予測して、その準備検証を行っている。創薬を対象としているので、VAEの入力及び出力は、SMILESを使用。VAEが量子VAEになるとbetterの見立て。
1⃣ 変分自己符号化器(変分オートエンコーダ,VAE)の旧来的枠組み[*4]は、
「エンコーダ=1次元CNN、デコーダ=RNN。連続的な潜在変数が従う確率分布を設定(例:多次元正規分布)」。これに対して、論文で提案されている枠組みは、
「エンコーダ=トランスフォーマー(TF)、デコーダ=TF。潜在変数空間の確率分布(事前分布)を、RBMで生成」。TFを使うことで、薬らしい分子の生成が期待できるはず。計算量的には重いが、RBMを使うことで、探索はリッチになっているはず(ただし今回、そこは、あまり問題にしていない)。なお、エンコーダのTFの前に、前処理として1次元CNNがセットされている。
 VAEにおいて頻繁に発生する事後崩壊(posterior collapse:学習された潜在空間が情報を失う現象)を避けるため、KL情報量に係数= 0.139をかけている。
2⃣ トランスフォーマーの諸元は、以下の通り:マルチヘッド・アテンションのヘッド数=10、活性化関数=GeLU、ドロップアウト率=0.1、オプティマイザー=Adam。初期学習率=6×10−5。スケジューリングは、学習プロセスの50%、75%、95% に相当するタイミングで学習率に、1/2をかける。
3⃣ RBMのサンプリングは、❶古典コンピュータ上で、持続的コントラスティブ・ダイバージェンスを使用したギブスサンプリングと、❷量子アニーリングマシン(D-Wave Advantage)を使ったサンプリング。RBMのサイズは、128ユニットの層×2。再パラメータ化トリックを適用。RBMが量子ボルツマンマシンになればbetterとの見立て。
 ❶より❷が遅い。❷は75エポックでダウン(❶は300エポック)。👉 古典的サンプリングは機能する。他方、"量子化"は、ノイズの影響が大きく、現状の量子H/Wでは厳しい。
学習データ: ChEMBLデータベース(リリース26)から選択した、有機サブセットのみの原子を含む192,000個の分子(のSMILES文字列)。 
学習モデル: トランスフォーマー、RBM、VAE。 

(40) AI✖ヒトで、高温強度が向上する熱処理スケジュールを考案 
◎ メソドロジー
○ 日付 2023.9.25
○ 研究主体: 物質・材料研究機構、名古屋大学
○ 出所:https://www.nims.go.jp/news/press/2023/09/202309250.html
論文:https://www.nature.com/articles/s41598-023-39589-2
● ニッケル基合金を対象に、等温時効処理ベンチマークを上回る非等温時効処理(NIA)ルートを設計した。
1⃣ まずは、AI・・・UCBアルゴリズムに基づいた強化学習(モンテカルロ木探索MCTS)を使って、NIAルートを設計した。UCBスコアは、高温強度(0.2%耐力※)で構成する。ノードは、処理温度で、500℃~700℃の間を25℃間隔で区切った値(9つ)。ツリーの最大深さは、10。深さは時効時間を表すので、最大時効時間が10分。1分間隔で、10個に区切った。ランダムロールアウトでツリーを(完成させて)探索する。NIAは、わずか2分で、等温時効ベンチマークを上回った(等温時効処理の時効時間は、10分で固定)。
 等温時効ベンチマークは、MIntという「ニッケル基超合金について、時効熱処理条件から組織の時間発展を計算し、その結果に基づいて、高温強度を予測する」シミュレーション・ソフトを使った計算値。同ソフトは、NIMS・名大が開発した。
[参 考] MCTSで得られたNIAルート(単位℃):700→700→550→500→500→550→600→525→575→600→500。確かに、こんなパターンをヒトが見つけられるわけがない。ヒトが見つけられないと思われるパターンを見つけることは、いわゆるセレンディピティと言われるものであろう。AIをうまく使うことで、セレンディピティを効率的に発現させることができれば、インパクトは大きいのだろう。
2⃣ 次にヒト・・・MCTSで得られたNIAルートは、㊀高温短時間の時効処理と、㊁低温長時間の時効処理、を組み合わせている。㊁の「小さく複雑な温度変化」が本質的に効いている💡と予測して、新たなNIAルートを考案したところ、MCTSが見つけたルートを上回った→MCTSは0.2%耐力が788.50MPa、ヒトが見つけた0.2%耐力は789.53MPaだった(等温時効ベンチマークは、784.48MPaなので0.5~0.6%の改善)。
†時効処理は、金属に対する熱処理の一種で、この処理を施すと強度が増す。
※明確な降伏点が現れない金属・合金は、0.2%の歪が生じた時点での応力(0.2%耐力)を降伏点とみなす。 
学習モデル: 強化学習(モンテカルロ木探索) 

(39) パーシステントホモロジーを使った記述子で機械学習ポテンシャルを構築 
◎ メソドロジー
○ 日付 2023.8.22
○ 研究主体: 大阪大学
○ 出所:https://www.jst.go.jp/pr/announce/20230822/index.html
論文:https://arxiv.org/ftp/arxiv/papers/2206/2206.13727.pdf
● アモルファス炭素を対象に、機械学習ポテンシャルを、新しい記述子を使って構築。記述子の作成手段は、Handcrafted(手動)とニューラルネットワーク(GNN)に大別される。前者はSOAP(Smooth Overlap of Atomic Positions)記述子が代表的である。SOAPは、ハイパーパラメータ調整の必要性がある(ので煩雑でしょう、というのが当該研究者の主張)。提案する新しい記述子は、パーシステントホモロジー(PH)に基づいている。PHを使って作成する、パーシステント図(PD)は、原子の結合状態と分布に関する情報を捕捉し、化学的に同等な原子の空間移動、回転、反射、置換に対して不変である(ため、[機械学習]ポテンシャルに要請される対称性を満たす)。
 VASPソフトウェアを使用した密度汎関数理論(DFT)計算でアモルファス構造を作成。DFT計算には、LDA近似の交換相関汎関数、擬ポテンシャルと平面波基底関数を適用。PHには、HomCloudを使用。PDは(パーシステント・イメージを使って?)ヒストグラム(確率分布関数)に変換。PH記述子(PD記述子)に基づき、リッジ回帰とCNNを使用して、機械学習ポテンシャルを構築(MI分野では、PH+リッジ回帰はお馴染み→(31)や(22)を参照)。当然、リッジ回帰<CNN。かつCNNを使っても、SOAP記述子+NN[PyTorch/損失関数MSE、Adamオプティマイザー、学習率(0.001からマイルストーンごとに半減)]の精度には至らない。
 精度が低い反面、ハイパーパラメータの調整が不要であり、予測の解釈可能性があることをアピールしているが、現状、実用性は低いだろう。
学習データ: パーシステント図に基づく記述子。 
学習モデル: リッジ回帰(Scikit-learn/正則化パラメータ200)及びCNN(PyTorch/損失関数MSE、ネステロフの加速勾配降下法[モメンタム項0.9、重み減衰0.001]、学習率0.0015[初期値]からマイルストーンごとに半減、活性化関数はReLU)。 

(38) ChemTSを大規模並列化 
◎ メソドロジー
○ 日付 2023.8.18
○ 研究主体: 横浜市立大、理研、九大
○ 出所:https://www.yokohama-cu.ac.jp/news/2023/20230818terayama.html
論文:https://wires.onlinelibrary.wiley.com/doi/epdf/10.1002/wcms.1680
● ChemTSのUI/UXを向上させ、並列化も施した「ChemTSv2」が、無償公開された。ChemTSは、UCB1方策ベースのモンテカルロ木探索とRNNを使用したSMILES生成器である。並列化した場合のUCB値には、tiとTという2つの追加変数が含まれる。tiは、子ノードiのサブツリーを探索するプロセスの数。T=∑ti.
 tiは子ノードへの訪問回数に、Tは親ノードへの訪問回数に加算される。
学習モデル: 強化学習(モンテカルロ木探索)✖再帰型ニューラルネットワーク:GRU(Gated Recurrent Unit)ベース、活性化関数はtanh(及びソフトマックス)、ドロップアウト率30%。 

(37) マルチタスク学習を量子化学計算に適用 
◎ パラメータ同定
○ 日付 2023.7.13
○ 研究主体: 統計数理研究所及び三菱ケミカル
○ 出所:https://www.ism.ac.jp/ura/press/ISM2023-03.html
論文:https://pubs.acs.org/doi/pdf/10.1021/acs.macromol.2c02600及びhttps://pubs.acs.org/doi/suppl/10.1021/acs.macromol.2c02600/suppl_file/ma2c02600_si_001.pdf
● ポリマーと溶媒の相溶性を表す相互作用パラメータ(フローリー・ハギンズχパラメータ)を予測する代理モデルを開発した。背景・・・量子化学計算は計算コストが高い/機械学習で予測するにはデータ不足→マルチタスク学習を採用。マルチタスク学習は、(実は)強い関連性をもつ複数のタスクに対して、背後にある共通した潜在変数(特徴量)を抽出し、関連した複数タスクを効率的に学習する、というアプローチ。
 データ不足の場合、データ拡張や転移学習が用いられることが多く、マルチタスク学習が採用されることは多くないと思われる(ので面白い)。研究者が、「機械学習に基づく予測が、精度の点で、従来法を上回る可能性があること」を、この研究の重要性としているところもsound good。
 損失関数=(1-λs)×|実験データーモデル出力|2+λs×|シミュレーションデータ-モデル出力|2ーλc×ロジスティック回帰の損失関数。PINNとのアナロジーを感じる。λs=0.51、λc=1.0。
学習データ: 実験データ(ポリマー46種類と溶媒分子140種類からなる1,190ポリマー・溶媒ペア)、シミュレーションデータ(COSMO-RS法による、9,129ポリマー・溶媒ペア)、実データ(29,777種類のポリマー・溶媒の組み合わせについて、溶媒が良溶媒か貧溶媒かを表すデータ) 
学習モデル: ニューラルネットワーク(マルチタスク学習)。隠れ層3層、バッチ正則化、活性化関数:シグモイド関数、エポック数50、ミニバッチサイズ5~20、学習率3.5×10-3、オプティマイザー:Adam(AMSGrad)、特徴量の数=34。 

(36) 分子記述子のみで構造相転移を予測 
◎ 1⃣メソドロジー及び、2⃣物性予測
○ 日付 2023.7.10
○ 研究主体: 早稲田大学
○ 出所:https://www.waseda.jp/top/news/91898
論文:https://pubs.rsc.org/en/content/articlelanding/2023/DD/D3DD00034F 及び https://www.rsc.org/suppdata/d3/dd/d3dd00034f/d3dd00034f1.pdf
参考:https://www.jstage.jst.go.jp/article/jcrsj/65/2/65_139/_pdf/-char/ja
● 分子記述子+Positive-Unlabeled学習(ElkaNoto手法)という座組で、有機固体の構造相転移を扱っている。グラフベースでなく、transformerも使わない、シンプルなアプローチ。結晶多型は区別できないので、少なくとも、創薬には向かないと思われる。
 1⃣ 構造相転移の分類タスク・・・構造相転移の有無を分類。分子記述子として7つ(ECFP,Avalon,Mordred,ErG,Estate,RDKit,MACCSKeys)、学習モデルとして4つ(ニューラルネットワーク(NN)、サポートベクターマシン(SVM)、ランダムフォレスト(RF)、勾配ブースティング決定木)を採用。NNは隠れ層50、活性化関数ReLU。SVMのカーネルは、ポピュラーなRBF(Radial Basis Function、ガウス・カーネルとも呼ばれる)。
 評価指標として真陽性率×選択倍率、を採用(それぞれ、10分割・交差バリデーションの平均値)。AvalonとSVMの組み合わせが、最良の結果を出した。
 2⃣ 構造相転移の回帰タスク・・・(回帰の)目的変数は、吸熱転移の転移温度・転移エンタルピー及び、発熱転移の転移温度・転移エンタルピー。分子記述子は、1⃣と同じ。学習モデルは、NN(隠れ層は100)、RF及び転移学習NN。評価指標は、平均絶対誤差(MAE)(5分割・交差バリデーションの平均値)。
 転移温度に関しては、MordredとRFの組み合わせが最良だった。一方、この座組では、転移エンタルピーの回帰予測は、うまくいかなかった。[データ量が比較的少ない場合に(物性予測のケースでも)、ツリー系モデルは、良い結果を出すことが多いとされている(データ量が増えるとNNに抜かれる)。ただ、RFは(一般論では)データ量が少ないと過学習を起こしやすいとされている(例えばextremely randomized treeは、起こしにくいとされている)。]
学習データ: (データ量は少ない。)文献・論文において、示差走査熱量計による熱物性測定and/orX線結晶構造解析により、㊀構造相転移が確認された分子の分子構造、㊁転移温度、㊂転移エンタルピー。(分子構造は、ケンブリッジ結晶構造データベースから、SMILES形式で取得。)
学習モデル: (結果的に)ランダムフォレスト、サポートベクターマシン

(35)  PINNを応用した物質設計手法を開発 
◎ メソドロジー
○ 日付 2023.3.2
○ 研究主体: 理化学研究所、東京大学
○ 出所: https://www.t.u-tokyo.ac.jp/press/pr2023-03-02-001 (https://www.nature.com/articles/s42005-023-01132-0)
● 逆問題形式のPhysics-Informedニューラルネットワーク(PINN)の枠組みを応用した、所望の物性を示す物質の設計手法(以下、本手法)を開発した。PINNは次元の呪いを避けられ、ill-posed(適切性条件未充足)でも逆問題に対応できる(と言われている)。PINNであれば、支配方程式を損失関数とするところ、本手法では「所望の物性」を損失関数で表現する。勾配降下法で損失関数を最小化するパラメータを探索する(このパラメータを使って、ハミルトニアンが構成される)。
学習モデル: (PINN)

(34) 分子フラグメントの物性のみから、イオン液体の物性を予測
◎ 物性予測(ハイパーパラメータ同定)
○ 日付 2023.2.27
○ 研究主体: 中央大学、日本大学、地球環境産業技術研究機構、金沢大学
○ 出所: https://www.chuo-u.ac.jp/aboutus/communication/press/2023/02/64885/ (https://pubs.acs.org/doi/10.1021/acs.jpcb.2c07305)
参考:https://www.jstage.jst.go.jp/article/jccj/18/5/18_2019-0046/_pdf/-char/ja
● 機械学習モデルを使って、多数のイオン液体(IL)からCO2溶解度の高いILを、直接かつ迅速に探索した。機械学習モデルは、ガウス過程回帰モデル(計算には、MATLABを使用)。カーネル関数は、ARDMatern 5/2。ARD(関連度自由決定)なので、予測子毎に異なる特性長スケールを持つ。
 学習モデルの出力変数は、ヘンリー定数。ヘンリー定数は、COSMO-RS (Conductor-like Screening Model for Realistic Solvation)法を使って算出(COSMOtherm C30_1705を使用)した化学ポテンシャルから計算。
 入力変数は、ILを構成するカチオン・アニオンの幾何的物性データ及び電子的物性データ。電子的物性データは、密度汎関数法による第一原理計算(TURBOMOLE7.0を使用)から(得られた安定構造から)、表面電荷分布を作成して構築。汎関数はBecke-Perdewで、基底関数は、TZVP。幾何学的物性データは、構造異性体数、表面積、体積、分子量。
学習データ: (幾何的及び電子的物性データ、熱力学物性データ)
学習モデル: ガウス過程回帰モデル

(33) タンパク質の水和構造を予測
◎ 構造予測
○ 日付 2023.2.22
○ 研究主体: 理化学研究所
○ 出所: https://www.riken.jp/press/2023/20230222_1/index.html
● タンパク質の水和構造を予測する人工知能の開発に成功した。
 3次元畳み込みニューラルネットワーク(CNN)を使って、水和水分子周辺のタンパク質原子分布を学習させた。
学習データ: 2,145個のX線結晶構造解析モデルから5,310,762個のデータを作成
学習モデル: 3次元CNN

(32) 遺伝的アルゴリズムで熱電変換材料の化学組成及び加工条件を最適化
◎ パラメータ同定
○ 日付 2023.2.21
○ 研究主体:鳥取大学 
○ 出所: https://www.tottori-u.ac.jp/secure/20517/prof.chen.pdf#ContentPane (https://www.sciencedirect.com/science/article/abs/pii/S254252932300007X)
● "機械学習"により、Bi-Te-Se系バルク熱電材料の化学組成や加工条件の最適化に成功した。プロセスは以下の通り:(1)3つの機械学習モデルから1つを選択。具体的には、ニューラルネットワーク、サポートベクターマシン、ランダムフォレストから1つを選択。(2)選択に用いる計量指標は、相関係数と平均自乗誤差。(3)機械学習モデルに用いる入力変数は、ピアソン相関分析で抽出。具体的には、加工条件=❶押出し温度及び、化学組成変数=❷Teの含有量、❸Cuの添加量、❹Cu粒子のサイズ。(4)比較の結果、ランダムフォレストを選択。(5)遺伝的アルゴリズムを用いて、ランダムフォレストをチューニング(変数を最適化)。
 材料系において機械学習で作製条件を同定するというタスクでは、(ランダムフォレスト等の)予測モデル+ベイズ最適化、という枠組みが用いられることが多い(印象)。今回は、予測モデル(=ランダムフォレスト)+遺伝的アルゴリズム、という枠組み。
 なお、Quantum Extremal Learningという「(機械)学習済モデルのアウトプットを最適化する、アルゴリズムを見つける手法」がある。仏Pasqal(中性原子方式H/Wスタートアップ)と米ジョンソン&ジョンソンが開発した(https://arxiv.org/pdf/2205.02807.pdf)。
 ニューラルネットワークよりランダムフォレストのパフォーマンスが良かった理由は、単純に、学習データ量が(止むを得ず)少なかったから・・・と考えられる。そういうケースでは、アンサンブル学習が強いのだろう(過学習の危険は付きまとうが)。
学習データ: (少量の)実験データ
学習モデル: 最適化に用いたのは、遺伝的アルゴリズム。予測モデルは、ランダムフォレスト。

(31)  パーシステントホモロジーを磁気メモリ設計に適用
◎ 物性予測、構造解析
○ 日付 2022.11.29
○ 研究主体:東京理科大 
○ 出所: https://www.tus.ac.jp/today/archive/20221117_5026.html ※オリジナル論文https://www.nature.com/articles/s41598-022-21971-1
● 低消費電力・次世代磁気メモリの設計をお題に、画像を入力データとして、物性とエネルギーの関係を学習するモデルを構築。機械学習・深層学習の分野で特徴量抽出と言えば、オートエンコーダやCNNが定番だが、ここでは「複雑なデータをMIに活用するための代表的な処方箋」であるパーシステントホモロジー(PH)を使用。従前は、ガラスやアモルファス・シリコンといったエキゾチックな並進対称性を持つ物質が、PHの主な対象だった(ように思われる)。MI分野における、PHを使った機械学習でポピュラーな、パーシステンス・イメージ(PI)+線形回帰モデルという枠組みを採用している。
 ①"複雑な"磁区構造の顕微鏡画像データから、パーシステント図(PD)を作成。②PIを使ってPDをベクトル化して、特徴量を抽出。PIのコンセプトは、ヒストグラムにおける「柱状棒」の頻度数をベクトル要素とする、というもの。ただし"ヒストグラム"は、PDの生成元で作られる分布関数である。③この特徴量を使った機械学習(リッジ回帰)を用いて、磁区構造とエネルギーの関係式を構築→低消費電力の次世代磁気メモリ設計につなげる。(磁区構造とエネルギーの関係式を軟磁性材料に適用した結果は、https://www.tus.ac.jp/today/archive/20221201_1224.html。磁気渦の制御メカニズムの解析に適用した結果は、https://www.tus.ac.jp/today/archive/20221207_1620.html。)
 パーシステントホモロジー解析ツールは、HomCloud(https://homcloud.dev/)を使用。
学習データ:顕微鏡画像 
学習モデル:リッジ回帰モデル(及び主成分分析) 

(30) 高分子物性値のハイスループット計算法の確立
◎ メソドロジー
○ 日付 2022.11.9
○ 研究主体:統計数理研究所、東工大、東大 
○ 出所: https://www.jst.go.jp/pr/announce/20221109-2/index.html 
● 高分子物性値を、精度を保ち、ハイスループットで計算する方法論を確立した。高分子の種類は膨大であり、多様な物性値をリアルデータとして取得・DB化することは、現実的に難しい。そこで、第一原理計算(分子動力学シミュレーション)により物性値を計算するという選択肢が選ばれる。一方で、高分子物性の計算条件は、個別要因が大きいため共通化が難しく、大量のアウトプットにつながっていなかった。違う言葉を使えば、高分子物性の第一原理計算は、計算コストが高かった。
 今回、標準的な計算条件をあらかじめセットした上で、個別要因による違いを「転移学習」によって"吸収"することで、計算コストを抑えることに成功した。なお、第一原理計算には、LAMMPS(Large-scale Atomic/Molecular Massively Parallel Simulator)を使用している。米サンディア国立研究所が開発したオープンソースソフトウェアである。
 成果として、アモルファスポリマーの熱物性に関する複数物性値の同時分布、及びパレートフロンティアを得ている。もちろん重要なポイントは、今回確立した方法論で得られるデータをDB化して、マテリアル・インフォマティクスに活用することである。
学習モデル:転移学習 

(29)  より低オーバーヘッドで、タンパク質をデザイン
◎ メソドロジー(機械学習・深層学習とexplicitには無関係)
○ 日付 2022.10.19
○ 研究主体:名古屋大学 
○ 出所: https://www.nagoya-u.ac.jp/researchinfo/result/upload/20221019_i.pdf 
● 以前の研究(cf.(6))を発展させた。(6)の枠組みは、「タンパク質デザインをパラメータ推定問題として規定。パラメータ推定にはMCMCを使用」。今回の枠組みは、確率推論に基づくパラメータ推定である。方法論は、不規則系の統計力学における代表的な解析法の一つ、キャビティ法(空洞法)である。空洞法は平均場近似の一つで、確率変数に関する結合分布を表現したファクターグラフがハイパーツリーとなる。小さな2次元格子疎水性極性タンパク質モデルの場合、計算コストは大幅に削減しながら、MCMC法と同等の精度で設計ができたという。
 『本手法はタンパク質の詳細な性質に依存しないので、新素材・新デバイスの設計問題などへの応用』を模索するようだが、ファクターグラフがハイパーツリーでない場合は、(多項式?)オーバーヘッドが発生するはず。どこまで有効性が示されるか、期待したい。

(28)  複雑な組織構造を持つ材料の物性を高い精度で予測
◎ 物性予測
○ 日付 2022.9.30
○ 研究主体:産総研 
○ 出所: https://www.aist.go.jp/aist_j/press_release/pr2022/pr20220930/pr20220930.html 
● 窒化ケイ素セラミックスの破壊靭性を予測するAIを開発。組織画像と破壊靭性に関する実験データをCNNで学習させた。加えて、敵対的生成ネットワーク(GAN)を使って、高破壊靭性な窒化ケイ素セラミックス組織のモデル画像を生成した。こうすることで、最適な成形手法や焼結条件を見出すことが可能となる。判断根拠の説明には、Grad-CAMを採用している。
学習モデル:畳み込みニューラルネットワーク(CNN)及び、条件付き敵対的生成ネットワーク(Conditional-GAN、CGAN) 

(27) 社会実装に適したMIを実現する学習モデル
◎ 物性予測
○ 日付 2022.7.22
○ 研究主体:早稲田大学 
○ 出所: https://www.waseda.jp/top/news/82180 
● 社会実装に適した(本件では、分子構造が化学的に安定している)MIを実現するために、パイプライン①+②を構築。①深層生成モデルとしての制限ボルツマンマシンRBMで、化学的に安定な分子構造(の特徴量)を学習。②分子構造と電気伝導度の関係を学習。モデルは明示されておらず、複数のモデルを使用しているかもしれない。研究者のプロファイル等から、少なくとも一つは、グラフニューラルネットワーク(GNN)と推測される。なお、候補群からの抽出作業には、富士通の「古典イジングマシン」デジタルアニーラが使われている。
学習モデル:パイプライン=制限ボルツマンマシン(RBM)+グラフ・ニューラルネットワーク(GNN) ※GNNは推測 

(26) 機械学習ポテンシャルの新しい構成法
◎ メソドロジー(機械学習・深層学習とexplicitには無関係)
○ 日付 2022.7.19
○ 研究主体:北陸先端科学技術大学院大学 
○ 出所: https://www.jaist.ac.jp/whatsnew/press/2022/07/19-1.html 
● 第一原理量子モンテカルロ法の実行を念頭に、(機械学習ポテンシャルの作成法として有名な)「Behler-Parrinelloの方法」とは異なる方法を提案。対称性関数の替わりに、類似度=カーネル(SOAPカーネル)を導入。SOAP=Smooth Overlap of Atomic Positions.
 以下のプロセスで、機械学習ポテンシャルを作成する:①密度汎関数法による原子間ポテンシャルを入力データとして、第一原理量子モンテカルロ法による原子間ポテンシャルを再現する学習モデルを構築する。②①モデルで再現した原子間ポテンシャルを実現する、原子配置を算出。③原子に働く力を予測したい原子配置と、②の原子配置の類似度を、SOAPカーネルに基づいて計算する。④SOAPカーネル=類似度を入力として、適当なモデルを使って、原子間ポテンシャルを計算する。

(25) 多原子分子の電子状態を計算できる、新しい変分アルゴリズム開発
◎ メソドロジー(機械学習・深層学習とexplicitには無関係)
○ 日付 2022.7.14
○ 研究主体:東京大学 
○ 出所: https://www.s.u-tokyo.ac.jp/ja/press/2022/7972/ 
● NISQデバイスで、CO2分子の振動エネルギー準位を計算するために、新しいアルゴリズムを開発した。具合的には、①→②:①多数個の原子からなる分子を扱えるように、VQEを改良したMC-VQE。②MC-VQEさらに改良した縮約MC-VQE(RMC-VQE)。
 RMC-VQE法では、波動関数を古典系と量子系の2種類の基底関数の線形結合で表すことによって、エネルギー準位を計算する。量子コンピューターは、古典コンピューターでは計算することが難しい重要な計算にのみ使用される。一部とはいえ量子コンピューターを使うため、古典コンピューターのみを使うよりも正確なエネルギー準位の計算が可能となる。量子コンピューターでの計算において発生するエラーに対する量子誤り抑制は、量子コンピューターと古典コンピューターの計算結果比較によりエラーを見積ることで行う。なお、量子コンピューターの使用を限定しているため、量子誤りの発生自体が抑えられている。
 (NISQデバイスに限らずFTQCでも、古典コンピューターと量子コンピューターを使い分ける必要がある。その最適な配分を制御することは、FTQC時代を見据えた量子コンピュータービジネスにおいて、肝になると思われる。)
 参考:https://avs.scitation.org/doi/10.1116/5.0091144

(24) 高い結晶磁気異方性をもつ材料を効率的に探索することに成功
◎ パラメータ同定
○ 日付 2022.7.1
○ 研究主体:東京理科大学 科学技術振興機構
○ 出所: https://www.jst.go.jp/pr/announce/20220701-2/index.html 
● 従来比約5倍の速度で、高結晶磁気異方性材料の候補物質を、自動探索できた。実際に候補物質を作製し、既存物質を超える新しい磁性材料の創製に成功。
 学習データ:第一原理計算の入出力データ(計算結果は、磁気異方性エネルギー)
 学習モデル:ベイズ最適化

(23)  GANを使って複雑材料の機能予測を可能に
◎ 物性予測
○ 日付 2022.6.30
○ 研究主体:産総研
○ 出所: https://www.aist.go.jp/aist_j/press_release/pr2022/pr20220630_2/pr20220630_2.html
● 敵対的生成ネットワーク(GAN)を使って、各種配合条件に対応した材料の物理的・化学的構造を反映した画像、並びに分光スペクトルを生成した。
 学習データ1:{母材、添加剤、充填剤など} 
 学習モデル1:GAN →{画像、分光スペクトル}を生成 → テスト・データ
 学習データ2:入力={画像、分光スペクトル}、出力={ヤング率、ガラス転移温度、表面電気抵抗、貯蔵弾性率など}
 学習モデル2:回帰モデル

(22) トポロジーと機械学習を使って、高精度な物性値予測に成功
◎ 物性予測、構造解析
○ 日付 2022.6.24
○ 研究主体:分子科学研究所
○ 出所:https://www.ims.ac.jp/news/2022/06/220624.html
● 具体的には、まず、分子動力学法によりアモルファス・シリコンのモデル構造を作成。この構造から、パーシステント図を作成(パーシステント図は、'穴'の存続性を可視化した図)。パシステント図をベクトル化(特徴量を抽出)し、機械学習モデルを訓練した。その結果、熱伝導率を高精度に予測することに成功。さらに、熱伝導率の高低を決めているミクロな構造を、主成分分析とパーシステント図の逆解析(パーシステント図の生成元から生成元を構成している原子配置を特定)から求めた。
 学習データ:数値化したパーシステント図と、熱伝導率
 学習モデル:リッジ回帰

(21)  相変化メモリ(PRAM)の物性パラメータを効率的に決定
◎ パラメータ同定
○ 日付 2022.3.25
○ 研究主体:東北大学
○ 出所:https://www.tohoku.ac.jp/japanese/newimg/pressimg/tohokuuniv-press20220325_02web_semiconductor.pdf
● ベイズ最適化を使用して、PRAMに利用されている相変化材料の物性パラメータを、効率的に決定することが出来た。「メモリ材料自体の電気抵抗に対する電極接触抵抗の比」が重要であるという新たな知見が得られた。
 学習モデル:ベイズ最適化

(20) 深層学習・強化学習及び量子化学計算を活用して、蛍光有機分子を開発
◎ メソドロジー
○ 日付 2022.3.10
○ 研究主体:理化学研究所 横浜市立大学 物質・材料研究機構
○ 出所: https://www.nims.go.jp/news/press/2022/03/202203100.html
● 有機分子の構築パターンを学習させた再帰型ニューラルネットワーク(RNN)と、モンテカルロ木探索(MCTS)とを使い、有機分子を生成する。RNNとMCTSとの組み合わせは、自然文の文章作成でも用いられるポピュラーな組み合わせである。
 RNN+MCTSで作成した有機分子は、必ずしも、蛍光性を示すわけではない。比喩的に言えば、以下と同じであろう:文法的に成立する文を作ることと、笑えるネタを書くことは、質的に全く異なる。量子化学計算(密度汎関数法DFT)で、蛍光性を評価する(アノテーションする)ことで、RNN+MCTSで蛍光有機分子を作成するAIシステムを構築した。これも比喩的に言えば、お笑い芸人が分別することで「面白い」文を作成できるAIシステムを構築した、となる。
 学習モデル:RNN、強化学習(MCTS)

(19) カーボンナノチューブCNTの最適なインク化条件を予測
◎ メソドロジー
○ 日付 2022.1.18
○ 研究主体:奈良先端科学技術大学院大学 京都工芸繊維大学
○ 出所: http://www.naist.jp/pressrelease/files/20220118.pdf
● 少ない変数で、CNT の分散特性を高精度に予測可能なモデルを構築した。特徴量エンジニアリング(特徴量選択)に、遺伝的アルゴリズムGAとベイズ最適化を利用している。
 学習モデル:GA、ベイズ最適化

(18) 低解像度データからでも、難構造を予測可能な深層学習モデル
◎ 構造予測
○ 日付 2021.12.20
○ 研究主体:横浜市立大学
○ 出所: https://www.yokohama-cu.ac.jp/news/2021/202112ikeguchi_scirep.html
● 低解像度データからでも、局所的な難構造である「ループ領域の構造」を決定可能な学習モデルを構築できた。「電子密度マップ」を特徴マップとしている。低分子化合物のドッキング・シミュレーションの精度向上を通じて、効率的な創薬に資すると考えられる。
 学習データ:(公共DBに登録されている)高解像度データから作成した「電子密度マップ」と「タンパク質構造」
 学習モデル:3次元畳み込みニューラルネットワーク(3D-CNN)

(17)  最小限の実験で最適な作製条件を、能動学習で予測 
◎ パラメータ同定
○ 日付 2021.11.15
○ 研究主体:物質・材料研究機構
○ 出所: https://www.nims.go.jp/news/press/2021/11/202111150.html
● 機械学習により、ネオジム磁石の最適な作製条件を、限られた実験データから予測することに成功した。(枠組み全体の)方法論は、能動学習(アクティブラーニングAL)で、作製条件を最適化する手法は、ベイズ最適化を採用している(※)。
 枠組みの第一段階として、ランダムフォレスト(RF)法(回帰)を用いた予測モデルを作成する。この予測モデルを用いて、「実験条件と予測結果」から成るデータセットを作成。次に、このデータセットをもとにベイズ最適化で、作製条件を提示する。
 提示された作製条件を用いて実際に試料を作製。作製条件と得られた実験結果から、新たなデータセットを作成。再びRF法による予測モデルを作成する。このサイクルを3 回繰り返した結果、ALの活用により、比較的高い精度で磁気特性を予測できることが確認された。
 ※研究グループはこの枠組みを、Active Learning pipeline assisted by Machine Learning and Bayesian Optimization(ALMLBO)と呼んでいる。能動学習の一連のプロセス(パイプライン)に、機械学習(この場合はRF法)とベイズ最適化を、組み込みこんでいることが表されている。

(16) 検知できなかった理由をニューラルネットワークで解明 
◎ 機構解析
○ 日付 2021.11.9
○ 研究主体:NIMS 京大 早大 豊田理化学研究所
○ 出所: https://www.nims.go.jp/news/press/2021/11/202111091.html
● 高温超伝導体の実験データを再現するように、人工ニューラルネットワーク(ANN)の学習を行った。学習は、物理則を満たすようにANNを制御しながら行われた。ANNは、任意の関数を表現できるため、(物理則を満たす)任意の物理系を構築することが可能。
 ANNを構築したことで、高い超伝導転移温度の起源を、検知できなかった理由が明らかになった。これまでANNの用途は、物性予測や条件等の絞り込みが主流だった。今後、隠れた物理量の抽出、あるいは新たな概念の発見などが期待される。

(15)  測定データを利用した物性予測を可能とする機械学習モデルを開発 
◎ 物性予測
○ 日付 2021.10.26
○ 研究主体:NIMS、三井化学
○ 出所: https://www.nims.go.jp/news/press/2021/10/202110250.html
● プロセス加工後の構造が物性に強く影響する場合(例えば、高分子材料を開発する場合など)には、測定データを利用した物性予測が、マテリアルズ・インフォマティクスを活用した材料開発において有効となる。
 機械学習モデルの学習データは、記述子で規定した材料に対する「測定データと材料物性」である。ちなみに、記述子は、分子量、立体規則性、および射出成型冷却温度。測定データは、X 線回折や示差走査熱量測定等の測定データ。材料物性は、シャルピー衝撃試験と引張弾性率。
 機械学習モデル(実験的計画法)としては、ベイズ最適化に基づく方法並びに、不確実性サンプリングに基づく方法が、提案されている。ベイズ最適化は、ブラックボックス関数を含むシステムを最適化することを目的とした機械学習である。可能な限り少ない試行で、ブラックボックス関数(=実験)を最適化する。これが、ベイズ最適化の基本思想である。
 一方の不確実性サンプリングは、能動学習(アクティブ・ラーニング)における獲得関数の1つの基準である。サンプルを選択する基準を与える。能動学習では、最小限の入出力ペアを用いて、良いモデルを学習することを目指す。

(14)  内殻電子励起スペクトルから、他の物性情報を抽出 
◎ 物性予測
○ 日付 2021.10.18
○ 研究主体:東京大学
○ 出所: http://www.iis.u-tokyo.ac.jp/ja/news/3674/
● 研究グループは、①炭素から得られる内殻電子励起スペクトルに、②3つの情報を追加したデータを学習データとして使った、③(順伝播型の)ニューラルネットワーク(NN)システム、を構築した。③用いて、有機分子から11種類の物性を、高精度に抽出することに成功した。この物性の中には、内殻電子励起スペクトルとは無関係と考えられてきた「光学特性、振動特性、分子の質量や、分子の安定性(内部エネルギー)に関する情報」が含まれていた。
 第一原理計算を行わなくても、機械学習・深層学習で、物性を高精度に予測できることを、肚落ちさせてくれる結果。

(13) 結合エネルギーを機械学習で予測。DFT計算より1.3億倍高速 
◎ 物性予測
○ 日付 2021.10.13
○ 研究主体:千葉大学
○ 出所: https://research-er.jp/articles/view/103909及びhttps://www.nature.com/articles/s41598-021-99369-8.pdf
● 学習データは、「分子の構造名」と「超原子価ヨウ素の結合エネルギー」とのセット。結合エネルギーは、スパコンを用いたDFT(密度汎関数法)計算によって算出した。機械学習モデルは、①エラスティックネット、②サポートベクターマシン(回帰)、③ニューラルネット(活性化関数はReLU)、④ニューラルネット(活性化関数はシグモイド(ロジスティック)関数)、⑤ランダムフォレスト(回帰)、⑥ライト・勾配ブースティングマシン(回帰)、を適用。
 DFTによる計算結果(テストデータ)と機械学習の予測結果を、平均絶対誤差(MAE)と決定係数(R2)で評価して、最も精度が高かった①エラスティックネットを、学習モデルとして選択している。構築した結合エネルギー予測モデルは、DFT計算より1.3億倍速く、結合エネルギーを予測することができた。

(12) 新発見が難しい物質の合成条件をAIで発見 
◎ パラメータ同定
○ 日付 2021.09.30
○ 研究主体:京大
○ 出所:https://research-er.jp/articles/view/103513 
● ①既知の合成実験データに、新たな実験失敗データを含めて、学習データを用意。②学習データから、合成を成功させる「隠れ因子(パラメータ)」を見つけ出す非線形生成モデルを構築。③見出したパラメータを基に、合成を成功させる条件を推薦する推薦モデルを構築。

(11) 重合反応率の予測モデル 
◎ 物性予測、パラメータ同定
○ 日付 2021.09.29
○ 研究主体:量子科学技術研究開発機構
○ 出所:https://research-er.jp/articles/view/103470 
● 重合反応に使用するモノマーの物性情報だけで、重合反応率を、瞬時に予測できるAIモデルを構築した。量子化学計算で算出したモノマーの物性、及び原子情報を学習データとした。さらに、このAIモデルを構成する49種類のパラメータについて影響度を解析した結果、モノマーの「分極率」と「NMR化学シフト」が重要であることを見つけ出した。

(10) graph構造に対する深層学習モデル(MPNN)で化合物の、CNN・Transformer・AACでタンパク質の物性を予測 
◎ メソドロジ-
○ 日付 2021.09.27 
○ 研究主体:九州大学
○ 出所: https://www.kyushu-u.ac.jp/ja/researches/view/667
● 予測した物性値を含む物性情報に薬理学的知識を加えることで、「薬らしさ」を表現できるAIを構築した。学習データは、既存の「化合物-タンパク質ペアのデータ」が使われた。
 化合物の物性予測モデルには、メッセージパッシング・ニューラルネットワーク(MPNN)が用いられている。タンパク質の物性予測モデルには、自然言語処理でも広く用いられている「畳み込みニューラルネットワーク(CNN)、Transformer[入力データの'潜在的な'意味を学習することができるNN]」並びにAACが用いられている。

(9) 深層学習を利用して、タンパク質と化合物の相互作用を推測 
◎ 物性予測
○ 日付 2021.09.09 
○ 研究主体:京都薬科大学 PFN 
○ 出所: https://www.kyoto-phu.ac.jp/exam_information/news/detail.html?itemid=984&dispmid=972
● PFN はAIによる分子設計を実施し、新型コロナウイルスSARS-CoV-2の増殖に必須な酵素の活性を阻害する化合物を複数提示した。京都薬科大学は、それらを合成、活性評価を行った結果、新型コロナウイルス(SARS-CoV-2)の増殖に必須な酵素(メインプロテアーゼ)メインプロテアーゼの活性を阻害する作用を確認した。

(8) 高分子合成の成否に影響を与えるパラメータを同定 
◎ パラメータ同定
○ 日付 2021.09.03 
○ 研究主体:関西学院大学
○ 出所:https://www.kwansei.ac.jp/news/detail/4414
● 合成困難な高分子の合成成否に影響を与えるパラメータを、機械学習で明らかにした。その過程は、以下の通り:(1)失敗した実験データを、クラスタリング解析で自動分類。(2)分類結果と合成実験条件の関係とを、ランダムフォレスト及び決定木により解析。(3)「反応温度」並びに、「反応系中の水素イオン濃度」が、重要なパラメータであることを明らかにした。

(7) 複雑な構造をもつ機能性材料の物性予測に成功 
◎ 物性予測
○ 日付 2021.08.30 
○ 研究主体 先端素材高速開発技術研究組合、日本ゼオン、産総研
○ 出所:https://www.nedo.go.jp/news/press/AA5_101472.html
● 複雑な構造をもつ機能性材料の物性予測を、素早く・高精度に行えた。詳細は以下の通り:①カーボンナノチューブCNT膜の「構造画像と物性」を、AIに学習させる。②種類の異なるCNTを任意の配合で混合した場合の、さまざまなCNT膜の構造画像を、敵対的生成ネットワークGANで生成する。③構造画像②を使って、AI①を学習させた結果、混合したCNTの物性(電気特性及び比表面積)を、高精度(決定係数で0.99)に予測できた。④さらに、最適な組成割合を導く時間を大幅に(98.8%)短縮した。

(6) タンパク質デザインをパラメータ推定問題として規定 
◎ メソドロジー
○ 日付 2021.08.25 
○ 研究主体:名大
○ 出所: https://www.nagoya-u.ac.jp/about-nu/public-relations/researchinfo/upload_images/20210825_i.pdf
● タンパク質デザイン用機械学習モデルとして、ベイズ学習モデルを採用することで、タンパク質デザインをパラメータ推定問題として規定した。パラメータ推定にはMCMCを使用。尤度関数は、グランドカノニカル分布(大分配関数)を使用。事前分布に、「タンパク質の自由エネルギーを最小にする配列の出現確率が最も高くなる」という仮説を反映した。サンプリング法は、ギブス・サンプリングを使用(事前分布が既知であるため、使用可能)。
 パラメータ推定問題としたことで大幅な計算時間短縮を達成したが、精度には課題を残す。ただし、「タンパク質表面の水和効果をコントロールする要素を取り入れることで、タンパク質を正しくデザインできるケース」では、この学習モデルが有効であることを示した。

(5) ベイズ最適化を用いることにより、短時間でパラメータ同定を完了
◎ パラメータ同定
○ 日付  2021.8.20
○ 研究主体:名大
○ 出所: https://www.nagoya-u.ac.jp/about-nu/public-relations/researchinfo/upload_images/20210820_ps.pdf
● 少数標本と最低限の仮定にもとづいて確率的な予測を行える「ガウス過程回帰」を駆使することにより、20件のデータから相関情報の予測に成功した。また、ベイズ最適化を用いた結果、10,500通りの中から20回以下の検討により、マイクロフロー合成法のパラメータ同定に成功した。
 ベイズ最適化は、ブラックボックス関数(=実験)を含むシステムを最適化することを目的とした機械学習である。可能な限り少ない試行で、ブラックボックス関数を最適化する。これが、ベイズ最適化の基本思想である。

(4)新規プロトン伝導性電解質を発見 
◎ 物性予測
○ 日付 2021.08.05
○ 研究主体:理研 九州大 岐阜大 宮崎大
○ 出所:https://www.kyushu-u.ac.jp/ja/researches/view/644
● プロトン伝導性電解質である未知材料を、1 回の実験で発見するAIモデルを開発した。詳細は以下の通り:(1)既存材料のプロトン濃度データにより、学習データを構築した。次に、(2)学習データを、①構成元素情報を示す記述子、②プロトン導入反応の物理化学的知見、と共に学習させた。そして、(3)未知材料のプロトン濃度の温度依存性を予測する AI モデルを開発した。

(3)証拠理論を利用した材料開発 
◎ データ生成 
○ 日付  2021.07.21
○ 研究主体:JAIST 産総研 物材研
○ 出所: https://www.jaist.ac.jp/whatsnew/press/2021/07/21-1.html
● 「証拠理論(Dempster-Shafer理論)」を適用し、未知の体心立法構造の金属薄膜を合成することに成功した。具体的には、以下の通り:(1)複数のデータ源から、未知の組成が存在する可能性を示す「証拠」を収集・結合。(2)その証拠に基づいて新規材料の組成を提案した。

(2)機械学習で準結晶を形成する化学組成を同定 
◎ 物性予測
○ 日付 2021.07.21 
○ 研究主体:東大 東京理科大 統計数理研究所
○ 出所:https://www.tus.ac.jp/today/archive/20210721_0901.html
● 化学組成のみを入力とする機械学習モデルが、(1) 経験則(1原子当りの平均遍歴電子数が特定の値をとる組成で安定化する、というヒューム=ロザリーの電子濃度則)を再発見した。(2)準結晶の相形成に関する法則(ファンデルワールス半径や電気陰性度等に関する、5つの単純な数式で表される)を明らかにした。

(1)構成元素の情報のみから熱伝導率を予測
◎ 物性予測
○ 日付 2021.07.08
○ 研究主体:名古屋工業大学
○ 出所:https://www.nitech.ac.jp/news/press/2021/9066.html
● ハーフホイスラー化合物を構成する原子の「原子半径および原子質量」から格子定数を学習し、その後に熱伝導率を学習するという機械学習モデルを構築した。この学習モデルは、熱伝導率を低コストかつ高精度で予測できた。
 学習データは、様々な元素を含んだ多種類のハーフホイスラー化合物に対して、熱伝導率を第一原理計算により計算することで準備した。

Appendix1 機械学習による薬物放出速度の予測
1 前捌き
 加トロント大学の研究者は、 機械学習ツールが薬物放出速度を正確に予測できるかどうかを調査した論文を発表した(23年1月10日)[*A-1]。(以下、*A-1を本論文と呼ぶ。)
 慢性疾患の治療における最も有望な治療戦略の1つと考えられている長時間作用型注射剤(LAI)は、長期間にわたって薬物を放出するように設計される。しかし、過去20年間で、高分子LAIはわずか30品目しか承認されていない。これは、同時期に承認された経口薬が数千品目であるのとは対照的である。所望期間にわたって最適な量の薬物放出を達成するには、膨大な試行錯誤が必要で、LAI開発における重要なボトルネックとなっている。
 トロント大の研究者は、機械学習(ML)によるアプローチが、このボトルネックを解消できるのではないか?という仮説を検証することにした。

2 モデルの評価及び結果
(1) データセット
 MLモデルの学習に用いたデータセットは、本論文著者のグループ・他の研究グループによる既発表の研究から構築されている。本論文著者のグループが行った研究では、球状および円柱状のポリマー製LAIが含まれている。外部からのデータは、Web of Scienceの検索エンジンとキーワード「高分子微粒子」と「ドラッグデリバリー」で特定される。データセット構築のために選択された各研究論文では、それぞれの製剤からの薬物のin vitro放出が特徴づけられた。
 最終的なデータセットは、様々な低分子薬剤、ポリマー材料、LAIの記述子、in vitro薬剤放出プロファイル、薬剤放出プロファイルが生成された実験条件から構成されている。合計で、43種類の薬物とポリマーの組み合わせによる181種類の薬物放出プロファイルと3783個の分数放出測定値が含まれている。
 LAIは、PLGA、ポリ乳酸(PLA)、ポリカプロラクトン(PCL)などの市販のポリマーから形成されており、分子量やラクチド-グリコリド比は様々である。

(2) 記述子
 様々なMLモデルのLAI処方を記述するための特徴量として、17の分子的および物理化学的記述子が、ドメイン知識に基づいて最初に選択された。これには、薬物、ポリマー、LAIシステムの物理化学的特性を記述する特徴量、およびin vitro放出研究が実施された実験条件を説明する特徴量が含まれている。
 モデルは特定のLAIに対する各薬物放出プロファイルについて、(特徴量である)薬物放出測定のタイムポイントのみを変化させ、他のすべての特徴量を一定に保つように訓練された。

(3) 評価した機械学習モデル
 MLを使用してLAIからのin vitro薬物放出を予測する過去の取り組みは、もっぱらニューラルネットワーク(NN)ベースのモデルを検討し、狭い応用領域を調査してきた。低データ領域での教師あり学習タスクにNNを使用することは、通常、疎なデータ問題に適しているツリーベースモデルやガウス過程などの代替MLアルゴリズムと比較して、過学習のリスクを増加させる可能性がある。
 そのため、❶重回帰、❷ラッソ回帰、❸部分的最小二乗回帰、❹決定木、❺ランダムフォレスト、❻Light勾配ブースト・マシン(LGBM)、❼エクストリーム勾配ブースト(XGB)、❽自然勾配ブースト(NGB)、❾サポートベクターマシン回帰(SVR)、❿k-近傍法(kN)および⓫ニューラルネットワーク(NN)、の11種類のアルゴリズムで学習・評価を行った。

(4) モデルの評価法
 (複数のアルゴリズムを比較して、その中から最適なアルゴリズムを決定するので)選択されたMLモデルは、「入れ子構造の交差検証戦略」を使用してトレーニングおよび評価された。各MLモデルについて、データセット中の薬剤・ポリマー群の20%がテストセットとして、ランダムに選択された。残りの80%はモデル開発に使用された。モデルのトレーニングとハイパーパラメータのチューニング (内部ループ)では、各モデルを k分割交差検証(k=10)でハイパーパラメータを最適化する手順を実施した。
 モデルのハイパーパラメータは、ランダムなグリッド・サーチを使用して調整される。目的関数は、薬剤とポリマーの組み合わせの k分割グループにわたる平均モデル性能とされた。内側ループで「最適」なハイパーパラメータを選択した後、モデル評価(外側ループ)でテストセットに対してモデルを評価した。この入れ子構造の交差検証を各MLモデルに対して10回実施し,ランダムに生成されたテストセットに対する平均的なモデル性能を決定した。
 すべてのケースで、モデル性能は平均絶対誤差(MAE)=予測薬物放出速度と実験値との平均絶対差で評価された。

(5) 結果
 検証の結果、ツリーベースのモデルは、平均して他のモデルよりも正確であった(MAE< 0.16)。中でも、LGBM[*A-2]モデルのパフォーマンスが優れていた:①LGBMモデルは、全体的な予測精度が最も高く、内側ループと外側ループでそれぞれ0.125(±0.039)と0.114(±0.036)のMAE値が得られた。②LGBMモデルはテストデータの絶対誤差の値の分布が最も狭い。③LGBMモデルで生成された絶対誤差の値は、他のモデルと比較して統計的に有意な差がある(p値 が5%未満)。
 また,比較のため,入力特徴量として薬物放出の初期測定値を含まない(すなわち,T = 0.25,T = 0.5,T = 0.1の特徴を含まない)一連の ML モデルの学習と評価も行った。few-shotモデル(※)は、予測を行う前に最初の数点の実験値を測定する必要があるが、その結果、より精度の高いモデルが得られることが多い。本研究では、薬物放出の初期測定値を追加すること(=few-shotモデル)は、優れた性能をもたらすことがわかった。
※ 初期実験値を入力とするモデルを few-shotモデル、入力としないモデルをzero-shotモデルと呼ぶ。

(6) 考察
 LGBMのようなツリーベースのモデルの実装は、LAI製剤の開発に関わる時間とコストを削減する可能性を持っている。これは、中規模のデータセット(~10Kサンプル)に対して、ツリーベースのモデルが依然として最先端であることを示した最近の研究と一致する。
 つまり、データセットのサイズが小さく(<4000観察)、データポイントのほとんどが薬剤またはポリマーの特性である変数を含んでいたため、ニューラルネットワークモデルのパフォーマンスが冴えなかったと考えるべきである。製剤開発におけるMLの利用が増えるにつれて、より大きなデータセットが利用可能になり、ニューラルネットワークの有用性が増すと予想される。
 最新のML技術の強みは、モデルがどのようにして予測に至ったかについての洞察を提供する能力である。本論文では、MLモデルがLAIからのin vitro薬物放出を高い精度で予測するために使用できるだけでなく、そのようなモデルの解釈が新しい製剤候補の設計を導くために使用できることを実証している(ただし、割愛)。
[参考] 山梨大・千葉大の研究グループは、川崎病臨床データから、IVIG(大量免疫グロブリン静注)不応を予測する機械学習モデルを構築した(発表は、23年3月。論文[*A-8]発表は23年1月)。3つのモデル(LGBM、XGB、ランダムフォレスト)を対象に、3つの指標(AUC、感度、特異度)で評価した結果、LGBMが最善であった。

3 補記:MLモデルの実装
 機械学習モデルは、すべてPythonで構築され、評価された。ニューラルネットワークモデルは TensorFlow のバックエンドで Keras パッケージを使用して構築した。LGBM モデルは lightGBM パッケージ、XGB モデルは XGBoost パッケージ 、NGB モデルは NGBoost パッケージ、を使用した。その他のモデルは 、Scikit learn ライブラリを使用して構築した。
 すべての場合において,ML モデルを学習する前に、データを標準化するためのデータ前処理を実施した。これは,Scikit learn ライブラリで利用可能な、標準スカラーパッケージを使用して行われた。MLモデルのハイパーパラメータは、Scikit learnのランダム・グリッドサーチ・パッケージを使用して調整され、負の平均絶対誤差メトリックが採用された。

Appendix2 新しい、深層学習に基づく変分モンテカルロ法

【1】論文の主張
 墺ウィーン大学の研究者他が、「深層学習に基づく変分モンテカルロ法の新手法を開発し、類似する他の手法より優れた結果を出した」と主張する論文[*A-3](以下、本論文)を発表した(arXivにて22年10月11日公開)。「物理的な事前知識が多すぎると、最適化が阻害され、精度が低下する」ことを示した点が、面白い。

【2】学術的な整理
 本論文の手法(本手法)は、従来の「深層学習に基づく変分モンテカルロ法」の一つであるFermiネットを改善している。改善点の一部は、これまた類似手法であるPauliネットの一部を取り入れている。そこで、先行例として、両者を簡単に整理する。
 なお、Pros&Cons的にまとめると、Fermiネットは通常 Pauliネット よりも低い(つまりより正確な)エネルギーに到達するが、 Pauliネットは、より速く収束する。

(0)Slater-Jastrow-backflow型試行波動関数
 まずは出発点として、各論文で共通して使われている試行波動関数について、整理する。多体電子状態を記述する試行波動関数の中で、次の㊀×㊁×㊂が、(スタンダードである)Slater-Jastrow-backflow型試行波動関数である。㊀×㊁は、Slater-Jastrow型試行波動関数と呼ばれる。
 ㊀ベースライン:平均場近似(ハートリー・フォック近似)のSlater(スレーター)行列式(電子の反対称性制約を。数学的にシンプルに表現するために、行列式を用いる)。
 ㊁相関の考慮:電子の実空間配置に対して”近距離相関”を取り入れるために、Jastrow(ジャストロー)因子を、スレーター行列式に掛ける。
 ㊂電子軌道の”節(面)”の最適化:数学的に言うとバックフロー変換は、「スレーター行列式を構成する単電子軌道の座標を、仮想的な座標系に変換」する。物理的な意味合いは、「近傍の電子の位置に依存する量だけ、全ての電子の位置を移動させる」。なお、節(節面とも言う)とは、電子軌道(原子軌道とも言う)における電子が存在しない部分である。

(1)Pauliネット
 独ベルリン自由大学、ベルリン工科大学他の研究者が開発した。最初の論文はarXivに投稿[*A-4]され、最終的には、natureに投稿された[*A-5](こちらは23年1月時点で、オープンアクセスではない)。以下の内容は、[*A-4]に寄っている。
 Pauliネットは、SchNet[*A-6]というグラフ畳み込み深層ニューラルネットワークをベースにしており、 『ジャストロー因子とバックフローを、 ニューラルネットワークで表現』している。
 ベースラインの波動関数には、多参照ハートリーフォック法で得られる電子軌道を用いる。具体的には、小さな完全活性空間を持つ多参照ハートリーフォック(HF)計算を用い、線形係数の大きさに基づいて、最も支配的な行列式とその軌道を選択する。HF計算で得られた単電子軌道は、その後Pauliネットの入力として用いられ、学習中はバックフロー変換によってのみ修正される。バックフローは、単電子軌道に多電子関数を乗じる形式をとっている。
 加藤のカスプ条件は、直接Pauliネットの関数形に組み込まれている。 ジャストロー因子とバックフローは、カスプがないものしている。
 本論文では『Pauliネットは、物理的な事前知識を最大化することに重点を置いている。ニューラルネットワークは、比較的小さな(約100kの重み)ネットワークを使用している』と総括している。

(2)Fermiネット
 Fermiネットという通り名で知られるFermionic Neural Networkは、グーグル傘下の英ディープ・マインドの研究者他がフィジカル・レビューに投稿した論文[*A-7](以下、F論文)において、お披露目された(2020年9月16日。ただし、それ以前にarXivに投稿されている)。F論文で著者たちは、「スレーター-ジャストロー-バックフロー型試行波動関数を使用した変分量子モンテカルロ法(VMC)の精度を大幅に向上させることに成功した」と主張した。
 Fermiネットは、スレーター行列式を単電子軌道で構成しない。単電子軌道を(反対称性制約さえ満たせば、何でも良いので)反対称性制約を満たす多電子関数で置き換える。F論文では、この多電子関数を順列不変関数(permutation equivalent function)と呼んでいる。スレーター行列式は、順列不変関数からなる行列式に置き換わる。そして『順列不変関数を、ニューラルネットワークで構築』する。
 ニューラルネットワークで行列式を構成することで、行列式の表現力が増す、と主張する。単一スレーター行列式の代わりに複数スレーター行列式を使うことで表現力を増すのではなく、ニューラルネットワークを使うことで表現力を増している、と解釈できるだろう。また、バックフロー変換は、位置座標のみならず、スピン座標も変換する。
 最終的なアウトプットである波動関数は、先にあげた多電子関数(順列不変関数)に、パラメータ付きのenvelope(包絡線)関数Ωを掛けることで、求める。envelope によって、波動関数が原子核から遠く離れてゼロになるという境界条件が強制される。FermiネットでのΩは(Pauliネットとは異なり)、指数関数の和で表現されており、Jastrow因子が考慮されている。
 活性化関数は、tanh関数を使用。最適化アルゴリズムは、クロネッカー因子分解(Kronecker-factored approximate curvature;KFAC)(の修正版)を使用している。また、加藤のカスプ条件は、明示的に組み込まれていない。

【3】本論文の成果
(1)本論文の問題意識
 本論文は、次のように論点整理している:深層学習-変分モンテカルロ法(VMC)における最初のステップは、 生の(つまり、バックフロー変換などしていない)電子の座標rと原子核の座標{RI}から適切な特徴量を計算することである。特徴量は3つの特性を持つ必要がある。①物理的な波動関数を表現するのに十分な表現力を持っていること。②幾何学的な変換に対して不変であること。③特徴量は粒子の局所的な環境に依存することが望ましい。
 その上で『公開されたアーキテクチャは、これまでのところ、この3つの点すべてに対処できていない』とする。具体的には、❶Pauliネットは、特徴量として距離のみを使用し、(それゆえに)特徴量を不変で局所的にするが、十分な表現力を持たない、❷Fermiネットは、差分と距離(=|差分|)をそのまま特徴量とし、表現力が豊かで局所的であるが、回転に対して不変でない、と述べる。
 また、以下の問題があるとする:❸Pauliネットのアーキテクチャは2粒子相互作用を重視している。❹Fermiネットのアーキテクチャは、1電子埋め込み(ニューラルネットワークの入力として、単一電子の特徴量)を重視している。さらに、電子-原子核相互作用を明示的に含んでいない。

(2)本論文のアイデア
 本論文は、全ての原子核を中心とした局所座標系を使い、その局所座標系で電子・原子核の差分(及び距離)を評価することを提案している。そうすることで、(1)の問題点①~③を解消したとする。
 そして、❸・❹に対して本論文の手法は、1電子埋め込みと2粒子相互作用の両方を適切にモデル化しているため、Pauliネット、Fermiネットのどちらよりも表現力が高いと主張する。
 基本フレームは、Fermiネットを踏襲している。envelope(包絡線)関数は、指数関数の和で表現する。ニューラルネットワークは、1電子埋め込み(=1次電子ストリーム)と、2粒子間相互作用(同じスピンを持つ電子同士、異なるスピンを持つ電子同士、電子と原子核の相互作用)をモデル化した3つの補助ストリームで構成されている。

(3)セッティング
 レイリー・リッツの変分法を使うと、損失関数=パラメータ付き波動関数によるハミルトニアンの期待値、と定式化される。本論文では、メトロポリス・ヘイスティング法を使ったモンテカルロ積分で、期待値計算を行う。活性化関数は、Fermiネットと同様に、tanh関数を使用している。
 最適化アルゴリズムは、Fermiネットと同様に、クロネッカー因子分解を用いた近似法(Kronecker-factored approximate curvature;KFAC)を使用。ダンピングは、1×10-3。ノルム制約は、3×10-3。バッチサイズは、2048。初期学習率は、5×10-5。スケジューリングは、初期学習率に減衰率をかける(減衰率は、(1+t/6000)-1)。
 KFACは、「カルバック・ライブラー距離を最小化する方向へのパラメータ更新を行う、二次最適化手法である」自然勾配法の近似手法の中で、最もポピュラーな手法である。KFACは、フィッシャー情報行列ℱの逆行列を計算する必要がある。逆行列計算の実行を担保するために、ℱの対角成分に定数を加えることを、ダンピング(damping)という。

(4)本論文の成果
 本論文では、以下🈩、🈔のように、成果をまとめている。
 🈩 本手法は、従来の変分法よりも大幅に低い=より正確なエネルギー、を得ることができた。Fermiネットー変分モンテカルロ法との比較では、大幅に低いエネルギーに到達するだけでなく、3~4倍少ない学習ステップで、各ステップを40%高速化することができた。ニューラルネットワークのアーキテクチャを改善した上で、ハイパーパラメータを微調整し、収束に必要な最適化ステップの数を減らした。F論文で提案されたハイパーパラメータから出発し、KFAC のノルム制約を3倍、学習率を0.5倍、学習率の減少時間を0.4倍減少させることに成功した。
 (約10倍の計算資源を使用する)拡散モンテカルロ法と比較すると、N2やシクロブタジエンなどの分子で同等以上の精度を達成。ベンゼンでは、やや低い精度になった。CCSD(T)(Coupled Clusters Singles and Doubles(Perturbative Triples):1励起と2励起を完全に含み、3励起は摂動論で計算したクラスター結合法)などの非変数的手法では、一部の分子で、本論文の計算より”わずかに”低いエネルギーが得られるが、これらの手法は上界や不確かさの保証がない。

 🈔 多くのアプリケーションでは、絶対的なエネルギーが重要なだけでなく、例えば化学結合を切断するのに必要なエネルギーを決定するために、異なる分子や形状の間のエネルギーの違いが注目される。本手法は、これまでのすべての研究よりも実験的な絶対エネルギーに近く、Fermiネット-拡散モンテカルロ法の結果とほぼ同じである。
 相対エネルギーを比較すると、本手法は他のすべての深層学習ベースの手法と、単参照法であるCCSD(T)を上回り、多参照法で計算コストの高いr12-MR-ACPF(r12-多参照averaged coupled-pair functional)法にのみ負けた。絶対エネルギーと同様に、相対エネルギーも他の深層学習ベースの手法よりも大幅に早く収束し、50000エポック後に相対エネルギーが、ほぼ完全に収束することが分かる。

 🈪 機械学習関連の研究論文で、通常行われるアブレーション研究について、以下のようにまとめている:❶ ブロック対角の行列式ではなく、密な行列式を使用した。計算コストとパラメータ数を増加させた反面、節面をより良く表現できた。❷ハイパーパラメータを変更し、処理能力を2倍程度向上させた。❸電子の埋め込みを強化した。つまり、1電子埋め込み(=1次電子ストリーム)と、2粒子間相互作用(同じスピンを持つ電子同士、異なるスピンを持つ電子同士、電子と原子核の相互作用)をモデル化した。パラメータ数と計算コストが適度に増加している。❹ 局所的で不変な特徴量に切り替えた。つまり、全ての原子核を中心とした局所座標系を使い、その局所座標系で電子・原子核の差分(及び距離)を評価した。❺envelopeの重みの初期化を、1からZ/n変更した(Zは核電荷、nは主量子数)。

【4】まとめ
 本論文は、次のように締めくくっている:”驚くべきことに”、CASSCF(Complete Active Space Self Consistent Field、完全活性空間自己無撞着場法)を参照法とした場合、より単純なハートリーーフォック法と比較して、精度が低下することが観察された。この効果は、事前学習のステップ数を増やすとさらに顕著になる。これは、過剰な事前学習が、変分最適化の際に克服しにくいバイアスを導入することを示唆している。対称性やカスプ条件などの厳密な物理的制約については、一般にモデルに含めることが有効であると思われる。一方、(CASSCFのような)既存の近似解からの事前知識については、状況はより微妙である。

Appendix3 分子特性予測においても、文字列ベースの学習モデルが、グラフニューラルネットワークモデルを凌駕した、と主張する論文

【0】はじめに
 米バイオテクノロジー企業モデルナは、メッセンジャー RNA(mRNA)創薬において、量子コンピューティングや生成AIを探求する契約を、IBMと締結することを発表した(23年4月20日)[*A-9]。モデルナの目標は、体内移動の際にmRNAを保護する脂質ナノ粒子と、mRNA を最適化すること、とされている。
 生成AIについては、IBMによる分子化学計算用生成AIモデルMoLフォーマーを使用する。以下、IBMがarXivに投稿(22年12月14日)したプレプリント[*A-10](以下、本論文)を基に、MoLフォーマーについて整理する(査読付き論文は、nature machine intelligenceにて、22年12月21日公開[*A-11]。IBMの公式ブログ[*A-12]でも簡単に解説されている)。

【1】本論文の主張
 IBMは、次のように主張している:『分子の文字列表現』で事前学習されたトランスフォーマ・エンコーダが、量子力学的特性を含む様々な分子特性の予測において、グラフニューラルネットワーク(GNN)と競合することを初めて示した。これは、分子機械学習における標準的なデータセットを使って、標準的なベンチマーク・テストを実施した結果である。以下、この内容を説明する。

【2】本論文のアイデアの背景
 分子はしばしば、構造式と呼ばれる(2次元に縮約させているとは言え、)トポロジー情報を保持した表記法で表現される。その理由は、分子特性がトポロジー情報に依存するからに他ならない。メッセージ・パッシングと捉えることができるGNNは、グラフの構造を通して、トポロジーを取り込むことができる。このように、グラフがトポロジーを意識するのに対し、文字列ベースの表現はトポロジーは意識しないと考えられている。そのため、文字列ベースの学習モデルは分子特性の予測に採用されているものの、一般的にGNNに劣る、と考えられてきた。
 ただ、分子特性予測におけるGNNには、学習データの不足という問題がある。これは、(分子のラベル)アノテーションを必要とする、化学物質からなる空間のサイズが1060~10100であることから、かなり深刻である。
 従って、様々な分子特性予測タスクに一般化できる分子表現学習が必要とされていた。一方で、❶大規模なラベルなしコーパスで事前学習し、その後❷タスクにとらわれない言語表現を学習する「トランスフォーマ・ベースの生成モデル」が、様々な分野で成功を収めていた。
 そこで、トランスフォーマ・ベースの生成モデルを、分子表現学習に適用してみたら、どうなるだろうか、という興味が、本論文の背景となっている(と思われる)。

【3】事前整理
(1) 学習データ
 MoLフォーマーの事前学習に用いたデータは、PubChemとZINCデータセットから得た「11億個」のラベルなし分子のSMILESシーケンスである。ここで、PubChemは、米NCBI(米国立生物工学情報センター)が提供するデータベースで、化学・生物学文献から小分子を抽出している。ZINCは、カリフォルニア大学サンフランシスコ校が開発したデータベースで、分子の生物学的に関連性のある3次元的な形態を表すことを目的としている。
 また、SMILES(simplified molecular input line entry system)は、化合物の構造を図形ではなく、”文字列”で表記する「標準的」表現法である。先に述べた、『分子の文字列表現』とはSMILESのことである。

(2) SMILESについて
 本論文では、まずSMILESを、以下のように説明している:
 SMILESは、分子グラフを深さ優先のスパニングツリー(全域木)で走査し、各原子、結合、ツリー走査の決定、破断サイクルのシンボルを生成することにより、分子の文字列表現を定義している。したがって、結果として得られる文字列は、分子グラフの全域木を平坦化したものに相当する。SMILESでの学習は、一般的にグラフを含む他の構造表現方法よりもコンパクトであるため、分子の特性予測に広く採用されている。
 次に、SMILESと、その代替表現について、次のように述べて(SMILESを生成モデルの入力として用いる妥当性を主張して)いる:
 SMILESの文法は複雑で制約が多く、適切な文字セットを超えるほとんどの配列は、うまく定義された分子に属さない。(そして、部分構造検索ができるようにSMILESを拡張した)SMARTSやSELFIESのような文字列ベースの代替表現が存在する。(しかし)学習された表現空間における分子最適化タスクに焦点を当てた結果、特に言語モデルがより高度な場合、最適化能力とサンプル効率の点で、SMILESはSELFIESに対して明らかな欠点がないことが示唆された。
 なお、一般的には、SMILESは生成モデルの入力として問題があり、故に(ザパタ・コンピューティングの創業者で、変分量子固有値ソルバーの開発者でもある)アラン・アスプル=グジックはSELFIESを開発した、というのがコンセンサスである。

(3) MoLフォーマーとは?
1⃣ 概要
 ここで改めて、MoLフォーマーについて説明する。MoLフォーマー(MoLFormer)は、Molecular Language transFormerの略であり、言わずもがなトランスフォーマーの一種である。トランスフォーマーの仲間は、ReFormer、RoFormer、PerFormerのように「●●Former」という名称であることが多い。MoLフォーマーの目的は、文字列データ(SMILESデータ)から普遍的な分子表現を学習し、その表現を様々な下流の分子特性予測タスクで評価することである。
 面倒くさいことに、IBMは本論文で、 MoLフォーマー中で最も性能の良いものを、MoLフォーマーXLと命名しており、このMoLフォーマーXLをGNNモデルと比較している(MoLフォーマーXLは、11億個もの分子を含む大規模なコーパスに学習させている)。
2⃣ 枠組み詳細
 MoLフォーマーXLは、SMILESシーケンス内の一定割合のトークンを学習中にランダムに隠し(マスクし)、それらのトークンを予測するmasked言語モデルのフレームワークを用いて開発されている。マスクした(masked)言語モデルは、自己教師あり学習を利用し、文脈学習を可能にする。
 MoLフォーマーXLは、より良い文脈学習と高速な学習を可能にするため、絶対位置埋め込みに代えて、「回転位置埋め込み」を用いている(その意味ではRoFormerの亜種と言って良いかもしれない)。IBMによれば、「(絶対位置埋め込みとは対照的に)回転位置埋め込みを用いて事前学習を行った場合、収束が速くなることが確認された」。
3⃣ ハードウェア効率
 MoLフォーマーの売りの一つは、最大16台のGPU(NVIDIA V100)で、11億の分子を学習できることである。これは、❶アテンションを線形化して計算量を削減したこと、及び❷バッチの適応的バケッティングのおかげとされている(加えて、PyTorch LightningとNVIDIA Collective Communication Libraryで提供されるオープンソースの並列化)。GPU16個の場合、MoLフォーマーXLの事前学習(4エポック)を完了させるのに必要な時間は、208時間であった。
 これに対して、バケッティングと線形アテンションを使わずに、同じ時間でトレーニングを完了するには、1000以上のGPUが必要と推量している。

【4】本論文の結果と限界、そして洞察
 分類タスクと回帰タスクで、MoLフォーマーとGNNを比較している(正確には、GNN以外のモデルも含まれている)。
(1) セットアップ
1⃣ ベンチマークデータ
 本論文では、両タスクにおいてMoleculeNetで定義された学習、検証、テストデータの分割を使用している。MoleculeNetとは、分子機械学習のための標準的なベンチマークデータである。
❶分類タスク
 6つのデータセットBBBP(Blood brain barrier penetration dataset)、ClinTox(Clinical trial toxicity of drugs)、SIDER(Drug side effect on different organ classes)、Tox21(Toxicity measurements on 12 different targets)、HIV( Ability of small molecules to inhibit HIV replication)、BACE(Binding results for a set of inhibitors for β – secretase 1)を選択している。前者4つは生理学的データセットで、後者2つは生物物理学的データセットである。
❷回帰タスク
 QM9( 12 quantum mechanical calculations of small organic molecules with upto nine heavy atoms)、QM8( 12 excited state properties of small molecules)、ESOL(Water solubility dataset)、FreeSolv( Hydration free energy of small molecules in water)、Lipophilicity(Octanol/water distribution coefficient of molecules)という5つのデータセットを選択している。前者2つは量子力学的データセットで、後者3つは物理化学的データセットである。
2⃣ 比較対象とした学習モデル
❶分類タスク
  比較対象とした学習モデルは、以下の12である:㊀5つの教師あり学習モデル+㊁6つの自己教師あり学習モデル+事前学習済み言語モデル(ChemBERTa、トランスフォーマーの1種)。具体的には、以下の通り。
 ㊀教師あり学習モデル  ランダムフォレスト、サポートベクターマシン、MGCN(マルチレベル・グラフ畳み込みニューラルネットワーク)、D-MPNN(有向メッセージ・パッシング・ニューラルネットワーク)、及びDimeNet(directionalメッセージ・パッシング・ニューラルネットワーク)。
 ㊁自己教師あり学習モデル:GIN(Graph Isomorphism Network:GNN)、N-gramグラフ、(分子表現用GNN。N-gramは自然言語処理におけるn-gramと同じ意味。)MolCLR(Molecular Contrastive Learning of Representations:分子表現用GNN)、GraphMVP-C(MultiView Pre-training:分子表現用GNN、3次元情報を取り込む)、GEOMGCL(GEOmetric Graph Contrastive Learning:分子表現用GNN、分子の幾何学的特徴を通して3次元情報を取り込む)、GEM(Geometry Enhanced Molecular:分子表現用GNN、分子の幾何学的特徴を通して3次元情報を取り込む)。
 評価指標としては分類タスクで標準的な、(ROC曲線の)AUCを採用している。
❷回帰タスク
 グラフ畳み込みネットワーク(GCN)、attentive-FP(分子表現用GNN。FPはfingerprint:分子指紋を意味する)モデル、MPNN(メッセージ・パッシング・ニューラルネットワーク)を比較対象とした。
 評価指標としては回帰タスクで標準的な、MAE(平均絶対誤差)とRSME(自乗平均平方根誤差)を採用 している。詳細に述べれば、QM9とQM8 にはMAEを、ESOL、FreeSolv及びLipophilicityには、RSMEを使用。

(2) 結果
❶分類タスク
 6つのデータセットに対して、MoLフォーマーXLが最善であったデータセットは3つ(BBBP、ClinTox、SIDER)。Tox21、HIV、BACEは僅差で2位。従って、非常に高性能と考えられる。
❷回帰タスク
 5つのデータセットに対して、MoLフォーマーが最善であったデータセットは5つ。すなわち全てにおいて、MoLフォーマーがベストであった。極めて高性能と考えられる。

(3) 限界
 分類タスクと回帰タスクにおける好成績の一方で、限界も示した。QM9の内部エネルギー、エンタルピー、自由エネルギーを回帰予測するタスクにおいて、MoLフォーマーXLの性能は、SchNet(グラフ畳み込みニューラルネットワーク、PauliNetのベースとなったモデル)及びDimeNetと比較して惨敗である。最善のDimeNetと比べて、MoLフォーマーXLの値は10倍も大きい。
 この理由としてIBMは、量子化学エネルギー予測において、分子のトポロジー情報が重要な役割を果たしているため、と結論している。

(4) 洞察
1⃣ 化学構造の類似性を示唆する
 谷本距離を用いて推定した分子指紋と、ユークリッド距離を用いて推定したMoLフォーマーXLによる埋込みとの、ペアワイズ類似度の相関関係を分析した。その結果、ChemBERTaと比較して、MoLフォーマーXLの埋め込みは、既知の分子類似性尺度との相関が高いことが示された。IBMによれば、この結果は「これは、MoLフォーマーの埋め込みが、化学構造の類似性を示唆するものである」。 2⃣ 学習した表現に、構造情報や物性情報が現れる
 ❶QM9テストセットのアテンションの値と、❷(QM9ベンチマークで提供される)分子内の原子間距離との、コサイン類似度を分析した。IBMによれば、その結果は「MoLフォーマーXLが、対応するSMILES配列から分子構造情報を、かなりの程度まで復元できることを示唆している」。そして、この結果は、「SMILESの大規模なコーパスに対する事前学習により、MoLフォーマーXLが、構造情報を含む化学物質の基本特性や、量子化学から生理学に至る様々な(下流)特性を学習できるようになったことに起因する」と解釈した。
 最後に、「大規模データで事前学習した、化学言語モデルが学習した表現に、構造情報や多様な物性情報が現れることを確認したのは、我々の知る限り、今回が初めてである」とまとめている。

【5】考察
 文字列ベース(のトランスフォーマー)で、グラフベース(のGNN)を上回る性能が出せたのはなぜか。それは、”創発”が生じたかどうかは別として、トランスフォーマーの「学習データ量が増大するほど、際限なく性能向上する」という驚くべき性質によると考えられる。【4】(4)洞察2⃣で示したように、IBMは、「MoLフォーマーは、多様な化学的性質を予測するのに十分な、化学的・構造的情報を正確に捉えることができた」と解釈している。
 ただし(言葉の表現は厳しいが)、分子機械学習用標準的ベンチマークで、高性能を示しただけであって、商業的インパクトを発生させたわけではない。実際、【4】(3)で示したように、原子化エネルギーの予測は、厳しい。確かなことは、十分な精度で、広大な化学空間を探索できる、ということであろう。この優位性を活かして、(モデルナとの協業では)有望な(mRNA)医薬品候補物質が発見されることを、期待したい。

 Appendix4 GNoME:熱力学的に安定な相を発見する材料探索モデルを構築した、と主張する論文
【0】はじめに
 グーグル・ディープマインドは、能動学習ベースの材料探索モデルGNoME(Graph Networks for Materials Exploration)を開発し、材料探索の効率を1桁向上させた、と主張する論文[*A-13](以下、本論文)を発表した(23年11月29日@nature)。従来の20万個から、1桁上がって、220万個の新規構造を発見した、とする。
 ちなみに、グーグル・ディープマインドは、約2週間前の23年11月14日にも(サイエンスにて)、大きな成果をアピールしていた。機械学習ベースの高精度天気予報モデルGraphCastである(こちらを参照)。GraphCastもGNoMEも、モデル・アーキテクチャはグラフ・ニューラルネットワーク(GNN)である。

【1】本論論文の主張
 本論文は、「熱力学的に安定な方向に向かって探索する能動学習を通じて、新規材料発見を可能にする最初のモデルを生み出した」と主張している。
 また、GNoMEデータを用いて学習された機械学習ポテンシャルによるゼロショット予測は、従来の機械学習ポテンシャルによるゼロショット予測を上回る、と主張する。

【2】GNoMEの詳細
(0) GNoMEの基本アイデアと基本アーキテクチャ
 最終的に、生成・合成可能な材料(結晶)は、熱力学的に安定している。対照的に、非晶質は熱力学的に不安定である。熱力学的に、より安定な状態を得るために、非晶質は自発的に構造を変化させる。この構造変化が、「緩和」と呼ばれる。緩和は必ずしも、1ステップで終了しない。(通常は?)数ステップを要する。つまり、熱力学的に安定している物質・材料(結果として、結晶)は、熱力学的に進行する可能性がある化学反応を、数ステップ経た先に存在する。そこで、熱力学的に進行する可能性を広く探索することで、新規材料を発見しよう、というのがGNoMEの基本的なアイデアである(と思われる)。熱力学的に進行する可能性は、ギブスの自由エネルギー変化量で、定量化(数値化)可能である。ギブスの自由エネルギー変化量が負になる化学反応が、熱力学的に進行する可能性のある化学反応である[*A-14]。
 GNoMEは、ギブスの自由エネルギー変化量が負になる方向へ探索をしていると思われる(本論文に、その旨、書かれているわけではない)。そして、実装するために能動学習が採用されており、複数回(6回)の探索が実施される。構造と組成の両方で、候補物質を作り出し、ギブスの自由エネルギー変化量を尺度として使い、反応が進行するかを判断していると思われる。候補物質のギブスの自由エネルギーが、既知の場合は、既存のデータベース(マテリアルズ・プロジェクト※)から引用する。未知の場合は、DFT計算で新たに求める。
 まとめを兼ねて図的に言い表すと、GNoMEは、3つのモジュールに大別できる。1つ目は、候補物質を生成して、化学反応が進行するかを選別(filtering)する「構造パイプラインと組成パイプライン」モジュールである。構造情報と組成情報の2つを使って、選別している(学習している)。2つ目は、第一原理計算でギブスの自由エネルギーを計算する、DFTモジュールである。最後の3つ目は、データベースモジュール(GNoMEデータベース)である。
※ マテリアルズ・プロジェクトとは、世界最大級の物質材料用第一原理計算結果データベースの一つである。米ローレンス・バークレー国立研究所の研究者が2011年からインターネットで公開しており、登録すれば、無償で利用できる[*A-14]。

(1) 「構造パイプラインと組成パイプライン」モジュール
 「構造パイプラインと組成パイプライン」モジュールは、GNNで実装されている。役割は、前述の通り、新規材料候補物質を生成し、選別を行うことである。
1⃣  構造パイプライン
 当該パイプラインでは、既知の利用可能な結晶に対して構造置換を行うことで、新規材料候補物質を生成する。従来の構造置換は、既知の物質に近い物質を生成するように行われるが、GNoMEでは逆に、既知の物質とは異なる物質が生成されるように、様々な工夫が凝らされている。「対称性を意識した部分置換(symmetry-aware partial substitution;SAPS)」という方法もその一つである。
 構造パイプラインGNNの入力は、結晶構造である。各原子は、グラフ内の単ノード(頂点)として表される。2 つの原子が原子間距離のカットオフよりも近い場合、グラフにエッジ(辺)が形成される。得られた構造は、ディープ・アンサンブルによる不確実性定量化を使用して、選別される。アンサンブルの使用は、汎化性能を上げるため、である。アンサンブル・メンバー数は、10である。
2⃣ 組成パイプライン
 組成パイプラインGNNの入力は、化学式である。 グラフ内ノードの全ペア間に、エッジが形成される。必要な場合は、非経験的ランダム構造探索(AIRSS)を用いて、ランダム構造を生成する。GNoMEでは、50 meV 以内であると予測される組成ごとに、常に 100 個の AIRSS 構造を生成する。

(2) DFTモジュール
 DFT計算(密度汎関数理論に基づく第一原理計算)は、原子近傍の電子密度分布や波動関数を正確に表現する、平面基底波法の一つである、射影補強波法(Projector Augmented Wave;PAW法)による第一原理計算である。交換相関汎関数は、PBE(パーデュー・バーク・エルンツァーホフ)関数で 、VASP(Vienna Ab initio Simulation Package)で実行された。

(3) GNNに関する情報
 学習率は、5.55×10−4であり、線形減衰学習率スケジュールが適用される。エポック数は、1,000。活性化関数は、Swishを使用する。エッジ埋め込みには、ガウス特徴量抽出器(featurizer)を使用(して、SMILES記法に変換)する。バッチ サイズは256で、すべてのノードとエッジの埋め込み次元は 256 。メッセージパッシングの反復数は、3回である。
 学習データには、2018 年のマテリアルズ・プロジェクトのデータを用いる。具体的には、約69,000個に及ぶ材料のスナップショットで学習される。

(4) ヒット率
 構造パイプラインと組成パイプラインのヒット率は、それぞれ 6% 未満と 3% 未満から始まるが、6回の能動学習を通じて、パフォーマンスは着実に向上する。最終的には、最安定構造のギブス自由エネルギーの予測誤差(平均絶対誤差(MAE))は 、11 meV/atomに改善され(以前は、28 meV/atom)、ヒット率はそれぞれ 80%(構造)と 33%(組成)を超えた。

【3】具体的な成果、比較結果
(1) 具体的な材料の発見
1⃣ 以前の研究では、マテリアルズ・プロジェクトと比較して、約 1,000 の層状材料が安定していることが示唆されている。GNoMEでは、これが、約 52,000に増加した。なお、層状材料は、エレクトロニクスおよびエネルギー貯蔵用の有望なシステムである。
2⃣ 遷移金属の除外やリチウムの割合などのフィルターを使用した、総合的なスクリーニング・アプローチに従って、GNoMEの発見の中から、528 個の有望なリチウムイオン伝導体が見つかった。これは、元の研究と比較して25 倍の増加である。
3⃣ GNoME は、リチウム/マンガン遷移金属酸化物に関して、安定した15の候補を新たに発見した。リチウム/マンガン遷移金属酸化物は、二次電池のコバルト酸リチウム(LiCoO2)に代わる有望なファミリーである。

(2) GNoMEポテンシャル
 イオン緩和からサンプリングされた大規模データを学習データとして、NequIP ポテンシャルを学習した。NequIP ポテンシャルは、GNNベースの機械学習ポテンシャルで、並進不変性と回転不変性を備えている(この性質は、E(3)同変[*A-15]と呼ばれる。不変と同変の違いは、ここでは無視した)。
 上記プロセスで生成された機械学習ポテンシャル「GNoMEポテンシャル」は、 分子動力学データではなく、イオン緩和についてのみ学習されているにもかかわらず、高い精度を示した。具体的に、まず簡潔に述べると、1⃣ある物質が超イオン伝導体であるかどうかの分類において、精度が高い、2⃣未学習材料に対するゼロショット予測で、精度が高い。ちなみに、パラメータ数は、1,624 万個。
0⃣ ハイパーパラメータ等
① 初期学習率 → 2 × 10−3
② 学習スケジューリング → 約 2,300 万ステップ後に2 × 10−4に減少。さらに約 1,100 万ステップ後に 5 × 10−5に減少。
③ オプティマイザー → Adam
④ バッチサイズ → 32
⑤ コスト関数 → エネルギーと力に対するフーバー損失の加重和
1⃣ ㊀GNoMEポテンシャルを使った第一原理計算(非経験的分子動力学シミュレーション)と、㊁NequIP ポテンシャルを使った結果を比較した。第一原理計算は、VASPを使用して行われた。ここでのNequIP ポテンシャルの学習には、M3GNet(という別の機械学習ポテンシャル)を学習するために用いたデータを使った。学習データのサイズは、およそ105程度である。
 ㊁の分類誤差が20%であるのに対し、同じデータサイズで㊀は、13%程度であった。データサイズが増加するにつれて、当然、誤差は減っていく。㊀についてのみ、108程度で、誤差6%程度が示されている。
 なお㊀について(本論文の図では)、ユニーク構造と中間構造という2種類について計算されているが、ここでの議論には無関係なので無視した。ユニーク構造とは、結晶が緩和する最初のステップ後の緩和構造、という意味である。中間構造とは(言語矛盾のように思えるが)、全ての緩和ステップ後の緩和構造という意味である。
2⃣ 原子に働く力(force)に関するゼロショット予測が3種類上げられている。評価指標は、自乗平均平方根誤差RSME(単位は、meV/Å)である。❶未知材料K24Li16P24Sn8に対して、先に上げた㊀と㊁が比較されている。㊀>㊁という結果である。 ❷Ba8Li16Se32Si8に対して、㊂ランダム初期化を使って予測された結果と、㊃GNoMEポテンシャルのゼロショット予測が比較されている。㊂で数百回学習した精度と㊃が同程度であった。❸銅、ゲルマニウム、リチウム、モリブデン、ニッケル、シリコンを対象に、3つの機械学習ポテンシャルでゼロショット予測の比較を行った。3つの機械学習ポテンシャルとは、M3GNet、CHGNet、GNoMEである。全てのおいて、GNoMEポテンシャルが最も精度は高かった。

【4】感想・・・
(1) GNoMEモデルが多くの新規構造を発見できた理由は(地味ながら)、まず、組み合わせ爆発を引き起こす「候補生成手順」にあると考えられる。
(2) 2番目の理由は、「熱力学的に安定した方向に、能動学習を使って探索を進める」というアイデアであると理解している。このような発想は、なかったということなのだろう。ちなみに富士フィルムは、薬剤候補となる活性化合物を増やすサービス「drug2drugs」を提供している[*A-16]。正確に言うと、標的タンパク質に生理活性を引き起こす既知の活性化合物の構造情報のみから、別骨格の活性化合物を増やすサービスである。提案する別骨格の化合物は、熱的に安定な化合物に限定されている。ただし、このdrug2drugsでは、既知化合物に"近い"化合物が生成される。化合物周辺のアミノ酸20種ごとの存在確率が等しい、という縛りを付けている。GNoMEは、真逆である。そうすると(元の広大な化学空間を探索するのと大差なく)、効率的な探索が無理に思えるが、それを解決する枠組みを提示したところに、イノベーションがあるということだろうか。
(3) なお、機械学習ポテンシャルとしてのGNoMEポテンシャルが優秀な理由は、学習データ(GNoMEデータ)が良質ということに尽きるのだろう。

【尾注】
*1 https://www.preferred.jp/ja/news/pr20210706/ 
*2 https://academist-cf.com/journal/?p=15800 
*3 データ解析で新しい材料を生む、日経ビジネス、2023.2.6号(No.2177)、p.49
*4 R.Gómez-Bombarelli et al.、Automatic chemical design using a data-driven continuous representation of molecules、https://pubs.acs.org/doi/10.1021/acscentsci.7b00572
 深層学習を使った創薬に関して、原点とも言える論文らしい(プレプリントがarXivに、最初に投稿されたのは2016年)。(41)と上記論文で大枠は、同じ。なお、上記論文の著者には、アラン・アスプル-グジックも名を連ねている。
*5 https://monoist.itmedia.co.jp/mn/articles/2310/24/news063.html#utm_medium=email&utm_source=mn-day&utm_campaign=20231025
*6 https://tech.preferred.jp/ja/blog/llm-plamo/

*A-1 Pauric Bannigan et al.、Machine learning models to accelerate the design of polymeric long-acting injectables https://www.nature.com/articles/s41467-022-35343-w
*A-2 2016年にリリースされたLGBMは、マイクロソフトが開発した。2014年リリースのXGB、2019年にリリースされたNGB(原論文(※)に、スタンフォード大、ハーバード・メディカルスクール、Unlearn.aiが等しく貢献したと書いてある)はオープンソース。(TransformerはGoogleであるが)Swin Transformerもマイクロソフトが開発しており、AI分野でも存在感を示している。Open-AIへの出資も気になる。
 米・加州サンフランシスコを拠点とするUnlearn.ai(https://www.unlearn.ai/)は、より小さく、より速い治験の実現をゴールとしている。そのために、患者のデジタルツインを作成し、(新しい)機械学習技術を開発している。22年4月シリーズBで、US$50milを調達した。
 ※Tony Duan et al.、NGBoost: Natural Gradient Boosting for Probabilistic Prediction、https://arxiv.org/pdf/1910.03225.pdf(update版)
*A-3 Leon Gerard et al.、Gold-standard solutions to the Schrödinger equation using deep learning: How much physics do we need? https://arxiv.org/pdf/2205.09438.pdf 
*A-4 Jan Hermann et al.、Deep neural network solution of the electronic Schrödinger equation https://arxiv.org/pdf/1909.08423.pdf 
*A-5 https://www.nature.com/articles/s41557-020-0544-y 
*A-6 Kristof T. Schütt et al.、SchNet: A continuous-filter convolutional neural network for modeling quantum interactions https://arxiv.org/pdf/1706.08566.pdf 
*A-7 David Pfau et al.、Ab initio solution of the many-electron Schrödinger equation with deep neural networks  https://journals.aps.org/prresearch/pdf/10.1103/PhysRevResearch.2.033429 
*A-8 Yuto Sunaga et al.、A simple scoring model based on machine learning predicts intravenous immunoglobulin resistance in Kawasaki disease https://link.springer.com/article/10.1007/s10067-023-06502-1
*A-9 https://newsroom.ibm.com/2023-04-20-Moderna-and-IBM-to-Explore-Quantum-Computing-and-Generative-AI-for-mRNA-Science
*A-10 Jerret Ross et al.、Large-Scale Chemical Language Representations Capture Molecular Structure and Properties https://arxiv.org/pdf/2106.09553.pdf 
*A-11 https://www.nature.com/articles/s42256-022-00580-7
*A-12 https://research.ibm.com/blog/molecular-transformer-discovery
*A-13 Amil Merchant et al.、Scaling deep learning for materials discovery、https://www.nature.com/articles/s41586-023-06735-9
*A-14 村岡恒輝・三浦章、エレクトロニクス用セラミックスの開発、評価手法と応用、https://eprints.lib.hokudai.ac.jp/dspace/bitstream/2115/79152/3/Final_20200804_HUSCAP_4.pdf
*A-15 E(n)とは、n次元ユークリッド空間における等長変換群を意味している。並進と回転に対する不変性を備えている場合は、E(3)と呼ばれる(らしい)。
*A-16 https://labchem-wako.fujifilm.com/jp/custom_service/products/95323.html


お問い合わせ
  

TOP