黒川コーポレートアドバイザリー｜コンサルティング記事

機械学習･深層学習ミーツ

|天気予報|🌏🌎🌍

Ⅰ-0　機械学習ベースの気象予測モデル●全体整理　FourCastNet　Pangu-Weather　GraphCast　Aurora

【0】全体の解題
　グーグル･ディープマインドは、自社開発した機械学習ベースの気象予測モデル(MLWP)GraphCastが、数値計算ベースの気象予測モデル(NWP)を上回ったと発表した(23年11月14日@同社公式ブログ[*1]。論文[*2]は、サイエンスにて公開されたのが23年11月14日(arXivに第1版が投稿されたのは22年12月24日、第2版は23年8月4日)。比較対象となったNWPは、世界最高レベルと謳われる、欧州中期予報センター(ECMWF)が開発･運用している高解像度予報(High RESolution Forecast：HRES)である。HRESは、緯度/経度 0.1° の解像度で、全球の 10 日間の予報を約1時間で生成する。
　GraphCastは、比較対象としてHRES とともに、Pangu-Weatherも意識している。Pangu-Weatherとは、中国(通信機器メーカー大手)ファーウェイ(の子会社ファーウェイ･クラウド)が開発したMLWPである。23年7月20日にnatureで公開された論文[*3](arXivには、22年11月3日投稿)において、HRESよりも優れているとアピールしている。Pangu-Weatherは、FourCastNetを意識して、開発されている。FourCastNetは、NVIDIA、ローレンス･バークレー国立研究所等が開発した、MLWPであり、成果をまとめた論文[*4]は22年2月にarXivに投稿されている。
　この一大サーガを、以下Ⅰ-1～Ⅰ-3に整理する。その前に、Ⅰ-0において予め、いくつか整理をしておく。
📖追補📖
　新たに、マイクロソフトが開発したモデルAuroraを追加した。Auroraは、NWP及びGraphCastより優秀である！と主張する。

【1】機械学習ベースの気象予測
(0)　注意喚起の為念　
　｢機械学習ベース(の気象予測)｣という言葉について。英語でもMachine Learning-basedという形容句が付いているので、日本語でも、機械学習ベースとして良いと思われる。しかし、この用語は、誤解を生じさせる可能性があり、深層学習ベースと訳した方が、良いと思われる。というのも、機械学習ベースの気象予測だと、サポートベクターマシンなどの｢機械学習ベース｣の手法を使って、ダウンスケーリングを行った研究が存在するからである。ダウンスケーリングは、元の予報が行われた空間スケールよりも細かい空間スケールにおいて、予報を行うことである。予報時点(時刻)は、同じである。
　深層学習ベースの予報は、過去データから学習して、未来の予報を行う。FourCastNet、Pangu-Weather、GraphCastは、どれも深層学習ベースの予報モデルである。実際、[*4]では、畳み込みニューラルネットワークを使った気象予測モデルに対して、DLベース(の気象予測)という表現が使われている。とは言え、平仄を合わせるために、以後(も)、機械学習ベース(MLWP)という言葉を使用する。

(1)　3モデルのアーキテクチャ概要
0⃣　従前には、深層学習ベース気象予測モデルのアーキテクチャとして、ConvLSTMやオートエンコーダー(自己符号化器)が存在していた[*13]。ConvLSTMは、空間方向における気象データの相関を畳み込みニューラルネットワークで捉え、時間方向の相関をLSTM(Long Short Term Memory；再帰型ニューラルネットワーク)で捉える、という建付けである。トランスフォーマーは、オートエンコーダーの1種である。GraphCastのモデル･アーキテクチャもオートエンコーダーである。
1⃣　FourCastNet は、Fourier ForeCasting Neural Networkの略である(と[*4]に明記されている)。Fourierは、フーリエ･ニューラル演算子を意味している。
2⃣　Pangu-Weather には、ざっくり言うとトランスフォーマーが使われている。少し正確に言うと、ビジョン･トランスフォーマーであり、もう少し詳しく言えば、Swinトランスフォーマーが使われている。Pangu(盤古)とは、中国神話における天地創造の神のことらしい(ファーウェイの大規模言語モデルのPangu、という名称が付けられている)。Pangu-Weatherのパラメータ数は、およそ6,400万である。
3⃣　GraphCastのモデル･アーキテクチャは、名前に仄めかされている通り、｢グラフ･オートエンコーダー｣という種類のグラフ･ニューラルネットワーク(GNN)である。パラメータ数は、およそ3,670万で、比較的少ない。
　上記3モデルは、それぞれ深層学習の作法で、｢広域に及ぶ影響を取り込んでいる｣。これは、物理的(気象学的)には、｢非局所的な相互作用を取り込む｣ことに相当している。具体的には、ビジョン･トランスフォーマーの自己注意機構、GNNのメッセージ･パッシングを利用して、｢非局所的な相互作用を取り込んでいる｣。

(2)　気象学的物理量(予報変数)　
0⃣　共通
　気象学では、東西方向の風をUと呼ぶ(らしい)。同じく、南北方向の風をVと呼ぶ(らしい)。ジオポテンシャルとは、｢海水面からある高度まで単位質量当たりの空気塊を上昇させるのに必要な仕事量｣である。比湿とは、｢湿潤空気中の単位質量当たりの水蒸気の質量｣である。
　高層大気の物理量(上空変数)は、特定の等圧面上における値が取り扱われる。特定の等圧面上における値とは、例えば、U500と表記される値である。具体的にU500とは、｢気圧500hPa(ヘクトパスカル)の等圧面上における東西風｣を意味する。また、等圧面は、海面からの高度に相当する。例えば、500hPaは海面から上空5,500mの高度に、850hPaは1,500mの高度に相当する。500と850hPaは特に、代表的な等圧面(高度)のようである。
1⃣　FourCastNet
　地表面の物理量(地表変数)として、以下を採用：風速10mのU成分U10、風速10mのV成分V10。地表から2mの気温T2m(地上気温)、地表気圧sp、平均海面気圧mslp。上空変数として、以下を採用：ジオポテンシャルZ、比湿RH、気温T、U、V。等圧面は、50、500、850、1000hPaの4つ。50hPaではZのみ。1000hPaでは、U、V、Zのみ。500と850hPaでは全て。つまり、{Z、RH、T、U、V}。
　さらに、(日平均)鉛直積算水蒸気量TCWV(Total Column Water Vapor)が採用されている。TCWVは、地表面を基点として、その上空を鉛直の柱と考えたとき、その柱に含まれる水蒸気の総量を意味する。つまり降水となり得る、水蒸気、水、氷等全てを含む。
2⃣　Pangu-Weather
　地表変数として、以下を採用：平均海面気圧MSLP、地上気温T2、U10、V10。上空変数として、以下を採用：Z、比湿Q、T、U、V。等圧面は、50, 100, 150, 200, 250, 300, 400, 500, 600, 700, 850, 925, 1000hPaの13。
3⃣　GraphCast
　地表変数として、以下を採用：平均海面気圧MSL、地上気温2T、風速10mのU成分10U、風速10mのV成分10V、総降水量TP。上空変数として、以下を採用：Z、Q、T、U、V、鉛直風速W。等圧面は、Pangu-Weatherと同じ。

(3)　各種データセット等

1⃣　ERA5[*5]は、欧州中期予報センターが作成した公的に利用可能な包括的なデータセット(格子点値)である。1979 年以降、地表から高度約100 kmまでの緯度と経度の分解能 0.25°における、いくつかの大気変数の、時間毎の推定値で構成されている。全球モデルの｢再解析データ｣で、アンサンブル予報にも対応している(らしい)。再解析データとは、最新の数値予報システムと過去の観測データを活用して、過去の大気の状況を｢空間3次元+時間の4次元データ｣として再現したものである[*6]。すなわち、さまざまな測定源からの観測データと、データ同化と呼ばれるベイズ的推定プロセスを使用した数値モデル出力の最適な組み合わせの結果である。
　FourCastNet、Pangu-Weather及びGraphCastでは、ERA5を入力(学習データ)として受け取り、ERA5を出力するように学習される。もちろん、入力と出力の間には、時間差がある。この時間差を、(天気予報の文脈では)｢リードタイム｣と呼ぶ。グランド･トルゥースも、ERA5である。
　時間間隔は1時間、格子間隔は0.25°で、全球モデルの再解析データの内、最も解像度･時間間隔が細かくなっている。期間は、1979年～となっている。なお、鉛直層は37等圧面(1,2,3,5,7,10,20,30,50,70,100,125,150,175,200,225,250,300,350,400,450,500,550,600,650,700,750,775,800,825,850,875,900,925,950,975,1000hPa)である。
2⃣ 熱帯低気圧の進路予測における｢グランド･トルゥース｣は、 IBTrACS(International Best Track Archive for Climate Stewardship)である[*7]。IBTrACSとは、米国大気海洋庁(NOAA)が公開している世界の熱帯低気圧のデータである。Best Track:ベストトラック(データ)とは、事後解析により最も現実に近いとされるデータのことである。
3⃣　TIGGE(THORPEX Interactive Grand Global Ensemble)データベースは、THORPEXプロジェクトで整備された、中期アンサンブル予報データのデータベースである。THORPEX(THe Observing system Research and Predictability Experiment)は、世界気象機関(WMO)による、1～2週間先の気象予測精度向上を目指したプロジェクトである。世界の数値気象予報機関10機関(気象庁、欧州中期予報センター、米国立環境予測センターなど)のデータが利用できる[*8]。

【2】言葉の整理、予報誤差を表す指標など
　気象予測･天気予報の世界では、予報精度等に独特の指標が存在するので、整理した。

(0)　言葉の整理

0⃣　その他
⓪　天気、気象、気候等について、正確な区別は行わない。
①　中期天気予報とは、最大 10 日先までの大気変動の予測を意味する。
②　ターゲットという文言は、気象予測･天気予報の文脈では、"評価対象変数"の意味で用いられる。気象予測･天気予報における変数は、やや煩雑である。具体的には、まず、地表変数と上空変数がある。上空変数は、等圧面毎に存在する。さらに、予測期間に応じて、それらの変数は増えていくことになる。例をあげると、地上変数を4つ、上空変数を5つ、等圧面を13とした場合、それだけで、変数は4+5×13＝69個になる。中期予報を考えると、10日間で12時間ごと(つまり1日に2回)の更新なので、変数は20倍になる。つまり、69×20＝1,380変数となる。この1,380個の評価対象変数を｢ターゲット｣と呼ぶ。
1⃣　サイクロン、台風、ハリケーンについて[*9]。
　サイクロンとは、低気圧を指す一般的な用語である。台風もそれ以外の低気圧も、すべてサイクロンと呼ぶ。トロピカル･サイクロンとは、熱帯(性)低気圧を指す。ただし、トロピカル･サイクロンの略称として、サイクロンが使われることがある。なお、｢熱帯｣とは、発生する場所を指す用語ではなく、サイクロンの構造を指す用語である。台風やハリケーンなどは、すべて｢強い｣トロピカル・サイクロンである。
　台風とは、北西太平洋に位置する｢強い｣トロピカル・サイクロンを指す。ハリケーンとは、北部大西洋、東部北太平洋、中部北太平洋および南東太平洋に位置する｢強い｣トロピカル・サイクロンを指す。以下Ⅰ-1～Ⅰ-3では、｢強い｣トロピカル・サイクロンの総称として、熱帯低気圧という呼称を用いている。
2⃣　台風の上陸、接近、通過について[*10]。
◇日本における｢上陸｣とは☛　台風の中心が、北海道・本州・四国・九州の海岸に達した場合を言う。
◇日本における｢接近｣とは☛　㊀ある地点への台風の接近：台風の中心が、その地点を中心とする半径300km以内の域内に入ること。㊁ある広がりをもった地域(地方予報区など)への台風の接近：台風が、その地域の地理的な境界線(海岸線、県境など)から半径300km以内の域内に入ること。
◇日本における｢通過｣とは☛　台風の中心が、小さい島や小さい半島を横切って、短時間で再び海上に出る場合を言う。
3⃣　アンサンブル予報について[*11]
　複数の予測の集合をアンサンブル、個々の予測をメンバーと呼ぶ。摂動を加えているメンバーを｢摂動ラン(あるいは摂動予測)｣、摂動を加えていないメンバーを｢コントロールラン(あるいは制御予測)｣と呼ぶ。

(1)　予報誤差を表す基本的な指標[*11]
　予報誤差を表す基本的な指標として平均誤差(Mean Error：ME、バイアスとも呼ぶ)並びに、自乗平均平方根誤差(Root Mean Square Error：RMSE)がある。ME は予測値の実況値からの偏りの平均であり、0 に近いほど実況からのずれが小さいことを示す。RMSE は最小値の 0 に近いほど予測が実況に近いことを示す。実況とは、特定時刻の観測データを意味する。通常は、最新時刻のデータを意味し、最新時刻を持ってリアルデータと見做している。
　さらに、アノマリー相関係数(ACC)がある。これは、予測値の基準値からの偏差(気象学的には大胆にも、これをアノマリーと呼んでいる)と、実況値の基準値からの偏差との相関係数である。基準値としては、気候値を用いる場合が多い。気候値(平年値とも呼ばれる)は長期平均値のことであり、通常は、30年間の平均値である。
　FourCastNet、Pangu-Weather及び、GraphCastでも、NWPとの比較にRMSEとACCが使われている。

(2)　スキルスコア[*11]
　スキルスコアは、気候学的確率などによる予測の難易を取り除いて、予測の技術力を評価する指数である。代表的なスキルスコアは、Heidke のスキルスコア(HSS)で、以下の式で求められる適中率である。適中率とは、(文字通り)予測が適中した割合である。
　　　　　HSS＝(FO＋XXーS)/(NーS)　
　　　　　S＝P_c(FO + FX) + P_x(XO + XX)
　　　　　P_x=X/N＝(FX＋XX)/(FO＋XX＋FX＋XO)
　(”適中”と表現される)FOは、｢あり(例えば、雨が降る)｣と予測して、実際に｢あり(例えば、雨が降った)｣だった事例の数。(同じく、”適中”と表現される)XXは、｢なし｣と予測して、実際に｢なかった｣事例の数。(”空振り”と表現される)FXは、｢あり｣と予測して、実際は｢なかった｣事例の数。(”見逃し”と表現される)XOは、｢なし｣と予測して、実際には｢あった｣事例の数。
　P_cは、｢気候学的出現率｣と呼ばれ、M/N＝(FO＋XO)/(FO＋XX＋FX＋XO)で表される。「現象あり」の平均的な出現確率であり、この量は実況のみから決まり、予測の精度にはよらない。P_xは、「現象なし」の平均的な出現確率であり、１ーP_cである。
　スキルスコアには、他にも、ギルバート･スキルスコア(エクイタブル･スレットスコア)やブライア･スキルスコア、フラクション･スキルスコア、ROC 面積スキルスコアなどがある。

【3】感想・・・
(0)　数値天気予報で、日本は世界でも進んでいたという印象があった。しかしMLWPモデルでは、プレゼンスがないように見える。
(1)　予報変数の予測で、MLWP ＞NWPという議論は、あまり意味がない。MLWPの入力データとグランド･トルゥースが同じであり、MLWPの精度が上がって出力とグランド･トルゥースの差が小さくなった結果、MLWP ＞NWPになっただけである。ここでのポイントは、NWPの入力とMLWPの入力は異なるということである。
(2)　現時点の評価は、｢中期予報の範囲において予測できる程度に、気象現象の力学過程及び物理過程を、MLWPがやっと表現できるようになった｣であろう。MLWP ＞NWPの議論が意味を持つのは、同じ入力(観測データ)を用いた上で、MLWP ＞NWPとなった場合であろう。
(3)　それとは別に、MLWPには、大きな期待がかけられている。それは、｢アンサンブル予報による極端気象現象の高精度予測が、迅速に行える｣期待である。ここで言う極端気象現象とは、熱帯低気圧(≃台風)や、(線状降水帯発生に伴うゲリラ的)集中豪雨等を指している。
　熱帯低気圧の進路予測^🖋や、集中豪雨の予測に、アンサンブル予報が有効であることが知られているが、それはアンサンブル･メンバー数が多い事が必須条件である。ただし、アンサンブル･メンバー数を増やすと、それだけ計算時間を要する。(事前学習済の)MLWPは、NWPに比べて桁違いに高速なので、一刻を争う極端気象現象の予測におけるMLWPの期待は、大きいと考えられる。
(4)　(2)での議論も被ってくるが、MLWPの学習データは再解析データなので、観測データを入力データとすることは、現時点では出来ない。しかし、その解決を、力技で行うことも可能ではないか、と思われる。生成モデルを使うことで、再解析データを生成することも、できるのではないだろうか(言うは易し、ではあるが)。あるいは、ニューラル演算子を使ったベイズ的能動学習というアプローチもあるだろうか。
(5)　生成モデルという側面でも、再帰型ニューラルネットワークという側面でも、(制約付き)ボルツマン･マシンが気象予測に用いられても良いと思えるが、適用例はほとんどないようである。
(6)　また、MLWPをPhysics-Informedで補強するというアプローチは、ありだと思えるが、未だ具体的には行われていないようである。
(7)　Physics-Informedニューラルネットワーク(PINN)のソルバーであったSimNetを前身とするNVIDIA Modulusは、 GraphCast アーキテクチャも含んでいる[*14]。GraphCastはグーグルが開発したモデルで、グーグルのTPU(v4)を使って学習されている。NVIDIAは、それをも対応しているという事実は、NVIDIAがAIプラットフォーマーの”絶対王者”であることを示しているように思える。
🖋　熱帯低気圧(台風)の数値予報で言えば、進路予測の精度は確実に向上していると、広く認識されている。一方で、強度予測は、精度の向上が足踏みしていると目されている。その理由の一つとして、雲モデル(積雲対流スキーム)があげられていた。つまり、雲のモデル化が不十分であるため、と考えられていた。☛JAMSTEC(海洋研究開発機構)は、新たな雲モデルを開発し、｢熱帯低気圧の(強度を含む)再現性を向上させた｣と発表(24年3月15日)[*28]。新しい雲モデルは、｢統計的に扱うことで、計算格子内に異なる種類の複数の雲が存在｣しているようにモデル化する。再現性が向上した理由は、｢熱帯低気圧中心の下層付近における、上昇を伴う雲による加熱率を、より正確に再現できた｣ため。

Ⅰ-1　ForeCasNet：ビジョン･トランスフォーマーに基づくMLWPモデル　全体　 Pangu-Weather　GraphCast　Aurora

【0】はじめに
　GPUベンダー(であり、AIプラットフォーマー)米NVIDIA、米ローレンス･バークレー国立研究所等[*12]は、高解像度のMLWPモデル｢ForeCasNet｣(arXivにて論文[*4](以下、本論文))を発表した(23年2月22日)。
　モデル開発の背景には、従来のMLWPでは、降雨予測や地表面風速の予測が行えないという問題意識がある。降雨予測は、災害対応。風速予測は、風力エネルギーの資源計画改善という、具体的な問題設定が、それぞれある。技術的には、従来のMLWPでは、解像度が低すぎて、対応できなかった。従って、高解像度(具体的には、0.25°＝赤道付近では約30km×30kmの空間解像度に相当する)気象予測が可能な、MLWPモデルを開発することが目標である。
　物理現象として気象予測を考えたとき、｢非局所的な相互作用｣を捉えることが、本質的に重要である。ニューラルネットワーク･アーキテクチャで、それを可能にするアプローチは、いくつも考えられる。本論文では、ビジョン･トランスフォーマー(ViT)を採用している。先行研究では、畳み込みニューラルネットワーク(CNN)が採用されていた。画像認識タスクのみならず、広範な応用分野で、ViT ＞ CNNが観測されたのだから、発想としては自然であろう。

【1】本論文の主張
　本論文は、次のように主張している。
1⃣　降水量と地表面風速の予測が可能な、最初の高解像度MLWPモデルを開発した。
2⃣　NWPと同程度の精度かつ、NWPより遥かに高速なモデルを開発した。
3⃣　数千のアンサンブルメンバーによるアンサンブル予測が可能なモデルを開発した。
　なお、本論文(及び本稿)で言及されるNWPは、ECMWFの全球気象予報モデル(IFS)である。IFSは、米国立環境予測センターの全球気象予報モデルよりも、優れているとされている。

【2】事前整理
(1)　ビジョン･トランスフォーマー
　ビジョン･トランスフォーマー(ViT)は、長距離の依存関係を適切にモデル化できるために、優れた性能を発揮すると理解されている。そのカラクリは、トークン混合である。ViTの文脈では、｢特徴量を成分として持つベクトル｣をトークンと呼ぶ。つまり、トークン＝(特徴量1、特徴量2、･･･、特徴量n)^Tである(上付き添え字Tは、転置の意味)。この例では、ベクトルの成分はn個である。この数nをチャネルの次元と呼ぶ。もっとも、特徴量1や特徴量2,･･･は、ニュアンスとしては、特徴量候補1、特徴量候補2,･･･、と呼ぶ方が正しいだろう。
　具体的に述べると、長距離の依存関係を適切にモデル化するためにViTは、トークンの相互作用を計算する。算術的には、ベクトルの内積を計算して、相互作用の強さを定量化する。トークン間の相互作用を計算する仕組みは、自己注意機構(Self Attention Mechanism)と呼ばれる。
　なおトランスフォーマーやViTは、豊富なデータで学習しなければ、優れた性能を発揮できないと認識されている。もっとも、気象予測に関して、その心配はないだろう。

(2)　トークン混合
　自己注意機構では、トークンにグラフ構造を課し、トークン間の”グラフの類似性”を学習する、(効果的な)トークン混合が行われる。トークン混合(token mixing)は、トークンを空間方向に混ぜる｢空間混合(space mixing)｣と、次元方向に混ぜる｢チャネル混合(channel mixing)｣で構成される。ただし、空間混合をトークン混合と呼ぶこともある。
　空間混合は、異なる空間位置におけるトークンの混合である(つまり、トークンの場所を変える)。チャネル混合は、トークンの中の特徴量の混合である(つまり、ベクトルの成分の場所を変える)。混合することで、遠くにあるトークンの影響も取り込むことが、”可能な”仕組みとなっている。可能ではあるが、それが効率的であるかは、別問題である。
　実際、トークン混合は、トークン数に応じて、2次関数的にスケールするため、高解像度入力では実行困難となる。そこで、効率的なトークン混合を如何に実行するか、が実用上の課題となる。

(3)　適応的フーリエ･ニューラル演算子
　本論文では、ニューラル演算子を使った｢効率的な｣トークン混合を提案･実施している。正確には、適応的(adaptive)フーリエ･ニューラル演算子(AFNO)[*15]を使った空間混合が行われる。チャネル混合は、自己注意機構と同じ仕組みを採用する。なお、｢適応的｣は、正確な和訳ではない。
　具体的には、トークンを関数空間の連続要素として扱い、空間混合を畳み込み積分としてモデル化する。そのために、ニューラル演算子を抜擢した。その数学的な背景として[*15]では、｢自己注意機構は、カーネル積分として記述することできる｣ことを上げている。
　ニューラル演算子は、無限次元空間内の連続関数間の写像を学習する、ニューラルネットワークである。本論文では、ニューラル演算子の中でも、フーリエ･ニューラル演算子(FNO)を採用している。 FNOでは、入力データに並進不変性を課すことで、カーネル積分を(非局所的な)畳み込み積分に置き換え(制限)する。そうすることで、高速フーリエ変換の適用を可能とし、それが推論の高速化を可能とする。FNOは推論が高速であることに、最大の特色がある。ニューラル演算子及びフーリエ･ニューラル演算子の詳細は、こちらを参照。
　AFNO)は、元々は、画像を取り扱えるように拡張したFNOである。FourCastNetでは画像を扱っているわけではないが、数値データ(今の場合、ERA5の再解析データ)をピクセル値と考えれば、画像アナロジーで捉えることが可能である。FNOは入出力が連続関数であるが、画像には(離散的な入力データにも)不連続性があるため、不連続性に適応する必要がある。このため、①チャネル混合重みにブロック対角構造を課す、②トークン間で重みを共有するなどの、いくつかの改修が施されている。また、AFNOでは(本末転倒にも思えるが、必然的に)、離散フーリエ変換を使用している。
　(ただ･･･)結果として、AFNOの計算複雑性は、O(NlogN)に低減される。自己注意機構の計算複雑性O(N²)に比べて、ほぼ2次加速である。ここで、Nはトークンの数である。

【3】FourCastNetモデルの詳細
(0)　改めて概要
　FourCastNetのモデル･アーキテクチャは、あくまでビジョントランスフォーマー(ViT)である。フーリエ･ニューラル演算子(FNO)ではない。その意味で、FourCastNetという名称は、ややミスリードである。FNOはあくまで、トークン混合を効率的に行う施策として、採用されている。効率的とは、計算複雑性を低減させる、という意味である。位置埋め込みや残差接続は、普通に行われる。
　FourCastNetはViTとFNOベースのトークン混合を組み合わせたことで、｢長距離の依存関係を適切に取り込む｣こと、並びに｢(計算複雑性が低いため)高解像度に対応すること｣ができるモデルである。

(1)　データセット
　学習データセットは、1979 年～2015 年(37年分)のERA5データセットを使用。検証データセットは、2016 年と 2017 年の2年分。テストデータセットは、2018 年以降のデータで構成される。各変数は、721 × 1440ピクセルの 2次元場として表される。ERA5の時間分解能は1時間であるが、FourCastNetではサブサンプリングを行い、間隔を6時間としている。
　ちなみに、エンドツーエンドの学習には、64 個の Nvidia A100 GPU のクラスターで約 16 時間を要した。また、FourCastNet の学習に必要なエネルギーは、NWPにおいて50個のアンサンブル･メンバーで 10 日間の予測を生成するのに必要なエネルギーとほぼ同じ、であった。

(2)　ハイパーパラメータ等
①　バッチサイズ　→　64
②　学習率(事前学習/再学習/総降水量モデル)　→　5×10⁻⁴ /1×10⁻⁴ /2.5×10⁻⁴(総降水量モデルは、別モデルである)。
③　学習率スケジューリング　→　コサイン･スケジューリング(cosine decay)
④　パッチサイズ　→　　8×8　
⑤　ドロップアウト率　→　0
⑥　フーリエ･ニューラル演算子のブロック数　→　8　
⑦　フーリエニューラル演算子の埋め込み次元　→　768　
⑧　活性化関数　→　GELU

(3)　総降水量モデル
　総降水量(TP)の予測は、困難であることが知られている。TPの確率分布はゼロで強くピークに達し、正の値に向かって長い裾が広がる。つまり、TP は他の予報変数よりも、疎らな空間特徴を示す。さらに、TP は、大気の動的時間発展を導く変数(風、圧力、温度など)に大きな影響を与えず、NWP で正確に捕捉するには、相変化などのプロセスの複雑なパラメーター化が必要になる。
　これらの理由から、本論文では、ERA5の再解析データを使って学習したモデル(以下、便宜上、基本モデルと呼ぶ)の出力を使用して、TP用のモデルを別途学習する。このTP用モデルは、基本モデルと同様にAFNOアーキテクチャを採用する。さらに、2次元畳み込み層(周期的なパディング付き)と、ReLU活性化層が追加されている。基本モデルが 6 時間単位で予測を行うため、TP用モデルも、6 時間ごとの累積総降水量を予測するように学習する。さらにTPは、対数変換される: TP’ = log(1 +TP/ε)、ε = 1 × 10⁻⁵。こうすることで、降水量ゼロの予測が妨げられ、値の分布の偏りが少なくなる。

【4】NWPとの比較結果
(1)　予報変数のNWPとの比較
　比較がフェアではないという意味で、比較に意味がないので、個別評価は割愛する。代わりに、㈠アンサンブルしたFourCastNetの結果と、㈡アンサンブルしていない単独のNWP結果との比較を評価する。アンサンブルは、白色雑音を加えて初期条件を摂動することで、実行された。雑音をスケールする係数は0.3を使用している。対象とする予報変数は、Z500とU10である。経時に伴い、RMSEが増加しない、ACCが低下しない、と精度が高いと定義している。
　全てにおいて、すなわちZ500のRMSEとACC、U10のRMSEとACCにおいて、ほぼ完全に㈡が㈠を凌駕している。残念ながら、FourCastNetの精度は、その程度である。

(2)　熱帯低気圧の進路予測
0⃣　前振り
　まず｢以前のモデルは、熱帯低気圧の(進路)予測を考慮するのに十分な、長い予測リードタイムを備えた風速やその他の重要な予報変数の、正確な予測を生成できなかった｣とした上で、｢FourCastNetは、かなり優れた解像度を備えており、熱帯低気圧の発生と進路を予測できる変数の、正確な中範囲予測を生成した｣と主張している。そしてケーススタディとして、2018 年に発生したハリケーン･マイケルを検討している(Pangu-Weatherでも取り上げられている)。
1⃣　予測ロジック、評価指標等
　❶熱帯低気圧の進路予測と、❷中心気圧の低下(熱帯低気圧の発達)を予測している。 ❶　平均海面気圧の極小値を”台風の目”として、”台風の目”を追跡することで、熱帯低気圧の進路を予測した。アンサンブル･メンバー数が100とやや少ない、FourCastNetのアンサンブル予報が出力した平均海面気圧極小値の平均位置と、グランド･トルゥースを比較する(グランド･トルゥースは、ERA5の再解析データである)。精度は、やや物足りないように思えるが、グランド･トルゥースは緯度経度に関する90%ileの幅には収まっている。
❷　本論文でも、｢(発生から)36 時間後に始まり48 時間後の時点に及ぶ、気圧の急激な低下を完全には予測できていない｣と述べられているように、熱帯低気圧の強さの予測は精度が低い。この理由として、｢対流および放射プロセスを考慮していない｣ことを推測している。

(3)　大気河川の予測
　FourCastNetによって推論される(日平均)鉛直積算水蒸気量と、グランド･トルゥース(ERA5の再解析データ)を比較している。本論文では、｢8日を超えるとアノマリー相関係数ACC＞0.6となるので、予測精度が非常に優れている｣と主張している。ACCは1に近づくにつれて、実況値と相関が高いことを意味する。0.6で優れているのか、という感じではある。

(4)　極端気象現象の捕捉
　極端気象現象の捕捉能力を、NWPと競っている。例によって、グランド･トルゥースは、ERA5の再解析データである。極端気象現象として、極端な降水量と強風を取り上げている。予測値の裾が、どの程度の極端値に相当するか、で極端気象現象の捕捉能力を評価している。具体的内容は、以下の各項で述べる。
1⃣　降水量
　例えば予測値の99%ile値とグランド･トルゥースの99%ile値を比較して、どの程度の極端な降水量(正確には、降水強度と思われる)を捕捉できているかを評価する。グランド･トルゥースの99.99%ile値はおよそ50mmである(最近の例と照らすと、やや物足りない)。これに対して、NWPは、およそ40mm程度。FourCastNetは、およそ30mm程度であり、どちらのモデルも、極端な降水を過小評価しているが、NWP＞FourCastNetである。モデルの予測に系統的な偏りがあるかどうかを確認する｢相対分位誤差｣と呼ばれる指標で比較しても、同じ結果である。
2⃣　風速
　U10に関するグランド･トルゥースの99.99%ile値は、およそ20m/sである。NWPはわずかに過大評価しており、FourCastNetはわずかに過小評価している。風速に関しては、NWPと互角と考えても良いだろう。ただし、相対分位誤差で測ると、ややNWPに軍配があがる。

【5】考察
(1)　FourCastNetは、NWPと同程度の解像度を有するMLWPモデルが(より優れてはいないものの)、NWPと同程度の精度を叩き出すことを目標としている。故に、その目標は達成された、と評価できるかもしれない。
(2)　FourCastNetは地表風速(並びに降水量)の予測に拘っているが、MLWPの目指すべきは、個別予報変数の予測ではないだろう。メンバー数を増やしたアンサンブル予報で、台風の進路予測や集中豪雨予測などの、極端気象現象の精度を向上させることが本命であろう。アンサンブルメンバー数1000の熱帯低気圧進路予測が示されても、良かったように思う。
(3)　ViTをモデル･アーキテクチャとして選択するのは、自然と思われるが、効率的なトークン･ミキサーのアーキテクチャとして、フーリエ･ニューラル演算子を選ぶというのは、一見あまりピンと来ない。仕掛けが大袈裟･大仰過ぎるように感じるし、矛盾も感じる。
　矛盾というのは、次のような意味である：元々、(フーリエ･)ニューラル演算子は、対象が無限次元＝連続系であるにも関わらず、有限次元しか扱えないニューラルネットワークで表現させることには無理がある。そこで、無限次元を扱えるニューラル演算子が導入された。しかし、本論文のトークン･ミキサーでは、不連続な画像を扱えるように改良した、AFNOという、(フーリエ･)ニューラル演算子の不連続バージョンを導入している。これでは、わざわざ、ニューラル演算子を導入した意味がないように感じられる。
　ただ結果として、効率的な(計算複雑性を削減した)トークン･ミキサーが構築できたことは、間違いない(ので、結果オーライということで良いのだろう)。
(4)　本論文で指摘されている通り、FourCastNetは、物理ベースの NWP モデルと組み合わせることも可能である。つまり、Physics-Informed FourCastNetも可能である。

Ⅰ-2　Pangu-Weather：Swinトランスフォーマーに基づくMLWPモデル　全体　 FourCastNet　GraphCast　Aurora

【0】はじめに
　中国のファーウェイ(の子会社ファーウェイ･クラウド)が開発した Pangu-Weatherは、先行MLWPモデルであるFourCastNetの精度は、不十分(例えば、5 日間のZ500予報のRMSEは484.5で、IFSの333.7よりも”はるかに悪い”)と主張して、FourCastNetの改善を目指している。以下、本稿では[*3]を、本論文と呼ぶ。
　ビジョン･トランスフォーマー(ViT)をモデル･アーキテクチャとして選んだFourCastNetに対して、Pangu-WeatherはSwinトランスフォーマーを選んでいる。Swinトランスフォーマーは、中国にあるマイクロソフトの研究所で開発されたトランスフォーマーである。もちろん、メイドイン中国であるから採用したわけではないだろう。

【1】本論文の主張
(1)　Pangu-Weatherは、FourCastNetと比較して、大幅な精度向上が得られた。
(2)　Pangu-Weatherは、極端気象現象の予測に優れている。

【2】事前整理
(1)　Swinトランスフォーマー
　ビジョン･トランスフォーマーから、Swinトランスフォーマーへの改良点は、以下の2点であると理解されている[*16]。
1⃣　ウィンドウ(窓)、ずらしウィンドウ(shifted window)
　ビジョン･トランスフォーマーは、画像を複数のトークンに分割し、トークン間の類似性を内積計算によって定量化することで、トークン毎の特徴量を抽出する。トークンの数が増えると、計算コストが2次関数的に増大してしまうことが欠点であった。
　Swinトランスフォーマーでは、トークンを｢ウィンドウ(窓)｣という複数のグループに分け、トークン間の類似性を、ウィンドウ内に限定して計算することで、計算コストを抑える。
　このとき、(運悪く)トークンがウィンドウによって分断され、本来高いはずの類似性が、考慮されない可能性がある。そのため、ウィンドウをずらした、ずらしウィンドウ(shifted windowに対する正式な和訳ではない)に対しても内積計算を行う。当然、そうすることで、計算コストの抑制効果は減ずることになる。
2⃣　階層型構造
　Swinトランスフォーマーでは、隣り合う複数のトークンの特徴量をまとめ、より大きなトークンの特徴量に変換(集約)することで、サイズが異なるトークンの特徴量が考慮される階層型構造を採用している。この仕組みにより、Swinトランスフォーマーでは、全体の特徴量から細部の特徴量まで、サイズが異なる特徴量を考慮することができる。
　この性質は、流体解析に向いていると考えられる。ViTでは、非局所的な相互作用を考慮することはできても、サイズの異なるスケール間の相互作用を考慮することは、難しいと思われるからである。大小様々なスケール間の相互作用を考慮することは、流体解析には、本質的に重要である。

【3】Pangu-Weatherの詳細
(1)　モデルのオリジナリティ
1⃣　3次元化
　Pangu-Weatherでは、深層ニューラルネットワークの入力と出力を 3 次元で概念化できるように、高さ情報を新しい次元に埋め込んでいる。3次元モデルは、異なる気圧レベルの大気状態間の関係を捉える能力があり、｢2 次元モデルと比較して、大幅な精度向上が得られる｣としている。それ自体、納得性は高い。
2⃣　階層型時間集計アルゴリズム
　予測リードタイムを増加させて、一連のモデルを学習する階層型時間集計アルゴリズムを適用した。例えば、リードタイムが56時間の場合、24時間予測モデルを2回、6時間予測モデルを1回、1時間予測モデルを2回実行する。こうすることで、｢反復回数が削減され、累積予測誤差が軽減された｣としている。
3⃣　地球固有の位置バイアス
　地球固有の事前分布を深いネットワークに注入するために、Swin の元の相対位置バイアスを置き換える地球固有の位置バイアスを設計した。ただし、この変更により、バイアス･パラメータの数が 527 倍に増加し、約 6,400 万個のパラメータが含まれることとなった。

(2)　アーキテクチャの詳細
0⃣　エンコーダー層、デコーダー層
　8つ(2+6)のエンコーダー層と 8つ(6+2)のデコーダー層を持つ、標準のエンコーダー･デコーダー･アーキテクチャを採用している。時間とメモリの両方の複雑さを軽減するため、標準の Swin トランスフォーマーよりも大幅に少なくなっている。より大きなメモリを備えた、より強力なハードウェアが準備された場合、ネットワークの深さを増やせるため、さらに精度が向上する(と期待される)。
1⃣　パッチ埋め込み
　次元削減には、パッチ埋め込みを使用する。 ViTの文脈でパッチ埋め込みを説明すると、以下のようになる：2次元である画像データをパッチごとに1次元のシークエンス･データに変換し、線形射影して得られた出力を、パッチ埋め込みという。
　標準のViTに従って、パッチ埋め込みには、GELU(Gaussian Error Linear Unit)を活性化関数とする線形層を使用した。
2⃣　ダウンサンプリングおよびアップサンプリング
　Swin トランスフォーマーの実装に従い、ダウンサンプリングおよびアップサンプリング操作を使用して、異なる解像度の隣接層を接続する。ダウンサンプリングでは、4 つのトークンが1 つに埋め込まれ、線形層を実行して次元を削減した。アップサンプリングの場合は、逆の操作が実行される。
3⃣　3次元地球専用のアーキテクチャ
　各エンコーダ層とデコーダ層は、地球の形状に合わせて特別に設計されている。自己注意機構は、ViTの標準的な機構を使用している。計算コストを削減するために、特徴マップをウィンドウに分割するウィンドウ注意機構を(Swinトランスフォーマーから)継承している。
　ずらし窓機構は、以下のように調整されて適用されている。層ごとに格子分割が、前の層とウィンドウサイズの半分だけ異なる。経度方向の座標は周期的であるため、左右端の半分のウィンドウが 1 つの完全なウィンドウに埋め込まれる。緯度方向の座標は周期的ではないため、緯度方向に沿っては、埋め込みは実行されない。
4⃣　地球固有の位置バイアス
　Swin トランスフォーマーは、相対位置バイアスを使用して注意の並進不変コンポーネントを表現した。バイアスは各ウィンドウの相対座標に基づいて計算された。しかし、各トークンは地球の座標系上の絶対位置に対応する。一部の気象状態(予報変数)は、絶対位置と密接に関係している。
　ジオポテンシャル、風速、温度の特性を捉えるために、地球固有の位置バイアスを導入した。これは、(相対座標ではなく)絶対座標に基づいて、各トークンに位置バイアスを追加することで機能する。　

(3)　データセット
　”FourCastNetとの比較を公平にするため”、学習データは1979 年～2017 年(39 年分)のERA5データセット。検証データは2019 年のデータで、テストデータは2018 年のデータである。公平の意味は、よくわからない。FourCastNetの学習データは、1979 年～2015年(37年分)。検証データは16年と17年。テストデータは、18年以降、となっている。
　等圧面は、13(50、100、150、200、250、300、400、500、600、700、850、925および 1,000 hPa)が選択されている。各変数は、721 × 1440ピクセルの 2次元場として表される(これはFourCastNetと同じ)。Pangu-Weatherの予報間隔(予報時間の最小単位)は、ERA5と同じ1時間(FourCastNetは6時間)である。
　ちなみに、エンドツーエンドの学習には、192 個の NVIDIA Tesla-V100 GPU のクラスターで約 16 日かかる。

(4)　ハイパーパラメータ等
①　オプティマイザー　→　Adam
②　エポック数　→　100
③　コスト関数　→　平均絶対誤差損失
④　バッチサイズ　→　192
⑤　学習率　→　 0.0005から始まって、0まで減少させる
⑥　学習率スケジューリング　→　コサイン･スケジューリング(cosine decay)
⑦　重み減衰　→　3 × 10⁻⁶
⑧　ドロップアウト率　→　0.2 (ScheduledDropPath)
⑨　過学習の軽減策(⑦及び⑧に加えて)　→　学習データのすべての開始時点を、各エポックでランダムに並べ替えた
⑩　正規化　→　平均値を引いてから、標準偏差で割ることで行った。各変数の平均と標準偏差は、1979 年から 2017 年の気象データに基づいて計算された
⑪　各変数の重み　→　平均損失値に反比例し、これらの変数による寄与の等価性を容易にするように設計された

【4】比較結果
(1)　予報変数の比較
1⃣　FourCastNetとの比較
　比較指標は、RSMEである。単一メンバーの予報(つまりアンサンブル予報ではない)で、Pangu-Weatherの 5 日間 Z500 予報のRMSE は 296.7である。対して、FourCastNetのRMSEは 462.5であり、大幅に改善されていると主張している。
2⃣　NWPとの比較
　NWPは、ECMWFのIFSである。単一メンバーの予報(つまりアンサンブル予報ではない)では、Pangu-Weather の 5 日間 Z500 予報の RMSEは、先述の通り296.7である。NWPのRMSEは333.7であり、Pangu-Weatherの方が優れている、と主張している。
3⃣　予測時間ゲイン
　本論文では、Pangu-Weatherの優位性を実証するために、｢予測時間ゲイン｣と呼ぶ概念を導入した。これは、Pangu-Weather と他モデルが同じ精度を報告した場合のリードタイム間の平均差に相当する。　Pangu-Weather は通常、NWPよりも 10～15時間の予測時間の増加を示し、比湿度などの一部の変数では、その増加は 24時間を超える。この理由を、｢従来の NWP 手法では特定の変数を予測するのが難しい一方で、AI ベースの手法では、豊富な学習データから効果的なパターンを学習することでメリットが得られることを意味している｣と解釈している。FourCastNet との比較では、Pangu-Weather の予測時間の増加は 40時間と大きい。
4⃣　NWPとPangu-Weatherの予測において、質的な違いが存在するとの主張
　Z500とT850、T2m、10 メートルの風速(U10 or V10)の結果を、NWP(IFS)およびグラウンド･トゥルース(ERA5)と比較した。比較した結果、本論文は、｢Pangu-Weatherの出力とNWPの出力は、グラウンド･トゥルースに十分に近いが、Pangu-WeatherとNWPには明らかな違いがある｣と主張する。具体的には、｢Pangu-Weatherでは、より滑らかな等高線が生成され、NWPはそれほど滑らかではない。これは、Pangu-Weatherが隣接する地域に対して、同様の値を予測する傾向があることを示唆している｣とする。そして、その理由を、｢初期条件を使用して、偏微分方程式系を解くことによって、各グリッドセルで単一の推定値を計算する一方で、天候の混沌とした性質と、初期条件と格子点スケール未満の力学過程･物理過程に関する、必然的に不正確な知識が存在するため｣と推測している。

(2)　熱帯低気圧の進路予測
1⃣　概要
　本論文では、掲題に関するPangu-Weatherの主な利点として、｢初期段階で進路予測できること｣を上げている。地表変数の 1 つである平均海面気圧(MSLP)の極小値を見つけることにより、熱帯低気圧の進路予測において、高い精度を達成している。
2⃣　グランド･トルゥース、比較対象モデル、比較した指標
❶　グランド･トルゥースは、IBTrACSのデータである(IBTrACSは、Ⅰ-0【1】(3)2⃣を参照)。
❷　比較対象モデルはECMWF-HRESである。
❸　比較した指標は、発生から3 日後と 5 日後の｢台風の目｣の平均直接位置誤差である。
3⃣　詳細アルゴリズム
　開始時点とそれに対応する”台風の目”の初期位置を考慮して、6 時間予測アルゴリズムを繰り返し呼び出し、次の条件を満たす MSLP の極小値を探した(この条件は、ECMWFの熱帯低気圧進路予測プロトコルである。[*19]を参照)。
㈠　北半球では半径 278 km 以内に 5×10⁻⁵より大きい最大850hPa 相対渦度があり、南半球では-5×10⁻⁵より小さい最小相対渦度があります。
㈡　温帯低気圧の場合、半径 278 km 以内で最大の層厚^†は、850hPa から 200hPa になる。
㈢　熱帯低気圧が陸上にある場合、半径 278 km 以内では10mの最大風速が8 m/sより大きくなる。
㈣　”台風の目”の目の位置が特定されると、進路予測アルゴリズムは引き続き 445 km 付近で次の位置を見つた。㈠～㈢の条件を満たすMSLP の極小値が見つからない場合、進路予測アルゴリズムは終了する。
†　気象学における層厚は、二つの等圧面の間のジオポテンシャルの差である。
4⃣　結果詳細
　比較対象熱帯低気圧として、IBTrACS と ECMWF-HRES の両方に出現する、2018 年の名前付きの熱帯低気圧 88 個を選択した。なお、リードタイムは、6時間の倍数に設定された。
　Pangu-Weather の 3 日目と 5 日目の平均直接位置誤差は、120.29 kmと195.65 kmである。ECMWF-HRESは、162.28 kmと272.10 kmであり、どちらもPangu-Weather の方が小さい(つまり、予測精度において優れている)。
　さらに(2018年に発生した)個別の熱帯低気圧：台風コンレイ(2018年の台風25号)、台風ユトゥ、台風マーオン、ハリケーン･マイケルについて、HRESと比較し、以下のように総括している。コンレイについて、HRESは中国に上陸すると予測したが、Pangu-Weatherは上陸しないと予測。実際は上陸しなかった(台風の｢上陸｣、｢接近｣、｢通過｣について、Ⅰ-0【2】(0)2⃣を参照)。ユトゥについては、Pangu-WeatherはHRESよりも48時間前に正しい進路を予測した。ハリケーン･マイケルについては、実際に上陸した時間と予測した時間の差が、Pangu-Weatherは3時間で、HRESは18時間だった。さらに上陸地点が、HRESは東にずれていた。台風マーオンは、Pangu-Weatherは上陸地点を正しく予測したのに対して、HRESは誤っていた。
　さらに、Pangu-Weatherは、アルゴリズム内部で、層厚と渦度を、ジオポテンシャルと風速から導いていた。本論文では、これをもって、｢Pangu-Weatherの出力が、説明可能であることを示している｣と主張している。
5⃣　注意事項
　本論文では、華々しい結果を訴えるとともに、ECMWF-HRESとの比較は、公正ではないことも併記している。つまり、HRESと Pangu-Weatherでは、入力データが異なる(Pangu-Weather は再解析データを使用している)ので、フェアではないと主張している。これは、その通りであろう。

(3)　極端気象現象の捕捉
　FourCastNetで行われている(すなわち[*4]で行われている)ので、本論文でも掲題の作業が、軽く行われている。グランド･トルゥースはERA5、NWPはECMWFのIFS。対象となっている予報変数は、以下の通り：Z(500hPaと850hPa)、T(同じ)、U500、V500、Q500、U10、V10、T2M。
　NWPと区別がつかないのは、Z500、Z850、T500、Q500。ほぼ区別がつかない(99.9%ile以降でのみ差が生じている)のは、T850、U500、V500、T2M。NWPのほうが若干精度が良い。U10とV10は、99%ile以降で差が生じている(最も分が悪い)。基本的に、Pangu-Weatherの予測は、全て、過小評価となっている。

(4)　為念：推論速度
　Pangu-Weather の推論速度は、FourCastNet の推論速度に匹敵する。システムレベルの比較では、FourCastNet は Tesla-A100 GPU(312テラFLOPS)で、24 時間の予報を推測するのに 0.28 秒を必要とする。Pangu-Weather は Tesla-V100 GPU (120テラFLOPS)で、1.4 秒を必要とする。GPU のパフォーマンスを考慮すると、Pangu-Weather は FourCastNet よりも約 50% 遅い。
　一方で、数百のノードを備えたスパコンで数時間を必要とするNWP(IFS)よりも 10,000 倍以上高速である。

【5】アンサンブル予報の研究
　アンサンブル予報を研究するために、FourCastNetを調査するとともに、メンバー数100のアンサンブル予報を生成した。具体的には、99 個のランダムな摂動を生成し、それらを摂動のない初期状態に追加した。これらの予測結果を単純に平均することによって、100 メンバーのアンサンブル予報を生成した。なお、摂動には、パーリン･ノイズが含まれている(らしい)。パーリン･ノイズは、単純な乱数に比べて、滑らかに変化する自然なノイズを生成できる。複数周波数のノイズを統合することで、自然界に見られる自己相似性を再現できる、といった特徴がある[*17]。
　結果は、短期(たとえば 1 日)予報では、単一メンバー法＞アンサンブル予報であり、リードタイムが5 ～ 7日の場合は、アンサンブル予報＞単一メンバー法である。これは FourCastNetとも一致している。
[結果1]　アンサンブル予報は、短期予測では、予期せぬノイズを導入するリスクがある。
[結果2]　アンサンブル予測は、Q500や U10などの滑らかでない変数に対して、より多くの利点をもたらす。
[結果3]　Pangu-Weather の｢スプレッド･スキルの関係｣は 1 より小さい。アンサンブル予報が上手くいくためには、アンサンブル･スプレッドが、アンサンブル平均予報値の予報誤差(RSME)と同程度であることが望ましい。つまり、スプレッド･スキルの関係が1になることが望ましい。スプレッド･スキルの関係が1より小さいということは、スプレッドが小さい、つまり、アンサンブル･メンバーの分散が小さいことを意味している[*18]。

【6】考察
(0)　ネイチャー･インデックス(Nature Index)によると、中国(のテクノロジー)企業の社員が、ネイチャー誌の論文において、単独著者となったのは初めてのことらしい。ネイチャー･インデックスは、高品質な科学ジャーナル82誌に掲載された原著論文を対象に、研究成果を国･機関別にプロファイリングしたデータベースである。
(1)　FourCastNetとの比較で、Pangu-Weatherの方が精度が高い理由は、3次元化が大きいのではないかと推測する。
(2)　効率的なトークン･ミキサーについては、FourCastNetでは、ViTに外付けする形でフーリエ･ニューラル演算子が適用された。Pangu-Weatherでは、Swinトランスフォーマーが元々、有している性能で効率的な空間混合を実現している。結果として、FourCastNetの方が速い(より効率的に空間混合を実現している)が、Pangu-Weatherも、実用的に遜色ないスピードを実現していると考えられる。
(3)　熱帯低気圧の進路予測において、Pangu-Weatherは、｢層厚と渦度を、ジオポテンシャルと風速から導いている｣と、本論文で述べられている。これは、Pangu-Weatherの内部で正しく、力学過程がモデル化されている傍証であろう。Swinトランスフォーマーと流体解析の相性の良さを
(4)　Swinトランスフォーマーと流体解析の相性は良いと考えられる。前項(3)は、その一つの実例と考えられる。相性が良いのであれば、Swinトランスフォーマーを使った流体解析例が、存在するはずである。しかし、適用例は、ほとんどないようである(知らないだけ？)。もし、相性は良いものの、適用例がほとんどないのであれば、それは、なぜだろうか？

Ⅰ-3　GraphCast：グラフ･ニューラルネットワークに基づくMLWPモデル　全体　 FourCastNet　Pangu-Weather　Aurora

【0】はじめに
　グーグル･ディープマインドの研究者は、従来の数値予報(NWP)モデル及び、機械学習ベースの気象予測(MLWP)モデルを上回るモデルGraphCastを構築した、と主張する論文[*2](以下、本論文)を発表した(23年11月14日@Science)。従来のMLWPモデルとは、中国のファーウェイが開発したPangu-Weatherを指している。
　先行モデルとの対比で言うと、FourCastNet及びPangu-Weatherのモデル･アーキテクチャは、ビジョン･トランスフォーマーである。一方、 GraphCastは、グラフ･ニューラルネットワーク(GNN)である。

【1】本論論文の主張
(1)　中期予報(最大10日先の天気予報)において、NWPよりも、概ね高精度である。
(2)　予報変数の予測において、Pangu-Weatherよりも、概ね高精度である。
(3)　熱帯低気圧の進路予測において、NWPよりも高精度である。

【2】事前整理
(1)　ECMWFの熱帯低気圧進路予測プロトコル(トラッカー)
　熱帯低気圧の進路予測は、かなり複雑なロジックのもとで、実行されている。132ページに及ぶ本論文のSupplementary Materials[*19]によれば、ECMWFのプロトコルは以下のようなものである。Pangu-Weatherは進路予測に、このプロトコルを、そのまま採用している。一方、GraphCastのプロトコルは異なる。
　複数の時間ステップにわたる圧力レベル 200、500、700、850および 1000 hPaでの変数 10U、10V、MSL および U、V、Z のモデルの予測が与えられると、ECMWFのトラッカーは各時間ステップを順次処理して、進路全体にわたる熱帯低気圧の位置を繰り返し予測する。トラッカーの各 6 時間予測には 2 つの主要なステップがある。最初のステップでは、熱帯低気圧の現在位置に基づいて、トラッカーは 6 時間先の位置推定値を計算する。2 番目のステップでは、新しい推定値の近くで、熱帯低気圧の中心に特徴的ないくつかの条件を満たす場所を探す。
　新しいの熱帯低気圧の位置推定値が計算されると、トラッカーはこの推定値から 445 km 以内の平均海面気圧(MSL)のすべての極小値を調べる。それから、以下3 つの条件を満たす、現在の推定値に最も近い極小値を検索する。
⓵　渦度チェック・・・極小値から 278 km 以内の 850 hPa での最大渦度は、北半球では 5×10^ｰ5/sより大きく、南半球では5×10^ｰ5/sより小さい。渦度は水平風 (U および V) から求める。
⓶　風速チェック・・・熱帯低気圧が上陸している場合、(中心から)半径278 km以内のU10(地表から上空10mにおける東西風)の最大風速が8m/sを超える。
⓷　層厚のチェック・・・低気圧が温帯性の場合、半径 278 km 以内に、850hPaから200hPaの間に、最大層厚がある(層厚は、Z850 ～ Z200 として定義される)。
⓸　これらすべての条件を満たす最小値がない場合、トラッカーは、熱帯低気圧が存在しないとみなす。
　このトラッカーを使用すると、熱帯低気圧が特殊な条件下で一時的に消滅し、その後再び出現することができる。一方、GraphCastが採用したプロトコルでは、熱帯低気圧はいったん消えると、復活はしない。

【3】GraphCastの詳細
　以下、ことさら断らない場合でも、[*19]に含まれる情報を適宜、追加している。
(0)　改めて概要
1⃣　MLWPモデルの概要
　GraphCastの入力は、空間解像度が緯度/経度0.25°である。これは、FourCastNetやPangu-Weatherと同じ。予測間隔(リードタイム)は、6時間である。これはFourCastNetと同じであるが、Pangu-Weatherは1時間である。詳しく言うと、最新の2時刻(現在時刻と 6 時間前)における気象データを入力として受け取り、6 時間先の気象状態を予測する。
　単体の｢Google Cloud TPU v4 デバイス｣で、1 分以内に正確な10日間の天気予報を生成する。ECMWFのHRES(空間分解能0.1°)は、11,664 コアのクラスター上で実行され、約1時間を要する。
2⃣　アーキテクチャ概要
　(先述あるいは既述の通り)GraphCastは、GNNベースのMLWPである。気象データはグラフとしてモデル化され、ノードは、地球のグリッド･セルを表す。GraphCastは、このグラフベースの表現により、｢データ内の『局所的(短距離)並びに、非局所的(長距離)』相互作用を、どちらも捉えることができる｣ところに特色がある。もちろん、トランスフォーマー(ビジョン･トランスフォーマー)も自己注意機構により、非局所的相互作用を取り込むことが可能である。しかし、[*19]によると、｢トランスフォーマーでは、計算の複雑さを軽減するために、全ての相互作用は考慮されない｣。
　GNNを選択した理由として、｢これまでの GNN ベースの学習シミュレータは、偏微分方程式によってモデル化された流体およびその他のシステムの複雑な力学を学習するのに非常に効果的であり、気象力学のモデル化への適合性をサポートしている｣が上げられている。

(1)　アーキテクチャの詳細
0⃣　前説
　GraphCastのモデル･アーキテクチャは、グラフ･オートエンコーダである。本論文によれば、｢エンコーダ＋プロセッサ＋デコーダ｣構成のGNN に基づいたニューラルネットワーク･アーキテクチャとして実装されている。部外者(?)が書いた[*20]には、[*2]では全く示されていない、エンベッダーという名称のコンポーネントが追加されている。[*19]にも、その文言はないが、そのような解釈をしたほうが、見通しはよくなるだろう(し、一般化して捉えることができるだろう)。[*20]によると、その機能は｢入力された特徴量を潜在空間に埋め込む｣ことである。
1⃣　エンコーダ(符号化器)
　符号化器の目的は、マルチ･メッシュ上で排他的に実行されるプロセッサ用に、潜在空間に埋め込まれた特徴量を準備することである。まず、グリッド･ノード、メッシュ･ノード、メッシュ･エッジ、｢グリッドからメッシュ･エッジ｣、および｢メッシュからグリッド･エッジ｣の5つの特徴量を、5つの多層パーセプトロンを使って、固定サイズの潜在空間に埋め込む。
　潜在空間への埋め込みは、マルチ･メッシュを扱うという意味で重要な処方と思われる。それは、マルチ･メッシュで扱うことが物理的に相応しい系を、深層学習の枠組みで実装する、という意味において、である(あくまで、物理の文脈ではなく、深層学習の文脈で重要という意味)。潜在空間へ埋め込むことで、大きさの異なるメッシュ(スケールの異なる物理現象)間の相互作用を、小さいスケール間の相互作用と同じ枠組みで処理することを、可能にしていると考えられる。
2⃣　マルチ･メッシュ
　GraphCastでは、地球はマルチ･メッシュで表現される。実は地味に、マルチ･メッシュは大きな働きをしている、と理解している([*19]でマルチ･メッシュのアブレーション分析が行われていることから判断して、その理解は正しいだろう)。マルチ･メッシュのおかげで、❶メッセージパッシングの数を減らすことができ、❷大小さまざまなスケール(具体的には、6つのスケール)、つまりマルチ･スケールの相互作用を考慮することができる。これは同じ事象(メリット)を、❶機械学習の文脈、❷流体力学の文脈で述べている。なお、❶については、下記(2)過剰平滑化対策、を参照。
　❷は、気象現象を流体現象と捉えた場合、本質的に重要である。Pangu-Weatherでは、Swinトランスフォーマーのアーキテクチャ特性によって、❷を実現していると考えられる。
　マルチメッシュは、解像度の高い正20面体メッシュの集合であり、正20面体(ノード 12 個、面 20 個、エッジ 30 個)を6 回繰り返し微細化することによって定義される。各回の微細化で、三角形が 4 つの小さな三角形に分割され、面とエッジの数が4 倍になる。最終的には、ノード数40,962と面の数81,920を持つ、正二十面体メッシュノードが構築される。ちなみに4⁶かける20は81,920となるが、4⁶かける12は、49,152で40,962にはならない。
3⃣　プロセッサ
　(GraphCastの)プロセッサは、少ないメッセージパッシング･ステップで、各マルチメッシュ･ノードを更新する。具体的には、各層の MLP に非共有ニューラルネットワークの重みを付けた、16の非共有 GNN 層を使用して、局所的および非局所的な情報を、効率的に伝播する。GraphCast内の全MLP のニューラルパラメーターは、層間では共有されない。ただし、特定の層内では、常に空間的位置間で共有される。
　GNN 層は、最初に隣接ノードの情報を使用して、各メッシュ･エッジを更新する。次に、各メッシュ･ノードを更新し、そのメッシュ･ノードに到着する、全てのエッジからの情報を集約する。そして両方を更新した後、特徴表現は、残差接続を使用して更新される。
4⃣　デコーダ(復号化器)　
　復号化器は、更新処理されたマルチ･メッシュ上の特徴量を、グリッド表現にマッピングする。

(2)過剰平滑化(Over-Smoothing)対策
　GNNは、メッセージ･パッシング(MP)を用いて、情報を取り込む。MP自体は、近隣ノードの情報(つまり局所的情報)を取り込むだけなので、非局所的な情報を取り込むには、MPを何度も繰り返す(反復する)必要がある。しかし、MPを多数回行うと、｢過剰平滑化｣と呼ばれる現象が発生し、非局所的な情報の取り込みがうまく行われない。
　GraphCastは、サイズが異なるマルチ･メッシュを用いている。大きなサイズのメッシュを使うことで、長距離＝非局所的な情報を、比較的少ない回数で取り込むことを可能としている、と考えられる。比較的という意味は、均一の小さいサイズのメッシュを使って、MPを多数回行うことに比較して、という意味である。

(3)　データセット
　ERA5の再解析データセットを使用する。学習データは、1979～2015年(37年分)のデータを使用。検証データは2016～2017年、テストデータは、2018～2021年を使用。格子点(グリッド･ポイント)は、721 × 1440である。

(4)　ハイパーパラメータなど諸々
1⃣　最適化関係
　勾配消失を防ぐために、L2ノルムを用いた、勾配クリッピングを適用している。しきい値は、32である。
①　コスト関数　→　平均自乗誤差(MSE)
②　オプティマイザー　→　AdamW(パラメータβ₁＝0.9、β₂＝0.95)
③　重み減衰率　→　 0.1
④　活性化関数　→　 Swish
2⃣　カリキュラム学習
　カリキュラム学習を採用している。具体的には、学習率と自己回帰ステップ数を変化させた、3段階のカリキュラム学習を実施している。第1段階は1000回の勾配降下更新で、1回の自己回帰ステップ。学習率は0から1.0×10^-3まで直線的に増加する。
　第2段階は、299,000回の勾配降下更新と、1回の自己回帰ステップ。ハーフコサイン減衰関数で0に戻る、学習率スケジュールからなる。第3段階は11,000回の勾配降下更新、自己回帰ステップ数は2から12まで、1000回の勾配降下更新ごとに1ずつ増加する。学習率は3.0×10^-7に固定された。
3⃣　正規化
❶　入力の正規化・・・すべての入力を正規化した。まず各変数について、1979 年から2015 年までの等圧面ごとの平均と標準偏差を計算した。それを使用して、平均0と分散1に正規化しました。相対的なエッジの距離と長さについては、特徴量を、最長のエッジの長さに正規化した。
❷　出力の正規化・・・モデルの出力は、Y^tである。ここでY^tは、時刻t+1における変数X^t+1と、時刻tにおける変数X^tの差である。つまり、Y^t= X^t+1ーX^tである。
　各等圧面ごとに、Y^tの標準偏差を計算することで、モデル出力を正規化した。具体的には、モデル出力に、この標準偏差を乗算して Y^{^t+1}を求める。そして、X^tにY^{^t+1}を加えて、X^{^t+1}を求める。
4⃣　ニューラルネットワークのパラメータ化
　GraphCast 内のニューラルネットワークは、すべて多層パーセプトロン(MLP)であり、1 つの隠れ層を持つ。隠れ層と出力層のサイズは512である。ただしデコーダの MLPの最終層のサイズは227 である。これは、予測変数の数と一致させるためである(地表変数5＋上空変数6×等圧面37＝227)。　

【4】比較結果
(0)　HRESのグランド･トルゥース[*19]
1⃣　概要
　GraphCastはERA5のデータを予測するように訓練されており、ERA5のデータを入力として使用する。しかし、HRES の予測は HRES の解析に基づいて初期化されている。その理由は、｢一般に、モデルを自身の解析結果と照らし合わせて検証することで、最良の予測精度が得られる｣からである。そこで、ERA5のグランドトゥルースに対してHRES 予測を評価するのではなく、HRES 予測の第0ステップでさえ誤差がゼロでないことを意味するHRES-fc0データセットを構築し、将来の初期化におけるHRES 予測の初期時間ステップを格納した。HRES-fc0 を HRES 予測を評価するためのグランドトゥルースとして使用する。
2⃣　初期化の違い
　公平な比較を行うために、GraphCast の ERA5 初期条件が、HRES で使用される条件よりもさらに先の将来を見据えた同化ウィンドウから導出されたことを確認する必要がある。HRES初期化は、常に 3 時間後の観測値を同化するが、ERA5初期化は 9 時間後および 3 時間先の観測値を同化する。最大 3.75日までのパフォーマンスを比較する場合、HRES に対して同じ初期化を使用する。さらに、HRES アーカイブされた予測は、｢0時、12時｣初期化からのみ利用可能である。

(1)　比較モデルと比較指標　
　比較するベースラインは、HRESであり、比較指標はRSMEとACC。(0)で記述している通り、グランド･トルゥースは、GraphCast(MLWP)とHRES(ベースラインであるNWP)で異なる。
　要するに、GraphCastとNWPの比較はシンプルではなく、ややこしいが、比較はかなり厳密だと思われる。つまり、NWPに比べて高精度は、確からしいと思われる。

(2)　比較結果　
1⃣　HRESとの比較
　比較対象となった変数は、地表変数が4つ(MSL、2T、10U、10V)で上空変数が5つ(Z、Q、T、U、V)で等圧面が13。従って、4+5×13＝69。12時間ごとに、(中期予報なので)10日間の期間にわたり比較している。つまり合計で69×2×10＝1,380個の変数(ターゲット)を比較していることになる。結果は、GraphCast は 1,380 ターゲットの 90.3% で HRES を上回り、ターゲットの89.9%で HRES を大幅に上回った。[*19]では、p値及びt値で有意性検定も行っている。
　なお、HRESがGraphCast よりも優れたパフォーマンスを示したケースは、成層圏に局在していることを指摘している。そして、50 hPa レベルを除くと96.9%、50および 100 hPaを除外すると99.7%で HRESよりも高精度である、と述べている。さらに、この結果は、地域によらず、世界中で一般的に当てはまることも指摘している。
2⃣　Pangu-Weatherとの比較
　比較した指標は、Z500、T500、T850、Q500、U500、V500、2T(Pangu-Weatherでは、T2M)、10U(Pangu-Weatherでは、U10)の8つ。6時間ごとの予測値を10日間にわたり比較した。ただし、[*19]に示された図S9は7日間まで。RMSEを指標として、ほとんど全てで、GraphCastが上回っている(RSMEが小さい)。Pangu-Weather が GraphCast を上回ったケースは、リードタイム6 時間と12時間の Z500だけ(つまり２つだけ)である。割合として、250/252＝99.2%という数字を出している。

(3)　熱帯低気圧の進路予測
　極端気象現象の予測として、熱帯低気圧の進路予測のみを取り上げた(本論文では、大気河川と極端な高温･低温も取り上げられているが、割愛)。
　[*19]を含めても、細かい記述が抜けているように感じる。さすがに熱帯低気圧の位置は、”台風の目の位置”で捕捉している、という理解で良いと思う(㊀明示はされていない)。グランド･トルゥースは、 IBTrACS(Pangu-Weatherと同じ)。ベースラインは、TIGGEアーカイブに保存されているECMWFのプロトコルを採用した、HRESの 0.1° 予報から取得した進路予測と記載されている。㊁再解析データが用いられているか否かは明示されていない(が、他所の記述を見る限り、再解析データは使われていないだろう)。㊂アンサンブル予報に関する情報の記載は、ない。
　予測した熱帯低気圧の位置と、グランドトルゥースとの差の｢中央値｣を、評価指標としている。Pangu-Weatherは平均値であった。結果として、GraphCastは、予測期間5日にわたる全期間において、HRESよりも精度が高かった(Pangu-Weatherは、3日目と5日目をピンポイントで比較していたが、それは重要な差ではない)。なお、GraphCastとECMWFでは、進路予測のプロトコルが同一ではない。

【5】アブレーション分析[*19]
　マルチ･メッシュが、GraphCast のパフォーマンスにどのような影響を与えるかをよりよく理解するために、GraphCast のパフォーマンスが、マルチ･メッシュなしで学習されたモデルと比較されている。マルチ･メッシュなしモデルのアーキテクチャは、GraphCast と同じ(同じエンコーダとデコーダ、同じ数のノードを含む)である。マルチ･メッシュなしモデルは、短距離の情報のみを伝播することができる(GraphCastは長距離の情報も伝播できる)。
　GraphCast は、50hPaで 5 日を超えるリードタイムを除いて、すべての予報変数に対してマルチ･メッシュ構造の恩恵を受けている。この改善は、リードタイムが 5 日未満の場合、すべての等圧面にわたるジオポテンシャルと平均海面圧力で特に顕著である。また、5 日未満のリードタイムで GraphCast が、ジオポテンシャルでHRES を上回るパフォーマンスを発揮するには、マルチメッシュが不可欠であることを示された。

【6】考察
(0)　トランスフォーマーを作ったグーグルは、MLWPにトランスフォーマーを使わない。日本なら、他社がトランスフォーマーを使って高精度なモデルを作ると、家元が黙っていて良いのか･･･という議論になりそう。
(1)　Pangu-Weatherに勝っている理由は、モデル･アーキテクチャに由来するわけではないだろう。つまり、ViTよりもGNNが勝っている、ということではないだろう。精度は、ハイパーパラメータのチューニングといった工夫で変わるのだろう。
(2)　MLWP＞NWPという結論になっている。しかし、それはMLWPがERA5の(大量の)再解析データを学習データとして、与えられているからである。つまり、MLWPがグランド･トルゥースを高精度に近似できるようになった、ということであって、NWPとの比較で優位になった、というのは少し論点が異なるだろう。
(3)　予報変数の予測、熱帯低気圧の進路予測や集中豪雨の発生予測において、今後は、再解析データを入力とするのではなく、観測データを入力として、NWPと優劣を比較するフェーズに移行するのだろう。その場合、再解析データを使って事前学習されたMLWPに、観測データから別のニューラルネットワークが作った再解析データを入力する、という枠組みになると思われる。生成モデルを使う、あるいはニューラル演算子を使ったベイズ的能動学習を使う、という手があるだろうか。
(4)　アブレーション分析やスペクトル分析がある一方で、アンサンブル予報に関する情報がないのは寂しい。

Ⅰ-4　Aurora：基盤モデルに基づくMLWPモデル　全体　 FourCastNet　Pangu-Weather　GraphCast

【0】はじめに
　マイクロソフト他^†1の研究者は、｢基盤モデルが、最先端のNWP(数値計算ベースの気象予測モデル)を凌駕することを示した｣と主張する論文[*29](以下、本論文)を発表した(24年5月28日@arXiv)。その基盤モデルが、多様な気象･気候データを使って、100万時間以上の事前学習を実施したAuroraである。なお、グーグルのGraphCastを最高性能MLWPとして取り上げ、タイマン勝負の結果、Auroraが優位であるとも主張している。
†1　墺ヨハネス･ケプラー大学、英ケンブリッジ大学、蘭アムステルダム大学、Polyコーポレーション。

【1】本論文の主張
　本論文は、以下を主張する：
『基盤モデルの原則が、気象予測にも当てはまるという証拠を、初めて示した』。
　基盤モデルの原則とは、｢データとモデルがスケーリングされると、パフォーマンスが大幅かつ予測可能な形で向上する｣ことを指している。データのスケーリングとは、㊀ERA5以外のデータを考慮すること、㊁データの解像度を0.25°から0.1°に上げること、を指している。モデルのスケーリングとは、｢パラメーター数が 2倍になるごとに性能が約 5% 向上する｣ことを指している。　

【2】本論文のセットアップ1　
(0)　Auroraの概要　
　Auroraは基盤モデルであり、事前学習＋再学習を実行している。なお、再学習は、❶短いリードタイム再学習と、❷ロールアウト再学習、の2種類を実行している。事前学習の検証には、0.25°解像度のHRES予測の 1 年分(2020 年)を使用する。テスト年は、データセットに応じて2022年と 2023 年である。

(1)　学習データセット　
1⃣　事前学習　
　Auroraは、ERA5を含めて以下10個のデータセットを用いて、事前学習を行った。
①　ERA5は、ECMWF(欧州中期予報センター) の気象と気候に関するグローバル再解析データセット。
②　HRES予測は、ECMWF が実行する運用NWP予測モデルの高解像度バージョンを指す。これは最も正確な NWP 予測モデルと考えられており、0.1°の解像度で実行される。本論文では、0.1°の解像度データと、解像度0.25°に再グリッド化されたデータの両方を使用する。
③　HRES解析は、ECWMF の公式解析データを表し、HRES-T0解析の上に追加の同化ステップが含まれている。解像度は、0.45°。HRES-T0解析は、HRES 予測を初期化するために使用される初期条件を提供し、予測の質を評価するためのグラウンド･トゥルースと見なされることがよくある。
④　IFS ENSは、IFS のアンサンブル予報データである。IFS ENSでは、50のアンサンブル･メンバーが18 km^†2の粗い解像度で実行される。確率モデルで表される物理法則を適用し、初期条件に摂動を与えて、アンサンブル･メンバーは生成される。WeatherBench2 リポジトリのデータセットが使用されるが、このリポジトリには、500、700、850hPa の等圧面しかない。
⑤　IFS ENS 平均には、IFS ENS に基づく各変数の平均予測データが含まれる。WeatherBench2によって提供され、500、700、850hPa の等圧面しかない。
⑥　NOAAによるGFS予測は、基本解像度 18 km の運用予測データを提供する。本論文では、0.25°に再グリッド化されたデータを使用する。これらの予測のゼロ時間(初期化)は、IFS-HRES ゼロ時間と同様に導出されたリアルタイム運用解析である。
⑦　NOAAによるGFS-T0 解析は、GFS予測のゼロ時間(初期化)から得られる、リアルタイムの運用解析を指す。
⑧　NOAAによるGEFS 再予測は、限られたカバレッジ、機器または観測システムのバイアス、およびモデル自体の制限など、入力データに内在する不確実性に対処するために、21 のアンサンブル･メンバーに基づいている。実際には、このような大量のデータは、過去数か月分しかアーカイブされていない。そのため、2000 年から 2019 年までの再予測データを使用し、毎日 00 UTC(協定世界時)に再解析初期条件で初期化する。この設定では、アンサンブル･メンバーは 5 つだけであり、すべてが含まれている。GEFS には 6 つの圧力レベルがあり、WeatherBench2 の 850、925、1000 と一致する 3 つの等圧面を使用する。
⑨　CMIP6^†3のデータセットは、CMCC-CM2-VHR4と ECMWF-IFS-HR の2 つである。それぞれ 7 つの等圧面(50、250、500、600、700、850、925hPa)がある。
⑩　MERRA-2は、米航空宇宙局(NASA)GMAO^†4による大気再解析データセットで、宇宙からのエアロゾル観測を組み込んでいる。解像度は、0.625°×0.5°である。WeatherBench2 の13 レベルに対応する等圧面を使用する。
†2　2023 年6月27日以前。27日以後は、解像度が9 kmになった。
†3　CMIP6(Coupled Model Inter-comparison Project phase 6:第六期結合モデル相互比較プロジェクト) は気候モデル相互比較プロジェクトであり、陸、海、大気、エアロゾル変数を含むさまざまな気候モデリング実験を組み合わせている。
†4　Global Modeling and Assimilation Office　
2⃣　再学習　
㊀　CAMS^†5は、コペルニクス大気監視サービスからの解析および予測データを指す。CAMS は頻繁にモデル更新される。データ解像度は 0.4°で、気象変数のほか、大気汚染物質の濃度など、大気の構成を表す変数が含まれている。WeatherBench2 の 13 等圧面を使用する。
㊁　CAMSRAは、CAMSからの第 4 世代 ECMWF大気構成グローバル再解析(EAC4)を指す。データ解像度は 0.75°で、CAMS と同様に、気象変数のほか、大気の構成を表す変数が含まれている。WeatherBench2 の13 等圧面を使用する。
†5　CAMS ：コペルニクス大気モニタリングサービス。0.4°解像度で地球全体の大気組成の予測、解析、再解析データを作成する運用システムである。CAMS は、エアロゾル、反応性ガス、温室効果ガスの追加モジュールを備えた IFS の拡張である。

【3】本論文のセットアップ2　
(1)　モデル･アーキテクチャ　
0⃣　概要　
　基本アーキテクチャは、オートエンコーダ(エンコーダ･デコーダ)＋プロセッサーという構成で、これは、既存モデル(FourCastNet、Pangu-Weather及びGraphCast)と同じである。プロセッサーは、(Swin)トランスフォーマー。ただしAuroraは、多種多様なデータセットを用いて事前学習するため、Auroraのトランスフォーマーは、マルチ･モダリティに対応するトランスフォーマーPerceiver(及びPerceiver IO)^†6である。グーグル･ディープマインドが開発(2021年発表)したPerceiverは、｢クロス･アテンションとlatentトランスフォーマー｣という基本モジュールの繰り返し、で構成される。
†6　以降では、PerceiverとPerceiver IOを区別しない。なお、Perceiver IOでは、入力データと同じモダリティの出力を得ることができる(ので、正確にはAuroraはPerceiver IOであろう)。

1⃣　エンコーダー(符号化器)　
⓪　概要　
　Auroraは、多種多様なデータで事前学習しているところに、大きな特徴がある。多様なデータセットは、【2】(1)で示している(ERA5を含めた10個のデータセット)。多種多様なデータセットを(事前)学習することは、学習モデルにとってチャレンジである。Auroraでは、エンコーダーの設計を工夫することで対応した。具体的には、多種多様なデータセットを、標準化された3次元テンソルにマッピングする、柔軟なエンコーダーを設計した。標準化された3次元テンソルが、モデル入力である。
①　入力　
　エンコーダーは、すべての変数を、通常の緯度経度グリッド上の H(高さ)×W(幅)画像として扱う。各変数について、現時刻 t の状態と時刻 t−1 の状態を含める。これにより、T^†7×H×W テンソルが生成される。等圧面をC、大気変数をV_Aで表すと、大気変数のデータセットは、 V_A×C×T×H×W テンソルと表される。同様に、地表変数をV_Sで表すと、地表変数のデータセットは、V_S×T×H×Wテンソル(等圧面は1000hPaであり、C=1)として表される^†8。
†7　Tは、時間次元である。データは12時間毎更新なので、T＝2となる。
†8　実際には、すべての計算がバッチ処理されるため、これらのテンソルの前に追加のバッチ次元が追加される。
②　等圧面における埋め込み(embedding)　
　Auroraは、標準のヴィジョン･トランスフォーマーと同様に、H×W の各画像を P×P パッチに分割する。各等圧面のパッチは、線形層によって ℝ^Dのベクトル^†9にマッピングされる(埋め込まれる)。つまり、V_A×C×T×P×P → C×D およびV_S×T×P×P → 1×D。異なる変数を持つデータセットに対応するために、この線形変換は、各変数 v に対して、その変数に固有の重み W_vのセットを使用して、動的に構築される。
†9　言うまでもなく、ℝ^Dのベクトルは、D個の実数値を成分として持つベクトルである：(x₁,x₂,･･･x_D)^T。さらに言うまでもなく、ここで現れた(･･･)^TのTは転置(Transpose)の意味であり、横を縦にする、という意味である。
③　集約(aggregation)　
　次のステップは、データセット間で数が変化する可能性がある大気中の｢物理的な圧力面｣を、固定された｢潜在的(latent)な圧力面｣にマッピングする(結果として、減らす)ことである。物理的な圧力面は、上記②の等圧面である。
　既述(0⃣)の通り、Auroraのモデル･アーキテクチャは、Perceiverである。Perceiver への入力は(Perceiverもトランスフォーマーなので)、潜在的クエリ･ベクトルQと、潜在的キー･ベクトルKと潜在的バリュー･ベクトルV^†10である。出力は、大気変数の潜在状態を符号化する 3×Dテンソルである^†11。地表変数の埋め込みは、残差 MLP(多層パーセプトロン)に渡されるだけである。この地表変数の潜在状態は、垂直方向の大気変数の潜在状態と結合され、各パッチの位置における気象状態の(3 + 1)× D 潜在表現を生成する。
†10　クエリ(query)ベクトル、キー(key)ベクトル、バリュー(value)ベクトルという文言は、トランスフォーマーで用いられている文言であり、正式な訳語は(おそらく)ない。
†11　言うまでもなく、この場合のDは、ℝ^Dに埋め込まれた等圧面におけるデータの個数である。つまり、物理的な空間次元を意味していない。また３×Dの3は、入力が(Q,K,V)であることから来ている。
④　情報を追加してデータセットを完成させる　
　各パッチの潜在表現を集約すると、3 × H/P × W/Pテンソルという3次元テンソルが得られる(H×W の各画像を P×P パッチに分割したのであった)。このデータ(トランスフォーマー的に言えば、トークン)に、緯度と経度の座標、および物理的サイズ^†12に関する情報を追加する。最後に、各パッチの絶対時間^†13情報を含める。
†12　パッチあたりの面積(単位km²)。ただし、緯度･経度に依存する。
†13　1970 年1月1日を起点とする時間を指している(ようである)。

2⃣　プロセッサー　
　 Swinトランスフォーマーを用いる。Pangu-WeatherもSwinトランスフォーマーを使用している。ただしPangu-Weatherで行われた、固定空間解像度の入力を必要とする、地球固有の位置バイアスは、Auroraでは用いられていない。代わりに、エンコーダーで位置符号化とスケール符号化を選択する。こうすることで、入力に(解像度等の)制約が課せられない。
　Auroraでは学習全体の安定性を高めるために、Resポスト･ノルム･レイヤー正規化^{❚補足1❚}を使用するが、(Swinバージョン2の)コサイン･アテンション^{❚補足2❚}ではなく、(トランスフォーマーの標準である)ドット積アテンションを選択している。
❚補足1❚　Resポスト･ノルム･レイヤー正規化　
　オリジナルのトランスフォーマーにおける｢レイヤー正規化(LN)｣は、ポスト･ノルムと呼ばれ、マルチ･ヘッド･アテンション層の後に(LNを実装した層が)配置された。その後、LNをアテンション層と残差MLP(多層パーセプトロン)の前に、それぞれ配置するプレ･ノルムが採用され、ポスト･ノルムよりも優れた性能を示した。Swinバージョン1もプレ･ノルムである。Swinバージョン2では、アテンション層と残差MLPの後ろに、それぞれLNを置いた。これを、Resポスト･ノルムと呼ぶ。Resポスト･ノルムは、ポスト･ノルムのようにメイン分岐で勾配を止めず、プレ･ノルムよりも勾配爆発を避けるために、アテンション層と残差MLPの出力を、より良く制御する(とされる)。
　レイヤー正規化は、可変長系列データ用バッチ正規化、という理解で良い(だろう)。言うまでもなく、バッチ正規化は、学習の｢安定化と高速化｣を目的としている[*30]。
❚補足2❚　コサイン･アテンション　
　オリジナルの自己注意(セルフ･アテンション)計算では、画素対の類似項はクエリー･ベクトルとキー･ベクトルのドット積(内積)として計算される。このアプローチを大規模な視覚モデルで用いると、特にResポスト･ノルム構成において、少数の画素ペアに支配されることが多い。この問題を緩和するために、Swinバージョン2では、画素ペアの注目度ロジットをスケーリングされた余弦関数(いわゆるcos)で計算するアプローチを提案した。これを、コサイン･アテンションと呼ぶ[*30(再)]。

3⃣　デコーダー(復号化器)　
　デコーダーは、潜在的な圧力面における出力を、通常の緯度経度グリッド上の画像にマッピングする。エンコーダーのパッチ埋め込み層と同様に、出力パッチを構築する線形層は、各変数に関連付けられた重みを選択することにより動的に構築される。この全体的なアーキテクチャにより、デコーダーは任意の変数セットに対して、任意の等圧面で予測を出力できる。

4⃣　正規化　
　Aurora は、エンコーダーで処理する前にすべての変数を正規化し、デコーダーの出力を非正規化して最終予測を生成する。全ての地表変数及び、全ての等圧面における全ての大気変数は、スケール(一定の空間的係数)とセンター(中心値)によって個別に正規化される。センターは、ERA5学習データ全体にわたって計算された、経験的期待値によって推定される。スケールは、ERA5学習データ全体にわたって計算された、経験的標準偏差によって推定される。スケールとセンターは、すべてのデータセットに使用される。最終予測は、デコーダーの出力を非正規化する(元に戻す)ことによって生成される。

(2)　学習方法、ハイパーパラメータ等　
　損失関数は、予測値とグランドトルゥースとの間の、平均絶対誤差(MAE)で与える。なお、損失関数における重みは、変数毎に細かく設定されている。例えば、事前学習における、平均海面気圧(MSLP)の重み＝1.5、風速10mのU成分U10の重み＝0.77、風速10mのV成分V10の重み＝0.66、地表から2mの気温Tの重み＝3.0等である。再学習だと1.5→1.6、0.77→0.77(変わっていない)、0.66→0.66(変わっていない)、3.0→3.5等となっている。
1⃣　事前学習　
　32 個のGPUを使って、ステップ数150,000で、事前学習が行われた。バッチサイズは、GPU毎に 1。学習率は、1,000 ステップに対してゼロから線形ウォームアップで増大させた後、ハーフコサイン減衰関数で減衰させる。基本学習率は 5×10^－4。使用するオプティマイザーは AdamW。AdamW の重み減衰は、 5×10^－6。正則化の手法としては、ドロップパス ^†14を採用している。ドロップ確率は 0.2。
　モデルをメモリに収めるために、バックボーン層にアクティベーション･チェックポイント^†15を使用し、すべてのモデル勾配をGPU 間でシャーディング^†16する。
†14　ドロップアウトは、中間層のノード出力を一定の割合でランダムに0とすることで、結合を欠落させる正則化手法であった。これは、横方向(幅方向)にネットワークを小さくしていると考えられる。これに対し、ドロップパス(stochastic depthとも呼ばれる)は、層数を変更することで縦方向(深さ方向)にネットワークを小さくする正則化手法である。
†15　アクティベーション･チェックポイント(勾配チェックポイントとも呼ばれる)はメモリ使用量を削減する手法であり、具体的には、次のように学習が実行される：フォワード処理では、一部の層の演算結果だけを保持する。バックワード処理では、演算結果が保持されていない層に関してはフォワード処理を再実行する。
†16　シャーディング(データ並列処理)は、メモリを節約する分散学習法である。具体的には、モデルの状態(モデルパラメータ、勾配、およびオプティマイザの状態)をデータ並列グループ内のGPU間で分割することで、メモリを節約する。
2⃣　短いリードタイム用の再学習　
㈠　HRES 0.25°解析　
　8個のGPUを使って、ステップ数8,000で、モデル全体の重みを再学習する。バッチサイズは GPU毎に1。各反復で、2 つのロールアウト･ステップを実行し、これらの両方のステップを逆伝播する。モデルは、両方のロールアウト･ステップで平均されたMAE損失を、最小化するように最適化される。
　この再学習における学習率は、まず1,000ステップに対して線形ウォームアップを使用し、その後は、5×10⁻⁵の一定学習率を使用する。重み減衰は、事前学習と同じ値(つまり、5×10^－6)を使用し、ドロップ･パスを無効にする(正則化手法を使用しない)。モデルが 2 つのロールアウト･ステップで、メモリに収まるように、事前学習と同様に、エンコーダーとデコーダーのアクティベーション･チェックポイントと勾配シャーディングを使用する。
㈡　 HRES 0.1°解析　
　8個のGPUを使って、ステップ数12,500で、モデル全体の重みを再学習する。バッチサイズは GPU毎に1。学習率は、1,000ステップに対して線形ウォームアップを使用し、その後 2×10⁻⁴の一定学習率を使用する。重み減衰は0 に設定し、ドロップ･パスを無効にする。アクティベーション･チェックポイントを使用し、｢重みと勾配｣にシャーディングを使用する。
㈢　CAMS 0.4°解析　
　まず、『学習』について。
　シングル･ステップ予測(この場合は 12 時間)で『学習』し、バッチサイズは GPU毎に1に固定する。100ステップに対して線形ウォームアップを使用するが、その後は学習率スケジュールを使用しない。重み減衰も使用しない。ドロップ･パスは無効にする。アクティベーション･チェックポイントを使用して、｢重みと勾配｣にシャーディングを使用する。
　次に、『再学習』について。
　この再学習は 2 つのステップで進行する。最初のステップでは、16 個のGPU を使用して、高学習率^†17を使ってステップ数22,000 、次に低学習率^†18を使ってステップ数14,500 で、CAMS 再解析データを再学習する。 CAMS 再解析データから CAMS解析データへの転送を最大限にするために、CAMS 再解析データは CAMS 解析データの解像度0.4°に再グリッド化される。
　2 番目のステップでは、8 個の GPU を使用して、高学習率を使ってステップ数7,500、低学習率を使ってステップ数5,500で、CAMS解析データを再学習する。最終モデルは合計ステップ数49,500で再学習される。
†17　高学習率とは、新しい汚染変数のみのエンコーダー･パッチ埋め込みでは、1×10⁻³、ネットワークの残りの部分では 1×10⁻⁴を意味する(らしい)。
†18　低学習率とは、新しい汚染変数のみのエンコーダー･パッチ埋め込みでは、1×10⁻⁴、ネットワークの残りの部分では 1×10⁻⁴を意味する(らしい)。
3⃣　ロールアウト(運用開始)のための再学習　
　長期にわたるマルチ･ステップ･ダイナミクスを確保するために、AIモデルは通常、ロールアウト専用にモデルを再学習する(らしい)。ロールアウトの再学習には、バックボーンの自己注意(セルフ･アテンション)操作に関係するすべての線形層に、低ランクAdaption(LoRA)層^†19を使用する。
　さらに、シングル･ステップの再学習と比較してメモリの増加を回避するために、プッシュフォワード･トリック^†20を(”表面的に”)使用する。このトリックでは、勾配は最後のロールアウト･ステップを通じてのみ伝播される。ただし、各学習ステップで長いロールアウトを生成することによる遅延を回避するために、深層強化学習で使用される方法と同様に、メモリ内のリプレイ･バッファーを使用してこれを大規模に実行する。各学習ステップで、モデルはリプレイ･バッファーから初期条件をサンプリングし、次のタイムステップでの予測を計算し、この予測をリプレイバッファーに追加する。定期的に、新しい初期条件がデータセットから取得され、リプレイバッファーに追加される。　この手順により、モデルは余分なメモリや速度のペナルティなしで、すべてのロールアウト･ステップで再学習できる。
㈠　HRES 0.25°解析　
　0.25°20 個の GPU を使用して、ステップ数13,000の LoRA層を再学習する。GPU毎のバッファー･サイズは200。これにより、バッファーの合計サイズは 4,000 になる。データセットのサンプリング期間は 10。モデルが、初期のステップを上手く予測できるようにするため、最初の5,000ステップでは、バッファーに最大 4 日先の予測のみを保持するスケジュールを使用する。4～10日のリードタイムでは、5,000ステップ以降にのみ、バッファーに保持される。学習率は、5×10⁻⁵で一定。
㈡　HRES 0.1° 解析　
　0.1°解析の再学習は、32個の GPU を使用して行われる。0.25°データの 6.25 倍大きいため、GPU毎のバッファーサイズは20。データセットのサンプリング周期は、0.25°解析と同じ10。学習率は、5×10⁻⁵で一定。ステップ数は6,250で、LoRAの重みを使って再学習する。
㈢　CAMS 0.4°解析　
　この再学習は、16 個のGPU を使用し行われる。GPU毎のバッファーサイズは 200。データセットのサンプリング周期は、他と同じく10。学習率は、5×10⁻⁵で一定。ステップ数は6,500で、LoRAの重みを使って再学習する。
†19　LoRAは、大規模モデルを高速かつ低消費メモリで再学習する手法と位置づけられる。LoRAでは、重み行列の差分が学習対象となる。正確には、この差分行列を”低ランク行列”に分解して、(再)学習が実行される。
†20　プッシュフォワード･トリック自体は、分布シフト問題の解決策(の一つ)である。分布シフト問題は、(少なくとも狭義には)強化学習において現れる問題で、｢学習時に用いるデータの分布と、推論時に用いるデータの分布における差異が、学習を阻害する(かもしれない)問題｣を意味する。本質的には、一般的な教師あり学習においても、学習データと推論時に用いる(本番)データとの分布における差が、推論性能を悪化させる問題、という認識で良いだろう。
　ただし、ここでは、あくまで｢メモリ増加回避策｣として、実施されている(という理解で良いだろう)。

【4】比較結果　
(0)　予備的なIFSとの比較ー計算コスト　
　リードタイムが最大 15 日の場合、統合予報システムIFSは、ゴールドスタンダードで最先端の数値予報システムである。ただし、このシステムは相当な計算コストがかかる。10 日間の予報を作成するには、それぞれ 36 コアの 352 個のハイエンド CPU ノードで約 65 分かかり、リードタイムは 1 時間あたり約 5,720ノード秒に相当する。
　Aurora は、｢単体の A100 GPU でリードタイム 1 時間あたり約 1.1 秒で予測できるため、IFS に比べて約 5,000 倍の高速化が実現する｣とする。なおGraphCastは、｢単体のGoogle Cloud TPU v4 デバイスで、1 分以内に(正確な)10日間の天気予報を生成する｣と主張している。リードタイム10日(240時間)とすると、Aurora≒264秒、GraphCast≒60秒となり、GraphCastが速い。

(1)　大気汚染ーAuroraとCAMSの比較　
0⃣　まとめ　
　Aurora を CAMS解析データに合わせて再学習する^†21ことで、CAMS 予測と同等か、それを上回る運用予測を、桁違いに低い計算コストで作成できることを実証した(と主張)。
†21　CAMS解析データによるAI基盤モデルの再学習は、以下の理由から(一般的には、)困難と主張している：㈠CAMS は頻繁に更新され、データ分布に大きな影響を与える。㈡CAMS解析データは 2015 年までしか遡れず、少ない。㈢大気汚染変数は、気象変数とは異なり、大きなダイナミック･レンジを持つ濃度値である。これらの変数は不均一で、疎らに偏っていることがよくある。㈣大気汚染変数は、工場の排出などの人為的要因に大きく依存する。
1⃣　変数　
　世界保健機関(WHO)によると、大気汚染の主な原因は、6つの大気汚染物質：一酸化炭素CO、窒素酸化物NO、二酸化窒素NO₂、二酸化硫黄SO₂、オゾンO₃、および粒子状物質(PM)^†22である。Aurora は、この6つの大気汚染物質を変数として、モデル化する。
†22　PMは、大きさに応じてPM1、PM2.5、PM10 等と呼ばれる。大気質の警告は、通常、PM2.5 および/または PM10 のしきい値に基づいている。
2⃣　データのセットアップ　
　2017年10月から 2022 年 5 月までの CAMS解析データでAuroraを再学習し、2022 年 5 月から 2022 年 11 月までの CAMS 解析データでテストする。CAMS解析データは、時間的範囲が非常に限られているため、汚染物質の動態をよりよく理解するために、2003年1 月から2021年12 月までの低解像度データと、CAMS再解析データ^†23も再学習プロセスに組み込む。
†23　本論文では、｢CAMS 再解析データは、解像度が低く、IFS のかなり古いバージョンを使用しているため、品質が低いと考えられる｣と書かれている。
3⃣　結果　
　すべてのターゲット^†24の95%で CAMS と競合し(RMSE^†2520% 以内)、すべてのターゲットの 74%で RMSEに関して CAMS 予測と同等か、それを上回る運用予測を達成した。また、Aurora は、最上層大気のオゾンと下層大気のすべての種の、12 時間予測において CAMS より優れている。
†24　気象予測･天気予報の文脈では、｢評価対象変数｣を意味する。Ⅰ-0【2】(0)0⃣②を参照。
†25　自乗平均平方根誤差。平均誤差(Mean Error：ME、バイアスとも呼ぶ)と並んで、予報誤差を表す基本的な指標。

(2)　中期気象予測ーAuroraとIFS-HRESとの比較　
0⃣　概要　
　Auroraは、最先端の数値中期天気予報^†26システムである統合予報システムIFS-HRESと同じ空間解像度0.1°^†27で中期天気予報を実行し、IFS-HRES の予測精度を初めて上回った(と主張)。これまで、最先端の機械学習ベース天気予報モデル^†28の解像度は、0.25°^†29であった。解像度を、0.25°から0.1°に引き上げるための最大障害は、高解像度の学習データが不足していることである(と、本論文は主張している)。　
†26　中期天気予報は、10日先までの天気予報を指す。
†27　赤道付近において、約11km×11kmの空間解像度に相当する。データ量は、データポイントあたり 1.78 GBに相当する。
†28　例えば、ForeCasNet、Pangu-Weather、GraphCastを指している。
†29　赤道付近において、約30km×30kmの空間解像度に相当する。
1⃣　変数　
　変数は{U,V,T,Q,Z}及び10U及び10V、MSL、2Tである。気象学では、東西方向の風をU、南北方向の風をVと呼称する。Tは気温、Qは比湿^†30、Zはジオポテンシャル^†31である。風速10mのU成分は10U、風速10mのV成分は10Vと呼称される。MSLは平均海面気圧で、MSLPとも表記される。2Tは、地上2mの気温を指し、地上気温と呼ばれる。表記は、T2mやT2などいくつか存在する。
　等圧面は、500, 600, 700, 850, 925hPa^†32が採用されている^†33。リードタイムは、(中期予報なので)12時間～10日である。
†30　湿潤空気中の単位質量当たりの水蒸気の質量。
†31　海水面から、ある高度まで単位質量当たりの空気塊を上昇させるのに必要な仕事量。
†32　500hPaは、海面から上空5,500mの高度に、850hPaは1,500mの高度に相当する。500hPaと850hPaは特に、代表的な等圧面(高度)である。
†33　{U,Q,Z}は500hPaでの比較結果が、詳しく示されている。{T}は、500hPaと850hPaでの比較結果が、詳しく示されている。
2⃣　データのセットアップ　
　0.25°データは、1950 年まで遡り、解析データ及び再解析データ^†34が存在する。0.1°解像度の解析データは、2016 年以降のみ利用可能であり、再解析データは存在していない。 Aurora は、0.25°データで事前学習した後、0.1°データで再学習することで、高解像度の予測機能を実現できる。2016～2022 年の IFS-HRES解析データで事前学習済Aurora モデルを再学習することで『0.25°事前学習＋0.1°再学習→0.1°予測』の実現を実証する^†35。
†34　再解析データとは、最新の数値予報システムと過去の観測データを活用して、過去の大気の状況を｢空間3次元+時間の4次元データ｣として再現したものである。
†35　解像度の向上に対処するために、事前学習後に、モデルにいくつかの小さな変更を加えている。評価では、AuroraをIFS解析で初期化し、運用設定を模倣した IFS解析に対して、予測を評価する。
3⃣　結果　
　Aurora は、大多数のターゲットでIFS-HRESよりも RMSE が低い。パフォーマンスの向上は、12 時間を超えるリードタイムで顕著であり、長いリードタイムでは、RMSE が最大 60% 減少する。温度や風速成分などで、改善(RMSEの減少)が顕著である。最小の改善は、ジオポテンシャルで見られ、IFS-HRES は高大気レベルで、より正確な予測を出す傾向がある。

(3)　極端イベント　
　気象学的極端イベントとして、Ciarán(キアラン)を取り上げている。キアランは、2023年後半に北西ヨーロッパで発生した嵐(暴風雨)であり、英国気象庁によれば、英国で11 月に記録された史上最低気圧であった。機械学習ベースの気象予測モデル(MLWPモデル)は共通して、｢2023 年11月2日 00 UTC に発生する最大 10 m 風速の急上昇を捉えることができない｣との研究成果を受けて、Auroraに対して検証を行った。
　結果は、「Auroraは、FourCastNet、Pangu-Weather並びにGraphCastとは異なり、最大 10 m の風速の急激な上昇を正確に予測｣でき、｢IFSの結果とほぼ一致した｣。

(4)　グーグルGraphCastとのタイマン勝負　
0⃣　概要　
　現在 0.25°で最も優れたMLWPとされるグーグル･ディープマインドが開発したGraphCastと、Auroraを比較する。 GraphCastは、0.25°解像度のERA5のみで学習されている。([*2]を読む限り、10日ではないかと思われるが･･･)本論文では、GraphCastのリードタイムは最大5日と述べている。
1⃣　実験セットアップ　
　グラウンド･トゥルースは、HRES-T0解析データである(再解析データ^†34(再)ではない(はず))。Auroraは、GraphCastの学習データと同じ｢2016～2021年のHRES-T0解析データ(解像度0.25°)｣で再学習される。GraphCastとAuroraはともに、WeatherBench 2^†36によって提供されるHRES-T0データセットの00Z/12Z初期化を使用して評価される。
　比較指標には、RMSE及びアノマリー相関係数(ACC)を使用する^†37。
†36　さまざまな天気予報モデルを評価および比較するためのフレームワーク。WeatherBench 2 は、オープンソースの評価コード、グラウンドトゥルースおよびベースラインデータセットで構成されており、ERA5 データセットの包括的なコピーが含まれている。
†37　先行MLWPである｢FourCastNet、Pangu-Weather及び、GraphCast｣でも、NWPとの比較にRMSEとACCが使われている。
2⃣　RMSEによる比較結果　
　Aurora は、94% のターゲット変数で、GraphCast と同等かそれ以上の性能を発揮している。AuroraとGraphCastは、GraphCast がロールアウト時に再学習された2 ～ 3 日のリードタイムかつ下層大気^†38で、互いに最も似ている。Aurora は上層大気^†39において、GraphCast比最大40%RMSEが向上している。さらに、短いリードタイムと長いリードタイムで最大 10 ～ 15% の大幅な改善が見られる。
　一方GraphCast は、最大 5 日間、比湿(Q) のほとんどの等圧面^†40でわずかに優れたパフォーマンスを示している。
†38　本論文の図5に対する目視(定量的な数値での比較ではなく、図から読み取ったという意味)で、850～1000hPa。850hPa＝1500ｍ上空。1000hPa≒地表。
†39　上層大気では、GraphCastの性能が低いことが、知られているらしい。
†40　本論文の図5に対する目視(同)で、150hPa～1000hPa。
3⃣　極端な値の予測能力に関する比較　
　風速や気温などの、地表変数(地表面の物理量)の”極端な値”を正確に予測することは、生命への影響を軽減するための将来計画において、非常に重要である^†41。結論を簡潔に述べると、以下の通り：㊀MLWPの予測性能はNWPを上回る、㊁リードタイムが長くなるにつれて、その傾向は顕著になる、㊂風速では、AuroraがGraphCastを上回る。
　補足すると、次のようになる。2022 年IFS-HRES 0.25°データセットの 06Z/18Z 初期化を使用して、地表変数分布の極値(裾)を予測するAurora の性能を、GraphCast および IFS-HRES と比較した。地表面での風速予測では、Aurora が GraphCast よりも優れており、リードタイムが長くなるにつれて、地表変数分布全体で IFS-HRES に対するMLWP モデルの性能が向上する。ただし、2Tは分布の暖かい部分と冷たい部分で動作が異なる。この理由は、次のように説明されている：
　冬季の極端現象に対する IFS-HRES の性能には偏りがあり、冬季の予測精度が低下することが報告されている。MLWP モデルには、物理的制約内での単なる前向きシミュレーションではなく、このような偏りのある予測データが含まれているため、IFS などの NWP モデルと比較すると、これらの偏りが現れる傾向がある。
†41　晴原柑九朗(performed by 山下智久;ブルーモーメント)の自論とも符号する。

【5】改善の余地　
(1)　確率論的予測　
　現時点で、Auroraは、決定論的な予測しか生成できない。確率論的予測は、降水量など、その挙動が本質的に確率的である変数の場合に特に重要である。将来的には、モデルを確率バージョンに再学習するか、異なるデータソースで学習された可能性のある決定論的 Aurora モデルのアンサンブルを使用することで、これに対処できる。

(2)　さらなるデータの多様性　
　Auroraは、データの多様性を押し広げたが、それでもグローバル･データセットでのみ学習されている。HRRR^†42やCONUS404^†43などの多くのローカル高解像度データセットが利用可能であり、そのようなデータを活用することは、将来の研究にとって有望な手段である。
†42　HRRR(the High-Resolution Rapid Refresh)はNOAA(米国海洋大気庁∊商務省)のリアルタイム3km分解能、1時間毎に更新される雲分解、対流を考慮した大気モデルで、3kmレーダー同化を伴う3kmグリッドで初期化される。レーダーデータは15分毎に、1時間の時間間隔にわたるデータがHRRRに同化され、13kmレーダー強化ラピッド･リフレッシュ(※)による1時間毎のデータ同化によって提供される詳細な情報を追加する。出所：https://rapidrefresh.noaa.gov/hrrr/
※　ラピッド･リフレッシュ(RAP)は、NCEP(米国立環境予測センター∊国立気象局∊NOAA)で運用されている大陸規模のNOAA毎時更新同化･モデル化システムである。RAPは北米をカバーし、主に数値予報モデルとそのモデルを初期化する解析/同化システムで構成されている。出所：https://rapidrefresh.noaa.gov/
†43　CONUS404は、米国本土の水文モデルや気象解析に適した、高解像度の水文気象データセット。40年以上にわたって4kmの解像度で、米国大陸をカバーしていることからこの名前が付けられた。USGS(米国地質調査所∊内務省) Water Mission Areaとの共同研究の一環としてNCAR(米国大気研究センター∊大気研究大学連合←米国立科学財団)が実行したWeather Research and Forecasting(WRF)モデルシミュレーションによって作成された。出所：https://rda.ucar.edu/datasets/ds559-0/

【6】考察　
(0)　ザックリ言うと、基盤モデルは、やはりスゴい･･･ということになるだろうか。
(1)　本論文で述べられている通り、｢気象予測(予報)でも、基盤モデルが、性能向上に資する｣ことを実証したところが、最大の訴求点である。もう少し正確な記述をするならば、気象予報の基盤モデルAuroraを、適正に再学習した結果、最先端数値予報の精度を凌駕したとの主張が展開されている。数理的に｢Auroraが数値予報を凌駕した理由｣を考察すれば、Auroraの予測が、結果的にアンサンブル予測になっていると考えるしかないだろう。結果的にという文言は、｢多種多様な(事前学習では10種類の)データを使った事前学習＋再学習｣という枠組みを使うと、結果的にアンサンブル予測になるのだろう、という意味で使っている。
👉　本論文(Supplementary MaterialsのG、特にG.8)には、ロールアウト用再学習(LoRA層を使用した再学習)を実施したAuroraの出力(予測)は、アンサンブル予測と見做せる旨の記述がある。
(2)　なお、0.1°の再解析データを作成すれば、数値予報の精度がAuroraを逆転するだろうが、それは本質的ではない。再解析データを作成する手間をかけずに、高度な予測･予報ができるという意味が大きい。つまり、適宜、局所的にデータを細かくするなどして、高精度かつ迅速な予測が可能になるはずである。しかも、リアルタイム(に近い)データを、反映させられる可能性もあるので、さらに有望であろう。
(3)　データのスケーリング則も示されている。パラメータ2倍で性能5%アップが、どの程度間尺に合うかは、よく分からないものの、スケールで勝ち負けが決まるゲームは、米国好みではあるだろう。
(4)　Auroraは多種多様なデータを学習データとするため、必然的に、エンコーダーに工夫を凝らしている。また、事前学習･再学習においても、様々なテクニックを駆使している。全体的に、かなり大変な作業であっただろうと思われる。

Ⅱ　シグネチャを使った学習モデルは、生の変数を使ったモデルより精度が高いと主張する論文

【0】はじめに
　海洋研究開発機構(JAMSTEC)は、｢大気変数を、高精度に予測できる学習モデルを構築することに成功した｣と主張する論文(以下、本論文[*21])を発表した(24年3月20日)。本論文の学習モデルは、シグネチャを”説明変数”として使っている。
　シグネチャを使った学習モデルは、時系列解析以外では、あまり用いられていない(シグネチャが何であるかは後述する)。数少ない(?)例外は、同じJAMSTECによる先行研究[*22]である。本論文は、[*22]の枠組みを、大気に適用した研究と位置づけられる。
❚為念1❚　米国の量子コンピュータ･ベンダーRigetti Computingは、該社公式ブログに、｢シグネチャを使った景気後退予測モデルの量子版は、古典版より精度が高い｣という主張を投稿している(23年4月)。その投稿では、シグネチャを使った予測モデル･古典版がプロビット･モデルと比較されている(シグネチャを使ったモデルが、やや性能が高い。こちらを参照)。
❚為念2❚　シグネチャという文言は、多様な分野で使用されている(が、もちろん意味は、全く異なる)。例1：サイバーセキュリティの分野で、シグネチャと言えば｢マルウェアの帰属を特定･判別するために用いられるデータ｣を指す。シグネチャ･ベースのセキュリティ、といった表現が多く見られる。例2：生物学･医学の分野では、｢健常者群、がん患者群などの2群間を分類する際に使用される、特徴的な遺伝子｣をシグネチャと呼ぶようである。

【1】本論文の主張
(1)　シグネチャを使用した学習モデルは、温度と水蒸気混合比^†1の絶対平均差が最小限で、高レベルの精度を示した^†2。
(2)　シグネチャを使用した学習モデルは、激しい降雨時であっても、水蒸気と温度の急激な変動を含む、鉛直構造と大気の不安定性をうまく捉えることができた。
(3)　シグネチャを使用した学習モデルは、生の説明変数を使用した学習モデルよりも、精度が高かった^†3。
†1　水蒸気混合比[単位：g/Kg]＝水蒸気質量[g]/乾燥空気質量[Kg]　
†2　グランドトルゥースは、気象庁の運用メソスケール･モデルの解析値である。
†3　精度の計測指標は、差と二乗平均平方根誤差(Root Mean Squared Error：RSME)である。

【2】事前整理
(0)　前振り：ラフパス理論とシグネチャ
　ラフパス理論は、確率論における比較的新しい概念と紹介される。数学的に言えば、｢確率微分方程式の求解法が、微分方程式の求解法と同様に扱える枠組みを提供する｣。曰く、ラフパスの空間に、適当な位相を導入すると、線積分が測度とは関係なく定義できる[*23]。
　以下では数学ではなく、あくまで機械学習モデルを議論の対象とする。さらに、機械学習モデルは線形回帰モデルを考える。誤解を恐れずに言うと、線形回帰モデルの範疇であれば、ラフパス理論におけるパスとは、”説明変数と目的変数のセット”に過ぎない。さらに線形回帰モデルの範疇では、シグネチャは、説明変数から新たに作られる”｢合成｣説明変数のセット”に過ぎない。
　ここで、シグネチャがセットであることについて少しだけ述べる。シグネチャは、次のように表される(詳細は、(2)1⃣を参照)：{1、S⁽¹⁾(X)、S⁽²⁾(X)、S^(1,1)(X)、S^(1,2)(X)、･･･}。ここで、Xはパスであり、S⁽⁰⁾(X)＝1である。もっとも、S⁽⁰⁾(X)という表記はされない。S⁽¹⁾(X)などは、シグネチャの｢各項｣といった呼ばれ方をする[*24]。
　なお、パスの和訳は経路(あるいは、道、路)であるが、経路と訳してしまうと、遥かに有名な｢ファインマンの経路積分｣と混同しかねないので、日本語を使わずにパスとする。

(1)　シグネチャによる線形回帰モデルとは、何ぞや？
　｢生の｣説明変数による線形回帰モデルは、
　　　　　目的変数＝∑係数^†1×｢生の｣説明変数＋定数^†2　
という形をとる。シグネチャを使うと、
　　　　　目的変数＝∑係数×｢合成｣説明変数＋定数　
となるだけである。もちろん、シグネチャを顕に書けば
　　　　　目的変数＝∑係数×シグネチャ＋定数　
となる(だけである)。では、なぜ、こんなことをするかと言うと、シグネチャという合成説明変数が、｢生の｣説明変数より、説明能力が高いと考えられる(場合がある)からである。機械学習･深層学習寄りの言葉で言うと、特徴量エンジニアリングをしている、とイメージしても良いだろう。
　違った例でイメージを表すと、正規分布における、平均と分散を考えると良いかもしれない。正規分布は、1次モーメント＝平均と2次モーメント＝分散を指定すれば、完全に表現できる(3次モーメント＝歪度、4次モーメント＝尖度、･･･、の全ての高次モーメントは、1次モーメントと2次モーメントから計算できる)。つまり、生のデータから平均と分散という合成量を生成することで、データの分布(正規分布)を完全に表現できる(👉下記(2)2⃣も参照)。この例では、平均と分散を使った回帰モデルでデータの分布(正規分布)を表現するわけではないから、かえって混乱するかもしれないものの、説明能力が完璧な合成量という意味では、正規分布における平均と分散は、良い例だと思う^†3。
†1　この係数は、線形回帰の文脈では回帰係数と呼ばれる。深層学習モデル(ニューラルネットワーク)だと、｢重み｣と呼ばれる。
†2　機械学習･深層学習の文脈では、バイアス項と呼ばれる。
†3　混乱ついでに、情報が集約された”合成量”という意味では、テンソルネットワーク(今の場合であれば、もっともプリミティブな行列積状態を考えれば良い)を上げることもできるだろう。

(2)　数学的な補足　
1⃣　シグネチャと積分　
　シグネチャの各項(以下、本稿では、｢シグネチャ各項｣あるいは｢シグネチャ項｣という文言と区別しない)は、パスの反復積分として定義される。この積分は、リーマン･スティルチェス積分の一種(特殊な形)である^†1。先の表記S⁽¹⁾(X)等、を使うと、段数^†21の場合であれば、
　　　　　S⁽¹⁾(X)　=　∫dX⁽¹⁾　
と1重積分として表現される。幾何学的に言うと、これは、線分である。積分区間は明示していないが、[a,b]のように適当にとる。実際は、S⁽¹⁾_a,b(X)のように下付き添え字で表記する。積分記号にも、∫_a＜s＜bとついて、その場合には、積分測度dXにもdX_sと付く(ので、見た目が煩わしい)。
　段数2だと(そして、ここでは、添え字をフルに付けると)
　　　　　S^(1,2)_a,b(X)　＝∫_a＜s＜bS⁽¹⁾_a,s(X)dX⁽²⁾_s　
　　　　　　　　　　　＝∫_{a＜r＜s＜b}dX⁽¹⁾_rdX⁽²⁾_s
　　　　　　　　　　　＝∫_a^b∫_a^sdX⁽¹⁾_rdX⁽²⁾_s
と二重積分として表現される。段数2のシグネチャ項の幾何学的解釈は、直接(ストレートには)、面積とはならないが、段数2のシグネチャ項を使って面積を表現することは容易である(なお、段数がより高いシグネチャ項の幾何学的解釈は、残念ながら、全く直感的ではない)。S^(1,2)(X)の計算に、S⁽¹⁾(X)が使われているところが、『反復』積分という名前の所以である。
†1　より一般的には、ヤング積分に拡張できる。リーマン･スティルチェス積分の範囲では、有界変動を持つパスに対する反復積分のみが定義可能である。ヤング積分にまで拡張すると、”もっと不規則な”パスに対する反復積分まで定義可能となる。なお、リーマン･スティルチェス積分を簡潔に述べると、∫f(x)dg(x)と表させる積分のことである。
†2　文言は、[*24]に従った。
2⃣　シグネチャとモーメント　
　(1)で、シグネチャ項と、｢平均、分散｣(統計的モーメント)とのイメージ的なアナロジーについて触れた。実は、シグネチャ項を使って統計的モーメントを簡単に計算することができる。しかも、それは2次までのモーメントに留まらず、高次のモーメントにまで当てはまる。詳しくは、[*25]を参照。
3⃣　シグネチャと基底関数　
　(0)では、線形回帰の議論の範疇であれば、シグネチャ各項は、｢合成｣説明変数に過ぎないと書いた。一応、次のような問題を考えよう：説明変数と目的変数との間には確かに何らかの関係があって、回帰タスクにより、その関係は顕示可能とする。その前提下であっても、勝手に作った｢合成｣説明変数と目的変数との間に、何らかの関係が確かに存在すると期待しても良いのか。
　シグネチャ項を｢合成｣説明変数とする場合の答えは、イエスである。シグネチャ項は、パスの関数が作る空間における基底(関数)と見做すことができる。つまり、パスXの連続関数f(X)^†1は、シグネチャ項の線形結合で近似^†2できる。もっと平たく言えば、説明変数X、目的変数＝Xの適当な関数値f(X)であるから、目的変数は、シグネチャ項の線形結合により、近似できる。連続関数f(X)は、もちろん非線形で構わない。多変量回帰も、非線形関数を線形結合で表現する枠組みであるが、シグネチャ項を使った表現は、多変量回帰よりも優れている場合があると期待される(できる)。該当する”場合”については、下記(3)を参照。
|蛇足|・・・再度、混同しかねない正規分布の平均と分散で例えると、平均と分散という合成量(統計量)は説明能力が完璧であったが、正規分布に対してのみ有効である。一方、シグネチャ(各項)は、任意の(連続)関数に対して有効である。故に、基底ということになる。
†1　正確に言うと、有界変動を持つパスの集合のコンパクト部分集合上の連続関数。有界変動≒区分的に微分可能、である。先述の通り、有界変動の制限は、パスの反復積分＝シグネチャが、リーマン･スティルチェス積分として存在することを保証するための制限であった。
†2　任意の精度で近似可能。

(3)　シグネチャを使う意味
　データの持ち方で学習モデルの性能が変わるという意味では、グラフ(構造)を使ったニューラルネットワーク｢グラフ･ニューラルネットワーク(GNN)｣をイメージするといいかもしれない。GNNは、構造化データを適切に処理できると考えられている。例えば、分子シミュレーションの代理モデルであれば、分子をグラフ構造で捉えて、NNで学習することにより、他よりも高性能な学習モデルとなる(と言われている)。つまり、分子(が示す様々な物性値等)をNNの入力(説明変数)として考えた場合、グラフ構造で表現することがより望ましい(だろう)という”ドメイン知識”を使って、データを洗練させると、学習モデルの性能はあがるという例である。
　すると、シグネチャは、どういう”ドメイン知識”が適用できるかという話になる。シグネチャはパスの幾何学的形状の影響を受けやすい[*25]。この性質を、分かり易く例えれば、｢”カクカクしたデータ”を扱うケースでは、シグネチャを説明変数として使った学習モデルは、性能が高いと期待できる｣と表現できるだろう。具体的には、しばしば引き合いに出される時系列データあるいは、もっと直截的に株価データを扱うケースで、シグネチャを使った学習モデルは高性能であることが期待できる。
　先行研究[*22]では、水深でスライスした観測プロファイル(圧力、塩分濃度、水温)^†が、”カクカク”しているという”ドメイン知識”をもとに、シグネチャを使った回帰モデルを、予測モデルとして採用している(と思われる)。
†　ちなみに、観測範囲は、水深約2,000mから海表面まで。

(4)　ペナルティ項
　パスは、そのシグネチャによって完全に決定されるのか?･･･という問いに対する答えは、実は、ノーである(が、大きな問題はないとされている)。また、シグネチャ項には、共線性の問題が発生する。これは、回帰タスクを実行する際に障害となるので、解決しなければならない。標準的な解決策の一つは、ペナルティ項の導入(正則化)である。具体的には、ラッソ、リッジ、エラスティックネット正則化が行われる。先行研究[*22]では、ラッソ正則化が採用されている。本研究では、リッジ正則化が採用されている。

【3】枠組み
(0)　先行研究の枠組み　
　先行研究[*22]のモチベーションは、観測プロファイルの品質管理を自動化したい、というものであった。品質管理は、合格･不合格の二値管理である。シグネチャ項の線形和で、スコアを算出し、設定したしきい値を越える･越えないで、合格･不合格とする。
　シグネチャ項を使った学習モデルは、主成分分析法などの従来手法より、精度が高いと結論されている。本研究は、この先行研究に触発されて、大気プロファイルに対して、シグネチャ項を使った回帰モデルを適用している。

(1)　データのセットアップ
　大気データは、水平解像度10 km を採用する気象庁の運用メソスケール･モデルの解析値である。地表面及び16の等圧面^†1における、3時間毎の｢圧力、温度、相対湿度^†2｣で構成される。地点は、福岡県(北緯 33.6 度、東経 130.4 度)。期間は、2019年から2020年で、合計5,848サンプルから構成されている(2年×365日×24時間/3時間＝5,840)。データは、無次元値化されている^†3。
　また、偏りのない分析にするため、データは時間軸に沿ってランダムにシャッフルされた。データセットは、80%と20%の割合で分割された。前者(80%)は学習データとして、後者(20%)は検証データセットとして使用された。
†1　1000、975、950、925、900、850、800、700、600、500、400、300、250、200、150、100hPa　
†2　ただし、250hPaを超える等圧面における相対湿度は、ゼロに設定されている。
†3　1000hPa、100hPa、1hPaの値を使用して無次元値化された、と書かれている。

(2)　モデルのセットアップ　
　ニューラルネットワークは、全結合の隠れ層(2つ。最初の層は32 ノード、2 番目の層は128ノード) と出力層(364 ノード)で構成。シグネチャは、Pythonライブラリesig^†を使用して計算され、反復積分の次数は、5に設定された。最適化計算に使用したソフトウェア･ライブラリは、SciPy。オプティマイザは、BFGSを使用した。
†　シグネチャを計算するPythonのライブラリには、esigの他に、iisignature[*26]、Signatory[*27]がある。

(3)　本研究の枠組み　
　2年間(2019年及び2020年)のデータで学習済のモデルに対して、2021年のデータを入力し、2021年の出力値を予測値として、グランドトルゥースと比較する。2021年のデータも3時間ごとなので2,920サンプルで構成される(1年×365日×24時間/3時間＝2,920)。

(4)　為念：｢合成｣説明変数としてのシグネチャ　
　【2】(0)でシグネチャ項は、｢合成｣説明変数に過ぎない、と書いた。本研究における説明変数は、気象学的に意味のある物理量であるから、｢合成｣説明変数も、気象学的に意味のある物理量でなければ平仄が合わない。幸い本論文には、シグネチャ項(反復積分)の持つ物理的な意味が、いくつか述べられている。
⇒　圧力と水蒸気(相対湿度か?)からの2次反復積分(シグネチャ項)は、｢降水可能水蒸気｣を示す。そして、圧力と温度からの反復積分(シグネチャ項)は、大気中の総熱量を示す。

【4】シグネチャを使用した学習モデルの検証結果　
(0)　グランドトルゥース及び比較指標　
　グランドトルゥースは(既述通り)、気象庁の運用メソスケール･モデルの解析値である。
　比較指標は(こちらも、既述通り)、差と二乗平均平方根誤差(Root Mean Squared Error：RSME)である。

(1)　比較対象モデル　
　❶シグネチャを説明変数とした深層学習モデルと、❷ベースライン：｢生の(raw)｣大気プロファイル値を説明変数とした学習モデルが、比較された。生の大気プロファイル値は、｢圧力、温度、相対湿度｣である。ベースラインもモデル･アーキテクチャは、同じである。すなわち、全結合の｢隠れ層×2と出力層｣で構成されている。隠れ層のノード数は、16と32。出力層は、48ノードである。
　目的変数は、気温と水蒸気混合比である。2021年8月における❶と❷それぞれの予測値が比較された。

(2)　シグネチャ項を使った学習モデルの精度　
　2021年における、㊀年間平均値、㊁夏の期間に渡る平均値、㊂冬の期間にわたる平均値を、気温と水蒸気混合比において算出している。その上で、差とRSMEで比較している。概ね、学習モデルの予測精度は、高いと言えるであろう。
　差とRSMEで比較するとRSMEの方が(グランドトルゥースとの)乖離は大きいが、水蒸気混合比は気温に比べて、その乖離幅は小さい。乖離幅に関して、気温は㊀～㊂で大きな違いはないが、水蒸気混合比は㊂が明らかに小さい。気温は、高高度になるほど乖離が大きくなる(250hPaを超える等圧面における相対湿度は、ゼロに設定されていることから、水蒸気混合比は高高度ではゼロに収束している)。
　気温の乖離は、高度の上昇に伴って、長らくマイナス方向に振れた後、短くプラス方向に振れる。その後、再びマイナスに振れる。この傾向は㊀～㊂で同じである。ただし、実際にプラスの乖離を示すのは、㊂のみである。また、㊀と㊂は800hPa等圧面まで、乖離がほぼ0。㊁は600hPa等圧面まで、乖離がほぼ0。

(3)　❶シグネチャ項を使った学習モデルと、❷ベースラインとの比較　
　結論として、全体的に見て、❶は❷より精度が高い、と言える。折角なので意地悪な視点で、重箱の隅を突いてみよう。気温で、❶と❷を比べると、高高度かつRSMEでは、むしろ❷の方が精度が高いと言える。しかし、❷は地表面付近では、(グランドトルゥースとの)乖離が顕著に大きい。水蒸気混合比は、全体的に❶の精度が高い。地表面付近で❷の乖離が顕著に大きいという傾向は、同じである。本論文では、｢中層(975hPa～800hPa)では持続的な正のバイアスが観測された｣と指摘されている。そして、その原因について、｢入力ベクトルと、表層,大気境界層,自由大気層の値との間に、❷モデル内で相関があることに起因していると考えられる｣と推論している。

【5】考察　
(0)　日本の気象予報は、数値予報に関しては、世界でも高水準にあると思われる。ただ、機械学習･深層学習(を使用･適用して、付加価値を付けるあるいは性能向上を図る)に関しては、遅れていたように思う。本研究は、嬉しい例外の一つとして上げられるだろう。
(1)　シグネチャを使った学習モデルが、金融や経済分野における時系列データ解析以外で使われることは珍しい。気象分野で使われたのは、本研究が初めてらしい。見事にハマった、という感じであろうか。
(2)　【0】でも取り上げた通り、シグネチャを使った学習モデルは、既に量子版を検討するフェーズにある。量子化することで、性能が上がると期待できる合理的な理由があるからである。気象分野にあてはめたこの事例も、量子化を期待したい。

【尾注】
*1　https://deepmind.google/discover/blog/graphcast-ai-model-for-faster-and-more-accurate-global-weather-forecasting/
*2　Remi Lam et al.、Learning skillful medium-range global weather forecasting、https://www.science.org/doi/reader/10.1126/science.adi2336
*3　Kaifeng Bi et al.、Accurate medium-range global weather forecasting with 3D neural networks、https://www.nature.com/articles/s41586-023-06185-3　
*4　Jaideep Pathak et al.、FOURCASTNET: A GLOBAL DATA-DRIVEN HIGH-RESOLUTION WEATHER MODEL USING ADAPTIVE FOURIER NEURAL OPERATORS、https://arxiv.org/pdf/2202.11214.pdf
*5　https://www.jstage.jst.go.jp/article/jwea/45/2/45_261/_pdf
*6　https://climcore.rcast.u-tokyo.ac.jp/reanalysis/
*7　https://www.ncei.noaa.gov/products/international-best-track-archive
*8　松枝未遠･中澤哲夫、TIGGE データを利用した顕著現象発生予測プロダクトの開発とその評価、https://www.dpac.dpri.kyoto-u.ac.jp/workshop/2014/proceedings/07-matsueda.pdf
*9　http://agora.ex.nii.ac.jp/digital-typhoon/help/world.html.ja
*10　http://agora.ex.nii.ac.jp/digital-typhoon/help/landfall.html.ja
*11　以下を参考にした：気象庁･数値予報解説資料集(令和4年度) 4.7 表記と統計的検証に用いる代表的な指標)：https://www.jma.go.jp/jma/kishou/books/nwpkaisetu/R4/4_7.pdf
*12　他には、ミシガン大学、ライス大学、カリフォリニア工科大学、パーデュー大学。全て米国の機関である。
*13　https://www.jma.go.jp/jma/kishou/books/nwpreport/64/chapter5.pdf
*14　https://developer.nvidia.com/ja-jp/blog/develop-physics-informed-machine-learning-models-with-graph-neural-networks/
*15　John Guibas et al.、ADAPTIVE FOURIER NEURAL OPERATORS: EFFICIENT TOKEN MIXERS FOR TRANSFORMERS、https://arxiv.org/pdf/2111.13587.pdf
*16　https://www.mizuho-rt.co.jp/publication/column/2022/infocomm0317.html
*17　関口智大、アーティスト制御可能なオーロラシミュレーションに関する研究、https://core.ac.uk/download/pdf/188016534.pdf
*18　池田翔他、気象庁全球週間アンサンブル予報のダウンスケールデータを用いた相対湿度および葉面濡れの確率予報実験と検証、日本気象学会機関誌｢天気｣69巻(2022年)3号、pp3-18、https://www.jstage.jst.go.jp/article/tenki/69/3/69_133/_pdf/-char/ja
*19　https://www.science.org/doi/suppl/10.1126/science.adi2336/suppl_file/science.adi2336_sm.pdf
*20　https://developer.nvidia.com/ja-jp/blog/develop-physics-informed-machine-learning-models-with-graph-neural-networks/
*21　Mikiko Fujita et al.、Prediction of Atmospheric Profiles With Machine Learning Using the Signature Method、https://agupubs.onlinelibrary.wiley.com/doi/10.1029/2023GL106403
*22　Nozomi Sugiura、Machine Learning Technique Using the Signature Method for Automated Quality Control of Argo Profiles、https://agupubs.onlinelibrary.wiley.com/doi/10.1029/2019EA001019
*23　稲浜譲、論説|ラフパス理論と確率解析、数学67巻(2015) 第3号、pp. 291-313、https://www.jstage.jst.go.jp/article/sugaku/67/3/67_0673291/_pdf/-char/ja
*24　杉浦望実、特集「データ同化の方法」［研究詳解］シグネチャ法入門、統計数理(2022) 第70巻第2号、pp.251–267、https://www.ism.ac.jp/editsec/toukei/pdf/70-2-251.pdf
*25　Ilya Chevyreva ＆ Andrey Kormilitzin、A Primer on the Signature Method in Machine Learning、https://arxiv.org/pdf/1603.03788.pdf
*26　Jeremy Reizenstein、The iisignature library: efficient calculation of iterated-integral signatures and log signatures、https://arxiv.org/pdf/1802.08252.pdf
*27　Patrick Kidger and Terry Lyons、SIGNATORY: DIFFERENTIABLE COMPUTATIONS OF THE SIGNATURE AND LOGSIGNATURE TRANSFORMS, ON BOTH CPU AND GPU、https://openreview.net/pdf?id=lqU2cs3Zca
*28　https://www.jamstec.go.jp/j/about/press_release/20240315/
*29　Cristian Bodnaret al.、AURORA: A FOUNDATION MODEL OF THE ATMOSPHERE、https://arxiv.org/pdf/2405.13063
*30　Ze Liu et al.、Swin Transformer V2: Scaling Up Capacity and Resolution、https://openaccess.thecvf.com/content/CVPR2022/papers/Liu_Swin_Transformer_V2_Scaling_Up_Capacity_and_Resolution_CVPR_2022_paper.pdf

お問い合わせ