TECH PLAY

Deep Learning

ディープラーニング(深層学習)とは、システムが大量のデータを学習して、データ内から特徴を見つけ出す技術方法で、多層的(ディープ)に構造で考える方法です。

イベント

該当するコンテンツが見つかりませんでした

マガジン

技術ブログ

本ブログは、2025 年 10月 20 日に公開された Amazon Science Blog “ Introducing Chronos-2: From univariate to universal forecasting ” を翻訳したものです。 Chronos-2 は、追加学習なしに、多変量も共変量も扱える時系列基盤モデルです。 時系列予測は、ビジネス、科学、工学における数多くのアプリケーションにとって不可欠です。近年、基盤モデルが時系列予測にパラダイムシフトをもたらしました。1本の時系列を延長する統計モデルや、特定タスク専用に訓練された従来の深層学習モデルとは異なり、時系列基盤モデル(Time Series Foundation Model : TSFM)は大規模な時系列データで事前に訓練され、その後さまざまな予測問題に適用されます。 初回リリース以来、Amazon の TSFM である Chronos と Chronos-Bolt は、Hugging Face から累計6億回以上ダウンロードされており、TSFM への関心の高さと、幅広い予測シナリオで活用されていることを示しています。 しかし既存の TSFM には、単変量予測しかサポートされないという重要な制約があります。単変量予測は重要ですが、多くのシナリオでは追加の機能が必要です。現実の予測問題では、互いに関連しながら変動する複数の時系列を同時に予測すること(多変量予測)や、予測対象に影響を与える外部要因を取り込むこと(共変量付き予測)が求められることが多くあります。例えば、CPU 使用率、メモリ消費量、ストレージ I/O などのクラウドインフラストラクチャの指標は連動して変化し、同時にモデリングすることでより正確な予測が得られます。同様に、小売の需要はプロモーション活動に大きく影響され、エネルギー消費は気象条件に大きく依存します。 この問題を解決するため、私たちは Chronos-2 を発表しました。Chronos-2 は、単変量、多変量、共変量付き予測など、任意の予測タスクをゼロショットで処理するために設計された基盤モデルです。Chronos-2 はコンテキスト内学習(in-context learning : ICL)を活用し、追加学習なしに多変量・共変量付き予測を実現します。 多変量予測では、Chronos-2 は互いに連動する複数の時系列を同時に予測し、変数間の依存関係を捉えて予測精度を向上させます。例えば、クラウド運用チームは CPU 使用率、メモリ消費量、ストレージ I/O を同時に予測し、リソースのボトルネックを事前に検知できます。 共変量付き予測では、Chronos-2 は予測対象に影響を与える外部要因を取り込むことができます。このモデルは、過去共変量(将来のトレンドを示唆する過去の交通量データなど)と、将来既知の共変量(計画済みのプロモーションや天気予報など)をサポートします。また、特定の祝日やプロモーションの種類などのカテゴリカル共変量も扱えます。例えば、小売業者はプロモーションキャンペーンや祝日スケジュールを考慮しながら需要を予測し、在庫水準を最適化できます。 Chronos-2 の強化された ICL 機能は、系列間の情報共有(クロスラーニング)を可能にし、単変量予測も改善します。これはコールドスタートのシナリオで特に有用です。新しい配送センターを開設する物流会社は、既存施設のパターンを活用して、運用履歴が最小限であっても正確な予測を生成できます。 図1 : Chronos-2 のパイプライン Chronos-2 の全体パイプラインは以下のように構成されます。 入力時系列(予測対象と共変量)をスケーリングで正規化 タイムインデックスとマスクのメタ特徴量を追加 得られた系列を重複のないパッチに分割し、残差ネットワークを介して高次元の埋め込みにマッピング コアの Transformer スタックがこれらのパッチ埋め込みに対して動作し、入力でマスクされた将来パッチに対応するマルチパッチ分位点出力を生成 訳注:タイムインデックスは各データポイントの時間的な位置を示し、マスクは将来区間(=予測対象)がどこかをモデルに伝える役割を持ちます。 訳註:残差ネットワーク(residual network)は入力をスキップ接続で保持しながら変換するネットワーク構造を意味します。「高次元の埋め込みにマッピング」は、各パッチを Transformer が処理しやすい数値ベクトルに変換することです。 各 Transformer ブロックは時間アテンション層とグループアテンション層を交互に配置しています。時間アテンション層は単一の時系列内のパッチ間で情報を集約し、グループアテンション層は各パッチインデックスにおいてグループ内のすべての系列間で情報を集約します。図 1 は、それぞれ 1 つの既知共変量を持つ 2 つの多変量時系列を示しており、対応するグループが青と赤でハイライトされています。この例は説明のためのものですが、Chronos-2 は任意の数のターゲットとオプションの共変量をサポートします。 Chronos-2 のように多様な予測タスクに対応する TSFM を構築するには、モデルアーキテクチャと訓練データの2つの面でイノベーションが必要でした。下流の予測タスクは、変数の数も変数が表す意味も多様です。未知のタスクにおける変数間の相互作用は事前に分からないため、モデルは与えられたコンテキストからそれを推論する必要があります。 私たちのグループアテンション機構は、任意のサイズの時系列グループ内での情報交換を通じて、このような相互作用を考慮します。例えば、Chronos-2 がクラウドの各種指標を予測する場合、CPU 使用率のパターンがメモリ消費量の予測に情報を提供できます。グループアテンションは共変量も考慮でき、例えばプロモーションスケジュールの情報を使って需要予測を支援します。 訓練コーパスはアーキテクチャのイノベーションと同様に重要です。多様な予測タスクに対応する TSFM は異種の時系列タスクで訓練される必要がありますが、多変量の依存関係や有用な共変量を含む高品質な事前学習データはほとんど存在しません。この問題に対処するため、私たちは合成時系列データを活用しています。具体的には、ベースとなる単変量生成器から時系列をサンプリングし、それらに多変量構造を付与することでデータを生成しています。 図2 fev-bench の結果 fev-bench 時系列ベンチマークでの実験結果です。平均勝率とスキルスコアは、確率的予測性能を評価するスケーリング分位点損失(SQL)指標に基づいて計算されています。両指標とも値が高いほど結果が良好であることを示します。Chronos-2 は、単変量、多変量、共変量付き予測タスクを含むこの包括的なベンチマークにおいて、既存のすべての事前学習済みモデルを大幅に上回っています。 図3 : 単変量予測との比較 Chronos-2 の単変量予測での結果と、fev-bench の共変量サブセットにおける ICL による改善(積み上げ棒グラフとして表示)です。ICL は共変量を含むタスクで大きな改善をもたらし、Chronos-2 が ICL を通じて共変量を効果的に活用できることを実証しています。Chronos-2 以外では TabPFN-TS と COSMIC のみが共変量をサポートしており、Chronos-2 はすべてのベースライン(TabPFN-TS と COSMIC を含む)を大幅に上回っています。 図4 : GIFT-Eval の結果 GIFT-Eval 時系列ベンチマークでの結果です。(a) 確率的予測指標および (b) 点予測指標に対する平均勝率とスキルスコアを示しています。両指標とも値が高いほど結果が良好であることを示します。Chronos-2 は、これまで最高性能であった TimesFM-2.5 と TiRex を上回っています。 実証的な評価により、Chronos-2 が TSFM の飛躍的な能力が確認されました。単変量、多変量、共変量付き予測など幅広い予測タスクを網羅する包括的な時系列ベンチマーク fev-bench において、Chronos-2 は既存の TSFM を大幅に上回っています。最大の改善は共変量付きタスクで見られ、この実用上重要な設定における Chronos-2 の強みを実証しています。 GIFT-Eval ベンチマークでは、Chronos-2 は事前学習済みモデルの中で1位にランクされています。Chronos-2 はその前身である Chronos-Bolt を大幅に上回り、直接比較で90%以上の勝率を達成しています。 Chronos-2 は ICL により追加学習なしに本番パイプラインへ組み込めるため、予測パイプラインを大幅に簡素化できます。Chronos-2 は現在オープンソースとして公開されています(リンクは以下)。研究者や実務家の皆様にぜひ Chronos-2 をお試しいただき、時系列基盤モデルの研究の最前線に加わっていただければ幸いです。 参考情報: Chronos-2 モデルカード Amazon SageMaker への Chronos-2 のデプロイ Chronos-2 技術レポート Chronos GitHub リポジトリ 著者について Abdul Fatir Ansari Amazon Web Services の Senior Applied Scientist Oleksandr Shchur Amazon Web Services の Senior Applied Scientist Jaris Küken Amazon Web Services の Applied Science Intern。フライブルク大学コンピュータサイエンス専攻の大学院生 本ブログは、Solutions Architect の 寺山 怜志が翻訳しました。
おなかが痛くてもコーヒーは飲む、近藤恭平です。 前回は生成 AI の基礎(FM・LLM・トークン・埋め込み・推論パラメータ)を整理しました。今回は、基盤モデルを実際のアプリケーションに活用するための設計・実装・評価に関する知識を整理します。試験ガイドのドメイン3に対応した内容です。 基盤モデルを使ったアプリ設計の考慮事項 FM の特性:大規模・ブラックボックス 深層学習の過程と学習の結果得られる基盤モデル(FM)には、以下の固有の特徴があります。 特性 内容 大規模なコンピューティング要件 FM のトレーニングには多くの GPU リソースと時間が必要。既存の FM をそのまま利用したり、転移学…
おなかが痛くてもコーヒーは飲む、近藤恭平です。 最近バックオフィスのメンバーに Cloud Practitioner の勉強会を実施しました。次は AIF だろうと思ったので、初学者向けに AIF の学習をする際や試験直前の振り返りの際に使える参考資料になることを願い執筆します。 AI・機械学習・深層学習の違い AI・ML・DL の関係 用語 定義 AI(人工知能) 人間のような判断・推論をコンピュータで実現する技術の総称 機械学習(ML) データからパターンを自動的に学習させる AI の実装手法 深層学習(DL) 人間の脳神経回路を模した多層構造で学習する、ML の一手法 AI の進化:2つ…

動画

書籍