Amazon Web Services ブログ

EDA フローを変更することなく、結果を得るまでの時間を短縮

チップ形状の微細化が進むにつれ、先端ノード技術を使用してチップ製造を成功させることは難しくなっています。電子設計自動化 (EDA) は、より多くのコンピュート、ストレージ、時間を消費します。設計と検証の段階で、エンジニアが反復してバグを発見する時間を増やすことは、何百万もの不具合による再設計や収益の損失を防ぐことにつながります。チップ設計プロセスをさらに複雑にしているのは、半導体市場が人材不足に陥っていることです。既存エンジニアの生産性を向上させることで、この人材不足を解消し、市場投入までの時間を改善することができます。このブログでは、柔軟なコンピュートオプションを使用して最大 40% のパフォーマンス向上を示す 2 つの環境について説明します。これらの環境は、Cadence 社と Synopsys 社のバッチツールとインタラクティブツールにまたがり、結果が出るまでの時間とジョブコストを比較しています。

選択肢が重要な理由

それぞれの EDA ツールの性能は、様々な要因の影響を受けます。CPU のクロック速度が速いものや、特定の CPU 命令セットを使っているものは、その恩恵を受けます。他のツールは、より大きな L3 キャッシュ、メモリ帯域幅、またはネットワークスループットの恩恵を受けます。AWS 上で実行することで、顧客は最適化しようとしている特定の CAD (Computer Aided Design) フローに合わせて、コンピュートインスタンスを適切なサイズに設定することができます。CAD フロー全体において、結果までの時間が 10 ~ 40% 短縮され、全プロセスが 1 時間で完了しました。これは、CAD フローを変更する労力を掛けることなく、このようなパフォーマンスの改善を得るための方法です。

影響の定量化

この最適化の影響を定量化するために、2 つの単純化したシナリオ (最適化/非最適化) を比較してみます。

  • ジョブは 2 つのライセンスタイプで半々に分けられます
  • ライセンス A は CPU プロバイダー A で 15% 遅く動作します
  • ライセンス B は CPU プロバイダー B で 15% 遅く動作します
  • 月間 1,000,000 ジョブ、2 つのオプションのうち最速で実行した場合の平均ジョブ時間は 1 分です
  • どちらのコンピュートタイプも 1 時間あたり 0.1 ドルです (シンプルにするため)
  • ライセンスコストはコンピュートコストの 3 倍です (0.3ドル)

顧客がクラスタ用に 1 つの CPU プロバイダだけを選択した場合、500,000 分 * 100% * $(0.1+0.3) / 60 + 500,000 分 * 115% * $(0.1+0.3) / 60 = $7,166 を支払うことになります。

一方、同じ顧客が各ジョブを最適な CPU で実行することを選択した場合、500,000 分 * 100% * $(0.1+0.3) / 60 + 500,000 分 * 100% * $(0.1+0.3) / 60 = $6,666 を支払うことになります。

この計算では、結果を 15% 早く得ることによるビジネス上のメリット (エンジニアリングの生産性、市場投入までの時間) を無視し、直接的な節約だけが強調されています。また、よりコストの低いインスタンスもあり、それらを選択することでさらなる節約を達成できるという事実も無視されています。結果を共有する前に、どのようにベンチマークを実行したかを説明します。

方法論

AWS オレゴンリージョンの AWS インフラを使用して、このベンチマークを実行しました。各ベンチマークには以下の要素が含まれます。

  • Intel、AMD、ARM ベースの AWS Graviton プロセッサの 3 つのサーバ・アーキテクチャ
  • テスト時の 2 世代のコンピュート (現行世代と旧世代)
  • 合計 13種類 のインスタンスタイプ (Intel 5種類、AMD 4種類、Graviton 4種類)

各インスタンスのコア数は同じで、より多くのメモリを提供するインスタンスもありました。これにより、それぞれの EDA ツールについて、各 CPU タイプのコスト/パフォーマンスを評価することができました。また、CPU の世代を比較することで、経年変化を確認することもできました。各ツールには、同じ EDA ベンダー (Cadence / Synopsys) の IP ブロックを使用しました。複数のツールで同じユースケースを実行したわけではありません。Cadence と Synopsys を比較したのではなく、ツールごとに異なるコンピュートタイプを比較したのです。同様のアプローチは Siemens 社も取っており、同社のクラウド・フライトプランの発表で述べられているように、AWS 上でより高速に実行するための最もよく知られた方法を取り入れています。注:結果はしばしば設計に依存します。Intel が Tool X で高速だったとしても、あなたの設計では必ずしもそうではないでしょう。あなたの設計でこのテストを繰り返す必要があります。例えば、あるツールが L3 キャッシュのサイズに敏感であるにもかかわらず、テストケースが小さすぎて L3 キャッシュにストレスを与えられなかったような場合です。あなたの設計は、その違いを体験するのに十分な大きさかもしれません。言い換えれば、あなたの燃費は異なるので、自身でテストしてください。コスト分析にあたっては、3 つの仮定を置きました。

  • 各ライセンスのコストは 2,500 ドルと仮定しました。すべてのライセンスに単一のコストがあるわけではありませんが、ランタイムが全体のコストに与える影響を示すための「プラグナンバー」が必要でした。EDA ライセンスは通常、実行に使用するコンピュートよりも数倍高いです (Intel の場合は 4 倍)。私たちは、コンピュートだけのコストではなく、全体的なコストを最適化しています。
  • 私たちは生産性を示しているわけではありません。私たち自身のシリコン開発では、エンジニアのコストは新製品の開発コストの 50% にも上ります。次のコストシミュレーションには、そのようなコストは含まれていません。もしそれを含めれば、長時間ジョブの影響は 2 倍以上になるでしょう。
  • 各ジョブには、オレゴンリージョンの Amazon Elastic Compute Cloud (Amazon EC2) のオンデマンド価格を使用しました。オンデマンドホストは、リザーブドインスタンスSavings plans による割引を享受できません。これは「最悪のシナリオ」の計算です。シミュレーションを使用した AWS 上の電子設計自動化のコスト予測をお読みいただき、コスト削減を実施するための当社の支援方法をご確認ください。

このブログは 2023 年夏に実施されたテストのデータに基づいています。それ以来、Intel ベースの r7izGraviton 4 インスタンスなど、新しいインスタンスが発表されています。しかし、このブログでは時間の経過に伴うパフォーマンスの最適化について見ています。新しいインスタンスタイプでの再テストは、AWS 上で EDA パフォーマンスを繰り返し継続的に向上する方法の完璧な例です。

結果 : Cadence

グラフ 1 は、Cadence Spectre の結果を示しています。グラフ上の各ドットは、特定のコンピュートインスタンスタイプを表しています。

  • X 軸はランタイム (秒) を示します
  • Y 軸は 1 つのジョブの総コスト (実行された時間のコンピュート + EDA ライセンス) を示します
  • 理想的なサーバーは、より低く (費用対効果が高く)、より左にあります (結果が出るまでの時間が早い)

グラフ 1 – Spectre のコスト/パフォーマンス分析 (ジョブあたり)。Graviton インスタンスは x86 インスタンスより 40% 以上高速で、コストは 40% 以上低い。

グラフ 1 では、ジョブの実行時間が長いほど、ジョブ全体のコストが高くなることがわかります。データポイントが斜めに広がっているのはこのためです。c7g/m7g (第 3 世代 Graviton プロセッサ) は、現世代の Intel インスタンス (c6i/m6i) や AMD (c6a/m6a) と比べて 40% 以上高速であることがわかります。Spectre は浮動小数点演算に依存しており、第 3 世代 Graviton プロセッサは x86 よりも高速に実行します。Graviton はクロック速度が低いにもかかわらず、浮動小数点演算ではより高速です。これは些細なことではないので、インスタンスのスペックに頼らずテストすることをお勧めします。次のツールに移る前に、これらのインスタンスファミリーを世代間で比較し、Time-to-Results が時間とともにどのように変化するかを見ることができます。

グラフ 2 – コンピュート世代間の Spectre パフォーマンス。Graviton と AMD (M-family) はどちらも以前は Intel より遅かったが、現在の世代では速くなりました。

グラフ 2 は、新しい世代におけるすべてのコンピュートファミリーのランタイムの向上を示しています。前の世代では AMD が最速でしたが、現在の世代では ARM が最速です。これは、新しい世代が出るたびに、コンピュートの選択を再評価する必要性を示しています。先に説明したように、このテストには 1 時間かかりました。このラボでは、すべてのコンピュートノードで設計を並列実行し、性能を評価しました。ライセンスの縛りがある場合は、

  • これらのテストを連続的に実行するか
  • 今日は、とある 1種類の CPU タイプで、明日は別の CPU タイプでリグレッションテストを実行します

同じデータをXceliumで比較してみます。

グラフ 3 – Xcelium のコスト/パフォーマンス分析。AMD は Intel より 11%、ARM ベースのインスタンスより 14% 高速でした。

グラフ 3 は、AMD ベースのインスタンスが同スペックの Intel よりも 11% 高速に動作し、Graviton ベースのインスタンスよりも 14% 高速に動作していることを示しています。Spectre と比較した結果の変化は、結果までの時間を短縮するためには、多様なコンピュートタイプが必要であることを浮き彫りにしています。コンピュート世代を比較すると (グラフ 4)、AMD は Intel よりも遅かったが、より速くなりました。AWS の顧客は各コンピュート世代で各フローに最適なものを柔軟にテストできます。そして、インスタンスタイプを組み合わせて使うことができます。

グラフ 4 – コンピュート世代間の Xcelium パフォーマンス。AMD (M-family) は以前は Intel より遅かったが、現在の世代では速くなりました。

結果 : Synopsys

Synopsys VCS のテストでも同様のアプローチを取りましたが、今回は同じツールを 2 種類のクイックスタートキット (XBUS と Bitcoin) でテストしました。これにより、特定の設計が CPU の選択に与える影響が浮き彫りになりました。Synopsys の XBUS クイックスタートキットを使用した場合、Intel は AMD より 10%、Graviton より ~ 14% 高速でした (グラフ 5)。

グラフ 5 – VCS (XBUS) のコスト/パフォーマンス分析。Intel は AMD より 11%、Arm ベースのインスタンスより 14% 高速でした。

コンピュート世代を比較すると (グラフ 6)、現在の世代では Intel が最速であることがわかります。しかし、前の世代を比較すると、これらがどのように変化するかに注目してください。

グラフ 6 – コンピュート世代間の VCS (XBUS) 性能、Intel が両世代で最速。

Synopsys の Bitcoin クイックスタートキットを使って同じテストを繰り返すと (グラフ 7)、結果が変化するのがわかります。AMD は Intel より 25% 速く、Graviton より 20% 速いです。これは、結果がいかに設計に依存するか、そしてなぜ自分でテストする必要があるかを示しています。

グラフ 7 – VCS (Bitcoin) のコスト/パフォーマンス分析。AMD は Intel より 30% 速く、Graviton より 25% 速い。

コンピュート世代を比較すると (グラフ 8)、AMD がこの特定の設計で最も遅いものから最も速いものへと変化しており、時間の経過とともに状況が変化していることがわかります。

グラフ 8 – コンピュート世代間の VCS (Bitcoin) のパフォーマンス。

まとめ

新しい世代が出るたびに、CPU プロバイダは、EDA のコスト/パフォーマンスにおいて、互いにしのぎを削るようになるかもしれません。これにより、新たな改善の機会が生まれます。AWS の顧客は、より高速な結果を得るために、特定の EDA フロー用にコンピュートインスタンスをカスタマイズすることができます。これは、たまたま利用可能なノードでジョブが実行されるオンプレミスとは対照的です。これにより、既存のエンジニアリングチームの生産性が向上し、カバレッジが拡大し、市場投入までの時間が短縮されます。しかも、既存のフローを変更する必要がありません。このパフォーマンス最適化プロセスで EDA フローを実行してみませんか?AWS アカウントチームまたは AWS 担当者にご連絡いただき、半導体のスペシャリストにご相談ください。お客様のテストを喜んでサポートいたします。

さらに読む

翻訳はソリューションアーキテクトの 吉廣 理 が担当しました。原文はこちらです。

Eran Brown

Eran Brown

Eran Brown は、シニア半導体スペシャリスト・ソリューション・アーキテクトです。半導体企業で 7 年間、HPC ストレージインフラの設計に携わり、1 平方インチのシリコンで何ができるかに驚きを隠せません。