はじめに

こんにちは。
サイバーエージェント/グループIT推進本部/データプロダクトユニット所属の光永です。
「新型Snowball*1」に触れる機会があったためブログにまとめてみました。

導入した背景

現在、データセンターのデータ整備の一環で、HDFSのデータをS3に移管するプロジェクトを進めています。
旧型Snowball*2では、安定性や転送速度、格納できるデータ量の上限について課題を感じていました。
2023年の年初から2.5PB程度のデータを、旧型Snowballの2台体制で交互に転送を実施していましたが、データが1台あたり80TBまでしか入らないため、台数が多くなり、その運用負荷が課題になっていました。

待望の新型Snowballがこちら

Snowball Edge Storage Optimized with 210TBの画像
Snowball Edge Storage Optimized with 80TBの画像

新型Snowballと旧型Snowballの比較写真

(左: 新型Snowball 右: 旧型Snowball)

CPU メモリ ストレージ 大きさ
旧型Snowball 40vCPUs 80GB 80TB(HDD) 高さ:15.5 インチ (394 mm)
幅:10.6 インチ (265 mm)
長さ:28.3 インチ (718 mm)
新型Snowball 104vCPUs 416GB 210TB(SSD) 高さ:15.5 インチ (394 mm)
幅:10.6 インチ (265 mm)
長さ:28.3 インチ (718 mm)

写真と比較表*3の通り、新型Snowballと旧型Snowballのサイズは同じです。インターフェース部分に変更がありますが、正直そこまで見た目の違いは分からないと思います。
大きさも変わらないため、今まで旧型Snowballを利用されていた方は設置に困らないはずです。設置担当者からは、電源を入れたときのファンの音が大きくなり、よりスムーズに排気が出来るようになったのでは、とのコメントを頂いています。
旧型Snowballでもファンの主張が大きかったですが、新型Snowballはもっとヤバい感じです。
性能はCPUは2.5倍以上、メモリは5倍以上、ストレージは2.5倍以上かつSSDに変更になっており、スペックが大幅に向上している事がわかりますね。

改善された点

旧型Snowballの3倍近くのデータ保存領域

Snowballは、発注後ベストエフォートでデータセンターに到着するため、当日急に電話が鳴って届きます。旧型Snowballの3倍近くのデータが入ることにより、この突発的なデータセンターの入館作業が3分の1になることは、運用負荷の低減につながります。

旧型Snowballの3倍近くのデータ転送速度

Snowballへ大量のデータを高いスループットで転送するには、データを並列に送ることで実現できます。旧型Snowballは、24から32並列が限界で、スループットは、最大でも5Gbps程度でした。*4
Snowballの負荷状況を確認することができないため、ギリギリのチューニングが求められます。しかし、今回の新型SnowballはCPUがかなり増強されているため、限界に挑戦してみました。

新型Snowballのパフォーマンス検証

「vCPUの個数が104個のため、104並列まで線形に転送量が増えるのではないか」という仮説のもと、検証を行いました。
Snowball Edge Storage Optimized with 210TBにおいて、同時並列104にした際にスループットが10Gbpsで張り付いたことを示すDatadogのグラフ
10Gbpsで張り付いていたため、もしかしたら帯域の制限にかかっているのでは?となりネットワーク機器を変更(RJ45からQSFPへ変更)して40Gbpsまで耐えるようにしました。
Snowball Edge Storage Optimized with 210TBにおいて、同時並列104にした際にネットワーク機器を変更し、スループットが14Gbpsまで増えたことを示すDatadogのグラフ
再度、検証してみるとなんと脅威の14Gbpsまで転送速度が増えました。
これにより、高い要求の転送ワークロードでも安心して利用ができそうです。

まとめ

今回は、新型Snowballを試してみました。旧型よりもデータ保存量が増え、一度に大量にデータを送ることができ、運用負荷の軽減を実感することができました。
新型Snowballを使うことで、今まで以上に高速に大量のデータをS3へ転送することが可能になりました。気になる方は、是非使ってみてください。

*1 Snowball Edge Storage Optimized with 210TB
*2 Snowball Edge Storage Optimized with 80TB
*3 https://docs.aws.amazon.com/ja_jp/snowball/latest/developer-guide/sbe-specifications.html
*4 送信ファイルのサイズが小さいため、並列数を上げることでスループットを向上させています。
パッケージ化等も模索しましたが、様々な要因でそのまま転送しています。

サイバーエージェント/グループIT推進本部/データプロダクトユニット所属のソフトウェアエンジニアです。