はじめに Turingの基盤AIチームに業務委託として所属している東京科学大学(Institute of Science Tokyo)の藤井です。本記事では、NVIDIA NGC PyTorchのcontainerを利用する際に直面するversion lock問題に関する知見や注意点について紹介します。 普段はSwallow Projectや横田研究室にて大規模モデルの分散並列学習や低精度学習について研究を行っていますので、そちらもご覧いただけますと幸いです。 NGC PyTorchとは NGC PyTorchとは、NVIDIAが提供しているコンテナの総称であり、LLMの学習やN
はじめに Turingの基盤AIチームに業務委託として所属している東京科学大学(Institute of Science Tokyo)の藤井です。 本記事では、LLM(Large Language Models)やVLM(Vision Language Models)などの学習で利用するデータセットを複数のデータセンター間で並列転送する際に利用しているLFTPの使用方法について紹介します。AWS S3, GCSなどのCloud Service企業のストレージサービスを利用される場合は、aws s3コマンドやgcloudコマンドなどにより並列転送を容易に実現可能ですが、そうでない場合に