TECH PLAY

GPU」に関連する技術ブログ

237 件中 1 - 15 件目
本記事は 2025年12月2日 に公開された「 Amazon OpenSearch Service improves vector database performance and cost with GPU acceleration and auto-optimization 」を翻訳したものです。 本日、 Amazon OpenSearch Service において、サーバーレス GPU アクセラレーションとベクトルインデックスの自動最適化を発表しました。これにより、大規模なベクトルデータベースをより
はじめに 近年、生成AIの進化を支える大規模言語モデル(LLM: Large Language Model)の開発には、莫大な計算資源と高効率な分散学習基盤が不可欠となっています。こうした需要に応え、国内における最先端の […]
2025 年 11 月 18 日、NVIDIA Blackwell Ultra GPU によって高速化された次世代 GPU プラットフォームである Amazon Elastic Compute Cloud (Amazon EC2) P6-B300 インスタンスの一般提供をお知らせします。これらのインスタンスは、前世代のインスタンスと比較して 2 倍のネットワーク帯域幅と 1.5 倍の GPU メモリを提供し、大規模な AI アプリケーション向けにバランスの取れたプラットフォームを構築します。 これらの改善
株式会社フィックスターズでパフォーマンスエンジニアリングラボ長を務めている吉藤です。フィックスターズでは、以前よりさくらインターネット様と高火力 PHYを使った共同研究開発とビジネス協業を推進しており、最近ではH200を […]
はじめに チューリングで自動運転第一グループのマネージャをやっている棚橋です。 今週、チューリングは無事にシリーズA 1st closeの資金調達を発表することができました。 E2E自動運転の開発においても、ようやく都内を30分ほど走行できるレベルに到達しつつあります。しかし、ここに至るまでの道のりは決して平坦ではなく、多くの失敗や試行錯誤を積み重ねてきました。実際にチューリングでは今まで累計約30万kmもの走行データを取ってきました。この記事ではこれまでの開発の道のり、そして今後について書きたいと思いま
こんにちは、原田伶央です。DX内製エンジニア専門組織「INTECH」でFlutterエンジニアをして ...
はじめに Turing CTO室に所属している東京科学大学(Institute of Science Tokyo)の藤井です。 本記事は、LLM, VLM開発の裏で行われるリアルなデバッグ作業の様子を紹介します。 LLM, VLMの開発の裏には本記事で紹介するような地道なデバッグ作業が多数あるのですが、なかなかその実態が伝わっていないように思います。できるだけ詳細にデバッグ作業の様子を記しましたので、実際の現場で行われている作業を追体験いただけますと幸いです。 Background まず、デバッグ作業を行
株式会社フィックスターズでパフォーマンスエンジニアリングラボ長を務めている吉藤です。今回フィックスターズでは、さくらインターネットと共同で「高火力 PHY H100プラン」の8ノードを使って、その実力を検証してみました。 […]
はじめに さくらインターネットで高火力 PHYのチームに所属している道下です。 高火力 PHYは、最新のGPUを8枚搭載し、強力なインターコネクトを備えたサーバーを提供するサービスで、大規模なモデルのトレーニングなどにご […]
こんにちは。NTTドコモビジネスの露崎です。本ブログでは vLLMの本家コミュニティのブログ で紹介されたvLLMのモデルのゼロリロード切り替え機能の概要に加えて本機能をContainerベースで検証した結果について紹介します。 はじめに モデルのゼロリロード切り替え機能が取り組む課題 vLLM Sleep Mode Sleep Level 動作確認 環境構成 利用モデル 実験1. API利用状況の確認 vLLMの起動 Sleepによるモデルの停止 WakeUpによるモデルのリロード 実行結果とパフォーマ
本記事は 2025 年 10 月 27 日に AWS Public Sector Blog で公開された Building large language models for the public sector on AWS を翻訳したものです。翻訳はソリューションアーキテクトの川戸渉が担当しました。 大規模言語モデル (Large Language Model, LLM) は、公共機関によるサービス提供、市民とのエンゲージメント、データに基づく意思決定の方法を根本から変えています。高度な多言語対応と複雑
前置き はじめまして!株式会社NTTデータグループの技術革新統括本部AI技術部でSmart AI Agent™のエンジニアをしている岸川です。 今回は、GPUクラウドサービス「Runpod」について、実際に研究と仕事で活用してきた経験をもとに紹介します。「ちょっとGPU使いたいだけなのに...」という悩みを持つ方に向けて、Runpodの魅力と具体的な使い方を解説していきます! ! 免責事項 本記事の料金情報は2025年10月時点のものです。最新の料金やサービス内容は、Runpod公式サイトでご確認ください
はじめに:本記事について 私の所属する部署では自動車にかかわる様々な開発をしています。その中でも私のチームでは、特にコネクテッドカー(Connected Car) にかかわるバックエンド開発を担当しています。その中で私は、映像の機械学習向けの処理を効率化/分散させるためにKubernetes (K8s)ベースのアーキテクチャ検討をしています。その取り組みの一環として、GPUを分割する手法について調査いたしました。この記事では、そこで得たノウハウの一部を共有いたします。 GPUの分割方式が複数存在する中で、
こんにちは。SCSKの松渕です。 Google Cloudで ファインチューニングが簡単に実装できる と聞いたので、実践してみたいと思います。 はじめに ファインチューニングとは ファインチューニングとは、 事前学習済みの大規模言語モデル(LLM)を、特定のタスクやデータセットに合わせて、追加で学習・調整する ことです。 これは、モデルの基本的な知識や言語能力を活かしつつ、特定の用途(例:社内文書の要約、特定のトーンでの応答、固有の知識の習得)に特化させるために行われます。 なんだか、RAGとの違いがよく
はじめに さくらインターネットでプロダクトマネージャーとして働いている荒木です。 さくらのAI Engineは、基盤モデル搭載済みのGPUサーバーで推論処理ができるAPIサービスです。テキスト生成・分類・埋め込み・音声認 […]