「GPU」に関連する技術ブログ

企業やコミュニティが発信する「GPU」に関連する技術ブログの一覧です。

Whisperの音声認識精度および認識速度の検証

TL;DR🤩 音声認識器Whisperの認識精度と認識速度について調査 認識精度 英語では論文同様の結果 日本語の認識精度はドメインに依存 baseモデルの推論がドメインにより不安定 ビームサーチの利用により、推論の頑健性が向上 largeモデルのCERはbaseモデルの半分程度 認識速度 baseモデルのRTFはGPUで0.104 largeのRTFは0.408 バッチサイズなどを最適化することで改善 こんにちは。Rev

UE5 Pixel StreamingでリアルタイムCGストリーミング配信 on AWS

こんにちは!金融ソリューション事業部の山下です。 本記事では、 こちらの記事 でも紹介した Unreal Engine が提供する「Pixel Streaiming」 プラグイン を使って AWS サーバーからリアルタイムCGストリーミング配信を行います。 説明をシンプルにする為、 AWS の基本的な知識(EC2, セキュリティグループ、IAMロールなど)の説明は割愛いたします。 また、本検証を行う場合、使

コンピュータビジョン分野における世界最高峰の国際会議CVPR2022の論文紹介(後編)

目次 目次 はじめに 論文紹介 The Norm Must Go On: Dynamic Unsupervised Domain Adaptation by Normalization OcclusionFusion: Occlusion-aware Motion Estimation for Real-time Dynamic 3D Reconstruction EPro-PnP: Generalized End-to-End Probabilistic Perspective-N-Points for Monocular Object Pose Estimation Cascade Transformers for End-to-End Person Search TrackFormer: Multi-Object Tracking With Transformers Global Tracking Transformers TransWeather: Transformer-based Restoration of Images D

Compute Engineを徹底解説!(応用編)

G-gen の杉村です。当記事では Google Cloud (旧称 GCP) の仮想マシンサービスである Compute Engine を徹底解説します。当記事は、先日公開した「 基本編 」に続く「応用編」です。 基本編の記事 サービスアカウントとアクセススコープ サービスアカウントのアタッチ アクセススコープ デフォルトのサービスアカウント Compute Engine へのサーバー移行 ロードバランシングと SSL/TLS

驚異の処理速度! SberSwapで顔置換(フェイススワップ)をやってみた

こんにちは、テリーです。物申す系YouTuberのヘライザーを毎日見てます。ヘライザーのサブチャンネルのとある動画の中で、別の女優さんに顔を置換して話をしているシーンがありました。おそらく芸能人の写真1枚から顔データを取 […]

驚異の処理速度! SberSwapで顔置換(フェイススワップ)をやってみた

こんにちは、テリーです。物申す系YouTuberの ヘライザー を毎日見てます。ヘライザーのサブチャンネルのとある動画の中で、別の女優さんに顔を置換して話をしているシーンがありました。おそらく芸能人の写真1枚から顔データを取り込み、自身の顔を芸能人に置き換える処理をしています。 今回は顔置換技術(フェイススワップ)の中でも特に最新の SberSwap を紹介しま

画像に対する自己教師あり表現学習手法について②

はじめに 機械学習エンジニアの荒居秀尚です。2021年新卒入社で、機械学習モデリングや機械学習を用いたデータ施策におけるM

JAXによるスケーラブルな機械学習

はじめに こんにちは、 ZOZO NEXT ZOZO Research のSai Htaung Khamです。ZOZO NEXTは、ファッション領域におけるユーザーの課題を想像しテクノロジーの力で解決すること、より多くの人がファッションを楽しめる世界の創造を目指す企業です。 ZOZO NEXTでは多くのアルゴリズムを研究開発しており、その中で JAX というライブラリを使用しています。JAXは高性能な機械学習のために設計

筑波大学における雙峰祭オンライン開催の舞台裏

はじめに これまでさくらインターネットでは、学校や学生さんを支援する活動を様々な形で行ってきました。今回はその中から、雙峰祭への「さくらのクラウド」環境支援の事例を、実行委員をされた3名の方(小谷優空さん、小川広水さん、 […]

EDGEPLANT T1でVPI使ってリアルタイム画像処理をやってみた

aptpod Advent Calendar 2021 の14日目を担当するHW/OTグループの矢部です。前日の塩出さんの記事でエディタの話がありましたが、私が使用しているエディタはEmacsです。社内では多分2、3人しかいない少数派。何年か前は Spacemacs で使っていましたが、ここ数年は Doom Emacs を Vim キーバインドで利用しています。もはやデフォルトのEmacsのキーバインドはほぼ忘れているレベルです

リアルタイムレンダラーP3Dのご紹介

はじめまして、ISID エンタープライズ xRセンター Lumiscaphe担当の加納です。 ISIDアドベントカレンダー も4日目ですね! 今回はLumiscaphe系ソフトを用いたワークフローの中核をなす、Patchwork3D…通称「P3D」の紹介をしたいと思います。 Lumiscaphe担当の私はもともと、 プロダクトデザイナー として3D系のソフトを使用していました。それを踏まえて、実際に使用する中でどのよ
GPU, 3D, VR

キャディチームが Sansan × atmaCup #12 で 9th になりました

はじめに 先日行われた atmaCup #12 にて、「CADDiチーム立ち上げ期MLE・DS積極採用中」チームが 245チーム中 9位 になりました。 惜しくも入賞は逃してしまいましたが、 コンペティション 内でチームとして参加していた中では最も良い成績を残す事ができました。 コンペティション の詳細な内容には触れる事はできないのですが、1週間という短期コンペにチームで参加した

ディープラーニングを活用したレコメンドエンジン改善への取り組み

はじめに こんにちは、推薦基盤部の与謝です。ECサイトにおけるユーザの購買率向上を目指し、レコメンデーションエンジンを研究・開発しています。最近ではディープラーニングが様々な分野で飛躍的な成果を収め始めています。そのため、レコメンデーション分野でも研究が進み、精度向上に貢献し始めています。本記事では、ディープニューラルネットワーク時代

TV 録画から自動構築した音声コーパス『LaboroTVSpeech』を公開

TV 録画から自動構築した音声コーパス 『LaboroTVSpeech』を公開 2020.11.19 株式会社Laboro.AI 代表取締役CTO 藤原 弘将 機械学習エンジニア 安藤 慎太郎(現:東京大学大学院工学系研究科) 概 要 Laboro.AIは、 当社の研究開発として、TV録画から長時間音声と字幕テキストを抽出して音声コーパスを自動構築する独自システムを用い、約2,000時間に及ぶ音声データから構築した

Amazon SagemakerでYOLOv4の学習環境を作ってみた

セーフィー株式会社要素技術開発部のおにきです。 クラウドカメラを用いた画像解析の開発を担当しています。 AWSのMLOps環境である Sagemaker について調査しました。試しに物体検出アルゴリズムである YOLOv4 の学習環境を作ってみたので紹介します。今回学習環境としてYOLOv4の著者Alexey Bochkovskiy氏が公開している ソースコード を利用しています。これはYOLOv3までの著者で
技術ブログを絞り込む

TECH PLAY でイベントをはじめよう

グループを作れば、無料で誰でもイベントページが作成できます。情報発信や交流のためのイベントをTECH PLAY で公開してみませんか?