TECH PLAY

Jupyter」に関連する技術ブログ

73 件中 16 - 30 件目
こんにちは。SCSKの磯野です。 BigQueryのパーティションフィルタについて、気になったことをいくつか調べてみました。 パーティションフィルタとは パーティションフィルタを有効にすると、パーティション列を適切に指定したWHERE句が存在しないときに、エラーとすることができます。これにより、必ずパーティションが効くクエリしか実行できなくなるため、フルスキャンによる高額課金を防止することができます。 パーティション分割テーブルの管理  |  BigQuery  |  Google Cloud cloud
この記事は 秋の技術特集2024 の1記事目です。 背景・目的 我々のチームではDBをホスティングせず、S3上のDatabricksのdeltaテーブルを使って社内プラットフォームのシステムを提供しています データの登録はDatabricksのnotebookを使って行うのですが、それをチーム外のメンバーに利用してもらうにあたり入力バリデーションを行う必要がありました そこで、notebookのセルの中身を検証する方法を調査しました graph LR user((チーム外の\n社内メンバー)) gh[Gi
本ブログは「 Transition your Amazon Forecast usage to Amazon SageMaker Canvas 」を翻訳したものです。 Amazon Forecast  は、統計および機械学習(ML)アルゴリズムを使用して非常に正確な時系列予測を提供するフルマネージドサービスです。2019年8月にリリースされ、 Amazon SageMaker Canvas  よりも前に登場しました。Amazon SageMaker Canvasは、時系列予測モデルを含
本記事は 2024年2月2日に公開された ” Monitor embedding drift for LLMs deployed from Amazon SageMaker JumpStart ” を翻訳したものです。 生成 AI のワークロードで最も有用なアプリケーションパターンの 1 つが Retrieval Augmented Generation (RAG) パターンです。 RAG パターンでは、入力プロンプトに関連する参照コンテンツを探すために、埋め込みベクトル (テキスト文字列の数値表現) に
こんにちは。サイオステクノロジーの塙です。 今回はEKS上でGPUを扱う生成AIソリューションのデプロイを試し、実際にGPUがどう使われてどう見えるのかを検証してみたいと思います。 概要 前回は、Kubernetes をベースとしたプラットフォームでGPUを扱っていくための手法について解説してみました。 KubernetesでGPUを扱うためにはどんな準備が必要となるのか、またどんな設定をすれば良いかをまとめています。 ■前回の記事はこちら KubernetesでGPUを使用する   前回までの
6月19日、 Amazon SageMaker でのフルマネージド型 MLflow 機能 の一般提供についてお知らせいたします。 MLflow は広く使用されているオープンソースツールであり、機械学習 (ML) チームが ML ライフサイクル全体を管理する上で重要な役割を果たします。今回の新リリースにより、わずか数ステップで MLflow Tracking Server を簡単にセットアップおよび管理できるようになり、お客様はプロセスの合理化と生産性の向上を実現できます。 MLflow を活用すると、デー
はじめに 会員システムグループのkiqkiqです。最近PySparkというライブラリを触ってみたので紹介したいと思います。 Apache Spark・PySparkとは PySparkは、Pythonを使ってApache Sparkを操作するためのライブラリです。そのApache Sparkというのは、オープンソースの大規模データ処理フレームワークで、高速で汎用的なデータ処理エンジンです。Sparkには主に4つの特徴があります。 分散処理 Sparkはクラスター上で分散処理を行うことができ、大量のデータを
はじめに 2023年度未踏IT人材発掘・育成事業のために、さくらの専用サーバ 高火力シリーズの「NVIDIA V100(64GB)」プランを貸していただいた。プロジェクトのホームページからロボットが動く様子を事前に見てお […]
はじめに さくらのクラウドには、機械学習やディープラーニング(深層学習)に最適なGPUサーバを利用できる「高火力プラン」があります。 本記事では、Googleが提供している開発環境であるGoogle Colaborato […]
こんにちは AIチームの戸田です 固有表現抽出(NER)や品詞タグ付けなどのNLPタスクを行うためのPythonライブラリに spaCy があります。シンプルなAPIで拡張性も高く、AI ShiftでもプロダクトのNLPロジック部分やデータ分析など多くの場面で利用しています。 そんな非常にお世話になっているspaCyですが、処理パイプラインにLLMを統合できる spacy-llm がリリースされました。今回の記事ではそのspacy-llmを使って極性分類やNERなどのNLPタスクをzero-shotで解い
生成 AI の発展と共にモデルの規模はどんどん大きくなり、デプロイするためのインフラの選択や設定はますます複雑になっています。 Amazon SageMaker JumpStart は大規模言語モデルを最適な設定、かつワンクリックでデプロイする機能を提供します。 オープンソースコミュニティとの連携を通じ 、AWS はこれまで Meta の Llama2 や TII の Falcon 、 rinna の japanese-gpt-neox などを JumpStart で提供してきました。このたび 株式会社サ
はじめに こんにちは、クラウドエース データ ML ディビジョン所属の中村です。 クラウドエースの IT エンジニアリングを担うシステム開発部の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのがデータ ML ディビジョンです。 本記事では BigQuery および VertexAI Workbench(Python3.10)を使って、データセットの傾向を把握する流れを記載します。 データ分析の参考になれば幸いです。 VertexAI Workbench
はじめに こんにちは、クラウドエース データ ML ディビジョン所属の坂田です。 データ ML ディビジョンでは、Google Cloud が提供しているデータ領域のプロダクトについて、新規リリースをキャッチアップするための調査報告会を毎週実施しています。 新規リリースの中でも、特に重要と考えるリリースを記事としてまとめ、本ページのように公開しています。 今回は、Google Cloud の Vertex AI に新登場したプロダクト「Colab Enterprise」について解説します。 Colab E
生成系 AI の発展と共にモデルの規模はどんどん大きくなり、デプロイするためのインフラの選択や設定はますます複雑になっています。 Amazon SageMaker JumpStart は大規模言語モデルを最適な設定、かつワンクリックでデプロイする機能を提供します。 オープンソースコミュニティとの連携を通じ 、AWS はこれまで Meta の Llama2 や TII の Falcon などを JumpStart で提供してきましたが、この度 rinna 株式会社 から公開されている大規模言語モデルも Ju
機械学習をあれこれしていると、SageMakerのノートブックインスタンスや推論エンドポイントをしばしば使います。なのですが、ノートブックインスタンスはJupyterを閉じても起動し続けていることを忘れがち、推論エンドポイントは以外と気軽に作れてしまうのでいつの間にか増えがちです。(個人の感想です) 放っておくとかなりのコストがかかってしまうので、これらを停止・削除するためのLambdaを作ってみました。