TECH PLAY

MeCab」に関連する技術ブログ

28 件中 1 - 15 件目
はじめまして!一橋大学SDS研究科 修士1年の佐藤祥太 ( @Shota_Sato01 ) です。今回私は8月のCA Tech JOBインターンに参加させていただきました! この記事では、配属先のAI Shiftでの取り組みについてご紹介させていただきます! 配 属部署について 今回のインターンでは、AI Shiftに配属になりました。「人とAIの協働を実現し人類に生産性革命をもたらす」というMISSIONのもと、AIエージェントやVoiceBotの開発に取り組んでいます。 ビジネスサイドとエンジニアサイ
Elasticsearchの標準アナライザーは  Kuromoji  ですが、他にも日本語向けのアナライザーが存在します。本記事では  Sudachi  や  MeCab 、およびPythonライブラリの  Janome 、そして  LLM(GPT-4)  といった選択肢を比較し、どんな場面でどれを使うべきかを検討しました。 なお、Elasticsearch 9.xではSudachiやMeCabの公式対応プラグインはまだリリー
こんにちは、イノベーションセンターの加藤です。この記事では、Transformerベースの言語モデルで利用可能な高速化技術である投機的デコーディング(speculative decoding)を用いて、音声認識モデルのWhisperの高速化を検証したのでその結果を紹介します。 投機的デコーディングとは Whisperとは 実験 英語音声 (LibriSpeech) の結果 日本語音声 (Common Voice 17.0 日本語サブセット) の結果 まとめ 投機的デコーディングとは 大規模言語モデル(LL
1. はじめに こんにちは、奈良先端科学技術大学院大学 修士1年の大中緋慧です。私は、LINEヤフーでの8週間のインターンシップとして、音声条件付きの音素・韻律アノテーションモデルの改良に取り組みまし...
はじめに こんにちは、クラウドエース 第三開発部の松本です。 普段はデータ基盤や機械学習システムを構築したり、Google Cloud 認定トレーナーとしてトレーニングを提供しています。 近年、RAG(Retrieval-Augmented Generation)などの技術活用において、ベクトル検索を用いた情報検索が行われることが多くなっています。しかし、ベクトル検索だけでは精度に課題が残ることがあります。そこで、従来のキーワード検索を組み合わせることで検索精度を向上させる「ハイブリッド検索」が注目されて
はじめに こんにちは。この記事では、pythonで日本語を読み方に沿ったローマ字に変換する方法を説明します。 さて、何でそんなことすることになったかと言いますと、先日OSCに参加し、AIを使ったロボットのデモに関連しています。AIを使ったロボットについては こちらの記事 に詳しく書いてあります。 このロボット(Qumcum)には喋る機能があり、AIによって喋る内容を決めています。Qumcumはローマ字しか受け付けない仕様となっていますが、AIは喋りたい文章を日本語(漢字かな交じり)で返します。しかも、喋る
AI在庫管理の開発チームでバックエンドエンジニアをしている沖です。今回は、AI在庫管理の医薬品検索において、MySQLの全文検索機能を使った話を紹介しようと思います。 この記事は 秋の技術特集 2024 の 8 記事目です。 今までの医薬品検索では満足できないユーザーがいた なぜMySQLの全文検索機能を採用したのか 全文検索機能を導入する 全文検索インデックスを付与したテーブルを作成する パーサー 照合順序と正規化 全文検索インデックスを使用して検索する データを最適な状態に保つために おわりに 今まで
はじめまして!2024年5月よりInsight EdgeにジョインしたData Scientistの市川です。 まだ入社して間もないですが、オルタナティブデータを活用した案件や、金融市場のオプション等を活用した分析などに携わっております。 今回は、先日人工知能学会(JSAI2024)に行ってきましたので、そのレポートをさせて頂きます。 イベントの概要 発表の概要 [2J1-KS-19] 金融分野における大規模言語モデルの活用 [2A2-PS-2] 進化する大規模言語モデル [2O4-OS-25a] 不動産
はじめに こんにちは、AIチームの大竹です。 最近、高性能な日本語音声認識モデルのリリースが相次いでいます。普段、音声認識を用いたプロダクト開発をしている中で、各モデルの音声認識性能や推論速度がどれくらいのものなのか気になったので簡単な実験をして性能を比較してみました。 書き起こしや評価周りの実装も記載しているので参考にしていただけたら幸いです。 モデルの直近のリリースをまとめると、以下のようになっています。 ReazonSpeechコーパス のリリースを皮切りに日本語に特化した音声認識モデルの開発の勢い
はじめに  こんにちは、MNTSQ( モンテスキュー )の アルゴリズム エンジニアの清水です。本記事では事前学習済み 言語モデル の一つであるLUKEを用いた固有表現抽出の実装方法について紹介します。 LUKEとは  LUKEは、 LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention において提案された 言語モデル です。LUKEは、単語とエンティティの文脈付きベクトルを出力する知識拡張型(kn
こんにちは。 クラシル開発部、バックエンドエンジニアの松嶋です。 delyに入社してから約3年間、私はSREチームに所属していましたが、昨年10月にバックエンドに転向しました。バックエンドに転向してからは、主にクラシルアプリの公式レシピおよびCGMコンテンツの検索機能に関する開発・改善に取り組んでいます。 クラシルは、2016年2月にサービスを開始してから、管理栄養士監修の「誰でも安全に・おいしい料理を作ることができるレシピ動画」を5万件以上提供してきました。 昨年12月には、クラシルのブランドリニューア
こんにちは。最近MC battleにハマっております、ISID 金融ソリューション事業部の若本です。 イベント現場にも何度か足を運んでおり、行くたびにその月で一番大きい声を出しています。 さて、そんなラップにがっつり影響を受け、今回はラップができるAIを作成してみます。 なぜ韻を検索するのか ~GPTでできるよね?~ その前に、2023初頭の現在、工夫なしにAIで高度なラップはできません。 なので、 まずは韻を検索することから始めます。 「ChatGPTとかで普通にできるんじゃないの?」 と思われた方もい
こんにちは。ZOZO研究所の平川とML・データ部のデータサイエンスブロック2の荒木です。私たち2022年度の新卒入社メンバーは有志で社内マッチングアプリ「CLUB ZOZO」を運営しています。この記事では、興味関心が近い社員同士を自動でマッチングするアルゴリズムについてご紹介します。マッチング時のバッチ処理については推薦基盤ブロックの関口が解説していますので、興味のある方は併せてご覧ください。 qiita.com 目次 目次 CLUB ZOZOとは CLUB ZOZOを運営するにあたり解決すべき課題 ユー
はじめに はじめまして。 プラットフォームサービス本部 データプラットフォームサービス部門の森分です。 もともと私は、NTT Comのクラウドサービスをベースにした法人向けソリューションの個社別運用やインフラ関連のプロジェクトマネージャ業務を担当しておりました。 最近はSmart Data Platform(以下、SDPF)アーキテクトなる、お客様課題の解決やNTT Comのビジネスの中でSDPFの活用を推進する部隊に参画しています。 データ利活用を支えるSDPFのアーキテクトがデータ利活用に詳しくなけれ
はじめに 医療・介護・ヘルスケア・シニアライフの4つの領域で高齢社会の情報インフラを構築している株式会社エス・エム・エスのAnalytics&Innovation推進部( 以下、A&I推進部)でデータ分析基盤開発を担当している長谷川です。 A&I推進部はエス・エム・エス社内のデータを横断的に収集し、データの分析や加工から、データに基づく施策までを行う部門で、現在は介護事業者向け経営支援サービスである「 カイポケ 」や、介護職向け求人情報サービスである「 カイゴジョブ 」のデータ分析