「MeCab」に関連する技術ブログ
企業やコミュニティが発信する「MeCab」に関連する技術ブログの一覧です。
全23件中 1 - 15件目
pythonで日本語を読み方通りのローマ字に変換する
2024/10/09
ブックマーク
はじめに こんにちは。この記事では、pythonで日本語を読み方に沿ったローマ字に変換する方法を説明します。 さて、何でそんなことすることになったかと言いますと、先日OSCに参加し、AIを使ったロボットのデモに関連しています。AIを使ったロボットについては こちらの記事 に詳しく書いてあります。 このロボット(Qumcum)には喋る機能があり、AIによって喋る内容を決
医薬品検索でMySQLの全文検索機能を使った話
2024/09/11
ブックマーク
AI在庫管理の開発チームでバックエンドエンジニアをしている沖です。今回は、AI在庫管理の医薬品検索において、MySQLの全文検索機能を使った話を紹介しようと思います。 この記事は 秋の技術特集 2024 の 8 記事目です。 今までの医薬品検索では満足できないユーザーがいた なぜMySQLの全文検索機能を採用したのか 全文検索機能を導入する 全文検索インデックスを付与し
2024年度 第38回人工知能学会全国大会(JSAI2024)参加レポート
2024/07/01
ブックマーク
はじめまして!2024年5月よりInsight EdgeにジョインしたData Scientistの市川です。 まだ入社して間もないですが、オルタナティブデータを活用した案件や、金融市場のオプション等を活用した分析などに携わっております。 今回は、先日人工知能学会(JSAI2024)に行ってきましたので、そのレポートをさせて頂きます。 イベントの概要 発表の概要 [2J1-KS-19] 金融分野における大
kotoba-whisper, ReazonSpeech, Nue-ASRの文字起こし性能を比較してみた
2024/06/10
ブックマーク
はじめに こんにちは、AIチームの大竹です。 最近、高性能な日本語音声認識モデルのリリースが相次いでいます。普段、音声認識を用いたプロダクト開発をしている中で、各モデルの音声認識性能や推論速度がどれくらいのものなのか気になったので簡単な実験をして性能を比較してみました。 書き起こしや評価周りの実装も記載しているので参考にしていただけたら幸
LUKEのEntitySpanClassificationによる固有表現抽出
2023/08/01
ブックマーク
はじめに こんにちは、MNTSQ( モンテスキュー )の アルゴリズム エンジニアの清水です。本記事では事前学習済み 言語モデル の一つであるLUKEを用いた固有表現抽出の実装方法について紹介します。 LUKEとは LUKEは、 LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention において提案された 言語モデル です。LUKEは、単語とエンティティの文脈付きベクトルを
Aurora MySQL 5.7とRailsで実現する全文検索機能
2023/06/23
ブックマーク
こんにちは。 クラシル開発部、バックエンドエンジニアの松嶋です。 delyに入社してから約3年間、私はSREチームに所属していましたが、昨年10月にバックエンドに転向しました。バックエンドに転向してからは、主にクラシルアプリの公式レシピおよびCGMコンテンツの検索機能に関する開発・改善に取り組んでいます。 クラシルは、2016年2月にサービスを開始してから、
ラップができるAIを作ろう Part.1 ~韻を検索する~
2023/04/24
ブックマーク
こんにちは。最近MC battleにハマっております、ISID 金融ソリューション事業部の若本です。 イベント現場にも何度か足を運んでおり、行くたびにその月で一番大きい声を出しています。 さて、そんなラップにがっつり影響を受け、今回はラップができるAIを作成してみます。 なぜ韻を検索するのか ~GPTでできるよね?~ その前に、2023初頭の現在、工夫なしにAIで高度な
社内マッチングアプリ「CLUB ZOZO」のマッチングアルゴリズム
2023/02/07
ブックマーク
こんにちは。ZOZO研究所の平川とML・データ部のデータサイエンスブロック2の荒木です。私たち2022年度の新卒入社メンバーは有志で社内マッチングアプリ「CLUB ZOZO」を運営しています。この記事では、興味関心が近い社員同士を自動でマッチングするアルゴリズムについてご紹介します。マッチング時のバッチ処理については推薦基盤ブロックの関口が解説していますので
Twitter可視化システムを作ってみたら日本に笑顔が溢れていた話
2022/06/20
ブックマーク
はじめに はじめまして。 プラットフォームサービス本部 データプラットフォームサービス部門の森分です。 もともと私は、NTT Comのクラウドサービスをベースにした法人向けソリューションの個社別運用やインフラ関連のプロジェクトマネージャ業務を担当しておりました。 最近はSmart Data Platform(以下、SDPF)アーキテクトなる、お客様課題の解決やNTT Comのビジネスの
介護求人広告サービスのマッチングにディープラーニングを導入した話
2022/01/18
ブックマーク
はじめに 医療・介護・ヘルスケア・シニアライフの4つの領域で高齢社会の情報インフラを構築している株式会社エス・エム・エスのAnalytics&Innovation推進部( 以下、A&I推進部)でデータ分析基盤開発を担当している長谷川です。 A&I推進部はエス・エム・エス社内のデータを横断的に収集し、データの分析や加工から、データに基づく施策までを行う部門で、現在
wav2vec 2.0 を使って 手軽に音声認識モデルを触れるようになろう
2021/12/20
ブックマーク
この記事は NTTコミュニケーションズ Advent Calendar 2021 の20日目の記事です。 はじめに こんにちは。プラットフォームサービス本部アプリケーションサービス部の是松です。 NTTコミュニケーションズでは自然言語処理、機械翻訳、音声認識・合成、要約、映像解析などのAI関連技術を活用した法人向けサービスを提供しています。( COTOHA シリーズ ) NTTコミュニケーション
A New Japanese-English Parallel Corpus
2021/11/09
ブックマーク
A New Japanese-English Parallel Corpus − 新日英対訳コーパス − 2021.11.9 Laboro.AI Inc. Machine Learning Engineer Zhao Xinyi (※このコラムでは、当社が開発した機械翻訳モデルによる日本語訳を各セクションに掲載しています。翻訳文は、その性能を実感いただくことを目的に、いくつかの用語を置き換える以外は人手による修正は行なっておりません。そのため、一部文章に不自然な箇
To Get the Best Out of a BERT Model
2021/09/29
ブックマーク
To Get the Best Out of a BERT Model − BERTモデルを最大限に活用する − 2021.9.27 Laboro.AI Inc. Machine Learning Engineer Zhao Xinyi (※このコラムでは、当社が開発した機械翻訳モデルによる日本語訳を各セクションに掲載しています。翻訳文は、その性能を実感いただくことを目的に、いくつかの用語を置き換える以外は人手による修正は行なっておりません。そのため、一部文章に不自
MeCabを使ってテキストクレンジングをする
2021/06/08
ブックマーク
こんにちは、M&Aクラウドのかずへいです。 弊社のサービス「M&Aクラウド」では、ビジネスキーワードと呼ばれるキーワードを使って買収・出資企業様と売却・資金調達企業様のマッチングを行っております。 ビジネスキーワードを入力している様子 このビジネスキーワードというものは、ユーザー様が自由に入れられるものなのですが、その分表記ブレが発生したり、
日本語でHugging Face Tokenizersを動かす
2021/02/26
ブックマーク
前回記事 に続いてHugging Faceネタです。Transformers本体ではなく、 分かち書き を行うTokenizersライブラリの紹介をします。 Hugging Faceが開発しているTransformersでは、事前学習モデルと用いた 分かち書き 処理を同梱して配布している。 機械学習 モデルの学習時と推論時の間で 分かち書き 設定が異なったり、 分かち書き 済み公開データと 分かち書き 設定が揃っていなかった