TECH PLAY

形態素解析」に関連する技術ブログ

79 件中 61 - 75 件目
こんにちは。開発エンジニアの amdaba_sk( ペンネ ーム未定)です。 前回は「 機械学習をコモディティ化する AutoML ツールの評価 」、だいぶ間が空きましたが前々回は「 機械学習のライブラリ・プラットフォームをいくつか試した所感まとめ 」と、続けて 機械学習 をテーマとした記事を書きました。 これらの記事では 機械学習 モデルを作るまでのことしか言及していませんが、 機械学習 モデルは作ってそれで終わりのものでもありません。使ってなんぼのものなんです。かみせんプロジェクトとしての調査範囲から
お久しぶりです、Ltech運営チームの秀野です! 今回は、2020年10月29日(木)に開催した『 Ltech#11 不動産領域のAI活用最前線 〜初完全リモート開催〜 』についてレポートします! Ltechとは Ltech(エルテック)とは、LIFULLがお送りする、技術欲をFULLにするイベントです。特定の技術に偏らず、様々な技術の話を展開していく予定です。 今回はなんと、Ltech初のリモート開催です! インターネット万歳!! 不動産領域のAI活用最前線 記念すべき初リモート開催となる今回のテーマは
はじめに こんにちは、ZOZO研究所福岡の下所です。 検索チームでWEARの検索ログの解析を行なっているのですが、その中でファッション業界に限らず、多くの言語学者・データ解析者がインターネット上での文字解析、特に新語の理解に苦労していることを知りました。特に日本語のように表現が曖昧で流動的な言語を理解することに多くの労力を要しているように感じました。 例えば読者の皆さんは、「かわぱんつ」というキーワードを見て何を想起されますか?私は「革のパンツ」を思い描きました。しかし、昨今のファッション用語ではこれは「
インフラチームの山口です。 ゼロ年代 後半ゆるふわ情報系学生でしたが紆余曲折の末にインフラエンジニア1年目となりました。 今回は編集距離を使用して SQL のクエリを クラスタリング してみたので記事にまとめてみます。 奇しくも、 伊藤直也 さんのブログで編集距離の記事が公開されたのが2009年だったのですが、時の流れの速さを感じてしまいます。 1.背景 DBのCPU負荷のスパイク時に、DBのクエリのログを取得・人手で集計して、CPU負荷が高いクエリを改善するという運用を実施することがあります。 ログ(ク
この記事はBASE Advent Calendar 2019 17日目の記事です。 devblog.thebase.in こんにちは、DataStrategyの杉です。 DataStrategyではデータを用いて問題解決を行なっていたり、より使いやすいサービスのための改善をしています。10日目の記事として 類似商品APIについて がありましたが、このようにテキストや画像の特徴量からレコメンドの作成なども行なっています。今回は私がテキストの特徴量を用いて試してみたことについて書きたいと思います。 概要 Eコ
初めまして。今年度新卒入社の mako _makokです。最近実家に帰って水族館でペンギンを見てきました。 今回は 全文検索エンジン のコア機能の一つであるAnalyzerについて書いていきたいと思います。 はじめに 検索エンジンの仕組み Analyzerとは 前準備 Char filter Tokenizer Token filter おわりに はじめに 私は現在、個人的に 全文検索エンジン 学習をしています。 以前までは諸事情で Apache Solrをやっていたのですが、以下の理由からElastic
みなさんこんにちは。フジサワです。 前回の記事 でお伝えしていたElasticsearchの検証がひと段落しましたので、検証結果をレポートいたします。 連載目次 『全文検索 〜 Elasticsearchとデータ匿名化手法』 『全文検索の探求 Elasticsearch(1) 』: プロジェクト方針およびElasticsearch概要 大量データを検索するサービスでElasticsearchはRDBの代替候補になりうるか?(Elasticsearch vs pg_bigm)』 ←今読んでいる記事 データ匿
こんにちは、株式会社 ラク スで横断的にITエンジニアの育成や、技術推進、採用促進などを行っている開発管理課に所属している鈴木( @moomooya )です。 前回はデータを匿名化していく手順と、匿名化したデータを比較するための情報量の算出についてお話ししました。 tech-blog.rakus.co.jp 今回は匿名化する中で一般化をする際の具体的な値の置き換え方法についてお話ししていこうと思います。 連載目次 『全文検索 〜 Elasticsearchとデータ匿名化手法』 『全文検索の探求 Elast
この記事は Enigmo Advent Calendar 2018 の19日目の記事です。 はじめに ネタ何にしようかなぁと思って、 カジュアルな感じでかつ単発で終わるようなもの 検索、 自然言語処理 関連で何か 年末的な何か ということを踏まえて、 Qiitaチームに日々挙げている自分の作業日報を可視化して2018年の振り返りをしてみることにしました。 私が エニグモ に入社したのが今年の2月なので、正確には1年ではないですが、 細かいことは気にせずいきたいと思います。 作業フロー 作業フローとしては、
こんにちは.開発部のsakura ( @818uuu )です. 普段はレシピ動画サービス クラシルの検索を担当しています. 今回は辞書シノニム管理の運用について述べます. 一般的にもなかなか知見が共有されていない部分なので担当者の方は見て損はないと思います. では,さっそく内容に入っていきます. 作業内容 1.キーワードの発見 ユーザーが検索したキーワードログから見つける キーワードごとの離脱率から見つける 気づいた方から直接教えてもらう 本物の辞書を使う 2. キーワードの登録 更新頻度 作業時間 モチ
こんにちは、スタメンの松谷です。 弊社は「TUNAG」という 社内SNS を提供しています。TUNAGではアプリケーション フレームワーク として、 Ruby on Rails を使用しています。TUNAGの主要機能に Facebook のニュースフィードに該当する「タイムライン」があり、社員同士のコミュニケーションや、会社からのお知らせが共有されます。 タイムラインに投稿が蓄積されるにつれ、過去の投稿を振り返りたいというニーズが増えたので、 全文検索 (Elasticsearch)を導入して検索を可能に
はじめに 新卒1年目エンジニアのkasuke18と申します。 先月に開催された社内の技術交流会 ビアバッシュ の発表の中で MeCab について触れた発表がありました。 ※ ビアバッシュ...? という方はこちらをご参照ください。 その MeCab に興味をもちましたので、今回の記事では MeCab を Windows に導入して使ってみます。以下は私の環境でインストールしたときのものなので、 ディレクト リなどを随時読み替えてください。 はじめに まずはサンプル MeCabとは MeCabの導入…の前に
こんにちは、バックエンドエンジニアの塩崎です。 今まではiQONの全文検索用のインデックスには形態素解析だけを用いていましたが、先日Ngramも併用することで検索を改善しました。 その結果、検索結果のヒット数が向上し、なおかつ検索ノイズの増加を軽微なものに抑えることができました。 この記事では、Ngramを併用することのメリット、およびそれをApache Solrで利用する方法について紹介します。 欲しい情報が見つからないとは そもそも、「検索したけど欲しい情報が見つからない状態」とはどのような状態でしょ
Solr 6でneologdが組み込まれたkuromojiを使う方法 こんにちは、VASILYバックエンドエンジニアの塩崎です。 VASILYでは商品情報の全文検索を行うためのバックエンドに、Apache Solr(以下、Solr)を利用しています。 先日、Solrのメジャーバージョンを最新の6にアップグレードしました。 それに伴ってSolrの形態素解析エンジンであるkuromojiに新語辞書であるmecab-ipadic-neologd(以下、neologd)を組み込みました。 この記事では、組み込むこ
こんにちは、VASILYバックエンドエンジニアの塩崎です。 今回はApache Solr(以下、Solr)で商品検索のサジェスターを作ったので、それを紹介します。 サジェスターを作るにあたり、どのようにスキーマやサーチコンポーネントを定義すれば良いのかを説明します。 なお、この記事はsolr 4.10.4を対象にした記事です。 それ以外のバージョンでは設定項目が変わってくる場合があります。 サジェスターとは サジェスターとは、ユーザーが検索用のフォームに単語を入力している途中に、その入力途中の単語を補完す