第31回 Lucene/Solr勉強会 #SolrJP
イベント内容
皆様、こんにちは。勉強会運営スタッフです。
本勉強会でもすっかりおなじみとなりましたApache Lucene/Solr コミッター Alessandro Benedetti 氏の来日に合わせまして、急遽、Lucene/Solr勉強会を開催する運びとなりました。
Alessandro Benedetti 氏からは、相互ランク融合(RRF)によるハイブリッド検索(従来のキーワードベースの検索とベクトル検索(セマンティック検索)を組み合わせたもの)のApache Solrへの実装について解説します。並びに、ロンウイット社スペシャリストよる、セマンティック検索のパフォーマンス向上レポートの講演を予定しております。
虎ノ門ヒルズビジネスタワーにあるBasisTech 東京支社様ご提供のミーティングルームをお借りして、リアル会場(10名様)での開催となります。
また、今回もGoogle Meetによるオンライン配信もありますので、遠方の方、移動時間がない等で会場へお越しいただくのが難しい方もぜひご参加ください。
なお、リアル会場では、講演終了後にネットワーキングタイムを設ける予定です。講師の方やご来場のゲスト間のコミュニケーションにご利用ください。(ドリンクやスナック類をご提供する予定です)
急なご案内とはなりますが、皆様のご参加をお待ちしております。
開催概要
第31回 Lucene/Solr勉強会
場所:
虎ノ門ヒルズビジネスタワー CIC TOKYO 16F ミーティングルーム「RENGA」 (煉瓦のローマ字表記)
※会場は16Fですが、エレベータは15Fで降りて、15Fのキッチンエリア近くの階段より16Fへ上がってください。
(会場: BasisTech 東京支社様 提供)
最寄駅:
東京メトロ日比谷線『虎ノ門ヒルズ駅』中目黒方面はB1出口(地下通路直結)、北千住方面はA2出口
東京メトロ銀座線『虎ノ門駅』B2出口(地下通路直結)
東京メトロ千代田線・丸ノ内線・日比谷線『霞ヶ関駅』A12出口より徒歩8分
都営三田線『内幸町駅』A3出口より徒歩7分
JR 山手線・京浜東北線・東海道本線・横須賀線『新橋駅』より徒歩約10分
地図:
BasisTech 東京支社様のウェブサイトにてご確認をお願いいたします。
https://www.basistech.jp/about/contact/tokyo/
日時:
2024/10/16(水)
17:30 ~ 受付開始、開場
18:00 ~ 開始
※終了は19時30分を予定(ネットワーキングタイムは含みません)しておりますが前後する場合があります。
虎ノ門ヒルズビジネスタワーご到着後のご案内:
地下通路から2つのエレベーターを乗り継ぎ 1Fエントランスまで上がります。現地参加を希望された方に別途メールにてお送りしている入館案内からQRコードを印刷してお持ちいただくか、当日現地にてスマホ画面に表示してご用意ください (QRコードの取得ができない場合は、メールに記載された番号をご用意いただき、1Fエントランスの発券機にてQRコードを発行いただけます)。エレベーターは、スターバックスに一番近い「6-16F」専用のセキュリティーゲート (入館証のQRコードリーダーは一番右側のゲートにあります) からお乗りいただき15Fまでお越しください。16Fの RENGA には、15Fのメインドアから入り、キッチンエリア付近にある階段で上がります。
その他のご連絡事項:
※ ビルへの入館方法については、上記「虎ノ門ヒルズビジネスタワーご到着後のご案内」をご覧ください。
※ 16Fミーティングルーム「RENGA」 (煉瓦のローマ字表記) にて受付を行います。
※ 現地会場受付にあたって、お名刺1枚をご用意ください。
※ 18:00になりましたら、現地会場受付を終了させていただきます。
入館案内、オンライン配信のリンクは決まり次第お知らせします。
内容
1. Solr9.7負荷テストレポート:SIMD最適化によるセマンティック検索パフォーマンス向上の評価 (JA)
Apache ManifoldCF Committer & PMC member
趙 明春(チョウ メイシュン、Mingchun Zhao)(@ロンウイット)(約25分)
Apache Solr 9.7.0 リリースハイライトに「Apache Luceneが9.11.1にアップグレードされ、Java 21を使用したセマンティック検索などで大幅なパフォーマンス向上を実現しました。」と記されています。これにより、Java 20とJava 21でベクトル計算におけるSIMD最適化がデフォルトで有効になっています。
本セッションではベクトル計算性能におけるSIMD最適化の効果を評価するため実施した負荷テストの結果と考察をご紹介します。セマンティック検索性能をSIMD最適化有効・無効で比較し、SIMD最適化の効果を定量化、可視化しました。
2. Hybrid Search with Apache Solr Reciprocal Rank Fusion (EN)
Apache Lucene/Solr Committer & PMC member
Alessandro Benedetti(Director@Sease Ltd.)(約45分)
Vector-based search gained incredible popularity in the last few years: Large Language Models fine-tuned for sentence similarity proved to be quite effective in encoding text to vectors and representing some of the semantics of sentences in a numerical form. These vectors can be used to run a K-nearest neighbour search and look for documents/paragraphs close to the query in a n-dimensional vector space, effectively mimicking a similarity search in the semantic space (Apache Solr KNN Query Parser).
Although exciting, vector-based search nowadays still presents some limitations:
- it’s very difficult to explain (e.g. why is document A returned and why at position K?)
- It doesn’t care about exact keyword matching (and users still rely on keyword searches a lot)
Hybrid search comes to the rescue, combining lexical (traditional keyword-based) search with neural (vector-based) search. So, what does it mean to combine these two worlds?
It starts with the retrieval of two sets of candidates:
- one set of results coming from lexical matches with the query keywords
- a set of results coming from the K-Nearest Neighbours search with the query vector
The result sets are merged and a single ranked list of documents is returned to the user. Reciprocal Rank Fusion (RRF) is one of the most popular algorithms for such a task. This talk introduces the foundation algorithms involved with RRF and walks you through the work done to implement them in Apache Solr, with a focus on the difficulties of the process, the distributed support(SolrCloud), the main components affected and the limitations faced.
The audience is expected to learn more about this interesting approach, the challenges in it and how the contribution process works for an Open Source search project as complex as Apache Solr.
※ 発表内容等は変更されることがございます。各発表の時間は目安です。2.は英語での発表となりますが通訳はありません。
参加にあたっての注意事項
人材紹介もしくは転職や就職の斡旋・勧誘を目的としたご参加はご遠慮ください。
次回以降のスピーカー/LTスピーカーの募集
次回以降のスピーカー/LTスピーカーとして、Solrでの取り組みや事例など、ご紹介、お話いただける方がいらっしゃいましたら、管理者までご連絡ください。
注意事項
※ 掲載タイミングや更新頻度によっては、情報提供元ページの内容と差異が発生しますので予めご了承ください。
※ 最新情報の確認や参加申込手続き、イベントに関するお問い合わせ等は情報提供元ページにてお願いします。
新規会員登録
このイベントに申し込むには会員登録が必要です。
アカウント登録済みの方はログインしてください。
※ ソーシャルアカウントで登録するとログインが簡単に行えます。
※ 連携したソーシャルアカウントは、会員登録完了後にいつでも変更できます。