OTFSG Tokyo Meetup #1
イベント内容
概要
Open Table Format Study Group Tokyo (OTFSG Tokyo)はHudi, Iceberg, Delta等データレイクのためのデータフォーマットに関する知見や知識を共有する勉強会です。勉強会で発表することの出来るテーマはこれらデータフォーマットだけに限らず、その周辺技術(Parquet、Arrowなど、より低レイヤーのデータフォーマットやデータインテグレーションやデータガバナンスなどのデータレイク周辺技術)も含まれます。本勉強会の目的はオープンテーブルフォーマット周辺技術に関わる技術者や研究者の交流を活性化し、参加者全員の今後の実務に役立てる知見、知識の共有の場を設けることにあります。
今回は
- SmartNews Qingyu Ji様
- LINEヤフー 長峯様
- Delta Incubator 大川様
- AWS Japan 鯵坂様
- (発表順)
から4件の発表です。SNS等におけるハッシュタグは#otfsg_tokyoでお願い致します。
重要なご案内
イベント来場にあたってAmazon来客管理システムからのご案内メールに記載されたバーコードと身分証明書が必要となります。ご参加される方は下記フォームより「氏名」「メールアドレス」「所属(任意)」のご入力を 必ず 実施してください。ご入力いただいたメールアドレスにAmazon Japan様よりご案内メールを送信いたします。
タイムテーブル
時間 | 講演者 | 内容 |
---|---|---|
18:45 | - | 開場 |
19:00 - 19:10 | 運営 | オープニング |
19:10 - 19:35 | SmartNews Qingyu Ji 様 | Flink-based Iceberg Real-Time Data Lake in SmartNews |
19:35 - 20:00 | LINEヤフー 長峯 様 | Apache Hudi-Based Data Lake Supporting Record-Level Deletions |
20:00 - 20:25 | Delta Incubator 大川 様 | delta-rs: Rust Data Engineering Ecosystem |
20:25 - 20:50 | AWS Japan 鯵坂 様 | Running Apache Iceberg, Apache Hudi, and Delta Lake on AWS |
20:50 - 21:00 | 運営 | クロージング |
21:00 - | 有志 | 懇親会 |
発表内容
発表1 - Flink-based Iceberg Real-Time Data Lake in SmartNews
※詳細が決まり次第更新予定
発表者 - SmartNews Qingyu Ji 様
Previously worked for Morgan Stanley and eBay on multiple big data related platforms, and currently works on Data Platform team for SmartNews, and also a contributor for Iceberg and Trino open source projects.
発表2 - Apache Hudi-Based Data Lake Supporting Record-Level Deletions
GDPRや改正個人情報保護法を始めとしたプライバシー保護規制は強化されており、データの「削除」が求められる状況は年々増えています。しかし従来のデータレイクは、多種多様なデータの「蓄積」を主目的に設計されており、効率的で安全な削除の実現は困難です。本セッションでは、データレイク上のデータ削除時に発生する課題とApache Hudiでの解決策について紹介します。
発表者 - LINEヤフー 長峯 洸弥 様
2017年からヤフー広告のデータエンジニアとして活動し、現在は分析環境の構築やETL開発のチームリーダーを担っています。また広告事業向けデータレイクやYahoo! Data Xross(データクリーンルーム)の立ち上げ時から現在まで、テックリードとして参加しています。
発表3 - delta-rs: Rust Data Engineering Ecosystem
近年Data Engineering CommunityにおいてRustが次世代の開発言語として注目を集めています。Rust Data Engineering Ecosystemの何が注目され、そして今後どういった展望が有り得るのか、Deltalakeの際立った特徴の一つであるdelta-rsを中心に紹介します。
発表者 - Delta Incubator 大川 真吾 様(ognis1205)
2022年よりDelta Incubator Member。OSS Committorとしてdelta-kernel-rs、delta-sharing-rsなどRustを中心としてDeltalakeコミュニティにて活動している。
発表4 - Running Apache Iceberg, Apache Hudi, and Delta Lake on AWS
※詳細が決まり次第更新予定
発表者 - AWS Japan 鯵坂 明 様 (@ajis_ka)
Apache Hadoop committer, PMC memberとして長らくOSSコミュニティで分散処理基盤周りの活動を続けてきました。2022年からはAWS Glueのサービス開発をしています。主に Apache Iceberg, Apache Hudi, Delta Lake との連携について機能開発を続けており、必要に応じて各OSSコミュニティにパッチ投稿しています。
会場
- Amazon Japan 目黒オフィス
- 目黒セントラルスクエア 21F :東京都品川区上大崎3丁目1-1
来館にあたってAmazon来客管理システムからのご案内メールに記載されたバーコードと身分証明書が必要となります。参加者決定後connpass経由にて参加者のメールアドレス入力フォームを送信致します。ご利用のメールアドレスを後日入力してください。入力完了後Amazon来客管理システムよりメールを配信いたします。
※イベントでの飲食物の提供は予定しておりません。会場への飲食物の持ち込みは可能です。また発表後に有志による懇親会も予定しております。ご都合の良い方は懇親会にも是非ご参加ください。
※Amazon来客管理システムよりご案内メールを送信いたします。イベント当日はメールの案内に従って会場までお越しください。
※イベント当日の発表内容は録画され後日公開する予定です。
アンチハラスメントポリシー
本勉強会では、特定の社会的属性――ジェンダー・性自認・性的指向、障がい、外見・身体的特徴、エスニシティ・国籍、年齢、宗教、特定のツールやプログラミング言語、専門とする学問領域、教育的バックグラウンドなど――に基づく差別的言動を、一切許容しません。 加えて、参加者による以下のような行為を、SNS、イベント会場等問わず禁止します。
- 攻撃的な発言
- 脅迫行為
- ストーキング行為
- つきまとい
- 不適切な接触
- 性的な画像の掲示などを含む不適切な情報の開示
- その他、事務局が不適切と判断した行為
Overview
Open Table Format Study Group Tokyo (OTFSG Tokyo) is a study group focused on sharing knowledge and insights about data formats for data lakes, including Hudi, Iceberg, Delta, and more. The topics that can be presented at this study group are not limited to just these data formats; they also encompass related technologies such as Parquet, Arrow, lower-level data formats, data integration, and data governance within the data lake ecosystem. The primary goal of this study group is to promote collaboration and exchange among technical experts and researchers involved in open table format-related technologies. It provides a platform for sharing insights and knowledge that can benefit everyone's future practical work.
For this event, we have presentations from the following organizations in the order listed:
- SmartNews (Qingyu Ji-san)
- LY Corporation (Nagamine-san)
- Delta Incubator (Okawa-san)
- AWS Japan (Ajisaka-san)
Please use the hashtag #otfsg_tokyo on social media for discussions and updates related to this event.
Timetable
Time | Speaker | Content |
---|---|---|
18:45 | - | Doors Open |
19:00 - 19:10 | Organizers | Opening Remarks |
19:10 - 19:35 | SmartNews (Qingyu Ji-san) | Flink-based Iceberg Real-Time Data Lake in SmartNews |
19:35 - 20:00 | LY Corporation (Nagamine-san) | Apache Hudi-Based Data Lake Supporting Record-Level Deletions |
20:00 - 20:25 | Delta Incubator (Okawa-san) | delta-rs: Rust Data Engineering Ecosystem |
20:25 - 20:50 | AWS Japan (Ajisaka-san) | Running Apache Iceberg, Apache Hudi, and Delta Lake on AWS |
20:50 - 21:00 | Organizers | Closing Remarks |
21:00 - | Participants | Networking Event (Social Gathering) |
Presentation Topics
Presentation 1 - Flink-based Iceberg Real-Time Data Lake in SmartNews
Details will be updated as they become available.
Presenter - SmartNews, Qingyu Ji
Previously worked for Morgan Stanley and eBay on multiple big data related platforms, and currently works on Data Platform team for SmartNews, and also a contributor for Iceberg and Trino open source projects.
Presentation 2 - Apache Hudi-Based Data Lake Supporting Record-Level Deletions
Privacy protection regulations, starting with the GDPR and the revised Personal Information Protection Law, have been strengthened, and the situations where “deletion” of data is required are increasing year by year. However, conventional data lakes are mainly designed to “store” a wide variety of data, making it difficult to achieve efficient and secure deletion. In this session, we will introduce some issues when deleting data on a data lake and the solutions for them in Apache Hudi.
Presenter - LY Corporation, Koya Nagamine
Koya has been working as a data engineer for Yahoo! JAPAN Ads since 2017, and currently I am responsible for building analysis environments and as a team leader for ETL developments. He has been also a tech lead in the data lakes for advertising businesses and Yahoo! Data Xross (Data Clean Room) from the beginning.
Presentation 3 - delta-rs: Rust Data Engineering Ecosystem
In recent years, Rust has gained attention as the next-generation programming language in the Data Engineering Community. This presentation will focus on delta-rs, a notable feature of Deltalake, to introduce what makes Rust Data Engineering Ecosystem stand out and what future prospects lie ahead.
Presenter - Delta Incubator, Shingo Okawa (ognis1205)
A Delta Incubator Member since 2022, actively contributing as an OSS Committor to projects like delta-kernel-rs and delta-sharing-rs in the Rust-centric Deltalake community.
Presentation 4 - Running Apache Iceberg, Apache Hudi, and Delta Lake on AWS
Details will be updated as they become available.
Presenter - AWS Japan, Akira Ajisaka (@ajis_ka)
A long-time contributor and PMC member in the OSS community as an Apache Hadoop committer. Since 2022, working on AWS Glue service development, primarily focused on feature development and collaboration with Apache Iceberg, Apache Hudi, and Delta Lake, actively submitting patches to the respective OSS communities as needed.
Venue
- Amazon Japan Meguro Office
- Meguro Central Square 21F, 3-1-1 Kami-Osaki, Shinagawa-ku, Tokyo
To enter the facility, you will need the barcode and identification document mentioned in the guidance email from the Amazon Visitor Management System. After determining the participants, we will send you a participant's email address input form via connpass. Please input your email address for later use. Once the input is complete, we will send an email from the Amazon Visitor Management System.
Please note that we do not plan to provide food or drinks during the event. You are welcome to bring your own refreshments to the venue. Additionally, there will be a networking event organized by participants after the presentations. We encourage you to join if it suits your schedule.
We will send you an information email via Amazon's visitor management system. Please follow the instructions in the email to access the venue on the day of the event.
The presentations on the day of the event will be recorded and made available for viewing at a later date.
Anti-Harassment Policy
In this study group, we do not tolerate any discriminatory behavior based on specific social attributes, including but not limited to gender, gender identity, sexual orientation, disability, physical appearance, ethnicity, nationality, age, religion, specific tools or programming languages, academic expertise, educational background, and more. Additionally, we prohibit the following behaviors by participants, regardless of the platform (SNS, event venue, etc.):
- Offensive language
- Threats or intimidation
- Stalking
- Harassment
- Inappropriate physical contact
- Disclosure of inappropriate information, including sexually explicit images
- Any other behavior deemed inappropriate by the organizers
We are committed to creating a safe and respectful environment for all participants. If you experience or witness any form of harassment or inappropriate behavior, please report it to the organizers, and appropriate action will be taken promptly. Your well-being and comfort are our priorities.
注意事項
※ 掲載タイミングや更新頻度によっては、情報提供元ページの内容と差異が発生しますので予めご了承ください。
※ 最新情報の確認や参加申込手続き、イベントに関するお問い合わせ等は情報提供元ページにてお願いします。
新規会員登録
このイベントに申し込むには会員登録が必要です。
アカウント登録済みの方はログインしてください。
※ ソーシャルアカウントで登録するとログインが簡単に行えます。
※ 連携したソーシャルアカウントは、会員登録完了後にいつでも変更できます。