LINE Developer Meetup #68 - Big Data Platform

イベント内容

(English follows)

LINE Developer Meetup #68 - Big Data Platform

LINEが定期的に開催する技術者向けミートアップ「LINE Developer Meetup」、68回目となる今回はオンラインにて開催いたします。 今回のテーマは「Big Data Platform」です。

※ 現在エンジニアの方、またはエンジニア志望の学生など基本的にプログラミングに関わっているみなさまを対象としております
※ 参加費無料
※ セッションは日本語と英語で行われます。通訳を用意していますので、お好きな言語を選択して聴講することが可能です

日時

2020/9/17(木) Start 15:00 / End 16:40

場所

オンライン
今回は Zoom Webinar で配信いたしますので必ず事前登録をお願いいたします

参加される方への事前のお願い

  • インターネットが良好に繋がる環境にてご視聴ください
  • 視聴端末(PC/iPad/iPhone/Android)にZoomをインストールの上、サインアップ/サインインして下さい
  • Zoom Webinar の開催の為、参加者の映像・音声は、配信には一切流れませんが、Q&Aで「匿名」のチェックを入れずに質問いただいた場合、お名前がQ&Aに表示されます。
  • サインインされた後、お名前の表記を変更するなど、個人情報が表示されないようご注意ください。
  • Zoomのダウンロードはこちらから:https://zoom.us/support/download
  • 申し込んだ方には、開催当日に視聴URL(および参加後アンケートのURL)をメッセージでお送りします
  • 開始30分前から入室が可能です。
  • 質問がある方は、セッション中にZoomの「Q&A」タブからテキストで入力してください。セッションの終了時点で、登壇者が質問を読み上げて回答します。
  • 参加後は、アンケートへの回答にご協力をお願いします
  • Twitter でのイベントに関する投稿も大歓迎です!
  • ハッシュタグ:#LINE_DM

タイムスケジュール

時間 コンテンツ 登壇者 発表言語 ※通訳あり
15:00-15:05 Opening
15:05-15:35 Ozone: Evolution of HDFS Dinesh Chitlangia (Cloudera) 英語
15:35-16:05 HDFSを3.3.0にアップグレードしてRouter-Based Federation (RBF) を本番導入してみた 鯵坂 明 (ヤフー) 日本語
16:05-16:35 大規模本番環境における HDFS Erasure Coding の運用について 内田早俊 (LINE) 日本語
16:35-16:40 Closing

セッション概要

Ozone: Evolution of HDFS

Dinesh Chitlangia (Cloudera, Technical Lead - Premier Support)

Apache(Hadoop)Ozoneは、Hadoop/bigdataエコシステム用の比較的新しいストレージシステムです。Object Storeのセマンティクス(S3など)を提供し、何十億ものオブジェクトを処理できます。
OzoneはHDFSの「精神的続編」(spiritual successor)です。
10年以上のHDFSの間に学んだ教訓は、ネームスペースとブロックスペースを分離するよりスケーラブルなオブジェクトストアの設計に役立ち、システムが両方の軸でスケーリングできるようにしました。
このプレゼンテーションでは、HDFSに焦点を当てた大規模分散ストレージシステムの主要な課題について説明し、Ozoneによって課題/制限がどのように解決されたかを示します。

HDFSを3.3.0にアップグレードしてRouter-Based Federation (RBF) を本番導入してみた

鯵坂 明 (ヤフー株式会社 ソフトウェアエンジニア)

ヤフーのHDFSクラスタのうち最も巨大なクラスタにおいては、namespaceが大きくなりすぎて1台のNameNodeでは対応できなくなってきました。これを解決するためには巨大なnamespaceをいくつかに分けてfederation構成を組むことになります。これまではViewFSを用いた方式が一般的でしたが、ヤフーではRBFという新しい方式を採用しました。また、この方式をKerberos認証を有効にして利用するにはHDFSを最新バージョン(3.3.0)にする必要があったため、2系のHDFSからアップグレードしました。
本発表ではRBFの内部実装について紹介し、実際にどのような検証を経てHDFSのアップグレードおよびRBFの本番導入を進めたかについて紹介します。例えば、federation構成ではnamespaceをまたぐrename(mv)はできないという制約があるため、namespaceをどのように分割するかについては充分な検証が必要です。
また、私達はこのアップグレードのために充分な検証を実施していたつもりでしたが、本番環境では多種多様なトラブルに遭遇しました。本番環境で何が起こったのか、可能な限り話したいと思います。

大規模本番環境における HDFS Erasure Coding の運用について

内田早俊 (LINE株式会社 サイトリライアビリティエンジニア)

LINEでは、さまざまなサービスから生成される膨大なデータをHadoopクラスタ上に保存しています。
データは削除しない限り日々増えていく一方ですが、必ずしもデータ量に比例してデータやサービスの価値が上がるわけではありません。
したがって、インフラコストを抑えながら、データをいかに効率良く保存するかが重要になります。
その一つの解決策として、私たちは、Hadoop 3系で実装されたErasure Coding (EC)と呼ばれる、耐障害性を担保しながらデータを効率的に保存する仕組みを導入しました。

本発表では、ECの仕組みやLINEでの活用事例、本番環境で実際に起こったECのreconstructionに関わるトラブルとその解決方法を紹介します。
また、そのトラブルの背景として、現在私たちが取り組んでいるHadoopクラスタの統合プロジェクトについても紹介します。

注意事項

  • 本イベントの内容は後日、主催団体のブログ・YouTube等の媒体にて紹介する可能性があります。その際、ご参加者名が写った画像(キャプチャなど)も紹介されることがあります。予めご了承ください。
  • 主催者は、本イベントにおいて、Zoom Webinarサインイン時に取得した個人情報は一切使用しません。
  • 当社におけるその他取り扱いは以下プライバシーポリシーに従います。ご同意の上、ご参加ください。 https://terms.line.me/line_rules/?lang=ja
  • イベントスタッフは、このイベントに関わる全員が気持ちよく過ごせるように考えています。参加者の皆様も、他の方を不快にさせるような発言・行動は謹んでください。またそのような行動を目にした方は、connpassの「イベントへのお問い合わせ」フォームからお知らせください。




LINE Developer Meetup #68 - Big Data Platform

The 68th LINE Developer Meetup, a regular LINE meetup for engineers, will be held online this time. The theme is "Big Data Platform"!

  • This event is basically for those who are involved in programming, like engineers, students who are interested in becoming engineers, etc.
  • Free entry fee
  • The session will be held in Japanese and English. Interpreters are available, so you can choose the language of your choice and listen.

Date

Sep 17th, 2020 Thursday 15:00 ~ 16:40 JST
(Sep 16th, 2020 Wednesday 23:00 ~ 17th 0:40 PDT)

Venue

Online
Please make sure to register for this event in advance as we will be delivering it via Zoom Webinar.

Requests for participants

  • Join with a good internet connection
  • Install Zoom on your device (PC/iPad/iPhone/Android) and sign up/sign in
  • On Zoom Webinar, no video or audio of participants will be streamed, but if you leave the "Anonymous" checkbox unchecked in Q&A, your name will be displayed.
  • Once you have signed in, please change your name or otherwise ensure that your personal information is not displayed.
  • Download Zoom here: https://zoom.us/support/download
  • On the day of the event the registrants will receive a message with the URL of Zoom Webinar and the questionnaire
  • You can enter the room 30 minutes before the start.
  • If you have a question during the sessions, enter it from "Q&A" tab in Zoom. At the end of the sessions, the speakers will read and answer the questions.
  • After participating, please cooperate in answering the questionnaire
  • You're welcome to post about this event on Twitter!
  • Hashtag: #LINE_DM

Time Schedule

time contents speaker lang ※with interpretation
15:00-15:05 Opening
15:05-15:35 Ozone: Evolution of HDFS Dinesh Chitlangia (Cloudera) EN
15:35-16:05 Upgrading HDFS to 3.3.0 and implementing the Router-Based Federation (RBF) in production Akira Ajisaka (Yahoo Japan, Software Engineer) JP
16:05-16:35 Using HDFS Erasure Coding for Growth Toshihiko Uchida (LINE) JP
16:35-16:40 Closing

Session Information

Ozone: Evolution of HDFS

Dinesh Chitlangia (Cloudera, Technical Lead - Premier Support)

Apache (Hadoop) Ozone is a relatively new storage system for the Hadoop/bigdata ecosystem. It provides Object Store semantics (like S3) and can handle billions of objects.
Ozone is the "spiritual successor" of HDFS.
The lessons learned during the 10+ years of HDFS helped to design a more scalable object store that segregates the namespace and blockspace, allowing the system to scale on both axes.
This presentation explains the key challenges of a large scale distributed storage system with focus on HDFS and shows how the challenges/limitations were solved by Ozone.

Upgrading HDFS to 3.3.0 and implementing the Router-Based Federation (RBF) in production

Akira Ajisaka (Yahoo Japan, Software Engineer)

In the largest of Yahoo! HDFS clusters, the namespace has become too large to be supported by a single NameNode. In order to solve this problem, it is necessary to divide the huge namespace into several namespaces and build a federation configuration. Although the conventional method using ViewFS was the most common method, Yahoo has adopted a new method called RBF. Also, to use this scheme with Kerberos authentication enabled, we had to upgrade from the latest version (3.3.0) of HDFS, which is the second series of HDFS.
In this presentation, I will introduce the internal implementation of RBF and show how we went about upgrading HDFS and implementing RBF in production. For example, since federation configuration does not allow rename(mv) across namespaces, it is necessary to verify how to divide the namespace.
And although we thought we had done enough validation for this upgrade, we ran into a wide variety of problems in the production environment. I'll try to tell you as much as possible about what happened in the production environment.

Using HDFS Erasure Coding for Growth

Toshihiko Uchida (LINE Corporation, Site Reliability Engineer)

Our Hadoop cluster store 100+ PB data from various LINE familiy services.
It is one of the most critical missions to keep those big data effectively, reducing the infrastructure costs, since bigger data does not necessarily mean more values.
For that purpose, we have applied HDFS erasure coding (EC), which was delivered in Hadoop 3.
EC makes it possible to store data much more effectively than the default 3x replication method, without losing the fault-tolerance.

In this talk, we will give an brief introduction to EC and our usage in production, and present a trouble with EC reconstruction and its solution.
We will also present our ongoing project to integarate legacy Hadoop clusters into a new cluster, which provides a background to the talk.

Notes

  • There is a possibility that this event will be posted on the organizer's blog, YouTube and other media at a later date. Please note that images (such as captures) with the participants' names may be shown in such cases.
  • The organizer will not use any personal information obtained during Zoom Webinar sign-in at this event.
  • Our other handling of personal information is subject to the following privacy policy. Please agree to be bound by this policy. https://terms.line.me/line_rules/?lang=en
  • The event staff is committed to making everyone involved in this event feel comfortable. Participants are also asked to refrain from saying or doing anything that may make others uncomfortable. If you see this kind of behavior, please inform us from the "contact event" form of connpass.

注意事項

※ こちらのイベント情報は、外部サイトから取得した情報を掲載しています。
※ 掲載タイミングや更新頻度によっては、情報提供元ページの内容と差異が発生しますので予めご了承ください。
※ 最新情報の確認や参加申込手続き、イベントに関するお問い合わせ等は情報提供元ページにてお願いします。

類似しているイベント