INTERSPEECH2023論文読み会(東大&オンライン)

2023/09/15(金)18:00 〜 20:00 開催

ブックマーク

#ワークショップ, #機械学習

イベント内容

概要

2023年8月開催の国際学術会議 INTERSPEECH2023 に関する論文読み会です．機械学習に関する論文を普段読んでいる研究者、学生、エンジニアの方を想定しておりますが、誰でもご参加いただけます．

発表者について

先着で募集いたします．ご自身がINTERSPEECH2023で発表された論文の紹介も可能です．
論文は，音声合成，認識，知覚，パラ言語，対話などに関するものとします．ジャンルの配分は調整する場合がございます．
INTERSPEECH2023 main conference だけでなく，関連ワークショップやコンペティション (e.g., Speech Synthesis Workshop)の論文でも可です．

現地会場案内

今回は2019年以来の現地（東京大学本郷キャンパス）とオンライン(Zoom)のハイブリッド開催となります．
現状の現地参加枠は暫定的に50名としていますが，希望者が多い場合は様子をみつつ枠を増やすかもしれません．
会場は工学部6号館3FのセミナーA・D室です．
当日17:30より受付を開始いたしますので，会場まで直接お越しください．

オンライン会場案内

ZOOMを使用します．各自インストールをお願いします．
17:30 open （zoom URL）
質問は Dory にご記入下さい． （Dory URL）
発表資料は Google slide を編集する形でお願いします．

発表形式

Lighting talk形式で5分とし，質問時間は合間でまとめて取る予定です．
セッション後にディスカッション・質疑応答の時間を取っておりますので，そちらでも議論頂けます．
講演者は，お手数ですが各セッション終了後までは待機頂く様，よろしくお願いします．
質問事項はDoryに記載して頂き，答えて行く形式とします．
現地参加の方は，会場のマイクで直接ご質問いただいても構いません．
スライドは1枚目に 自己紹介スライド をご用意頂き，論文紹介の内容は2-3枚程度に納めてください．

キャンセル

参加は先着順になりますが，より多くの方へご参加いただきたいと考えています．
大まかな参加人数を把握するために，当日都合が悪くなって参加できないことが判明した方は，お手数ですが速やかにキャンセル処理をお願いします．

その他

本勉強会は，技術交流が目的です．知識の共有や参加者同士の交流を目的としない方の参加はお断りします．
参加目的が不適切だと判断される場合には，運営側で参加をキャンセルさせていただく場合がございます．
読み会終了後，希望者が多ければ現地会場で懇親会（軽食・ドリンクあり）を開催するかもしれません．

スケジュール

時刻	講演者	タイトル
18:00-18:05	橘健太郎 (LINE)	開会挨拶 & 諸注意
18:05-18:10	岡本悠希（立命館大学）	CAPTDURE: Captioned Sound Dataset of Single Sources
18:10-18:15	宗像北斗 (LINE)	Impact of Residual Noise and Artifacts in Speech Enhancement Errors on Intelligibility of Human and Machine
18:15-18:20	増村亮 (NTT)	End-to-End Joint Target and Non-Target Speakers ASR
18:20-18:30		質疑応答
18:30-18:35		break time
18:35-18:40	山本克彦 (CyberAgent)	On the Benefits of Self-supervised Learned Speech Representations for Predicting Human Phonetic Misperceptions / Temporal-hierarchical features from noise-robust speech foundation models for non-intrusive intelligibility prediction
18:40-18:45	小口純矢（明治大）	FiPPiE: A Computationally Efficient Differentiable method for Estimating Fundamental Frequency From Spectrograms
18:45-18:50	松永裕太（東京大学）	Investigating Range-Equalizing Bias in Mean Opinion Score Ratings of Synthesized Speech
18:50-19:00		質疑応答
19:00-19:05		break time
19:05-19:10	二見颯 (SONY)	Towards Paralinguistic-only Speech Representation for End-to-End Speech Emotion Recognition
19:10-19:15	下西莞太（立命館大学）	Anomalous Sound Detection Based on Sound Separation
19:15-19:20	佐々木裕多（東工大）	I Learned Error, I Can Fix It! : A Detector-Corrector Structure for ASR Error Calibration
19:20-19:30		質疑応答
19:30-19:35		break time
19:35-19:40	中村泰貴（東京大学/Parakeet）	Voice Conversion With Just Nearest Neighbors
19:40-19:45	加藤集平 (Revcomm)	Speech-to-Face Conversion Using Denoising Diffusion Probabilistic Models
19:45-19:50	齋藤佑樹（東京大学）	PromptStyle: Controllable Style Transfer for Text-to-Speech with Natural Language Descriptions
19:50-20:00		質疑応答
20:00	高道慎之介 (東京大学)	閉会挨拶