<html aria-label="message body"><head><meta http-equiv="content-type" content="text/html; charset=utf-8"></head><body style="overflow-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;">(Apologies if you receive multiple copies of this message)<br><br>The next JIVP webinar will take place on <b>Thursday, April 9, 2026 at 1:00 PM CEST</b>, with Prof. Liang Zheng (Australian National University).<br><br>RSVP to join here: <a href="https://cassyni.com/events/EeUKWPASZtukyQQuuEu3Jm?cb=0.8dx2">https://cassyni.com/events/EeUKWPASZtukyQQuuEu3Jm?cb=0.8dx2</a> <br><br><br><b>Title: Image generation with end-to-end training and benefits of a good VAE</b><div><b><br></b><div><strong style="box-sizing: border-box; font-weight: 600; color: rgba(0, 0, 0, 0.88); font-family: -apple-system, system-ui, "Segoe UI", Roboto, "Helvetica Neue", Arial, "Noto Sans", sans-serif, "Apple Color Emoji", "Segoe UI Emoji", "Segoe UI Symbol", "Noto Color Emoji"; font-variant-ligatures: normal; background-color: rgb(255, 255, 255);"><br></strong></div><div><span style="box-sizing: border-box; color: rgba(0, 0, 0, 0.88); font-family: -apple-system, system-ui, "Segoe UI", Roboto, "Helvetica Neue", Arial, "Noto Sans", sans-serif, "Apple Color Emoji", "Segoe UI Emoji", "Segoe UI Symbol", "Noto Color Emoji"; font-variant-ligatures: normal; background-color: rgb(255, 255, 255);"><span><b>Abstract: </b></span><span></span></span></div><div><span style="box-sizing: border-box; color: rgba(0, 0, 0, 0.88); font-family: -apple-system, system-ui, "Segoe UI", Roboto, "Helvetica Neue", Arial, "Noto Sans", sans-serif, "Apple Color Emoji", "Segoe UI Emoji", "Segoe UI Symbol", "Noto Color Emoji"; font-variant-ligatures: normal; background-color: rgb(255, 255, 255);"><span><b><br></b></span></span></div><span>Latent diffusion models underly modern image generation, which requires a variational auto-encoder (VAE) for image encoding and decoding, and a diffusion transformer for generation. While end-to-end training has been the spirit of deep learning, it is surprising that latent diffusion models are not trained end-to-end, causing representation bottlenecks. In this talk, I will introduce our work that jointly trains the VAE and diffusion transformer and show how it accelerates training and yields high quality images. Further, I will discuss use cases where the resulting end-to-end trained VAEs bring significant benefits. This includes higher-quality text-to-image generation and automatic agentic search of diffusion transformer architectures. I will conclude with new perspectives.</span><div><span><br></span></div><div><span><br></span><span><b>Bio:</b></span></div><div><span><b><br></b></span></div><div><span>Dr. Liang Zheng is an Associate Professor at the Australian National University and a Research Scientist at Canva. He is interested in representation learning for perception and generation. He contributed many useful datasets and methods to the object re-identification field that were later used in wider domains. He is currently working on image generation in both aspects of pre-training and post-training. He is a Program Chair for ACM MM’24, MM’28, andAVSS'24, and a General Chair for AVSS’27 and DICTA 2027. He is a regular area chair for important conferences and an Associate Editor for TPAMI. He has bachelor degrees in Biology, Economics and a PhD degree in Computer Science from Tsinghua University.</span></div><div><span><br></span><span><br></span><span><div>
—<br>__________________________________________<br>Dr. Giuseppe Valenzise<br>CNRS Senior Researcher (Directeur de recherche)<br>Université Paris-Saclay — CentraleSupelec — CNRS<br>Laboratoire des Signaux et Systèmes (L2S) — UMR 8506<br>3, rue Joliot Curie<br>91192 Gif-sur-Yvette Cedex, France<br>https://l2s.centralesupelec.fr/u/valenzise-giuseppe/<br><br>Editor in Chief Journal on Image and Video Processing (Springer)<br><br class="Apple-interchange-newline"><br class="Apple-interchange-newline">~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~<br>“Immersive Video Technologies”<br>https://www.elsevier.com/books/immersive-video-technologies/valenzise/978-0-323-91755-1<br><br>
</div></span><span>
</span><span><br></span><span></span></div></div></body></html>