<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=Windows-1252">
<style type="text/css" style="display:none;"> P {margin-top:0;margin-bottom:0;} </style>
</head>
<body dir="ltr">
<div id="divtagdefaultwrapper" dir="ltr" style="font-size:12pt; color:#000000; font-family:Calibri,Helvetica,sans-serif">
<span dir="ltr"><span><b>Call for Participants - Robotic Vision Scene Understanding (RVSU) Challenge</b></span></span>
<div dir="ltr">
<div><b>===============================================================</b></div>
<div><br>
</div>
<div>Dear Researchers,</div>
<div><br>
</div>
<div>This is a call for participants for the latest ACRV robotic vision scene understanding (RVSU) challenge.</div>
<div><br>
</div>
<div>This challenge is being run as one of multiple embodied AI challenges in the CVPR2021 Embodied AI Workshop.<br>
</div>
<div><br>
</div>
<div><b>Eval AI Challenge Link:</b> <a href="https://eval.ai/web/challenges/challenge-page/807/overview" target="_blank" rel="noopener noreferrer" data-auth="NotApplicable">
https://eval.ai/web/challenges/challenge-page/807/overview</a></div>
<br>
<div><b>Challenge Overview Webpage:</b> <a href="http://cvpr2021.roboticvisionchallenge.org/" target="_blank" rel="noopener noreferrer" data-auth="NotApplicable">http://cvpr2021.roboticvisionchallenge.org/</a><br>
</div>
<div><br>
</div>
<div><b>Workshop Webpage: </b><a href="https://embodied-ai.org/" target="_blank" rel="noopener noreferrer" data-auth="NotApplicable">https://embodied-ai.org/</a><br>
</div>
<br>
<div><b>Deadline:</b> May 7th<br>
</div>
<div><br>
</div>
<div>
<p><b>Prizes</b>: Total of $2500 USD, 2 Titan RTX GPUs and up to 10 Jetson Nano GPUs to be distributed (details below)<br>
</p>
<br>
</div>
<div><b>Challenge Overview</b></div>
<div><b>-----------------------</b></div>
<div>
<p style="margin-top:0;margin-bottom:0">The Robotic Vision Scene Understanding Challenge evaluates how well a robotic vision system can understand the semantic and geometric aspects of its environment. The challenge consists of two distinct tasks:
<b>Object-based Semantic SLAM</b>, and <b>Scene Change Detection</b>.</p>
<p style="margin-top:0;margin-bottom:0">Key features of this challenge include:</p>
<ul>
<li>BenchBot, a complete software stack for running semantic scene understanding algorithms.</li><li>Running algorithms in realistic 3D simulation, and on real robots, with only a few lines of Python code.</li><li>Tiered difficulty levels to allow for easy of entry to robotic vision with embodied agents and enable ablation studies.<br>
</li><li>The BenchBot API, which allows simple interfacing with robots and supports OpenAI Gym-style approaches and a simple object-oriented Agent approach.</li><li>Easy-to-use scripts for running simulated environments, executing code on a simulated robot, evaluating semantic scene understanding results, and automating code execution across multiple environments.</li><li>Opportunities for the best teams to execute their code on a real robot in our lab, which uses the same API as the simulated robot.</li><li>Use of the Nvidia Isaac SDK for interfacing with, and simulation of, high fidelity 3D environments.</li></ul>
<div><b><br>
</b></div>
<div><b>Object-based Semantic SLAM: </b>Participants use a robot to traverse around the environment, building up an object-based semantic map from the robot’s RGBD sensor observations and odometry measurements.
<br>
</div>
<div><br>
</div>
<div><b>Scene Change Detection:</b> Participants use a robot to traverse through an environment scene, building up a semantic understanding of the scene. Then the robot is moved to a new start position in the same environment, but with different conditions.
 Along with a possible change from day to night, the new scene has a number objects added and / or removed. Participants must produce an object-based semantic map describing the changes between the two scenes.</div>
<div><br>
</div>
<div><b>Difficulty Levels:</b> We provide three difficulty levels of increasing complexity and similarity to true active robotic vision systems. At the simplest difficulty level (PGT), the robot moves to pre-defined poses to collect data and provides ground-truth
 poses, removing the need for active exploration and localization . The second level (AGT) requires active exploration and robot control but still provides ground-truth pose to remove localization requirements. The final mode (ADR) is the same as the previous
 but provides only noisy odometry information, requiring localization to be calculated by the system.
<br>
</div>
<div><br>
</div>
<div><b>Prizes:</b><br>
</div>
<div>As the challenge is complex, with multiple components, we provide a tiered prize list. The highest scoring on any given leaderboard will be awarded the corresponding prize. Teams are allowed to participate across all challenges and win multiple prizes.</div>
<div>
<ol>
<li>Scene Change Detection (ADR) - $900 USD, 1 Titan RTX GPU, up to 5 Jetson Nano GPUs</li><li>Semantic SLAM (ADR) - $800 USD, 1 Titan RTX GPU, up to 5 Jetson Nano GPUs</li><li>Semantic SLAM (AGT) - $500 USD</li><li>Semantic SLAM (PGT) - $300 USD</li></ol>
<b>Other Information<br>
</b></div>
<div><b>--------------------------<br>
</b><a href="https://youtu.be/jQPkV29KFvI" target="_blank" rel="noopener noreferrer" data-auth="NotApplicable">https://youtu.be/jQPkV29KFvI</a></div>
<div><a href="https://t.co/tak4XLhmpI?amp=1" target="_blank" rel="noopener noreferrer" data-auth="NotApplicable">https://t.co/tak4XLhmpI?amp=1</a></div>
<div><br>
</div>
<div><span><b>Contact Details</b></span>
<div><b>------------------</b></div>
<div><b>E-mail: </b>contact@roboticvisionchallenge.org</div>
<div><b>Webpage:</b> <a href="https://roboticvisionchallenge.org" target="_blank" rel="noopener noreferrer" data-auth="NotApplicable">
https://roboticvisionchallenge.org</a><br>
</div>
<div><b>Slack:</b> <a href="https://tinyurl.com/rvcslack" target="_blank" rel="noopener noreferrer" data-auth="NotApplicable">
https://tinyurl.com/rvcslack</a></div>
<span><b>Twitter:</b> @robVisChallenge </span><br>
</div>
<div><br>
</div>
<div>
<p><b>Partners and embodied AI challenges at CVPR 2021:</b></p>
<p><b>----------------------------------------------------------------------<br>
</b></p>
<ul>
<li>iGibson Challenge 2021, hosted by Stanford Vision and Learning Lab and Robotics at Google (<a href="https://svl.stanford.edu/igibson/challenge.html" target="_blank" rel="noopener noreferrer" data-auth="NotApplicable">https://svl.stanford.edu/igibson/challenge.html</a>)<br>
</li><li>Habitat Challenge 2021, hosted by Facebook AI Research (FAIR) and Georgia Tech (<a href="https://aihabitat.org/challenge/2020/" target="_blank" rel="noopener noreferrer" data-auth="NotApplicable">https://aihabitat.org/challenge/2020/</a>)<br>
</li><li>Navigation and Rearrangement in AI2-THOR, hosted by the Allen Institute for AI (<a href="https://ai2thor.allenai.org/rearrangement" target="_blank" rel="noopener noreferrer" data-auth="NotApplicable">https://ai2thor.allenai.org/rearrangement</a>)<br>
</li><li>ALFRED: Interpreting Grounded Instructions for Everyday Tasks, hosted by the University of Washington, Carnegie Mellon University, the Allen Institute for AI, and the University of Southern California (<a href="https://askforalfred.com/EAI21/" target="_blank" rel="noopener noreferrer" data-auth="NotApplicable">https://askforalfred.com/EAI21/</a>)<br>
</li><li>Room-Across-Room Habitat Challenge (RxR-Habitat), hosted by Oregon State University, Google, and Facebook AI (<a href="https://ai.google.com/research/rxr/habitat" target="_blank" rel="noopener noreferrer" data-auth="NotApplicable">https://ai.google.com/research/rxr/habitat</a>)<br>
</li><li>SoundSpaces Challenge, hosted by the University of Texas at Austin and the University of Illinois at Urbana-Champaign (<a href="https://soundspaces.org/challenge" target="_blank" rel="noopener noreferrer" data-auth="NotApplicable">https://soundspaces.org/challenge</a>)<br>
</li><li>TDW-Transport, hosted by the Massachusetts Institute of Technology (<a href="https://tdw-transport.csail.mit.edu/" target="_blank" rel="noopener noreferrer" data-auth="NotApplicable">https://tdw-transport.csail.mit.edu/</a>)<br>
</li><li>Robotic Vision Scene Understanding, hosted by the Australian Centre for Robotic Vision in association with the Queensland University of Technology Centre for Robotics (<a href="https://nikosuenderhauf.github.io/roboticvisionchallenges/scene-understanding" target="_blank" rel="noopener noreferrer" data-auth="NotApplicable">https://nikosuenderhauf.github.io/roboticvisionchallenges/scene-understanding</a>)<br>
</li><li>MultiON: Multi-Object Navigation, hosted by the Indian Institute of Technology Kanpur, the University of Illinois at Urbana-Champaign, and Simon Fraser University (<a href="https://aspis.cmpt.sfu.ca/projects/multion/" target="_blank" rel="noopener noreferrer" data-auth="NotApplicable">https://aspis.cmpt.sfu.ca/projects/multion/</a>)</li></ul>
</div>
</div>
</div>
<p style="margin-top:0px; margin-bottom:0px; margin-top:0; margin-bottom:0"><br>
</p>
<br>
</div>
<div>
<div id="Signature">
<div></div>
</div>
</div>
</body>
</html>