본 논문은 NeurIPS 2019에 accept된 논문이다. 1. Motivation 본 논문은 Visual Question Answering (VQA) task를 다룬 논문이다. VQA task의 목표는 image에 대한 question을 답해야하는 task이다. 따라서 visual scene과 question에 대한 high-level understanding을 요한다. 이러한 VQA 모델에는 unimodal bias가 존재한다. 이는 모델이 두 modalities (image, question)을 모두 다루기 위해서 설계되었으나, image modality를 종종 고려하지 않고, question만 보고 답을 내놓는 문제점을 말한다. 예를들어, 대부분의 바나나의 색깔은 노란색이기 때문에, 모델은 qu..