1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Visual Question Answering in AI tasks . . . . . . . . . . . . . . . . . . . . . . . . 41.3 Categorisation of VQA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.3.1 Classified by Data Settings . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.3.2 Classified by Task Settings . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.3.3 Others . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.4 Book Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9Part I Preliminaries2 Deep Learning Basics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.1 Neural Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.2 Convolutional Neural Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.3 Recurrent Neural Networks and variants . . . . . . . . . . . . . . . . . . . . . . . 182.4 Encoder-Decoder Structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.5 Attention Mechanism . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.6 Memory Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.7 Transformer Networks and BERT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.8 Graph Neural Networks Basics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263 Question Answering (QA) Basics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.1 Rule-based methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.2 Information retrieval-based methods . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.3 Neural Semantic Parsing for QA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313.4 Knowledge Base for QA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32Part II Image-based VQA
ix