☆ 3.8 Proceedings Paper

ANetQA: A Large-scale Benchmark for Fine-grained Compositional Reasoning over Untrimmed Videos

2023 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR) (2023)

Related references

Note: Only part of the references are listed.

Proceedings Paper Computer Science, Artificial Intelligence

HAIR: Hierarchical Visual-Semantic Relational Reasoning for Video Question Answering

Fei Liu et al.

Summary: The paper introduces a Hierarchical VisuAl-Semantic RelatIonal Reasoning (HAIR) framework for video question answering, which integrates visual and semantic knowledge through graph memory mechanisms. Experimental results demonstrate state-of-the-art performance, fewer parameters, and faster inference speed, as well as superior performance in other video+language tasks.

2021 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV 2021) (2021)

Add to Collection

Proceedings Paper Computer Science, Artificial Intelligence

AGQA: A Benchmark for Compositional Spatio-Temporal Reasoning

Madeleine Grunde-McLaughlin et al.

Summary: The paper introduces a new benchmark AGQA for evaluating compositional spatio-temporal reasoning, which minimizes bias by balancing answer distributions and types of question structures. Evaluations of existing models show that the best model achieves only 47.74% accuracy.

2021 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, CVPR 2021 (2021)

Add to Collection

Proceedings Paper Computer Science, Artificial Intelligence

Social-IQ: A Question Answering Benchmark for Artificial Social Intelligence

Amir Zadeh et al.

2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR 2019) (2019)

Add to Collection

Proceedings Paper Computer Science, Artificial Intelligence

REPAIR: Removing Representation Bias by Dataset Resampling

Yi Li et al.

2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR 2019) (2019)

Add to Collection

Article Computer Science, Artificial Intelligence

Beyond Bilinear: Generalized Multimodal Factorized High-Order Pooling for Visual Question Answering

Zhou Yu et al.

IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS (2018)

Add to Collection

Article Computer Science, Artificial Intelligence

Uncovering the Temporal Context for Video Question Answering

Linchao Zhu et al.

INTERNATIONAL JOURNAL OF COMPUTER VISION (2017)

Add to Collection

Proceedings Paper Computer Science, Artificial Intelligence

MarioQA: Answering Questions by Watching Gameplay Videos

Jonghwan Mun et al.

2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV) (2017)

Add to Collection

Proceedings Paper Computer Science, Artificial Intelligence

A dataset and exploration of models for understanding video data through fill-in-the-blank question-answering

Tegan Maharaj et al.

30TH IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR 2017) (2017)

Add to Collection

Proceedings Paper Computer Science, Artificial Intelligence

Dense-Captioning Events in Videos

Ranjay Krishna et al.

2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV) (2017)

Add to Collection

Proceedings Paper Computer Science, Artificial Intelligence

TGIF-QA: Toward Spatio-Temporal Reasoning in Visual Question Answering

Yunseok Jang et al.

30TH IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR 2017) (2017)

Add to Collection

© Peeref 2019-2024. All rights reserved.