0% found this document useful (0 votes)

29 views15 pages

Recent Advances in Vision - And-Language Research

Tutorial on Recent Advances in Vision- and-Language Research

Uploaded by

Nabil Madali

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

29 views15 pages

Recent Advances in Vision - And-Language Research

Tutorial on Recent Advances in Vision- and-Language Research

Uploaded by

Nabil Madali

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 15

Recent Advances in Vision-

and-Language Research
Zhe Gan, Licheng Yu, Yu Cheng, Luowei Zhou,
Linjie Li, Yen-Chun Chen, Jingjing Liu, Xiaodong He
Visual Captioning Visual QA/Grounding/Reasoning

• Popular Topics: Advanced attentions, RL/GAN-based model training, • Popular Topics: Multimodal fusion, Advanced attentions, Use of relations,
Style diversity, Language richness, Evaluation Neural modules, Language bias reduction
• Popular Tasks: Image/video captioning, Dense captioning, Storytelling • Popular Tasks: VQA, GQA, VisDial, Ref-COCO, CLEVR, VCR, NLVR2

Text-to-image Synthesis Self-supervised Learning

Popular Tasks:
• Text-to-image
This bird is red
• Layout-to-image
with white
• Scene-graph-to-
belly and has a
image
very short beak
• Text-based image
editing
• Story visualization

SOTA Models:
• StackGAN
• AttnGAN SOTA Models:
• ObjGAN • Image+Text: ViLBERT, LXMERT, Unicoder-VL,UNITER, etc.
• … • Video+Text: Video-BERT, CBT, UniViLM, etc.
Tutorial Agenda
• 1:15 – 1:25 Opening Remarks
• 1:25 – 2:15 Visual QA/Reasoning
• 2:15 – 2:30 Coffee Break
• 2:30 – 3:10 Visual Captioning
• 3:10 – 3:40 Text-to-image Generation
• 3:40 – 4:00 Coffee Break
• 4:00 – 5:00 Self-supervised Learning

Tutorial Website: https://rohit497.github.io/Recent-Advances-in-Vision-and-Language-Research/

Session 1: Visual QA and Reasoning

Time:
1:25 – 2:15 PM (50 mins)

Presenter:
Zhe Gan (Microsoft)

Zhe Gan is a Senior Researcher at Microsoft Dynamic 365 AI Research. His current
research interests include Vision-and-Language Pre-training and Self-supervised
Learning. Zhe obtained his Ph.D. degree from Duke University in 2018, and Master’s
and Bachelor’s degrees from Peking University in 2013 and 2010, respectively. He is
an Area Chair for NeurIPS 2020 and 2019, and received AAAI-2020 Outstanding
Senior Program Committee Award.
Visual QA/Reasoning/Grounding

GQA VQA VCR

Referring Expressions CLEVR NLVR2

Main Topics
• Advanced attention mechanism
• Enhanced multimodal fusion
• Better image feature preparation
• Multi-step reasoning
• Incorporation of object relations
• Neural module networks
• Language bias reduction
• Multimodal pre-training
Session 2: Visual Captioning
Time:
2:30 – 3:10 PM (40 mins)

Presenter:
Luowei Zhou (Microsoft)

Luowei Zhou is a Researcher at Microsoft. He received his Ph.D. degree in

Robotics from the University of Michigan in 2020 and Bachelor’s degree
in Automation from Nanjing University in 2015. His research interests
include computer vision and deep learning, in particular, the intersection
of vision and language. He is a PC member/reviewer for TPAMI, IJCV,
CVPR, ICCV, ECCV, ACL, EMNLP, NeurIPS, AAAI, ICML etc. and
actively organizes affiliated workshops and tutorials.
From Images to Videos and Beyond

[Figure credit: Aafaq et al., 2019]

Main Topics
• Show and Tell
• Attention-based
• “Fancier” Attention
• Transformer-based
• Pre-training
Session 3: Text-to-Image Synthesis
Time:
3:10 – 3:40 PM (30 mins)

Presenter:
Yu Cheng (Microsoft)

Yu Cheng is a Senior Researcher at Microsoft. Before that, he was

a Research Staff Member at IBM Research/MIT-IBM Watson AI Lab. Yu
got his Ph.D. from Northwestern University in 2015 and bachelor
from Tsinghua University in 2010. His research is in deep learning in
general, with specific interests in model compression, deep generative
model and adversarial learning. Currently he focuses on using these
techniques to solve real-world problems in computer vision and NLP.
Image and Video Synthesis from Text

[Figure credits: Zhang et al, 2017; Li et al., 2018]

Main Topics

Text-to-Image Synthesis (StackGAN, AttnGAN, TAGAN, Obj-GAN)

Text-to-Video Synthesis (GAN-based, VAE-based) Dialogue-based Image Synthesis (ChatPainter, CoDraw, SeqAttnGAN)
Session 4: Self-supervised Learning
Time:
4:00 – 5:00 PM (60 mins)

Presenters:
Licheng Yu (Facebook), Yen-Chun Chen (Microsoft), Linjie Li (Microsoft)
Dr. Licheng Yu is a Research Scientist at Facebook AI. Before then, he was at Microsoft Dynamics 365 AI
Research. Licheng completed his PhD from University of North Carolina at Chapel Hill in 2019, and got his B.S degree
from Shanghai Jiaotong University (SJTU) and M.S degrees from both SJTU and Georgia Tech. During his PhD study,
he did summer internships at eBay Research, Adobe Research and Facebook AI Research.

Linjie Li is a Research SDE at Microsoft Dynamic 365 AI Research. Her current research interests include Vision-and-
Language pre-training and self-supervised learning. Linjie obtained her Master's degree in computer science from
Purdue University in 2018. She also holds a Master's degree in Electrical Engineering from UC, San Diego.

Yen-Chun Chen is a Research SDE at Microsoft. He received his M.S. in computer science from UNC Chapel Hill in
2017, where he focused on NLP and text summarization. He got his bachelor degree in electrical engineering
from NTU in 2014. His current research focus is large-scale self-supervised pre-training and its applications.
Self-supervised Learning for Vision-and-Language

Large, Noisy, Free Data

Pre-training Tasks
• Masked Language Modeling
• Masked Region Modeling
Interior design of modern white
and inbrown living roomsuper
furniture
Model • Image-Text Matching
Emma her hat looking
against white wall with a lamp • Word-Region Alignment
cute
Man sits in a rusted car buried in
Little hanging.
the sand and
girl her dog inbeach
on Waitarere northern

…
Thailand. They both seemed
interested in what we were doing

Img-Txt Txt-Img Referring Visual Image

VQA VCR NLVR2 Expressions GQA Entailment Captioning
Retrieval Retrieval
Main Topics
ViLBERT B2T2 LXMERT VLP 12-in-1 OSCAR

Image Downstream Tasks

Aug. 6th, 2019 Aug. 14th, 2019 Aug. 20th, 2019 Sep. 24th, 2019 Dec. 5th, 2019 Apr. 13th, 2020 VQA VCR NLVR2
Visual Entailment
Aug. 9th, 2019 Aug. 16th, 2019 Aug. 22nd, 2019 Sep. 25th, 2019 Apr. 2nd, 2020 Referring Expressions
Image-Text Retrieval
VisualBERT Unicoder-VL VL-BERT UNITER Pixel-BERT Image Captioning

VideoBERT CBT UniViLM HERO

Video Downstream Tasks

Apr. 3rd, 2019 Jun. 13th, 2019 Feb. 15th, 2020 May 1st, 2020 Video QA
Video-and-Language
Jun. 7th, 2019 Dec. 13th, 2019 Inference
Video Captioning
HowTo100M MIL-NCE Video Moment Retrieval

Notes On Microfinance
100% (5)
Notes On Microfinance
8 pages
Incorporating Visual Information Into Natural Language Processing
No ratings yet
Incorporating Visual Information Into Natural Language Processing
151 pages
Generative AI System Design Resources
No ratings yet
Generative AI System Design Resources
5 pages
Perceptionlm: Open-Access Data and Models For Detailed Visual Understanding
No ratings yet
Perceptionlm: Open-Access Data and Models For Detailed Visual Understanding
54 pages
COMP9491 Week2 Deep - Learning 1
No ratings yet
COMP9491 Week2 Deep - Learning 1
66 pages
In Context Learning Presentation
No ratings yet
In Context Learning Presentation
13 pages
Transformers in Computational Visual Media A Surve
No ratings yet
Transformers in Computational Visual Media A Surve
30 pages
Lecture-27-Introduction To VLM
No ratings yet
Lecture-27-Introduction To VLM
46 pages
2501.02189v3 - 2025
No ratings yet
2501.02189v3 - 2025
35 pages
Lijuan Slides Cvpr2024 Fundationmodels
No ratings yet
Lijuan Slides Cvpr2024 Fundationmodels
25 pages
Visual Large Language Models For Generalized and Specialized Applications
No ratings yet
Visual Large Language Models For Generalized and Specialized Applications
29 pages
Deepseek-Vl: Towards Real-World Vision-Language Understanding
No ratings yet
Deepseek-Vl: Towards Real-World Vision-Language Understanding
33 pages
Deepseek-Vl2: Mixture-Of-Experts Vision-Language Models For Advanced Multimodal Understanding
No ratings yet
Deepseek-Vl2: Mixture-Of-Experts Vision-Language Models For Advanced Multimodal Understanding
28 pages
Learning Transferable Visual Models From Natural Language Supervision
No ratings yet
Learning Transferable Visual Models From Natural Language Supervision
48 pages
Write and Paint
No ratings yet
Write and Paint
25 pages
An Empirical Study of Autoregressive Pre-Training From Videos
No ratings yet
An Empirical Study of Autoregressive Pre-Training From Videos
19 pages
Exploring
No ratings yet
Exploring
16 pages
Multimodal Autoregressive Pre-Training of Large Vision Encoders
No ratings yet
Multimodal Autoregressive Pre-Training of Large Vision Encoders
18 pages
Images in Language Space: Exploring The Suitability of Large Language Models For Vision & Language Tasks
No ratings yet
Images in Language Space: Exploring The Suitability of Large Language Models For Vision & Language Tasks
13 pages
Research Paper (2) Done
No ratings yet
Research Paper (2) Done
17 pages
Visual T5
No ratings yet
Visual T5
15 pages
Survey
No ratings yet
Survey
19 pages
1-2024-arxiv-MobileVLM V2：更快更强的视觉语言模型基线
No ratings yet
1-2024-arxiv-MobileVLM V2：更快更强的视觉语言模型基线
15 pages
Vila-U Foundation Model
No ratings yet
Vila-U Foundation Model
15 pages
Cogvlm Paper
No ratings yet
Cogvlm Paper
18 pages
Data2vec: A General Framework For Self-Supervised Learning in Speech, Vision & Language
No ratings yet
Data2vec: A General Framework For Self-Supervised Learning in Speech, Vision & Language
20 pages
Multimodal Foundation Models
No ratings yet
Multimodal Foundation Models
14 pages
Technical Manual - p211
50% (2)
Technical Manual - p211
64 pages
Paper Ieee Tai
No ratings yet
Paper Ieee Tai
10 pages
2021 NeurIPS VAAT Akbari, Yuan, Qian, Chuang, Chang, Cui, Gong
No ratings yet
2021 NeurIPS VAAT Akbari, Yuan, Qian, Chuang, Chang, Cui, Gong
16 pages
BEiT Model
No ratings yet
BEiT Model
18 pages
Types of AI Models and Their Uses-PDF-Format
No ratings yet
Types of AI Models and Their Uses-PDF-Format
14 pages
Vision-Language Pre-Training
No ratings yet
Vision-Language Pre-Training
102 pages
From Show To Tell: A Survey On Image Captioning
No ratings yet
From Show To Tell: A Survey On Image Captioning
22 pages
Learning Transferable Visual Models From Natural Language Supervision
No ratings yet
Learning Transferable Visual Models From Natural Language Supervision
47 pages
Bao Et Al. - 2022 - VL-BEiT Generative Vision-Language Pretraining
No ratings yet
Bao Et Al. - 2022 - VL-BEiT Generative Vision-Language Pretraining
12 pages
A Survey On Visual Transformer
No ratings yet
A Survey On Visual Transformer
23 pages
Vision-Language Models For Vision Tasks: A Survey: Jingyi Zhang, Jiaxing Huang, Sheng Jin and Shijian Lu
No ratings yet
Vision-Language Models For Vision Tasks: A Survey: Jingyi Zhang, Jiaxing Huang, Sheng Jin and Shijian Lu
24 pages
Huang Seeing Out of The Box End-to-End Pre-Training For Vision-Language Representation CVPR 2021 Paper
No ratings yet
Huang Seeing Out of The Box End-to-End Pre-Training For Vision-Language Representation CVPR 2021 Paper
10 pages
Masked Autoencoders Are Scalable Vision Learners
No ratings yet
Masked Autoencoders Are Scalable Vision Learners
14 pages
Deep Learning Book PDF
No ratings yet
Deep Learning Book PDF
272 pages
Jia Et Al. - 2021 - Scaling Up Visual and Vision-Language Representati
No ratings yet
Jia Et Al. - 2021 - Scaling Up Visual and Vision-Language Representati
11 pages
Synthesis Lectures On Computer Vision: Series Editors
No ratings yet
Synthesis Lectures On Computer Vision: Series Editors
8 pages
Visionllama
No ratings yet
Visionllama
17 pages
Harvard CS197 Lecture 3 Notes
No ratings yet
Harvard CS197 Lecture 3 Notes
26 pages
LVLM Survey
No ratings yet
LVLM Survey
22 pages
PaLI-3 Vision Language Models - Smaller, Faster, Stronger - 2310.09199
No ratings yet
PaLI-3 Vision Language Models - Smaller, Faster, Stronger - 2310.09199
16 pages
NeurIPS 2023 Bootstrapping Vision Language Learning With Decoupled Language Pre Training Paper Conference
No ratings yet
NeurIPS 2023 Bootstrapping Vision Language Learning With Decoupled Language Pre Training Paper Conference
16 pages
Thesis LLMsForDocVQA
No ratings yet
Thesis LLMsForDocVQA
29 pages
Example Grad School Statement
No ratings yet
Example Grad School Statement
2 pages
Model Usage
No ratings yet
Model Usage
9 pages
He Masked Autoencoders Are Scalable Vision Learners CVPR 2022 Paper
No ratings yet
He Masked Autoencoders Are Scalable Vision Learners CVPR 2022 Paper
10 pages
The Dawn of LMMS: Preliminary Explorations With Gpt-4V (Ision)
No ratings yet
The Dawn of LMMS: Preliminary Explorations With Gpt-4V (Ision)
166 pages
677 A Survey On Bridging VLMs
No ratings yet
677 A Survey On Bridging VLMs
20 pages
Paper 3
No ratings yet
Paper 3
13 pages
Unit-5 (DL For Different Domains, Role of GPUs and DL Frameworks)
No ratings yet
Unit-5 (DL For Different Domains, Role of GPUs and DL Frameworks)
15 pages
Vilbert: Pretraining Task-Agnostic Visiolinguistic Representations For Vision-And-Language Tasks
No ratings yet
Vilbert: Pretraining Task-Agnostic Visiolinguistic Representations For Vision-And-Language Tasks
11 pages
Astm D751-19
No ratings yet
Astm D751-19
3 pages
Pixel To Phrases
No ratings yet
Pixel To Phrases
6 pages
Multi-Modal Generative AI Survey
No ratings yet
Multi-Modal Generative AI Survey
23 pages
Applied Nutrition Notes 1
No ratings yet
Applied Nutrition Notes 1
44 pages
COurse Outline CONTEMPORARY POPULAR AND EMERGENT LITERATURE
100% (6)
COurse Outline CONTEMPORARY POPULAR AND EMERGENT LITERATURE
2 pages
Industrial Good Suppliers
No ratings yet
Industrial Good Suppliers
8 pages
PM&QS Capability Statement - GSK
No ratings yet
PM&QS Capability Statement - GSK
58 pages
Thesis
No ratings yet
Thesis
103 pages
The Organization Toolbox Fun and Fresh Printable Pack
No ratings yet
The Organization Toolbox Fun and Fresh Printable Pack
44 pages
Drive Types
No ratings yet
Drive Types
15 pages
Grade 6 - Unit 6 - Vocabulary
No ratings yet
Grade 6 - Unit 6 - Vocabulary
29 pages
Sap Leonardo Connected Fleet
No ratings yet
Sap Leonardo Connected Fleet
45 pages
Unit II Part C Answer Key - Docx-1
No ratings yet
Unit II Part C Answer Key - Docx-1
18 pages
The Role of Education in Shaping Future Generations
No ratings yet
The Role of Education in Shaping Future Generations
7 pages
Finding Domain and Range of A Function G8 1
No ratings yet
Finding Domain and Range of A Function G8 1
13 pages
REPORT - Crisis Negotiation Techniques
No ratings yet
REPORT - Crisis Negotiation Techniques
23 pages
Hunt PathwaysEmpowermentReflections 2001
No ratings yet
Hunt PathwaysEmpowermentReflections 2001
12 pages
PFTL99720 0ed
No ratings yet
PFTL99720 0ed
6 pages
Rfqdetails Golar
No ratings yet
Rfqdetails Golar
3 pages
PHR Version 042023
No ratings yet
PHR Version 042023
2 pages
Sale Catalog - Memorial Day Spectacular Sale
No ratings yet
Sale Catalog - Memorial Day Spectacular Sale
104 pages
Frenchology Login Instructions
No ratings yet
Frenchology Login Instructions
1 page
Accomplishment Report 1
No ratings yet
Accomplishment Report 1
5 pages
Mba Admission Shedule 2024-25
No ratings yet
Mba Admission Shedule 2024-25
4 pages
Online Library Management System: Presenter: Mhamad Nasih - Reben Kamal - Khalid Ali
No ratings yet
Online Library Management System: Presenter: Mhamad Nasih - Reben Kamal - Khalid Ali
9 pages
Resume Yan Liang
No ratings yet
Resume Yan Liang
2 pages
Isa s84
No ratings yet
Isa s84
90 pages
Joaquin, JR., and BJ Productions, Inc., vs. Honorable Franklin Drilon, Gabriel Zosa, William Esposo, Felipe Medina, JR., and Casey Francisco
No ratings yet
Joaquin, JR., and BJ Productions, Inc., vs. Honorable Franklin Drilon, Gabriel Zosa, William Esposo, Felipe Medina, JR., and Casey Francisco
5 pages
Panama Foundation La1
100% (2)
Panama Foundation La1
6 pages
LLP Agreement
No ratings yet
LLP Agreement
13 pages
Visual Media Processing Using MATLAB Beginner's Guide
From Everand
Visual Media Processing Using MATLAB Beginner's Guide
George Siogkas
No ratings yet
Advanced Deep Learning with Python: Design and implement advanced next-generation AI solutions using TensorFlow and PyTorch
From Everand
Advanced Deep Learning with Python: Design and implement advanced next-generation AI solutions using TensorFlow and PyTorch
Ivan Vasilev
No ratings yet
Unreal Development Kit Beginner’s Guide
From Everand
Unreal Development Kit Beginner’s Guide
Richard J. Moore
1/5 (1)

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.

Recent Advances in Vision - And-Language Research

Uploaded by

Recent Advances in Vision - And-Language Research

Uploaded by

Recent Advances in Vision-

Text-to-image Synthesis Self-supervised Learning

Tutorial Website: https://rohit497.github.io/Recent-Advances-in-Vision-and-Language-Research/

GQA VQA VCR

Referring Expressions CLEVR NLVR2

Luowei Zhou is a Researcher at Microsoft. He received his Ph.D. degree in

[Figure credit: Aafaq et al., 2019]

Yu Cheng is a Senior Researcher at Microsoft. Before that, he was

[Figure credits: Zhang et al, 2017; Li et al., 2018]

Text-to-Image Synthesis (StackGAN, AttnGAN, TAGAN, Obj-GAN)

Large, Noisy, Free Data

Img-Txt Txt-Img Referring Visual Image

Image Downstream Tasks

VideoBERT CBT UniViLM HERO

Video Downstream Tasks

You might also like

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.