Preface

Search in book...
Toggle Font Controls
Create new playlist

Name your new playlist

Playlist description (optional)
Sign In

Email address

Password

Forgot Password?

or

Continue with Facebook

Continue with Google
Sign Up

Full Name

Email address

Confirm Email Address

Password

or

Continue with Facebook

Continue with Google

Contents

Preface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xiii

Acknowledgments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xv

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.1 Micro-Video Proliferation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Practical Tasks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2.1 Micro-Video Popularity Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2.2 Micro-Video Venue Categorization . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2.3 Micro-Video Routing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.3 Research Challenges . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.4 Our Solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.5 Book Structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

Data Collection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.1 Dataset I for Popularity Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2 Dataset II for Venue Category Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.3 Dataset III for Micro-Video Routing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

Multimodal Transductive Learning for Micro-Video Popularity Prediction . . 19

3.1 Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.2 Research Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.3 Feature Extraction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3.3.1 Observations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3.3.2 Social Modality . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.3.3 Visual Modality. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.3.4 Acoustic Modality . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.3.5 Textual Modality . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.4 Related Work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.4.1 Popularity Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.4.2 Multi-View Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.4.3 Low-Rank Subspace Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.5 Notations and Preliminaries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.6 Multimodal Transductive Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.6.1 Objective Formulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.6.2 Optimization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.6.3 Experiments and Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.7 Multi-Modal Transductive Low-Rank Learning . . . . . . . . . . . . . . . . . . . . . . . 39

3.7.1 Objective Formulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.7.2 Optimization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3.7.3 Experiments and Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3.8 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

Multimodal Cooperative Learning for Micro-Video Venue Categorization . . 59

4.1 Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

4.2 Research Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

4.3 Related Work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

4.3.1 Multimedia Venue Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

4.3.2 Multi-Modal Multi-Task Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4.3.3 Dictionary Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

4.4 Multimodal Consistent Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

4.4.1 Optimization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

4.4.2 Task Relatedness Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

4.4.3 Complexity Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

4.4.4 Experiments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

4.5 Multimodal Complementary Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

4.5.1 Multi-Modal Dictionary Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

4.5.2 Tree-Guided Multi-Modal Dictionary Learning . . . . . . . . . . . . . . . . 75

4.5.3 Optimization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

4.5.4 Online Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

4.5.5 Experiments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

4.6 Multimodal Cooperative Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

4.6.1 Multimodal Early Fusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

4.6.2 Cooperative Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

4.6.3 Attention Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

4.6.4 Experiments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

4.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

Multimodal Transfer Learning in Micro-Video Analysis

. . . . . . . . . . . . . . . . .

109

5.1 Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

5.2 Research Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

5.3 Related Work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

5.4 External Sound Dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

5.5 Deep Multi-Modal Transfer Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

5.5.1 Sound Knowledge Transfer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

5.5.2 Multi-Modal Fusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

5.5.3 Deep Network for Venue Estimation . . . . . . . . . . . . . . . . . . . . . . . . . 115

5.5.4 Training . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

5.6 Experiments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

5.6.1 Experimental Settings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

5.6.2 Acoustic Representation (RQ1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

5.6.3 Performance Comparison (RQ2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

5.6.4 External Knowledge Eﬀect (RQ3) . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

5.6.5 Visualization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

5.6.6 Study of DARE Model (RQ4) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

5.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

Multimodal Sequential Learning for Micro-Video Recommendation . . . . . . 125

6.1 Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

6.2 Research Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

6.3 Related Work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

6.4 Multimodal Sequential Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

6.4.1 e Temporal Graph-Based LSTM Layer . . . . . . . . . . . . . . . . . . . . 129

6.4.2 e Multi-Level Interest Modeling Layer . . . . . . . . . . . . . . . . . . . . . 131

6.4.3 e Prediction Layer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

6.5 Experiments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

6.5.1 Experimental Settings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

6.5.2 Baselines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

6.5.3 Overall Comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

6.5.4 Component-Wise Evaluation of ALPINE . . . . . . . . . . . . . . . . . . . . 136

6.5.5 Justiﬁcation of the Temporal Graph . . . . . . . . . . . . . . . . . . . . . . . . . . 138

6.5.6 Attention Visualization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

6.6 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

xii

Research Frontiers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

7.1 Micro-Video Annotation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

7.2 Micro-Video Captioning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

7.3 Micro-Video umbnail Selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145

7.4 Semantic Ontology Construction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146

7.5 Pornographic Content Identiﬁcation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

Authors’ Biographies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

..................Content has been hidden....................

You can't read the all page of ebook, please click here login for view all page.

Table of Contents for Preface

Create new playlist

Sign In

Sign Up

Table of Contents for
Preface