ix
Contents
Preface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xiii
Acknowledgments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xv
1
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1 Micro-Video Proliferation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Practical Tasks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1 Micro-Video Popularity Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.2 Micro-Video Venue Categorization . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.3 Micro-Video Routing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Research Challenges . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Our Solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5 Book Structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2
Data Collection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1 Dataset I for Popularity Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Dataset II for Venue Category Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3 Dataset III for Micro-Video Routing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3
Multimodal Transductive Learning for Micro-Video Popularity Prediction . . 19
3.1 Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2 Research Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.3 Feature Extraction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.3.1 Observations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.3.2 Social Modality . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3.3 Visual Modality. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3.4 Acoustic Modality . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.3.5 Textual Modality . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.4 Related Work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.4.1 Popularity Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.4.2 Multi-View Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
x
3.4.3 Low-Rank Subspace Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.5 Notations and Preliminaries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.6 Multimodal Transductive Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.6.1 Objective Formulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.6.2 Optimization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.6.3 Experiments and Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.7 Multi-Modal Transductive Low-Rank Learning . . . . . . . . . . . . . . . . . . . . . . . 39
3.7.1 Objective Formulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.7.2 Optimization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.7.3 Experiments and Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.8 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4
Multimodal Cooperative Learning for Micro-Video Venue Categorization . . 59
4.1 Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.2 Research Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.3 Related Work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.3.1 Multimedia Venue Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.3.2 Multi-Modal Multi-Task Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.3.3 Dictionary Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.4 Multimodal Consistent Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.4.1 Optimization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.4.2 Task Relatedness Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.4.3 Complexity Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.4.4 Experiments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.5 Multimodal Complementary Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.5.1 Multi-Modal Dictionary Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.5.2 Tree-Guided Multi-Modal Dictionary Learning . . . . . . . . . . . . . . . . 75
4.5.3 Optimization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.5.4 Online Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.5.5 Experiments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.6 Multimodal Cooperative Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.6.1 Multimodal Early Fusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
4.6.2 Cooperative Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.6.3 Attention Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.6.4 Experiments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
4.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
xi
5
Multimodal Transfer Learning in Micro-Video Analysis
. . . . . . . . . . . . . . . . .
109
5.1 Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
5.2 Research Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
5.3 Related Work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
5.4 External Sound Dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
5.5 Deep Multi-Modal Transfer Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
5.5.1 Sound Knowledge Transfer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
5.5.2 Multi-Modal Fusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
5.5.3 Deep Network for Venue Estimation . . . . . . . . . . . . . . . . . . . . . . . . . 115
5.5.4 Training . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
5.6 Experiments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
5.6.1 Experimental Settings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
5.6.2 Acoustic Representation (RQ1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
5.6.3 Performance Comparison (RQ2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
5.6.4 External Knowledge Effect (RQ3) . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
5.6.5 Visualization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
5.6.6 Study of DARE Model (RQ4) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
5.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
6
Multimodal Sequential Learning for Micro-Video Recommendation . . . . . . 125
6.1 Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
6.2 Research Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
6.3 Related Work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
6.4 Multimodal Sequential Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
6.4.1 e Temporal Graph-Based LSTM Layer . . . . . . . . . . . . . . . . . . . . 129
6.4.2 e Multi-Level Interest Modeling Layer . . . . . . . . . . . . . . . . . . . . . 131
6.4.3 e Prediction Layer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
6.5 Experiments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
6.5.1 Experimental Settings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
6.5.2 Baselines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
6.5.3 Overall Comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
6.5.4 Component-Wise Evaluation of ALPINE . . . . . . . . . . . . . . . . . . . . 136
6.5.5 Justification of the Temporal Graph . . . . . . . . . . . . . . . . . . . . . . . . . . 138
6.5.6 Attention Visualization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
6.6 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
xii
7
Research Frontiers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
7.1 Micro-Video Annotation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
7.2 Micro-Video Captioning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
7.3 Micro-Video umbnail Selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
7.4 Semantic Ontology Construction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
7.5 Pornographic Content Identification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
Authors’ Biographies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
..................Content has been hidden....................

You can't read the all page of ebook, please click here login for view all page.
Reset