Andersen, MarilyneThiran, Jean-PhilippeCho, YunniAbbet, Christian RobertPoletto, Arnaud2025-08-202025-08-202025-08-192025-08-19https://infoscience.epfl.ch/handle/20.500.14299/252940Windows in modern architectural environments serve as essential interfaces connecting indoor spaces to dynamic outdoor views. Although traditional view assessment frameworks have provided valuable insight into static view properties, they fall short of capturing the temporal and dynamic aspects of real-world scenes. Addressing this gap, this thesis introduces a novel approach that combines eye tracking data, advanced computational analysis, and deep learning to model how occupants visually engage with window views over time. Using the new ViewOut dataset, which incorporates moving content using real-time video capture with virtual reality-based gaze tracking and video recordings of real-world scenes, this research systematically investigates the factors influencing visual attention in view-out scenarios. Our analysis reveals that: • Primary visual features (e.g., contrast and color saturation) attract attention significantly above chance level—even when controlling for general fixation tendencies. • Depth cues lead to increased attention toward distant elements, with a higher fixation count on background features. • Human figures attract stronger attention than vehicles, while both resulting in significantly more fixations than the average fixation density across scenes, highlighting the particular salience of social and semantic objects. • Dynamic objects, such as moving vehicles and pedestrians, capture and sustain attention significantly more than non-moving elements. Based on these findings, this work develops the Spatio-Temporal Attentive Message Passing Graph Neural Network (STAMP-GNN), a deep learning model capable of saliency prediction across multiple input modalities (images or videos) and prediction tasks (global or temporal attention patterns). Key innovations of this model include: • An attentive message passing mechanism to capture spatio-temporal relationships within videos. • The capability to predict temporal attention patterns from both image and video inputs while improving global saliency predictions. • Competitive performance across diverse saliency benchmarks such as our own view out dataset and standard benchmarks such as SALICON and DHF1K datasets, demonstrating the model's effectiveness across different contexts. The results demonstrate how this interdisciplinary approach, which integrates computer vision techniques with traditional built environment analysis, can advance view quality assessment beyond static evaluations to capture dynamic visual engagement patterns. This research provides a foundation for incorporating dynamic gaze behaviors into architectural design, enabling more engaging and user-centric environments.Dans les espaces architecturaux modernes, les fenêtres jouent un rôle essentiel en établissant la connexion entre les espaces intérieurs et le paysage extérieur en constante évolution. Si les approches traditionnelles d'évaluation du champ visuel extérieur ont permis de définir des critères statiques pertinents, elles ne prennent pas pleinement en compte la dimension dynamique et temporelle des scènes. Pour aborder ce champ d'investigation, notre travail propose une méthodologie novatrice alliant le suivi oculaire (oculométrie), l'analyse statistique et computationnelle, et l'apprentissage profond afin de modéliser l'interaction visuelle des occupants avec leur environnement extérieur. Notre étude s'appuie sur une nouvelle base de données, nommée ViewOut, intégrant des contenus vidéo dynamiques captés en temps réel et un suivi oculaire enregistré au moyen d'un casque de réalité virtuelle. L'analyse de ces données a révélé plusieurs conclusions majeures : • Les caractéristiques visuelles fondamentales (telles que le contraste et la saturation des couleurs) jouent un rôle déterminant dans la capture de l'attention, au-delà des tendances habituelles de fixation. • La perception de la profondeur spatiale influence significativement le comportement visuel, se traduisant par une concentration accrue des fixations sur les éléments éloignés du champ de vision. • Les silhouettes humaines suscitent davantage l'attention que les véhicules, ces deux catégories déclenchant par ailleurs un nombre de fixations largement supérieur à la moyenne, soulignant ainsi l'importance des éléments à forte valeur sémantique et sociale. • Les objets en mouvement (notamment les véhicules et les piétons dynamiques) captent et retiennent l'attention bien plus efficacement que les éléments statiques. Ces observations ont conduit au développement du Spatio-Temporal Attentive Message Passing Graph Neural Network (STAMP-GNN), un modèle d'apprentissage profond conçu pour prédire les zones de saillance visuelle selon différentes modalités (images fixes ou séquences vidéo) et différentes dynamiques attentionnelles (globales ou temporelles). Les principaux atouts de ce modèle incluent : • Un mécanisme attentionnel de transmission de messages, permettant d'analyser les relations spatio-temporelles au sein de séquences vidéo. • La capacité de prévoir l'évolution temporelle de l'attention à partir d'images isolées ou de séquences vidéo, tout en améliorant les prédictions de saillance globale. • Des performances compétitives sur plusieurs jeux de données de référence, notamment notre jeu de données ViewOut et des bases de référence telles que SALICON et DHF1K, illustrant la robustesse et la polyvalence de notre modèle. Cette recherche souligne la valeur d'une approche pluridisciplinaire, associant la vision par ordinateur et l'analyse de l'environnement bâti, pour dépasser la simple évaluation statique du champ visuel extérieur. Elle ouvre la voie à l'intégration de la dynamique du regard dans l'aménagement de l'espace, favorisant ainsi la création d'environnements plus engageants et centrés sur les utilisateurs.eneye trackingvisual attentionsaliency predictiongraph neural networkswindow viewsbuilt environmentspatio-temporal analysisdeep learningcomputer visionvirtual realitygaze trackingarchitectural designTemporal Human Visual Attention in Window Views: Dynamic Gaze Patterns Analysis and Deep Learning-Based Spatio-Temporal Saliency Estimationstudent work::master thesis