Anatomie du nuage moléculaire géant Orion B - Machine Learning appliqué aux données hyperspectrales massives
L’observations des raies moléculaires est l’une des meilleures méthodes et parfois la seule pour comprendre les processus physiques qui contrôlent la formation stellaire. Des molécules comme CO (et ses isotopes), HCO+, HCN, N2H+, CH3OH, etc ... peuvent théoriquement être utilisées pour déterminer la température, la densité et les structures dans les nuages moléculaires. Avec les nouvelles générations d’instruments (IRAM-30m, NOEMA, ALMA, ...), ces molécules sont désormais couramment détectées non seulement dans des nuages moléculaires de notre Galaxie mais de plus en plus dans les galaxies proches et lointaines.
Au sein d’un consortium international (P.I. J. Pety et M. Gerin), nous somme en train d’acquérir un jeu de données IRAM-30m sur la célèbre région d’Orion B (200000 canaux spectraux sur 4.5 degrés carré) fournissant l’émission de quelques dizaines de molécules (isotopologues inclus) à chaque pixel. A partir de ce jeu de données exceptionnel, notre objectif est de révéler l’anatomie d’une région moléculaire complexe qui couvre différents types de milieux interstellaires : régions où la physique et la chimie sont dominés par les photons(PDR - photo-dominated regions), régions de formation stellaires enfouies, nuages sombres, chocs, gaz diffus, etc ... Il s’agit de remonter aux conditions physiques à chaque pixel et à mettre en évidence 1) les relations entre les structures à grande échelle et celles à petites échelles, 2) la dynamique du gaz / turbulence, 3) les relations entre les différents traceurs moléculaires et les conditions physiques.
L’une des difficultés avec ce nouveau type de données hyperspectrales (cube 3D) réside dans le volume et la richesse des données. Les méthodes d’analyse de données classiques consistant à ajuster les raies à chaque pixel puis comparer ces données aux modèles se révèlent dépassées face à d’aussi grands volumes. Aussi nous cherchons à adapter des techniques de Machine Learning pour exploiter ces données. Actuellement, nous avons appliqué avec succès plusieurs méthodes (PCA et mean shift dont chacune a donné lieu à une publication). Nous avons pu montrer les intérêts et les limites de ces méthodes sur des données millimétriques du milieu interstellaire. Par exemple, nous avons montré que ces techniques peuvent rapidement faire ressortir des clusters caractérisant les processus physiques et chimiques se déroulant dans les nuages. Nous avons aussi montré, qu’à cause du faible signal-sur-bruit de telles observations, du mélange de composantes sur les lignes de visées et de la non-linéarité des processus physiques sous-jacents, il est nécessaire d’utiliser des techniques de machine learning relativement avancées et bien souvent d’adapter les méthodes existantes pour tenir compte des spécificités des observations. Nous tenons à souligner que si des techniques de machine learning ont déjà été utilisées avec succès dans d’autres communautés (catégorisation des galaxies, archéologie galactique), il s’agit de l’un des premiers travaux sur le sujet pour des données du milieu interstellaire.
Suite aux premiers travaux publiés en 2017, plusieurs autres études, initiées lors de l’atelier CIAS 2017, sont en cours entre les membres du consortium que ce soit sur l’exploitation d’autres techniques de Machine Learning ou des approches plus classiques qui nous permettront de mieux comprendre les processus physiques et chimiques à l’oeuvre dans la région typique qu’est Orion B.