JOPT2025
HEC Montreal, 12 — 14 May 2025
JOPT2025
HEC Montreal, 12 — 14 May 2025

Planning and Scheduling in Reconfigurable manufacturing systems
May 12, 2025 10:30 AM – 12:10 PM
Location: TD Assurance Meloche Monnex (Green)
Chaired by Adnene Hajji
4 Presentations
-
10:30 AM - 10:55 AM
A multi-agent reinforcement learning approach for Planning and Scheduling in Reconfigurable Manufacturing Systems
Reconfigurable Manufacturing Systems (RMS) enable modern industries to rapidly adapt to market demands variations by allowing efficient reconfiguration of production processes. Efficient job scheduling and optimal transitions between production modes directly influence the system’s productivity and adaptability. Moreover, integrating proactive maintenance planning is essential to prevent unexpected equipment failures and ensure continuous operational efficiency.
In this paper, we model a dynamic make-to-order RMS as a Reconfigurable Flow Line (RFL), where orders with due dates arrive randomly and require real-time scheduling and reconfiguration decisions. Proactive maintenance is integrated by evaluating the remaining operational lifespan of each production mode, enabling timely maintenance actions. To address this complex decision-making problem, we propose a Multi-Agent Reinforcement Learning (MARL) framework based on Proximal Policy Optimization (PPO). Our approach leverages two cooperative agents: a scheduling agent responsible for job selection and a reconfiguration agent managing production mode transitions while taking their maintenance plan into account. Experimental results, including sensitivity analyses on job volume, production modes, and number of machines in the flow line, demonstrate that our MARL-based approach significantly outperforms traditional rule-based methods, achieving up to a 52% reduction in mean total tardiness cost. -
10:55 AM - 11:20 AM
Politiques de commande des systèmes reconfigurables de fabrication-remanufacturing avec deux installations de production sujettes aux pannes
Les systèmes hybrides de fabrication-refabrication sont reconnus pour leurs avantages économiques et environnementaux, notamment en prolongeant la durée de vie des produits et en réduisant la consommation d’énergie et de matières premières. Dans ce cadre, les systèmes reconfigurables offrent une flexibilité accrue en ajustant la production en fonction de l’état du système (par exemple, les pannes) et des contraintes externes (par exemple, la disponibilité limitée des retours). Ce travail étudie un système reconfigurable de fabrication-refabrication comportant deux installations de production sujettes aux pannes, opérant dans un environnement dynamique et stochastique. L’objectif est de déterminer une politique de commande intégrée qui minimise les coûts à long terme en optimisant simultanément les décisions de fabrication, de refabrication, d’élimination des retours, ainsi que celles liées aux setups nécessaires pour basculer entre un mode de production alimenté par la matière première (mode de fabrication) à un mode alimenté par les retours (mode de refabrication). Pour ce faire, nous combinons des techniques numériques et la théorie du contrôle optimal. Une approche par simulation permet ensuite d’optimiser les paramètres de la politique de commande proposée et de réaliser des études comparatives sur différentes configurations du système. Les résultats illustrent la robustesse de notre approche en évaluant le comportement dynamique des décisions intégrées et montrent que notre politique de commande est plus économique que les politiques existantes appliquées aux systèmes à deux installations.
-
11:20 AM - 11:45 AM
Apprentissage de contraintes pour améliorer la précision des modèles de planification et ordonnancement
Les décisions de fabrication s’appuient souvent sur des modèles mathématiques pour suggérer des décisions aux responsables en charge de la production. Par exemple, les modèles de dimensionnement des lots sont couramment utilisés pour planifier la production des entreprises. Dans ces modèles, la consommation de la capacité du plan est déterminée par une approximation grossière qui ne tient pas compte de toutes les complexités rencontrées dans l’atelier de production. Bien que cette approximation permette une résolution efficace du modèle, la décision qui en résulte conduit généralement à des erreurs lorsque le plan est exécuté dans l’atelier. Cette thèse vise à utiliser l’apprentissage automatique pour améliorer les modèles traditionnellement utilisés dans la recherche opérationnelle pour les problèmes industriels. Cette méthodologie vise à remplacer certaines parties d’un modèle mathématique (contraintes, objectifs) par des modèles d’apprentissage automatique (régression linéaire, réseaux de neurones, etc.) préalablement entraînés sur des données disponibles. Ces outils peuvent s’appuyer sur la quantité massive de données générées dans l’atelier et des sources de données externes pour prendre de meilleures décisions. Cette approche est évaluée sur un problème de dimensionnement des lots où les contraintes liées à la consommation de la capacité sont remplacées par des modèles d’apprentissage automatique. Le modèle qui en résulte détermine des plans de production optimaux pour lesquels les quantités produites restent réalisables une fois transférées vers l’atelier. L’outil qui en résulte est adapté aux systèmes de production actuels, qui sont de plus en plus reconfigurables et en constante évolution. Le modèle peut également être réappris à partir des données de l’atelier au fur et à mesure que des changements se produisent dans l’atelier, ce qui évite à un expert de devoir modifier le modèle d’optimisation à chaque fois que l’atelier évolue.
-
11:45 AM - 12:10 PM
Scheduling complex engineer-to-order projects using a hyper-graph attention network trained with multi-agent proximal policy optimization
The contemporary industrial market is characterized by intense competition and increasing expectations in terms of quality, customization, price, and lead times. Companies, particularly SMEs, are compelled to continuously optimize how they plan and execute their projects while seeking new market opportunities. In this context, customized engineer-to-order (ETO) projects offer SMEs a competitive advantage over industries with larger production capacities. However, the uncertain nature and partially unknown design of ETO projects make it even more challenging to predict costs and durations; lead to wastes of time, resources, and materials; reduce the robustness of proposed schedules; and increase the difficulty in predicting the performance of decisions made. Through this research project, we proposed EPS, an optimization model to schedule design and manufacturing operations of highly personalized projects. This model stands out for its flexibility: EPS considers a wide range of resources (including those related to outsourcing), objectives, and the key differences between physical (production, assembly) and non-physical operations (design and engineering). Besides, EPS integrates a proactive scheduling strategy designed to address the challenges mentioned above. Initially processed by a genetic algorithm, the EPS model is now solved via a hybrid approach, combining optimization and deep learning: a hyper-graph attention network that is first pre-trained in a multi-stage fashion: each decision space and related agent are optimized separately. Then, the model is fine-tuned through a Multi-Agent Proximal Policy Optimization (MA-PPO) approach. The comprehensive framework enables leveraging past experiences to make decisions faster and with higher quality.