Portail de production électronique ARC — pipeline Excel vers XML avec validation XSD, préremlissage PDF et support multi-années
Un portail interne de préparation des déclarations T4/T4A pour LEARN Québec — convertit les classeurs Excel de paie en XML conforme à l'ARC, valide le résultat hors ligne contre 217 schémas XSD officiels, préremplit les formulaires PDF remplissables de l'ARC avec un moteur de mappage de champs JSON, et prend en charge T4 et T4A pour les années de production 2025 et 2026.
Le problème
La préparation des soumissions XML T4/T4A de l'ARC était un processus manuel et source d'erreurs sans validation systématique contre les règles de schéma de l'ARC ni moyen de vérifier les classeurs avant la génération. L'équipe avait besoin d'un portail gouverné détectant les erreurs de formatage et de conformité avant la soumission.
Approche
- Pipeline d'analyse des classeurs Excel (openpyxl) — lit les données du transmetteur T619, le sommaire de l'employeur et les feuillets individuels depuis des fichiers XLSX structurés ; validation AJAX préalable identifiant les feuilles, clés et colonnes manquantes avant le lancement de la génération
- Construction XML programmatique basée sur lxml avec mappage de colonnes par chemin pointé, formatage automatique des montants à 2 décimales, validation NR4 et normalisation des codes de pays requis par l'ARC
- Validation XSD contre 217 fichiers de schémas officiels de l'ARC (T4, T4A, T5, T5008, T5013, T4RIF, T4RSP, T4FHSA, T4E et 12+ autres types de déclarations) avec résolveur de schémas local personnalisé — entièrement hors ligne, aucun appel réseau
- Moteur de préremlissage PDF (pypdf) — remplit les PDF remplissables officiels de l'ARC à partir du XML généré en utilisant des fichiers de mappage de champs JSON ; prend en charge le mappage multi-champs, la sélection d'index par feuillet, le mode de fusion de tous les feuillets et la rédaction configurable des champs
- Opération multi-années et multi-modes — T4 et T4A pour 2025 et 2026, avec détection de feuille par mode, routage de schéma par année et téléchargements de modèles Excel officiels par année et mode
- Guide de documentation et de champs des schémas — extrait et met en cache les pages de documentation de l'ARC (TTL de 24 heures) pour afficher chaque champ de schéma avec les règles d'occurrence, les étiquettes lisibles par l'humain et le statut de présence dans le classeur téléversé
- Gestion des fichiers avec suivi basé sur UUID — liste les 10 fichiers les plus récents avec horodatages, suppression par fichier et en masse, et fichiers annexes de validation persistants survivant au rechargement de page
- Authentification par session signée HMAC-SHA256, admin d'amorçage via variables d'environnement pour la configuration initiale et protection XXE via la désactivation de la résolution d'entités XML
Résultat
- La génération et la validation XSD du XML T4/T4A sont passées d'un processus manuel en plusieurs étapes à un simple téléversement de classeur avec vérifications préalables signalant chaque erreur avant la soumission
- La validation hors ligne des schémas contre 217 fichiers de l'ARC signifie que le portail détecte les erreurs de formatage, de champs requis et de structure sans accès réseau ni référence croisée manuelle
- Le préremlissage PDF élimine la ressaisie manuelle dans les formulaires de feuillets de l'ARC — le XML généré est mappé directement aux champs PDF remplissables en une seule opération
Un projet qui attend depuis trop longtemps?
Nous répondons à chaque demande dans la journée ouvrable. Pas d'entonnoir — juste une vraie conversation pour vérifier la compatibilité.