"xml.dom.minidom" — implémentation minimale de DOM
**************************************************

**Code source:** Lib/xml/dom/minidom.py

======================================================================

"xml.dom.minidom" est une implémentation minimale de l'interface
*Document Object Model*, avec une API similaire à celle d'autres
langages. Elle est censée être plus simple que le DOM complet et
également nettement plus petite. Les utilisateurs qui ne maîtrisent
pas déjà le DOM devraient plutôt envisager d'utiliser le module
"xml.etree.ElementTree" pour leur traitement XML.

Avertissement:

  le module "xml.dom.minidom" n'est pas sécurisé contre les données
  construites de façon malveillante. Si vous avez besoin d'analyser
  des données non sécurisées ou non authentifiées, référez-vous à
  Vulnérabilités XML.

Les applications DOM commencent généralement par analyser du XML dans
un DOM. Avec "xml.dom.minidom", cela se fait via les fonctions
d'analyse :

   from xml.dom.minidom import parse, parseString

   dom1 = parse('c:\\temp\\mydata.xml')  # parse an XML file by name

   datasource = open('c:\\temp\\mydata.xml')
   dom2 = parse(datasource)  # parse an open file

   dom3 = parseString('<myxml>Some data<empty/> some more data</myxml>')

La fonction "parse()" peut prendre soit un nom de fichier, soit un
objet fichier ouvert.

xml.dom.minidom.parse(filename_or_file, parser=None, bufsize=None)

   Renvoie un "Document" à partir de l'entrée donnée.
   *filename_or_file* peut être soit un nom de fichier, soit un objet
   simili-fichier. *parser*, s'il est donné, doit être un objet
   analyseur *SAX2*. Cette fonction modifie le pointeur vers le
   document de l'analyseur et active la prise en charge des espaces de
   noms ; les autres configurations de l'analyseur (comme la
   définition d'un résolveur d'entité) doivent avoir été effectuées à
   l'avance.

Si votre XML se trouve dans une chaîne, vous pouvez utiliser la
fonction "parseString()" à la place :

xml.dom.minidom.parseString(string, parser=None)

   Renvoie un "Document" qui représente *string*. Cette méthode crée
   un objet "io.StringIO" pour la chaîne et le transmet à "parse()".

Les deux fonctions renvoient un objet "Document" représentant le
contenu du document.

Ce que font les fonctions "parse()" et "parseString()", c'est
connecter un analyseur XML avec un « constructeur DOM » qui peut
accepter les événements d'analyse de n'importe quel analyseur *SAX* et
les convertir en une arborescence DOM. Les noms des fonctions sont
peut-être trompeurs, mais sont faciles à comprendre lors de
l'apprentissage des interfaces. L'analyse du document sera terminée
avant le retour de ces fonctions ; c'est simplement que ces fonctions
ne fournissent pas elles-mêmes d'implémentation d'analyseur.

Vous pouvez également créer un "Document" en appelant une méthode sur
un objet « DOM Implementation ». Vous pouvez obtenir cet objet soit en
appelant la fonction "getDOMImplementation()" du paquet "xml.dom" ou
du module "xml.dom.minidom". Une fois que vous avez un "Document",
vous pouvez y ajouter des nœuds enfants pour remplir le DOM :

   from xml.dom.minidom import getDOMImplementation

   impl = getDOMImplementation()

   newdoc = impl.createDocument(None, "some_tag", None)
   top_element = newdoc.documentElement
   text = newdoc.createTextNode('Some textual content.')
   top_element.appendChild(text)

Une fois que vous disposez d'un objet document DOM, vous pouvez
accéder aux parties de votre document XML via ses propriétés et
méthodes. Ces propriétés sont définies dans la spécification DOM. La
propriété principale de l'objet document est la propriété
"documentElement". Il vous donne l'élément principal du document XML :
celui qui contient tous les autres. Voici un exemple de programme :

   dom3 = parseString("<myxml>Some data</myxml>")
   assert dom3.documentElement.tagName == "myxml"

Lorsque vous avez terminé avec une arborescence DOM, vous pouvez
éventuellement appeler la méthode "unlink()" pour favoriser un
nettoyage précoce des objets désormais inutiles. "unlink()" est une
extension spécifique "xml.dom.minidom" de l'API DOM qui rend le nœud
et ses descendants essentiellement inutiles. Sinon, le ramasse-miettes
de Python finira par s'occuper des objets dans l'arborescence.

Voir aussi:

  Spécification Level 1 Document Object Model (DOM)
     La recommandation du *W3C* pour le DOM pris en charge par
     "xml.dom.minidom".


Objets DOM
==========

La définition de l'API DOM pour Python est donnée dans le cadre de la
documentation du module "xml.dom". Cette section répertorie les
différences entre l'API et "xml.dom.minidom".

Node.unlink()

   Casse les références internes dans le DOM afin qu'elles soient
   récupérées sur les versions de Python sans ramasse-miettes
   cyclique. Même lorsque le ramasse-miettes cyclique est disponible,
   son utilisation peut libérer de grandes quantités de mémoire
   disponibles plus tôt, donc l'appeler sur les objets DOM dès qu'ils
   ne sont plus nécessaires est une bonne pratique. Il est suffisant
   de l'appeler sur l'objet "Document", mais peut être appelée sur les
   nœuds enfants pour éliminer les enfants de ce nœud.

   Vous pouvez éviter d'appeler cette méthode explicitement en
   utilisant l'instruction "with". Le code suivant dissocie
   automatiquement *dom* lorsque le bloc "with" est quitté :

      with xml.dom.minidom.parse(datasource) as dom:
          ... # Work with dom.

Node.writexml(writer, indent='', addindent='', newl='', encoding=None, standalone=None)

   Écrit du XML dans l'objet *writer*. Cet objet reçoit du texte mais
   pas des octets en entrée, il doit avoir une méthode "write()" qui
   correspond à celle de l'interface objet fichier. Le paramètre
   *indent* est l'indentation du nœud actuel. Le paramètre *addindent*
   est l'indentation incrémentielle à utiliser pour les sous-nœuds du
   nœud actuel. Le paramètre *newl* spécifie la chaîne à utiliser pour
   terminer les nouvelles lignes.

   Pour le nœud "Document", un argument nommé supplémentaire
   *encoding* peut être utilisé pour spécifier le champ d'encodage de
   l'en-tête XML.

   De même, l'indication explicite de l'argument *standalone* entraîne
   l'ajout des déclarations de document autonome au prologue du
   document XML. Si la valeur est définie sur "True",
   "standalone="yes"" est ajoutée, sinon elle est définie sur ""no"".
   Par défaut la déclaration n'est pas écrite dans le document.

   Modifié dans la version 3.8: la méthode "writexml()" préserve
   désormais l'ordre des attributs spécifié par l'utilisateur.

   Modifié dans la version 3.9: le paramètre *standalone* a été
   ajouté.

Node.toxml(encoding=None, standalone=None)

   Renvoie une chaîne ou une chaîne d'octets contenant le XML
   représenté par le nœud DOM.

   Avec un argument explicite *encoding* [1], le résultat est une
   chaîne d'octets dans l'encodage spécifié. Sans argument *encoding*,
   le résultat est une chaîne Unicode et la déclaration XML dans la
   chaîne résultante ne spécifie pas d'encodage. Encoder cette chaîne
   dans un codage autre que UTF-8 est probablement incorrect, puisque
   UTF-8 est l'encodage par défaut de XML.

   L'argument *standalone* se comporte exactement comme dans
   "writexml()".

   Modifié dans la version 3.8: la méthode "toxml()" préserve
   désormais l'ordre des attributs spécifié par l'utilisateur.

   Modifié dans la version 3.9: le paramètre *standalone* a été
   ajouté.

Node.toprettyxml(indent='\t', newl='\n', encoding=None, standalone=None)

   Renvoie une version du document agréablement mise en forme.
   *indent* spécifie la chaîne d'indentation et est par défaut une
   tabulation ; *newl* spécifie la chaîne émise à la fin de chaque
   ligne et la valeur par défaut est "\n".

   L'argument *encoding* se comporte comme l'argument correspondant de
   "toxml()".

   L'argument *standalone* se comporte exactement comme dans
   "writexml()".

   Modifié dans la version 3.8: la méthode "toprettyxml()" préserve
   désormais l'ordre des attributs spécifié par l'utilisateur.

   Modifié dans la version 3.9: le paramètre *standalone* a été
   ajouté.


Exemple DOM
===========

Cet exemple de programme est un exemple assez réaliste de programme
simple. Dans ce cas particulier, nous ne profitons pas beaucoup de la
flexibilité du DOM.

   import xml.dom.minidom

   document = """\
   <slideshow>
   <title>Demo slideshow</title>
   <slide><title>Slide title</title>
   <point>This is a demo</point>
   <point>Of a program for processing slides</point>
   </slide>

   <slide><title>Another demo slide</title>
   <point>It is important</point>
   <point>To have more than</point>
   <point>one slide</point>
   </slide>
   </slideshow>
   """

   dom = xml.dom.minidom.parseString(document)

   def getText(nodelist):
       rc = []
       for node in nodelist:
           if node.nodeType == node.TEXT_NODE:
               rc.append(node.data)
       return ''.join(rc)

   def handleSlideshow(slideshow):
       print("<html>")
       handleSlideshowTitle(slideshow.getElementsByTagName("title")[0])
       slides = slideshow.getElementsByTagName("slide")
       handleToc(slides)
       handleSlides(slides)
       print("</html>")

   def handleSlides(slides):
       for slide in slides:
           handleSlide(slide)

   def handleSlide(slide):
       handleSlideTitle(slide.getElementsByTagName("title")[0])
       handlePoints(slide.getElementsByTagName("point"))

   def handleSlideshowTitle(title):
       print(f"<title>{getText(title.childNodes)}</title>")

   def handleSlideTitle(title):
       print(f"<h2>{getText(title.childNodes)}</h2>")

   def handlePoints(points):
       print("<ul>")
       for point in points:
           handlePoint(point)
       print("</ul>")

   def handlePoint(point):
       print(f"<li>{getText(point.childNodes)}</li>")

   def handleToc(slides):
       for slide in slides:
           title = slide.getElementsByTagName("title")[0]
           print(f"<p>{getText(title.childNodes)}</p>")

   handleSlideshow(dom)


*minidom* et le standard DOM
============================

Le module "xml.dom.minidom" est essentiellement une interface vers DOM
compatible DOM 1.0 avec certaines fonctionnalités DOM 2
(principalement des fonctionnalités d'espace de noms).

L'utilisation de l'interface DOM en Python est simple. Les règles de
correspondances suivantes s'appliquent :

* Les interfaces sont accessibles via des objets d'instance. Les
  applications ne doivent pas instancier les classes elles-mêmes ;
  elles doivent utiliser les fonctions de création disponibles sur
  l'objet "Document". Les interfaces dérivées prennent en charge
  toutes les opérations (et attributs) des interfaces de base, ainsi
  que toutes les nouvelles opérations.

* Les opérations sont utilisées comme méthodes. Puisque le DOM utilise
  uniquement les paramètres "in", les arguments sont passés dans
  l'ordre normal (de gauche à droite). Il n'y a pas d'argument
  facultatif. Les opérations "void" renvoient "None".

* Les attributs *IDL* (*Interface Description Language*) correspondent
  aux attributs d'instance. Pour des raisons de compatibilité avec la
  correspondance OMG (*Object Management Group*) du langage *IDL* pour
  Python, un attribut "foo" est également accessible via les méthodes
  d'accès "_get_foo()" et "_set_foo()". Les attributs "readonly" ne
  doivent pas être modifiés ; ce n'est pas vérifié au moment de
  l'exécution.

* Les types "short int", "unsigned int", "unsigned long long" et
  "boolean" correspondent tous à des objets entiers Python.

* Le type "DOMString" correspond aux chaînes Python. "xml.dom.minidom"
  prend en charge soit les octets, soit les chaînes, et produit
  normalement des chaînes. Les valeurs de type "DOMString" peuvent
  également être "None" là où la valeur *IDL* "null" est autorisée par
  la spécification DOM du W3C.

* Les déclarations "const" correspondent aux variables dans leur
  portée respective (par exemple
  "xml.dom.minidom.Node.PROCESSING_INSTRUCTION_NODE") ; elles ne
  doivent pas être modifiées.

* "DOMException" n'est actuellement pas pris en charge dans
  "xml.dom.minidom". En lieu et place, "xml.dom.minidom" utilise des
  exceptions Python standard telles que "TypeError" et
  "AttributeError".

* Les objets "NodeList" sont implémentés à l'aide du type de liste
  natif de Python. Ces objets fournissent l'interface définie dans la
  spécification DOM, mais avec les versions antérieures de Python, ils
  ne prennent pas en charge l'API officielle. C'est cependant bien
  plus « Pythonique » que l’interface définie dans les recommandations
  du W3C.

Les interfaces suivantes n'ont aucune implémentation dans
"xml.dom.minidom" :

* "DOMTimeStamp"

* "EntityReference"

La plupart d'entre elles reflètent des informations contenues dans le
document XML qui ne sont pas d'utilité générale pour la plupart des
utilisateurs du DOM.

-[ Notes ]-

[1] Le nom de codage inclus dans la sortie XML doit être conforme aux
    normes appropriées. Par exemple, ""UTF-8"" est valide, mais
    ""UTF8"" ne l'est pas dans la déclaration d'un document XML, même
    si Python l'accepte comme nom de codage. Voir
    https://www.w3.org/TR/2006/REC-xml11-20060816/#NT-EncodingDecl et
    https://www.iana.org/assignments/character-sets/character-
    sets.xhtml.
