`xml.dom.minidom` --- Minimal DOM implementation¶

Code source: Lib/xml/dom/minidom.py

xml.dom.minidom is a minimal implementation of the Document Object Model interface, with an API similar to that in other languages. It is intended to be simpler than the full DOM and also significantly smaller. Users who are not already proficient with the DOM should consider using the xml.etree.ElementTree module for their XML processing instead.

Note

If you need to parse untrusted or unauthenticated data, see XML security.

DOM applications typically start by parsing some XML into a DOM. With xml.dom.minidom, this is done through the parse functions:

from xml.dom.minidom import parse, parseString

dom1 = parse('c:\\temp\\mydata.xml')  # parse an XML file by name

datasource = open('c:\\temp\\mydata.xml')
dom2 = parse(datasource)  # parse an open file

dom3 = parseString('<myxml>Some data<empty/> some more data</myxml>')

La fonction parse() peut prendre soit un nom de fichier, soit un objet fichier ouvert.

xml.dom.minidom.parse(filename_or_file, parser=None, bufsize=None)¶: Renvoie un Document à partir de l'entrée donnée. filename_or_file peut être soit un nom de fichier, soit un objet simili-fichier. parser, s'il est donné, doit être un objet analyseur SAX2. Cette fonction modifie le pointeur vers le document de l'analyseur et active la prise en charge des espaces de noms ; les autres configurations de l'analyseur (comme la définition d'un résolveur d'entité) doivent avoir été effectuées à l'avance.

Si votre XML se trouve dans une chaîne, vous pouvez utiliser la fonction parseString() à la place :

xml.dom.minidom.parseString(string, parser=None)¶: Renvoie un Document qui représente string. Cette méthode crée un objet io.StringIO pour la chaîne et le transmet à parse().

Les deux fonctions renvoient un objet Document représentant le contenu du document.

What the parse() and parseString() functions do is connect an XML parser with a "DOM builder" that can accept parse events from any SAX parser and convert them into a DOM tree. The names of the functions are perhaps misleading, but are easy to grasp when learning the interfaces. The parsing of the document will be completed before these functions return; it's simply that these functions do not provide a parser implementation themselves.

You can also create a Document by calling a method on a "DOM Implementation" object. You can get this object either by calling the getDOMImplementation() function in the xml.dom package or the xml.dom.minidom module. Once you have a Document, you can add child nodes to it to populate the DOM:

from xml.dom.minidom import getDOMImplementation

impl = getDOMImplementation()

newdoc = impl.createDocument(None, "some_tag", None)
top_element = newdoc.documentElement
text = newdoc.createTextNode('Some textual content.')
top_element.appendChild(text)

Une fois que vous disposez d'un objet document DOM, vous pouvez accéder aux parties de votre document XML via ses propriétés et méthodes. Ces propriétés sont définies dans la spécification DOM. La propriété principale de l'objet document est la propriété documentElement. Il vous donne l'élément principal du document XML : celui qui contient tous les autres. Voici un exemple de programme :

dom3 = parseString("<myxml>Some data</myxml>")
assert dom3.documentElement.tagName == "myxml"

When you are finished with a DOM tree, you may optionally call the unlink() method to encourage early cleanup of the now-unneeded objects. unlink() is an xml.dom.minidom-specific extension to the DOM API that renders the node and its descendants essentially useless. Otherwise, Python's garbage collector will eventually take care of the objects in the tree.

Voir aussi

Spécification Level 1 Document Object Model (DOM): The W3C recommendation for the DOM supported by xml.dom.minidom.

Objets DOM¶

The definition of the DOM API for Python is given as part of the xml.dom module documentation. This section lists the differences between the API and xml.dom.minidom.

Node.unlink()¶

Casse les références internes dans le DOM afin qu'elles soient récupérées sur les versions de Python sans ramasse-miettes cyclique. Même lorsque le ramasse-miettes cyclique est disponible, son utilisation peut libérer de grandes quantités de mémoire disponibles plus tôt, donc l'appeler sur les objets DOM dès qu'ils ne sont plus nécessaires est une bonne pratique. Il est suffisant de l'appeler sur l'objet Document, mais peut être appelée sur les nœuds enfants pour éliminer les enfants de ce nœud.

Vous pouvez éviter d'appeler cette méthode explicitement en utilisant l'instruction with. Le code suivant dissocie automatiquement dom lorsque le bloc with est quitté :

with xml.dom.minidom.parse(datasource) as dom:
    ... # Work with dom.

Node.writexml(writer, indent='', addindent='', newl='', encoding=None, standalone=None)¶

Écrit du XML dans l'objet writer. Cet objet reçoit du texte mais pas des octets en entrée, il doit avoir une méthode write() qui correspond à celle de l'interface objet fichier. Le paramètre indent est l'indentation du nœud actuel. Le paramètre addindent est l'indentation incrémentielle à utiliser pour les sous-nœuds du nœud actuel. Le paramètre newl spécifie la chaîne à utiliser pour terminer les nouvelles lignes.

Pour le nœud Document, un argument nommé supplémentaire encoding peut être utilisé pour spécifier le champ d'encodage de l'en-tête XML.

De même, l'indication explicite de l'argument standalone entraîne l'ajout des déclarations de document autonome au prologue du document XML. Si la valeur est définie sur True, standalone="yes" est ajoutée, sinon elle est définie sur "no". Par défaut la déclaration n'est pas écrite dans le document.

Modifié dans la version 3.8: la méthode writexml() préserve désormais l'ordre des attributs spécifié par l'utilisateur.

Modifié dans la version 3.9: le paramètre standalone a été ajouté.

Node.toxml(encoding=None, standalone=None)¶

Renvoie une chaîne ou une chaîne d'octets contenant le XML représenté par le nœud DOM.

Avec un argument explicite encoding [1], le résultat est une chaîne d'octets dans l'encodage spécifié. Sans argument encoding, le résultat est une chaîne Unicode et la déclaration XML dans la chaîne résultante ne spécifie pas d'encodage. Encoder cette chaîne dans un codage autre que UTF-8 est probablement incorrect, puisque UTF-8 est l'encodage par défaut de XML.

L'argument standalone se comporte exactement comme dans writexml().

Modifié dans la version 3.8: la méthode toxml() préserve désormais l'ordre des attributs spécifié par l'utilisateur.

Modifié dans la version 3.9: le paramètre standalone a été ajouté.

Node.toprettyxml(indent='\t', newl='\n', encoding=None, standalone=None)¶

Renvoie une version du document agréablement mise en forme. indent spécifie la chaîne d'indentation et est par défaut une tabulation ; newl spécifie la chaîne émise à la fin de chaque ligne et la valeur par défaut est \n.

L'argument encoding se comporte comme l'argument correspondant de toxml().

L'argument standalone se comporte exactement comme dans writexml().

Modifié dans la version 3.8: la méthode toprettyxml() préserve désormais l'ordre des attributs spécifié par l'utilisateur.

Modifié dans la version 3.9: le paramètre standalone a été ajouté.

Exemple DOM¶

Cet exemple de programme est un exemple assez réaliste de programme simple. Dans ce cas particulier, nous ne profitons pas beaucoup de la flexibilité du DOM.

import xml.dom.minidom

document = """\
<slideshow>
<title>Demo slideshow</title>
<slide><title>Slide title</title>
<point>This is a demo</point>
<point>Of a program for processing slides</point>
</slide>

<slide><title>Another demo slide</title>
<point>It is important</point>
<point>To have more than</point>
<point>one slide</point>
</slide>
</slideshow>
"""

dom = xml.dom.minidom.parseString(document)

def getText(nodelist):
    rc = []
    for node in nodelist:
        if node.nodeType == node.TEXT_NODE:
            rc.append(node.data)
    return ''.join(rc)

def handleSlideshow(slideshow):
    print("<html>")
    handleSlideshowTitle(slideshow.getElementsByTagName("title")[0])
    slides = slideshow.getElementsByTagName("slide")
    handleToc(slides)
    handleSlides(slides)
    print("</html>")

def handleSlides(slides):
    for slide in slides:
        handleSlide(slide)

def handleSlide(slide):
    handleSlideTitle(slide.getElementsByTagName("title")[0])
    handlePoints(slide.getElementsByTagName("point"))

def handleSlideshowTitle(title):
    print(f"<title>{getText(title.childNodes)}</title>")

def handleSlideTitle(title):
    print(f"<h2>{getText(title.childNodes)}</h2>")

def handlePoints(points):
    print("<ul>")
    for point in points:
        handlePoint(point)
    print("</ul>")

def handlePoint(point):
    print(f"<li>{getText(point.childNodes)}</li>")

def handleToc(slides):
    for slide in slides:
        title = slide.getElementsByTagName("title")[0]
        print(f"<p>{getText(title.childNodes)}</p>")

handleSlideshow(dom)

minidom et le standard DOM¶

The xml.dom.minidom module is essentially a DOM 1.0-compatible DOM with some DOM 2 features (primarily namespace features).

L'utilisation de l'interface DOM en Python est simple. Les règles de correspondances suivantes s'appliquent :

Les interfaces sont accessibles via des objets d'instance. Les applications ne doivent pas instancier les classes elles-mêmes ; elles doivent utiliser les fonctions de création disponibles sur l'objet Document. Les interfaces dérivées prennent en charge toutes les opérations (et attributs) des interfaces de base, ainsi que toutes les nouvelles opérations.
Les opérations sont utilisées comme méthodes. Puisque le DOM utilise uniquement les paramètres in, les arguments sont passés dans l'ordre normal (de gauche à droite). Il n'y a pas d'argument facultatif. Les opérations void renvoient None.
Les attributs IDL (Interface Description Language) correspondent aux attributs d'instance. Pour des raisons de compatibilité avec la correspondance OMG (Object Management Group) du langage IDL pour Python, un attribut foo est également accessible via les méthodes d'accès _get_foo() et _set_foo(). Les attributs readonly ne doivent pas être modifiés ; ce n'est pas vérifié au moment de l'exécution.
Les types short int, unsigned int, unsigned long long et boolean correspondent tous à des objets entiers Python.
The type DOMString maps to Python strings. xml.dom.minidom supports either bytes or strings, but will normally produce strings. Values of type DOMString may also be None where allowed to have the IDL null value by the DOM specification from the W3C.
Les déclarations const correspondent aux variables dans leur portée respective (par exemple xml.dom.minidom.Node.PROCESSING_INSTRUCTION_NODE) ; elles ne doivent pas être modifiées.
DOMException is currently not supported in xml.dom.minidom. Instead, xml.dom.minidom uses standard Python exceptions such as TypeError and AttributeError.
Les objets NodeList sont implémentés à l'aide du type de liste natif de Python. Ces objets fournissent l'interface définie dans la spécification DOM, mais avec les versions antérieures de Python, ils ne prennent pas en charge l'API officielle. C'est cependant bien plus « Pythonique » que l’interface définie dans les recommandations du W3C.

The following interfaces have no implementation in xml.dom.minidom:

DOMTimeStamp
EntityReference

La plupart d'entre elles reflètent des informations contenues dans le document XML qui ne sont pas d'utilité générale pour la plupart des utilisateurs du DOM.

Notes

`xml.dom.minidom` --- Minimal DOM implementation¶

Objets DOM¶

Exemple DOM¶

minidom et le standard DOM¶

Table des matières

Sujet précédent

Sujet suivant

Cette page

xml.dom.minidom --- Minimal DOM implementation¶

Objets DOM¶

Exemple DOM¶

minidom et le standard DOM¶

`xml.dom.minidom` --- Minimal DOM implementation¶