xml.dom.minidom
--- Minimal DOM implementation¶
Code source: Lib/xml/dom/minidom.py
xml.dom.minidom
est une implémentation minimale de l'interface Document Object Model, avec une API similaire à celle d'autres langages. Elle est censée être plus simple que le DOM complet et également nettement plus petite. Les utilisateurs qui ne maîtrisent pas déjà le DOM devraient plutôt envisager d'utiliser le module xml.etree.ElementTree
pour leur traitement XML.
Avertissement
le module xml.dom.minidom
n'est pas sécurisé contre les données construites de façon malveillante. Si vous avez besoin d'analyser des données non sécurisées ou non authentifiées, référez-vous à Vulnérabilités XML.
Les applications DOM commencent généralement par analyser du XML dans un DOM. Avec xml.dom.minidom
, cela se fait via les fonctions d'analyse :
from xml.dom.minidom import parse, parseString
dom1 = parse('c:\\temp\\mydata.xml') # parse an XML file by name
datasource = open('c:\\temp\\mydata.xml')
dom2 = parse(datasource) # parse an open file
dom3 = parseString('<myxml>Some data<empty/> some more data</myxml>')
La fonction parse()
peut prendre soit un nom de fichier, soit un objet fichier ouvert.
- xml.dom.minidom.parse(filename_or_file, parser=None, bufsize=None)¶
Renvoie un
Document
à partir de l'entrée donnée. filename_or_file peut être soit un nom de fichier, soit un objet simili-fichier. parser, s'il est donné, doit être un objet analyseur SAX2. Cette fonction modifie le pointeur vers le document de l'analyseur et active la prise en charge des espaces de noms ; les autres configurations de l'analyseur (comme la définition d'un résolveur d'entité) doivent avoir été effectuées à l'avance.
Si votre XML se trouve dans une chaîne, vous pouvez utiliser la fonction parseString()
à la place :
- xml.dom.minidom.parseString(string, parser=None)¶
Renvoie un
Document
qui représente string. Cette méthode crée un objetio.StringIO
pour la chaîne et le transmet àparse()
.
Les deux fonctions renvoient un objet Document
représentant le contenu du document.
Ce que font les fonctions parse()
et parseString()
, c'est connecter un analyseur XML avec un « constructeur DOM » qui peut accepter les événements d'analyse de n'importe quel analyseur SAX et les convertir en une arborescence DOM. Les noms des fonctions sont peut-être trompeurs, mais sont faciles à comprendre lors de l'apprentissage des interfaces. L'analyse du document sera terminée avant le retour de ces fonctions ; c'est simplement que ces fonctions ne fournissent pas elles-mêmes d'implémentation d'analyseur.
Vous pouvez également créer un Document
en appelant une méthode sur un objet « DOM Implementation ». Vous pouvez obtenir cet objet soit en appelant la fonction getDOMImplementation()
du paquet xml.dom
ou du module xml.dom.minidom
. Une fois que vous avez un Document
, vous pouvez y ajouter des nœuds enfants pour remplir le DOM :
from xml.dom.minidom import getDOMImplementation
impl = getDOMImplementation()
newdoc = impl.createDocument(None, "some_tag", None)
top_element = newdoc.documentElement
text = newdoc.createTextNode('Some textual content.')
top_element.appendChild(text)
Une fois que vous disposez d'un objet document DOM, vous pouvez accéder aux parties de votre document XML via ses propriétés et méthodes. Ces propriétés sont définies dans la spécification DOM. La propriété principale de l'objet document est la propriété documentElement
. Il vous donne l'élément principal du document XML : celui qui contient tous les autres. Voici un exemple de programme :
dom3 = parseString("<myxml>Some data</myxml>")
assert dom3.documentElement.tagName == "myxml"
Lorsque vous avez terminé avec une arborescence DOM, vous pouvez éventuellement appeler la méthode unlink()
pour favoriser un nettoyage précoce des objets désormais inutiles. unlink()
est une extension spécifique xml.dom.minidom
de l'API DOM qui rend le nœud et ses descendants essentiellement inutiles. Sinon, le ramasse-miettes de Python finira par s'occuper des objets dans l'arborescence.
Voir aussi
- Spécification Level 1 Document Object Model (DOM)
La recommandation du W3C pour le DOM pris en charge par
xml.dom.minidom
.
Objets DOM¶
La définition de l'API DOM pour Python est donnée dans le cadre de la documentation du module xml.dom
. Cette section répertorie les différences entre l'API et xml.dom.minidom
.
- Node.unlink()¶
Casse les références internes dans le DOM afin qu'elles soient récupérées sur les versions de Python sans ramasse-miettes cyclique. Même lorsque le ramasse-miettes cyclique est disponible, son utilisation peut libérer de grandes quantités de mémoire disponibles plus tôt, donc l'appeler sur les objets DOM dès qu'ils ne sont plus nécessaires est une bonne pratique. Il est suffisant de l'appeler sur l'objet
Document
, mais peut être appelée sur les nœuds enfants pour éliminer les enfants de ce nœud.Vous pouvez éviter d'appeler cette méthode explicitement en utilisant l'instruction
with
. Le code suivant dissocie automatiquement dom lorsque le blocwith
est quitté :with xml.dom.minidom.parse(datasource) as dom: ... # Work with dom.
- Node.writexml(writer, indent='', addindent='', newl='', encoding=None, standalone=None)¶
Écrit du XML dans l'objet writer. Cet objet reçoit du texte mais pas des octets en entrée, il doit avoir une méthode
write()
qui correspond à celle de l'interface objet fichier. Le paramètre indent est l'indentation du nœud actuel. Le paramètre addindent est l'indentation incrémentielle à utiliser pour les sous-nœuds du nœud actuel. Le paramètre newl spécifie la chaîne à utiliser pour terminer les nouvelles lignes.Pour le nœud
Document
, un argument nommé supplémentaire encoding peut être utilisé pour spécifier le champ d'encodage de l'en-tête XML.De même, l'indication explicite de l'argument standalone entraîne l'ajout des déclarations de document autonome au prologue du document XML. Si la valeur est définie sur
True
,standalone="yes"
est ajoutée, sinon elle est définie sur"no"
. Par défaut la déclaration n'est pas écrite dans le document.Modifié dans la version 3.8: la méthode
writexml()
préserve désormais l'ordre des attributs spécifié par l'utilisateur.Modifié dans la version 3.9: le paramètre standalone a été ajouté.
- Node.toxml(encoding=None, standalone=None)¶
Renvoie une chaîne ou une chaîne d'octets contenant le XML représenté par le nœud DOM.
Avec un argument explicite encoding [1], le résultat est une chaîne d'octets dans l'encodage spécifié. Sans argument encoding, le résultat est une chaîne Unicode et la déclaration XML dans la chaîne résultante ne spécifie pas d'encodage. Encoder cette chaîne dans un codage autre que UTF-8 est probablement incorrect, puisque UTF-8 est l'encodage par défaut de XML.
L'argument standalone se comporte exactement comme dans
writexml()
.Modifié dans la version 3.8: la méthode
toxml()
préserve désormais l'ordre des attributs spécifié par l'utilisateur.Modifié dans la version 3.9: le paramètre standalone a été ajouté.
- Node.toprettyxml(indent='\t', newl='\n', encoding=None, standalone=None)¶
Renvoie une version du document agréablement mise en forme. indent spécifie la chaîne d'indentation et est par défaut une tabulation ; newl spécifie la chaîne émise à la fin de chaque ligne et la valeur par défaut est
\n
.L'argument encoding se comporte comme l'argument correspondant de
toxml()
.L'argument standalone se comporte exactement comme dans
writexml()
.Modifié dans la version 3.8: la méthode
toprettyxml()
préserve désormais l'ordre des attributs spécifié par l'utilisateur.Modifié dans la version 3.9: le paramètre standalone a été ajouté.
Exemple DOM¶
Cet exemple de programme est un exemple assez réaliste de programme simple. Dans ce cas particulier, nous ne profitons pas beaucoup de la flexibilité du DOM.
import xml.dom.minidom
document = """\
<slideshow>
<title>Demo slideshow</title>
<slide><title>Slide title</title>
<point>This is a demo</point>
<point>Of a program for processing slides</point>
</slide>
<slide><title>Another demo slide</title>
<point>It is important</point>
<point>To have more than</point>
<point>one slide</point>
</slide>
</slideshow>
"""
dom = xml.dom.minidom.parseString(document)
def getText(nodelist):
rc = []
for node in nodelist:
if node.nodeType == node.TEXT_NODE:
rc.append(node.data)
return ''.join(rc)
def handleSlideshow(slideshow):
print("<html>")
handleSlideshowTitle(slideshow.getElementsByTagName("title")[0])
slides = slideshow.getElementsByTagName("slide")
handleToc(slides)
handleSlides(slides)
print("</html>")
def handleSlides(slides):
for slide in slides:
handleSlide(slide)
def handleSlide(slide):
handleSlideTitle(slide.getElementsByTagName("title")[0])
handlePoints(slide.getElementsByTagName("point"))
def handleSlideshowTitle(title):
print(f"<title>{getText(title.childNodes)}</title>")
def handleSlideTitle(title):
print(f"<h2>{getText(title.childNodes)}</h2>")
def handlePoints(points):
print("<ul>")
for point in points:
handlePoint(point)
print("</ul>")
def handlePoint(point):
print(f"<li>{getText(point.childNodes)}</li>")
def handleToc(slides):
for slide in slides:
title = slide.getElementsByTagName("title")[0]
print(f"<p>{getText(title.childNodes)}</p>")
handleSlideshow(dom)
minidom et le standard DOM¶
Le module xml.dom.minidom
est essentiellement une interface vers DOM compatible DOM 1.0 avec certaines fonctionnalités DOM 2 (principalement des fonctionnalités d'espace de noms).
L'utilisation de l'interface DOM en Python est simple. Les règles de correspondances suivantes s'appliquent :
Les interfaces sont accessibles via des objets d'instance. Les applications ne doivent pas instancier les classes elles-mêmes ; elles doivent utiliser les fonctions de création disponibles sur l'objet
Document
. Les interfaces dérivées prennent en charge toutes les opérations (et attributs) des interfaces de base, ainsi que toutes les nouvelles opérations.Les opérations sont utilisées comme méthodes. Puisque le DOM utilise uniquement les paramètres
in
, les arguments sont passés dans l'ordre normal (de gauche à droite). Il n'y a pas d'argument facultatif. Les opérationsvoid
renvoientNone
.Les attributs IDL (Interface Description Language) correspondent aux attributs d'instance. Pour des raisons de compatibilité avec la correspondance OMG (Object Management Group) du langage IDL pour Python, un attribut
foo
est également accessible via les méthodes d'accès_get_foo()
et_set_foo()
. Les attributsreadonly
ne doivent pas être modifiés ; ce n'est pas vérifié au moment de l'exécution.Les types
short int
,unsigned int
,unsigned long long
etboolean
correspondent tous à des objets entiers Python.Le type
DOMString
correspond aux chaînes Python.xml.dom.minidom
prend en charge soit les octets, soit les chaînes, et produit normalement des chaînes. Les valeurs de typeDOMString
peuvent également êtreNone
là où la valeur IDLnull
est autorisée par la spécification DOM du W3C.Les déclarations
const
correspondent aux variables dans leur portée respective (par exemplexml.dom.minidom.Node.PROCESSING_INSTRUCTION_NODE
) ; elles ne doivent pas être modifiées.DOMException
n'est actuellement pas pris en charge dansxml.dom.minidom
. En lieu et place,xml.dom.minidom
utilise des exceptions Python standard telles queTypeError
etAttributeError
.Les objets
NodeList
sont implémentés à l'aide du type de liste natif de Python. Ces objets fournissent l'interface définie dans la spécification DOM, mais avec les versions antérieures de Python, ils ne prennent pas en charge l'API officielle. C'est cependant bien plus « Pythonique » que l’interface définie dans les recommandations du W3C.
Les interfaces suivantes n'ont aucune implémentation dans xml.dom.minidom
:
DOMTimeStamp
EntityReference
La plupart d'entre elles reflètent des informations contenues dans le document XML qui ne sont pas d'utilité générale pour la plupart des utilisateurs du DOM.
Notes