xml.dom.pulldom — gestion de la construction partielle des arbres DOM

Code source : Lib/xml/dom/pulldom.py


Le module xml.dom.pulldom fournit un « analyseur à flux tiré » auquel on peut également demander de produire des fragments du document accessibles via le DOM si nécessaire. Le concept de base consiste à extraire des « événements » d'un flux XML entrant et à les traiter. Contrairement à SAX qui utilise également un modèle de traitement basé sur les événements avec des rappels, l'utilisateur d'un analyseur à flux tiré est responsable de l'extraction explicite des événements du flux, en parcourant ces événements en boucle jusqu'à ce que le traitement soit terminé ou qu'une condition d'erreur se produise.

Avertissement

le module xml.dom.pulldom n'est pas sécurisé contre les données construites de façon malveillante. Si vous avez besoin d'analyser des données non sécurisées ou non authentifiées, référez-vous à Vulnérabilités XML.

Modifié dans la version 3.7.1: l'analyseur SAX ne traite plus les entités externes générales par défaut pour augmenter la sécurité par défaut. Pour activer le traitement des entités externes, transmettez une instance d'analyseur personnalisée à :

from xml.dom.pulldom import parse
from xml.sax import make_parser
from xml.sax.handler import feature_external_ges

parser = make_parser()
parser.setFeature(feature_external_ges, True)
parse(filename, parser=parser)

Exemple :

from xml.dom import pulldom

doc = pulldom.parse('sales_items.xml')
for event, node in doc:
    if event == pulldom.START_ELEMENT and node.tagName == 'item':
        if int(node.getAttribute('price')) > 50:
            doc.expandNode(node)
            print(node.toxml())

event est une constante parmi les éléments suivants :

  • START_ELEMENT

  • END_ELEMENT

  • COMMENT

  • START_DOCUMENT

  • END_DOCUMENT

  • CHARACTERS

  • PROCESSING_INSTRUCTION

  • IGNORABLE_WHITESPACE

node est un objet de type xml.dom.minidom.Document, xml.dom.minidom.Element ou xml.dom.minidom.Text.

Puisque le document est traité comme un flux « plat » d’événements, « l’arborescence » du document est implicitement parcourue et les éléments souhaités sont trouvés quelle que soit leur profondeur dans l’arborescence. En d'autres termes, il n'est pas nécessaire de prendre en compte les problèmes hiérarchiques tels que la recherche récursive des nœuds du document, même dans le cas où le contexte des éléments est important, et où il faudrait soit maintenir un état lié au contexte (c'est-à-dire se souvenir où l'on se trouve dans le document à un moment donné), soit utiliser la méthode DOMEventStream.expandNode() et passer au traitement lié du DOM.

class xml.dom.pulldom.PullDom(documentFactory=None)

Sous-classe de xml.sax.handler.ContentHandler.

class xml.dom.pulldom.SAX2DOM(documentFactory=None)

Sous-classe de xml.sax.handler.ContentHandler.

xml.dom.pulldom.parse(stream_or_string, parser=None, bufsize=None)

Renvoie un DOMEventStream à partir de l'entrée donnée. stream_or_string peut être soit un nom de fichier, soit un objet simili-fichier. parser, s'il est donné, doit être un objet XMLReader. Cette fonction modifie le gestionnaire de documents de l'analyseur et active la prise en charge des espaces de noms ; les autres configurations de l'analyseur (comme la définition d'un résolveur d'entité) doivent avoir été effectuées à l'avance.

Si vous avez du XML dans une chaîne, vous pouvez utiliser la fonction parseString() à la place :

xml.dom.pulldom.parseString(string, parser=None)

Renvoie un DOMEventStream qui représente string (Unicode).

xml.dom.pulldom.default_bufsize

Valeur par défaut du paramètre bufsize de parse().

La valeur de cette variable peut être modifiée avant d'appeler parse() et la nouvelle valeur prendra effet.

Objets DOMEventStream

class xml.dom.pulldom.DOMEventStream(stream, parser, bufsize)

Modifié dans la version 3.11: Support for __getitem__() method has been removed.

getEvent()

Renvoie un n-uplet contenant event et le node actuel sous la forme d'un xml.dom.minidom.Document si l'événement est égal à START_DOCUMENT, un xml.dom.minidom.Element si l'événement est égal à START_ELEMENT ou END_ELEMENT, ou un xml.dom.minidom.Text si l'événement est égal à CHARACTERS. Le nœud actuel ne contient pas d'informations sur ses enfants, sauf si expandNode() est appelé.

expandNode(node)

Développe tous les enfants de node dans node. Par exemple :

from xml.dom import pulldom

xml = '<html><title>Foo</title> <p>Some text <div>and more</div></p> </html>'
doc = pulldom.parseString(xml)
for event, node in doc:
    if event == pulldom.START_ELEMENT and node.tagName == 'p':
        # Following statement only prints '<p/>'
        print(node.toxml())
        doc.expandNode(node)
        # Following statement prints node with all its children '<p>Some text <div>and more</div></p>'
        print(node.toxml())
reset()