xml.dom.pulldom
— gestion de la construction partielle des arbres DOM¶
Code source : Lib/xml/dom/pulldom.py
Le module xml.dom.pulldom
fournit un « analyseur à flux tiré » auquel on peut également demander de produire des fragments du document accessibles via le DOM si nécessaire. Le concept de base consiste à extraire des « événements » d'un flux XML entrant et à les traiter. Contrairement à SAX qui utilise également un modèle de traitement basé sur les événements avec des rappels, l'utilisateur d'un analyseur à flux tiré est responsable de l'extraction explicite des événements du flux, en parcourant ces événements en boucle jusqu'à ce que le traitement soit terminé ou qu'une condition d'erreur se produise.
Avertissement
le module xml.dom.pulldom
n'est pas sécurisé contre les données construites de façon malveillante. Si vous avez besoin d'analyser des données non sécurisées ou non authentifiées, référez-vous à Vulnérabilités XML.
Modifié dans la version 3.7.1: l'analyseur SAX ne traite plus les entités externes générales par défaut pour augmenter la sécurité par défaut. Pour activer le traitement des entités externes, transmettez une instance d'analyseur personnalisée à :
from xml.dom.pulldom import parse
from xml.sax import make_parser
from xml.sax.handler import feature_external_ges
parser = make_parser()
parser.setFeature(feature_external_ges, True)
parse(filename, parser=parser)
Exemple :
from xml.dom import pulldom
doc = pulldom.parse('sales_items.xml')
for event, node in doc:
if event == pulldom.START_ELEMENT and node.tagName == 'item':
if int(node.getAttribute('price')) > 50:
doc.expandNode(node)
print(node.toxml())
event
est une constante parmi les éléments suivants :
START_ELEMENT
END_ELEMENT
COMMENT
START_DOCUMENT
END_DOCUMENT
CHARACTERS
PROCESSING_INSTRUCTION
IGNORABLE_WHITESPACE
node
est un objet de type xml.dom.minidom.Document
, xml.dom.minidom.Element
ou xml.dom.minidom.Text
.
Puisque le document est traité comme un flux « plat » d’événements, « l’arborescence » du document est implicitement parcourue et les éléments souhaités sont trouvés quelle que soit leur profondeur dans l’arborescence. En d'autres termes, il n'est pas nécessaire de prendre en compte les problèmes hiérarchiques tels que la recherche récursive des nœuds du document, même dans le cas où le contexte des éléments est important, et où il faudrait soit maintenir un état lié au contexte (c'est-à-dire se souvenir où l'on se trouve dans le document à un moment donné), soit utiliser la méthode DOMEventStream.expandNode()
et passer au traitement lié du DOM.
- class xml.dom.pulldom.PullDom(documentFactory=None)¶
Sous-classe de
xml.sax.handler.ContentHandler
.
- class xml.dom.pulldom.SAX2DOM(documentFactory=None)¶
Sous-classe de
xml.sax.handler.ContentHandler
.
- xml.dom.pulldom.parse(stream_or_string, parser=None, bufsize=None)¶
Renvoie un
DOMEventStream
à partir de l'entrée donnée. stream_or_string peut être soit un nom de fichier, soit un objet simili-fichier. parser, s'il est donné, doit être un objetXMLReader
. Cette fonction modifie le gestionnaire de documents de l'analyseur et active la prise en charge des espaces de noms ; les autres configurations de l'analyseur (comme la définition d'un résolveur d'entité) doivent avoir été effectuées à l'avance.
Si vous avez du XML dans une chaîne, vous pouvez utiliser la fonction parseString()
à la place :
- xml.dom.pulldom.parseString(string, parser=None)¶
Renvoie un
DOMEventStream
qui représente string (Unicode).
- xml.dom.pulldom.default_bufsize¶
Valeur par défaut du paramètre bufsize de
parse()
.La valeur de cette variable peut être modifiée avant d'appeler
parse()
et la nouvelle valeur prendra effet.
Objets DOMEventStream¶
- class xml.dom.pulldom.DOMEventStream(stream, parser, bufsize)¶
Modifié dans la version 3.11: Support for
__getitem__()
method has been removed.- getEvent()¶
Renvoie un n-uplet contenant event et le node actuel sous la forme d'un
xml.dom.minidom.Document
si l'événement est égal àSTART_DOCUMENT
, unxml.dom.minidom.Element
si l'événement est égal àSTART_ELEMENT
ouEND_ELEMENT
, ou unxml.dom.minidom.Text
si l'événement est égal àCHARACTERS
. Le nœud actuel ne contient pas d'informations sur ses enfants, sauf siexpandNode()
est appelé.
- expandNode(node)¶
Développe tous les enfants de node dans node. Par exemple :
from xml.dom import pulldom xml = '<html><title>Foo</title> <p>Some text <div>and more</div></p> </html>' doc = pulldom.parseString(xml) for event, node in doc: if event == pulldom.START_ELEMENT and node.tagName == 'p': # Following statement only prints '<p/>' print(node.toxml()) doc.expandNode(node) # Following statement prints node with all its children '<p>Some text <div>and more</div></p>' print(node.toxml())
- reset()¶