xml.dom.pulldom
— Soporte para la construcción parcial de árboles DOM¶
Source code: Lib/xml/dom/pulldom.py
El módulo xml.dom.pulldom
proporciona un «pull parser» al que también se le puede pedir que produzca DOM-fragmentos del documento accesibles cuando sea necesario. El concepto básico implica extraer «eventos» desde una secuencia (stream) de entrada XML y procesarlos. A diferencia de SAX, que también emplea un modelo de procesamiento orientado a eventos junto con callbacks (retrollamada), el usuario de un analizador de extracción (pull parser) es responsable de extraer explícitamente eventos de la secuencia, recorriendo esos eventos hasta que finalice el procesamiento o se produzca una condición de error.
Advertencia
El módulo xml.dom.pulldom
no es seguro contra datos maliciosamente construidos . Si necesita analizar datos que no son confiables o no autenticados, consulte Vulnerabilidades XML.
Distinto en la versión 3.7.1: El analizador SAX ya no procesa entidades externas generales de forma predeterminada para aumentar la seguridad de forma predeterminada. Para habilitar el procesamiento de entidades externas, pase una instancia de analizador personalizada (custom parser instance in::)
from xml.dom.pulldom import parse
from xml.sax import make_parser
from xml.sax.handler import feature_external_ges
parser = make_parser()
parser.setFeature(feature_external_ges, True)
parse(filename, parser=parser)
Ejemplo:
from xml.dom import pulldom
doc = pulldom.parse('sales_items.xml')
for event, node in doc:
if event == pulldom.START_ELEMENT and node.tagName == 'item':
if int(node.getAttribute('price')) > 50:
doc.expandNode(node)
print(node.toxml())
event
es una constante y puede ser uno de:
START_ELEMENT
(Iniciar elemento)END_ELEMENT
(Finalizar elemento)COMMENT
(comentario)START_DOCUMENT
(Iniciar documento)END_DOCUMENT
(finalizar documento)CHARACTERS
(caracteres)PROCESSING_INSTRUCTION
(instrucción de procesamiento)IGNORABLE_WHITESPACE
(Espacio en blanco que puede ignorarse)
node
es un objeto del tipo xml.dom.minidom.Document
, xml.dom.minidom.Element
ó xml.dom.minidom.Text
.
Puesto que el documento se trata como una secuencia «flat» (plana) de eventos, el documento «tree» (árbol) se atraviesa implícitamente y los elementos deseados se encuentran independientemente de su profundidad en el árbol. En otras palabras, no es necesario tener en cuenta cuestiones jerárquicas como la búsqueda recursiva de los nodos de documento, aunque si el contexto de los elementos fuera importante, es necesario mantener algún estado relacionado con el contexto (es decir, recordar dónde se encuentra en el documento en un momento dado) o hacer uso del método DOMEventStream.expandNode()
y cambiar al procesamiento relacionado con DOM.
- class xml.dom.pulldom.PullDom(documentFactory=None)¶
Subclase de
xml.sax.handler.ContentHandler
.
- class xml.dom.pulldom.SAX2DOM(documentFactory=None)¶
Subclase de
xml.sax.handler.ContentHandler
.
- xml.dom.pulldom.parse(stream_or_string, parser=None, bufsize=None)¶
Retorna un
DOMEventStream
de la entrada dada. stream_or_string (secuencia o cadena) puede ser un nombre de archivo o un objeto similar a un archivo, parser, si se indica, debe ser un objetoXMLReader
. Esta función cambiará el controlador de documentos del analizador y activará el soporte de espacios de nombres; otra configuración del analizador (como establecer un solucionador de entidades) debe haberse realizado de antemano.
Si tiene XML en una cadena, puede usar en su lugar la función parseString()
:
- xml.dom.pulldom.parseString(string, parser=None)¶
Retorna una: clase
DOMEventStream
que representa la cadena (Unicode) strnig (cadena)
- xml.dom.pulldom.default_bufsize¶
Valor predeterminado para el parámetro bufsize para
parse()
.El valor de las variables puede ser cambiado antes de llamar a
parse()
y el nuevo valor tendrá efecto.
Objetos DOMEventStream¶
- class xml.dom.pulldom.DOMEventStream(stream, parser, bufsize)¶
Distinto en la versión 3.11: Support for
__getitem__()
method has been removed.- getEvent()¶
Retorna el contenido de la tupla event y del node corriente como
xml.dom.minidom.Document
si el evento es igual aSTART_DOCUMENT
,xml.dom.minidom.Element
si el evento es igual aSTART_ELEMENT
oEND_ELEMENT
oxml.dom.minidom.Text
si el evento es igual aCHARACTERS
. El nodo actual no es contiene información sobre sus hijos a menos que se llame a la funciónexpandNode()
.
- expandNode(node)¶
Expande todos los hijos de node en node (nodo en nodo). Ejemplo:
from xml.dom import pulldom xml = '<html><title>Foo</title> <p>Some text <div>and more</div></p> </html>' doc = pulldom.parseString(xml) for event, node in doc: if event == pulldom.START_ELEMENT and node.tagName == 'p': # Following statement only prints '<p/>' print(node.toxml()) doc.expandNode(node) # Following statement prints node with all its children '<p>Some text <div>and more</div></p>' print(node.toxml())
- reset()¶