xml.sax.handler — Base classes for SAX handlers

Вихідний код: Lib/xml/sax/handler.py


SAX API визначає п’ять типів обробників: обробники вмісту, обробники DTD, обробники помилок, розв’язувачі сутностей і лексичні обробники. Додаткам зазвичай потрібно лише реалізувати ті інтерфейси, події яких їх цікавлять; вони можуть реалізувати інтерфейси в одному об’єкті або в кількох об’єктах. Реалізації обробників мають успадковувати базові класи, надані в модулі xml.sax.handler, щоб усі методи отримували реалізації за замовчуванням.

class xml.sax.handler.ContentHandler

Це основний інтерфейс зворотного виклику в SAX і найважливіший для програм. Порядок подій у цьому інтерфейсі відображає порядок інформації в документі.

class xml.sax.handler.DTDHandler

Обробляти події DTD.

Цей інтерфейс визначає лише ті події DTD, необхідні для базового аналізу (нерозібрані сутності та атрибути).

class xml.sax.handler.EntityResolver

Базовий інтерфейс для вирішення сутностей. Якщо ви створюєте об’єкт, що реалізує цей інтерфейс, а потім зареєструєте об’єкт у своєму парсері, синтаксичний аналізатор викличе метод у вашому об’єкті для вирішення всіх зовнішніх об’єктів.

class xml.sax.handler.ErrorHandler

Інтерфейс, який використовується синтаксичним аналізатором для надання повідомлень про помилки та попереджень програмі. Методи цього об’єкта контролюють, чи помилки негайно перетворюються на винятки чи обробляються іншим способом.

class xml.sax.handler.LexicalHandler

Інтерфейс, який використовується синтаксичним аналізатором для представлення низькочастотних подій, які можуть бути нецікавими для багатьох програм.

На додаток до цих класів, xml.sax.handler надає символічні константи для імен функцій і властивостей.

xml.sax.handler.feature_namespaces
значення: "http://xml.org/sax/features/namespaces"
true: виконати обробку простору імен.
false: за бажанням не виконувати обробку простору імен (передбачає префікси простору імен; за замовчуванням).
доступ: (розбір) лише для читання; (без аналізу) читання/запис
xml.sax.handler.feature_namespace_prefixes
значення: "http://xml.org/sax/features/namespace-prefixes"
true: Повідомити про оригінальні префіксовані імена та атрибути, які використовуються для декларацій простору імен.
false: не повідомляти про атрибути, які використовуються для декларацій простору імен, і, за бажанням, не повідомляти про оригінальні імена з префіксами (за замовчуванням).
доступ: (розбір) лише для читання; (без аналізу) читання/запис
xml.sax.handler.feature_string_interning
значення: "http://xml.org/sax/features/string-interning"
true: усі назви елементів, префікси, назви атрибутів, URI простору імен і локальні імена інтернуються за допомогою вбудованої функції intern.
false: імена не обов’язково інтерновані, хоча вони можуть бути (за замовчуванням).
доступ: (розбір) лише для читання; (без аналізу) читання/запис
xml.sax.handler.feature_validation
значення: "http://xml.org/sax/features/validation"
true: повідомляти про всі помилки перевірки (передбачається зовнішні загальні сутності та зовнішні параметри).
false: не повідомляти про помилки перевірки.
доступ: (розбір) лише для читання; (без аналізу) читання/запис
xml.sax.handler.feature_external_ges
значення: "http://xml.org/sax/features/external-general-entities"
true: включати всі зовнішні загальні (текстові) сутності.
false: не включати зовнішні загальні сутності.
доступ: (розбір) лише для читання; (без аналізу) читання/запис
xml.sax.handler.feature_external_pes
значення: "http://xml.org/sax/features/external-parameter-entities"
true: включати всі зовнішні параметри, включаючи підмножину зовнішнього DTD.
false: не включайте жодних зовнішніх сутностей параметрів, навіть зовнішньої підмножини DTD.
доступ: (розбір) лише для читання; (без аналізу) читання/запис
xml.sax.handler.all_features

Список усіх функцій.

xml.sax.handler.property_lexical_handler
значення: "http://xml.org/sax/properties/lexical-handler"
тип даних: xml.sax.handler.LexicalHandler (не підтримується в Python 2)
опис: додатковий обробник розширення для лексичних подій, таких як коментарі.
доступ: читання/запис
xml.sax.handler.property_declaration_handler
значення: "http://xml.org/sax/properties/declaration-handler"
тип даних: xml.sax.sax2lib.DeclHandler (не підтримується в Python 2)
опис: необов’язковий обробник розширення для подій, пов’язаних із DTD, крім нотацій і нерозібраних об’єктів.
доступ: читання/запис
xml.sax.handler.property_dom_node
значення: "http://xml.org/sax/properties/dom-node"
тип даних: org.w3c.dom.Node (не підтримується в Python 2)
опис: під час аналізу поточний відвідуваний вузол DOM, якщо це ітератор DOM; якщо не аналізується, кореневий вузол DOM для ітерації.
доступ: (розбір) лише для читання; (без аналізу) читання/запис
xml.sax.handler.property_xml_string
значення: "http://xml.org/sax/properties/xml-string"
тип даних: байти
опис: літеральний рядок символів, який був джерелом для поточної події.
доступ: тільки для читання
xml.sax.handler.all_properties

Список усіх відомих назв властивостей.

Об’єкти ContentHandler

Очікується, що користувачі створять підклас ContentHandler для підтримки своєї програми. Наступні методи викликаються аналізатором для відповідних подій у вхідному документі:

ContentHandler.setDocumentLocator(locator)

Викликається аналізатором, щоб надати програмі локатор для визначення місця походження подій документа.

Синтаксичним аналізаторам SAX настійно рекомендується (хоча це не є абсолютно обов’язковим) надавати локатор: якщо він це робить, він повинен надати локатор додатку, викликавши цей метод перед викликом будь-якого іншого методу в інтерфейсі DocumentHandler.

Локатор дозволяє програмі визначати кінцеву позицію будь-якої події, пов’язаної з документом, навіть якщо аналізатор не повідомляє про помилку. Як правило, програма використовуватиме цю інформацію для звітування про власні помилки (наприклад, вміст символів, який не відповідає бізнес-правилам програми). Інформації, яку повертає локатор, можливо, недостатньо для використання з пошуковою системою.

Зауважте, що локатор поверне правильну інформацію лише під час виклику подій у цьому інтерфейсі. Програма не повинна намагатися використовувати її в будь-який інший час.

ContentHandler.startDocument()

Отримувати сповіщення про початок документа.

Синтаксичний аналізатор SAX викличе цей метод лише один раз перед будь-якими іншими методами в цьому інтерфейсі або в DTDHandler (за винятком setDocumentLocator()).

ContentHandler.endDocument()

Отримувати сповіщення про закінчення документа.

Синтаксичний аналізатор SAX викличе цей метод лише один раз, і це буде останній метод, викликаний під час аналізу. Синтаксичний аналізатор не повинен викликати цей метод, доки він не припинить аналіз (через невиправну помилку) або не досягне кінця введення.

ContentHandler.startPrefixMapping(prefix, uri)

Почніть область відображення простору імен префікс-URI.

Інформація з цієї події не потрібна для нормальної обробки простору імен: читач SAX XML автоматично замінить префікси для імен елементів і атрибутів, коли функцію feature_namespaces увімкнено (за замовчуванням).

Однак бувають випадки, коли програмам потрібно використовувати префікси в символьних даних або значеннях атрибутів, де їх неможливо безпечно розгорнути автоматично; Події startPrefixMapping() і endPrefixMapping() надають інформацію програмі для розширення префіксів у цих контекстах, якщо необхідно.

Зауважте, що події startPrefixMapping() і endPrefixMapping() не гарантовано належним чином вкладені одна в одну: усі події startPrefixMapping() відбуватимуться перед відповідною подією startElement(), і всі події endPrefixMapping() відбуватимуться після відповідної події endElement(), але їх порядок не гарантується.

ContentHandler.endPrefixMapping(prefix)

Завершення області зіставлення префікс-URI.

Дивіться startPrefixMapping() для деталей. Ця подія завжди відбуватиметься після відповідної події endElement(), але порядок подій endPrefixMapping() інакше не гарантується.

ContentHandler.startElement(name, attrs)

Сигналізує про початок елемента в режимі без простору імен.

Параметр name містить необроблену назву типу елемента XML 1.0 у вигляді рядка, а параметр attrs містить об’єкт інтерфейсу Attributes (див. Інтерфейс Attributes), що містить атрибути елемента. Об’єкт, переданий як attrs, може бути повторно використаний аналізатором; збереження посилання на нього не є надійним способом зберегти копію атрибутів. Щоб зберегти копію атрибутів, використовуйте метод copy() об’єкта attrs.

ContentHandler.endElement(name)

Сигналізує кінець елемента в режимі без простору імен.

Параметр name містить назву типу елемента, як і подія startElement().

ContentHandler.startElementNS(name, qname, attrs)

Сигналізує про початок елемента в режимі простору імен.

Параметр name містить ім’я типу елемента як кортеж (uri, localname), параметр qname містить необроблене ім’я XML 1.0, яке використовується у вихідному документі, а параметр attrs містить екземпляр інтерфейсу AttributesNS (див. Інтерфейс AttributesNS), що містить атрибути елемента. Якщо простір імен не пов’язано з елементом, компонент uri name матиме значення None. Об’єкт, переданий як attrs, може бути повторно використаний аналізатором; збереження посилання на нього не є надійним способом зберегти копію атрибутів. Щоб зберегти копію атрибутів, використовуйте метод copy() об’єкта attrs.

Парсери можуть встановити для параметра qname значення None, якщо функція feature_namespace_prefixes не активована.

ContentHandler.endElementNS(name, qname)

Сигналізує кінець елемента в режимі простору імен.

Параметр name містить ім’я типу елемента, як і метод startElementNS(), так само як і параметр qname.

ContentHandler.characters(content)

Отримувати сповіщення про символьні дані.

Синтаксичний аналізатор викличе цей метод, щоб повідомити про кожну порцію символьних даних. Синтаксичні аналізатори SAX можуть повертати всі суміжні символьні дані в одному фрагменті або вони можуть розділити його на кілька фрагментів; однак усі символи будь-якої окремої події мають походити від однієї зовнішньої сутності, щоб Локатор надавав корисну інформацію.

content може бути рядком або байтом; модуль читання expat завжди створює рядки.

Примітка

Попередній інтерфейс SAX 1, наданий Python XML Special Interest Group, використовував для цього методу інтерфейс, більш схожий на Java. Оскільки більшість синтаксичних аналізаторів, що використовуються з Python, не використовували переваги старішого інтерфейсу, замість нього було обрано простіший підпис. Щоб перетворити старий код на новий інтерфейс, використовуйте content замість розділення вмісту зі старими параметрами offset і length.

ContentHandler.ignorableWhitespace(whitespace)

Отримувати сповіщення про ігноровані пробіли у вмісті елемента.

Перевіряючі аналізатори повинні використовувати цей метод, щоб повідомляти про кожну частину ігнорованого пробілу (див. рекомендацію W3C XML 1.0, розділ 2.10): неперевіряючі аналізатори також можуть використовувати цей метод, якщо вони здатні аналізувати та використовувати моделі вмісту.

Синтаксичні аналізатори SAX можуть повертати всі безперервні пробіли в одному фрагменті або вони можуть розділити його на кілька фрагментів; однак усі символи будь-якої окремої події мають походити від однієї зовнішньої сутності, щоб Локатор надавав корисну інформацію.

ContentHandler.processingInstruction(target, data)

Отримати повідомлення про інструкцію з обробки.

Синтаксичний аналізатор викличе цей метод один раз для кожної знайденої інструкції обробки: зауважте, що інструкції обробки можуть з’являтися до або після основного елемента документа.

Синтаксичний аналізатор SAX ніколи не повинен повідомляти про оголошення XML (XML 1.0, розділ 2.8) або текстове оголошення (XML 1.0, розділ 4.3.1) за допомогою цього методу.

ContentHandler.skippedEntity(name)

Отримати сповіщення про пропущену сутність.

Парсер викличе цей метод один раз для кожної пропущеної сутності. Процесори, які не перевіряють, можуть пропускати сутності, якщо вони не бачили декларацій (оскільки, наприклад, сутність було оголошено у зовнішній підмножині DTD). Усі процесори можуть пропускати зовнішні сутності залежно від значень властивостей feature_external_ges і feature_external_pes.

Об’єкти DTDHandler

Екземпляри DTDHandler надають такі методи:

DTDHandler.notationDecl(name, publicId, systemId)

Обробляти подію оголошення нотації.

DTDHandler.unparsedEntityDecl(name, publicId, systemId, ndata)

Обробляти подію оголошення нерозібраної сутності.

Об’єкти EntityResolver

EntityResolver.resolveEntity(publicId, systemId)

Вирішіть системний ідентифікатор сутності та поверніть системний ідентифікатор для читання у вигляді рядка або джерело введення для читання. Реалізація за замовчуванням повертає systemId.

Об’єкти ErrorHandler

Objects with this interface are used to receive error and warning information from the XMLReader. If you create an object that implements this interface, then register the object with your XMLReader, the parser will call the methods in your object to report all warnings and errors. There are three levels of errors available: warnings, (possibly) recoverable errors, and unrecoverable errors. All methods take a SAXParseException as the only parameter. Errors and warnings may be converted to an exception by raising the passed-in exception object.

ErrorHandler.error(exception)

Викликається, коли аналізатор стикається з помилкою, яку можна виправити. Якщо цей метод не викликає винятку, аналіз може продовжуватися, але програма не повинна очікувати подальшої інформації про документ. Якщо дозволити синтаксичному аналізатору продовжити роботу, у вхідному документі можуть бути виявлені додаткові помилки.

ErrorHandler.fatalError(exception)

Викликається, коли аналізатор стикається з помилкою, яку не може відновити; Очікується, що розбір завершиться, коли цей метод повернеться.

ErrorHandler.warning(exception)

Викликається, коли синтаксичний аналізатор надає додатку незначну попереджувальну інформацію. Очікується, що синтаксичний аналіз продовжиться, коли цей метод повернеться, а інформація про документ продовжуватиме передаватись до програми. Створення винятку в цьому методі призведе до завершення аналізу.

Об’єкти LexicalHandler

Додатковий обробник SAX2 для лексичних подій.

Цей обробник використовується для отримання лексичної інформації про XML-документ. Лексична інформація включає інформацію, що описує кодування документа, що використовується, і коментарі XML, вбудовані в документ, а також межі розділів для DTD і будь-яких розділів CDATA. Лексичні обробники використовуються так само, як і обробники вмісту.

Встановіть LexicalHandler для XMLReader за допомогою методу setProperty з ідентифікатором властивості 'http://xml.org/sax/properties/lexical-handler.

LexicalHandler.comment(content)

Повідомляє про коментар будь-де в документі (включаючи DTD і поза елементом документа).

LexicalHandler.startDTD(name, public_id, system_id)

Повідомляє про початок декларацій DTD, якщо документ має пов’язаний DTD.

LexicalHandler.endDTD()

Повідомляє про закінчення декларації DTD.

LexicalHandler.startCDATA()

Повідомляє про початок позначеного розділу CDATA.

Вміст позначеного розділу CDATA буде передано через обробник символів.

LexicalHandler.endCDATA()

Повідомляє про кінець позначеного розділу CDATA.