urllib.robotparser — Parser for robots.txt¶
Вихідний код: Lib/urllib/robotparser.py
This module provides a single class, RobotFileParser, which answers
questions about whether or not a particular user agent can fetch a URL on the
website that published the robots.txt file. For more details on the
structure of robots.txt files, see http://www.robotstxt.org/orig.html.
- class urllib.robotparser.RobotFileParser(url='')¶
Цей клас надає методи читання, аналізу та відповідей на запитання щодо файлу
robots.txtза адресою url.- set_url(url)¶
Встановлює URL-адресу, яка посилається на файл
robots.txt.
- read()¶
Читає URL-адресу
robots.txtі передає її синтаксичному аналізатору.
- parse(lines)¶
Розбирає аргумент рядків.
- can_fetch(useragent, url)¶
Повертає
True, якщо useragent дозволено отримувати url згідно з правилами, що містяться в проаналізованому файліrobots.txt.
- mtime()¶
Повертає час останнього отримання файлу
robots.txt. Це корисно для тривалих веб-павуків, яким потрібно періодично перевіряти наявність нових файлівrobots.txt.
- modified()¶
Встановлює час останнього отримання файлу
robots.txtна поточний час.
- crawl_delay(useragent)¶
Повертає значення параметра
Crawl-delayзrobots.txtдля відповідного useragent. Якщо такого параметра немає або він не застосовується до вказаного useragent або записrobots.txtдля цього параметра має недійсний синтаксис, повернітьNone.Added in version 3.6.
- request_rate(useragent)¶
Повертає вміст параметра
Request-rateзrobots.txtяк named tupleRequestRate(requests, seconds). Якщо такого параметра немає або він не застосовується до вказаного useragent або записrobots.txtдля цього параметра має недійсний синтаксис, повернітьNone.Added in version 3.6.
Наступний приклад демонструє базове використання класу RobotFileParser:
>>> import urllib.robotparser
>>> rp = urllib.robotparser.RobotFileParser()
>>> rp.set_url("http://www.musi-cal.com/robots.txt")
>>> rp.read()
>>> rrate = rp.request_rate("*")
>>> rrate.requests
3
>>> rrate.seconds
20
>>> rp.crawl_delay("*")
6
>>> rp.can_fetch("*", "http://www.musi-cal.com/cgi-bin/search?city=San+Francisco")
False
>>> rp.can_fetch("*", "http://www.musi-cal.com/")
True