W3Cschool
恭喜您成為首批注冊(cè)用戶(hù)
獲得88經(jīng)驗(yàn)值獎(jiǎng)勵(lì)
是的你可以。 如上所述:ref:above <faq-scrapy-bs-cmp>,`BeautifulSoup`_可用于解析Scrapy回調(diào)中的HTML響應(yīng)。 您只需將響應(yīng)的主體提供給``BeautifulSoup``對(duì)象,并從中提取所需的任何數(shù)據(jù)。
下面是一個(gè)使用BeautifulSoupAPI的蜘蛛示例, lxml 作為HTML解析器:
from bs4 import BeautifulSoup
import scrapy
class ExampleSpider(scrapy.Spider):
name = "example"
allowed_domains = ["example.com"]
start_urls = (
'http://www.example.com/',
)
def parse(self, response):
# use lxml to get decent HTML parsing speed
soup = BeautifulSoup(response.text, 'lxml')
yield {
"url": response.url,
"title": soup.h1.string
}
注解
``BeautifulSoup``支持幾種HTML / XML解析器。 請(qǐng)參閱“BeautifulSoup的官方文檔”,了解哪些可用。
Copyright©2021 w3cschool編程獅|閩ICP備15016281號(hào)-3|閩公網(wǎng)安備35020302033924號(hào)
違法和不良信息舉報(bào)電話(huà):173-0602-2364|舉報(bào)郵箱:jubao@eeedong.com
掃描二維碼
下載編程獅App
編程獅公眾號(hào)
聯(lián)系方式:
更多建議: