scrapy爬虫大纲
Published on Aug. 22, 2023, 12:11 p.m.
**scrapy爬虫**
· **组件**
o Pipelines存储中间件
§ 超链接 处理图片
§ 超链接 数据存储
· sqlite3
o 超链接 子主题
· csv
· JSON
· 超链接 MongoDB
· 超链接 ScrapyElasticSearch
§ 超链接 过滤重复Duplicates filter
o 超链接 items定义字段
o 超链接 Item Loaders¶
o 超链接 项目加载器旨在提供一种灵活、高效且简单的机制,用于扩展和覆盖不同的字段解析规则,无论是通过蜘蛛还是通过源格式(HTML、XML 等),而不会成为维护的噩梦。
o middlewares下载中间件
§ requests
§ 超链接 grequests支持并发
§ 无头浏览器
· Splash
· 超链接 selenium
o 超链接 Selenium IDE
o Selenium WebDriver
o 超链接 Selenium Grid
· requests-HTML
§ 超链接 代理
· httpproxy
· 超链接 scrapy-rotating-proxies
o 超链接 spiders爬虫
§ 超链接 选择器selectors
· 超链接 xpaths
· beautifulsoup4
· CSS
· 子主题
§ 获取参数Spider arguments
· 超链接 子主题
· 子主题
§ 爬虫类
· XMLFeedSpider
· CrawlSpider
· csvfeedspider
· sitemapspider
o settings
§ ROBOTSTXT_OBEY限制robots协议
§ URLFilter过滤url
§ USER_AGENT浏览器信息
o 超链接 commands
o 超链接 链接提取器Link Extractors
· 超链接 **拓展**
o 通用文本爬取
§ html2text
· 超链接 子主题
§ Text处理
§ 超链接 CxExtractor
§ 超链接 html2markdown
§ 超链接 readability自动提取文本
· 超链接 readability-lxml
§ pandas
o 关键词提取
§ textrank4zh
· TextRank4Keyword关键词提取
· TextRank4Sentence拆分句子
· jieba
o html解析
§ beautifulsoup4
· **Scrapy shell**
· 超链接 **文档**
o 官方文档
· 超链接 **示例**
o 百度搜索
o 超链接 头条
· 超链接 **其他示例**
o baidu搜索
· 超链接 **服务化运行**
o 超链接 Scrapyd
o 超链接 子主题
o https://github.com/scrapy-plugins/scrapy-jsonrpc
【金山文档】 scrapy爬虫
https://kdocs.cn/l/cabRhYAh1nV1
·