Scrapy 1.6 documentation?

Scrapy 是一种快速的高级 web crawlingweb scraping 框架,用于对网站进行爬网并从其页面提取结构化ag亚游手机客户端下载|优惠。它可以用于广泛的用途,从ag亚游手机客户端下载|优惠挖掘到监控和自动化测试。

得到帮助?

有麻烦吗?我们想帮忙!

第一步?

Scrapy at a glance
了解 Scrapy 是什么以及它如何帮助你。
安装指南
在你的电脑上安装Scrapy。
Scrapy 教程
写你的第一个 Scrapy 项目。
实例
通过玩预先制作的零碎项目了解更多ag捕鱼王网站|首页。

基本概念?

命令行工具
了解用于管理零碎项目的命令行工具。
Spider
编写规则以对网站进行爬网。
选择器
使用xpath从网页中提取ag亚游手机客户端下载|优惠。
Scrapy shell
在交互式环境中测试提取代码。
项目
定义要擦除的ag亚游手机客户端下载|优惠。
项目加载器
用提取的ag亚游手机客户端下载|优惠填充项目。
项目管道
后处理和存储您的抓取ag亚游手机客户端下载|优惠。
Feed 导出
使用不同的格式和存储输出抓取的ag亚游手机客户端下载|优惠。
请求和响应
了解用于表示HTTP请求和响应的类。
链接提取器
方便的类从页面中提取要跟踪的链接。
设置
了解如何配置Scrapy并查看所有 available settings .
例外情况
查看所有可用的异常及其含义。

内置服务?

Logging
了解如何在Scrapy上使用Python的内置日志记录。
统计ag亚游手机客户端下载|优惠集合
收集关于您的 Scrape 爬虫的统计ag亚游手机客户端下载|优惠。
发送电子邮件
发生某些事件时发送电子邮件通知。
远程登录控制台
使用内置的python控制台检查正在运行的爬虫程序。
Web服务
使用Web服务监视和控制爬虫程序。

解决具体问题?

常见问题
获取最常见问题的答案。
调试spiders
了解如何调试 Scrapy Spider 的常见问题。
Spider 合约
学习如何使用合同来测试你的 Spider 。
常用做法
熟悉一些 Scrapy 惯例。
通用爬虫
调整Scrapy以并行地爬行许多域。
使用浏览器的开发人员工具进行抓取
了解如何使用浏览器的开发人员工具。
调试内存泄漏
学习如何发现并消除爬行器中的内存泄漏。
下载和处理文件和图像
下载与抓取项目相关的文件和/或图像。
部署 Spider
部署碎片 Spider 并在远程服务器中运行它们。
AutoThrottle 扩展
根据负载动态调整爬行速率。
Benchmarking
检查Scrapy在硬件上的性能。
作业:暂停和恢复爬行
学习如何暂停和恢复大型 Spider 的爬行。

延伸 Scrapy?

体系结构概述
了解 Scrapy 建筑。
下载器中间件
自定义请求和下载页面的方式。
Spider 中间件
自定义 Spider 的输入和输出。
扩展
使用自定义功能扩展scrapy
核心API
在扩展和中间软件上使用它来扩展 Scrapy 功能
信号
查看所有可用信号以及如何使用它们。
条目导出器
快速将刮下的项目导出到文件(XML、CSV等)。

其余所有?

发行说明
看看最近的垃圾版本有什么变化。
为 Scrapy 贡献
学习如何为 Scrapy 项目做出贡献。
版本控制和API稳定性
了解Scrapy版本和API稳定性。