Scrapy

1、scrapy的常用命令

Scrapy 是一个快速、高层次的 web 抓取框架，用于抓取网站并从页面中提取结构化的数据。Scrapy 提供了一些命令行工具，用于创建、调试和运行你的爬虫项目。以下是一些常用的 Scrapy 命令：

scrapy startproject <project_name>:
创建一个新的 Scrapy 项目。<project_name> 是你的项目名称。
scrapy genspider <spider_name> <domain>:
在现有的 Scrapy 项目中生成一个新的爬虫。<spider_name> 是爬虫的名称，<domain> 是允许爬虫爬取的域名。
scrapy crawl <spider_name>:
运行一个名为 <spider_name> 的爬虫。
scrapy list:
列出项目中所有的爬虫。
scrapy shell <url>:
使用 Scrapy shell 打开一个 URL，这是调试爬虫或开发提取代码的有用工具。
scrapy fetch <url>:
使用 Scrapy 的下载器下载一个网页，并将其内容输出到标准输出。
scrapy view <url>:
在浏览器中打开一个 URL，以便于查看 Scrapy 如何“看到”该页面的内容。
scrapy parse <url> --spider=<spider_name> [--callback=<callback>]:
使用指定的爬虫解析 URL，并可选地指定一个回调方法。
scrapy check <spider_name>:
运行定义在爬虫中的 contract 测试。
scrapy settings:
获取当前项目的配置信息。
scrapy version:
显示当前安装的 Scrapy 版本。
scrapy bench:
运行一个快速的基准测试，检查你的 Scrapy 安装性能。

这些命令是 Scrapy 命令行工具的一部分，可以帮助你在开发和调试爬虫时更加高效。使用这些命令时，你通常需要在你的 Scrapy 项目的根目录中运行它们。