Scrapy

1、scrapy的常用命令

Scrapy 是一个快速、高层次的 web 抓取框架,用于抓取网站并从页面中提取结构化的数据。Scrapy 提供了一些命令行工具,用于创建、调试和运行你的爬虫项目。以下是一些常用的 Scrapy 命令:

  1. scrapy startproject <project_name>:
    创建一个新的 Scrapy 项目。<project_name> 是你的项目名称。
  2. scrapy genspider <spider_name> <domain>:
    在现有的 Scrapy 项目中生成一个新的爬虫。<spider_name> 是爬虫的名称,<domain> 是允许爬虫爬取的域名。
  3. scrapy crawl <spider_name>:
    运行一个名为 <spider_name> 的爬虫。
  4. scrapy list:
    列出项目中所有的爬虫。
  5. scrapy shell <url>:
    使用 Scrapy shell 打开一个 URL,这是调试爬虫或开发提取代码的有用工具。
  6. scrapy fetch <url>:
    使用 Scrapy 的下载器下载一个网页,并将其内容输出到标准输出。
  7. scrapy view <url>:
    在浏览器中打开一个 URL,以便于查看 Scrapy 如何“看到”该页面的内容。
  8. scrapy parse <url> --spider=<spider_name> [--callback=<callback>]:
    使用指定的爬虫解析 URL,并可选地指定一个回调方法。
  9. scrapy check <spider_name>:
    运行定义在爬虫中的 contract 测试。
  10. scrapy settings:
    获取当前项目的配置信息。
  11. scrapy version:
    显示当前安装的 Scrapy 版本。
  12. scrapy bench:
    运行一个快速的基准测试,检查你的 Scrapy 安装性能。

这些命令是 Scrapy 命令行工具的一部分,可以帮助你在开发和调试爬虫时更加高效。使用这些命令时,你通常需要在你的 Scrapy 项目的根目录中运行它们。