精通Scrapy网络爬虫
上QQ阅读APP看书,第一时间看更新

1.2 Scrapy简介及安装

Scrapy是一个使用Python语言(基于Twisted框架)编写的开源网络爬虫框架,目前由Scrapinghub Ltd维护。Scrapy简单易用、灵活易拓展、开发社区活跃,并且是跨平台的。在Linux、 MaxOS以及Windows平台都可以使用。Scrapy应用程序也使用Python进行开发,目前可以支持Python 2.7以及Python 3.4+版本。

在任意操作系统下,可以使用pip安装Scrapy,例如:

        $ pip install scrapy

为确认Scrapy已安装成功,首先在Python中测试能否导入Scrapy模块:

        >>> import scrapy
        >>> scrapy.version_info
        (1, 3, 3)

然后,在shell中测试能否执行Scrapy这条命令:

        $ scrapy
        Scrapy 1.3.3- no active project

        Usage:
          scrapy  [options] [args]

        Available commands:
          bench        Run quick benchmark test
          commands
          fetch        Fetch a URL using the Scrapy downloader
          genspider    Generate new spider using pre-defined templates
          runspider    Run a self-contained spider (without creating a project)
          settings     Get settings values
          shell        Interactive scraping console
          startproject  Create new project
          version      Print Scrapy version
          view         Open URL in browser, as seen by Scrapy

          [ more ]     More commands available when run from project directory

        Use "scrapy  -h" to see more info about a command

通过了以上两项检测,说明Scrapy安装成功了。如上所示,我们安装的是当前最新版本1.3.3。