在上一个教程中,我们订阅了一个简单的爬虫,在这个爬虫中,我们不需要做额外的操作,直接运行就可以了。然而,有些爬虫还需要我们自己添加配置文件。

winspider的使用(2)

  • 订阅一个新爬虫
    访问https://www.winspider.cn/spider/amz_listing_us_demo ,参照上个教程的方法订阅这个爬虫,如图。

    winspider的使用(2) - 图1

    同样,将这个爬虫写入pyspider。

  • 打开爬虫的配置文件夹路径
    如图,点击爬虫名称后的小图标。

    winspider的使用(2) - 图2

    打开资源管理器(我的电脑),在地址栏中按下粘贴快捷键(Ctrl + V),然后回车。资源管理器提示找不到该文件路径

    winspider的使用(2) - 图3

    回到pyspider的管理页面,更改爬虫的状态,并点击run

    winspider的使用(2) - 图4

    winspider的使用(2) - 图5

    接着重新在资源管理器的地址栏中粘贴刚才复制的路径,然后回车,我们成功的进入了这个爬虫的配置文件夹。

    winspider的使用(2) - 图6

    我们第一次进入配置文件夹失败是因为爬虫需要在首次运行时创建文件夹。因此,在进入文件夹前需提前运行爬虫。

  • 添加配置文件

    访问https://www.winspider.cn/spider/amz_listing_us_demo ,在操作帮助中,我们可以看到如何添加配置文件。

    winspider的使用(2) - 图7

    winspider的使用(2) - 图8

    按照操作帮助的说明添加配置文件后,点击Run,程序会自动运行您添加的配置文件。然后点击Result,来到结果页,我们就可以看到采集结果了。

    winspider的使用(2) - 图9

    回到爬虫的配置文件夹,我们发现我们的配置文件不见了,多了一个recycle文件夹。在recycle文件夹,我们可以看到我们刚才配置的文件。

    winspider的使用(2) - 图10

    这是因为爬虫对一个配置文件只运行一次,运行完后,会把它放置到recycle文件夹(类似回收站)。如果您需要重新运行爬虫,您可以再添加一次配置文件。