以下是基于 Python Scrapy 的简单教程:
- 安装Scrapy。可以在Shell或终端中使用以下命令来安装Scrapy:
pip install scrapy
- 创建一个Scrapy项目。在您要保存Scrapy项目的目录中运行以下命令:
scrapy startproject project_name
- 创建spider。 spider是Scrapy的最基本组成部分。可以使用以下命令在Scrapy项目中创建spider:
scrapy genspider spider_name website.com
在其中website.com应被替换为您要爬取的网站。
- 编写spider代码。 编辑您的spider文件以指定如何爬取并提取数据。以下是简单的示例代码:
import scrapy
class MySpider(scrapy.Spider):
name = "myspider"
start_urls = ["https://www.example.com"]
def parse(self, response):
for title in response.css("h2 a"):
yield {"title": title.css("::text").get()}
此spider将提取目标网站中所有页面的文章标题。
- 运行spider。 在项目文件夹中运行以下命令以运行spider:
scrapy crawl spider_name
- 存储数据。 您可以使用输出管道将数据存储到某个文件或数据库中。 在项目中的settings.py文件中指定输出管道的路径。
这是一个简单的Scrapy教程,涉及到如何安装,创建spider以及提取数据。 当然,在实际应用中还有许多其他功能和选项可供探索。