Scrapy 大师班:使用 Scrapy 框架学习网页抓取
使用 Scrapy Python 框架掌握网页抓取以及初学者的分步深入网页抓取指南
讲师:Rahul Mula
口袋资源独家Udemy付费课程,独家中英文字幕,配套资料齐全!
用不到1/10的价格,即可享受同样的高品质课程,且可以完全拥有,随时随地都可以任意观看和分享。
你将学到什么
- 定义网络抓取和创建网络爬虫所涉及的步骤
- 在 Windows、Mac OS、Ubuntu (Linux) 和 Anaconda 环境中安装和设置 Scrapy
- 使用 Scrapy Spider 向 URL 发送请求以抓取网站
- 从 URL 获取 HTML 响应并解析它以进行网页抓取
- 使用 Scrapy 选择器、CSS 选择器和 XPath 从网站中选择所需数据
- Scrapy 爬行蜘蛛从网站获取数据并将其提取为 JSON、CSV、XLSX (Excel) 和 XML 文件
- 使用 Scrapy Shell 命令测试和验证 CSS 选择器或 XPath
- 使用 Scrapy Item Pipelines 将抓取的数据导出并保存到在线数据库(例如 MonogoDB)
- 定义 Scrapy Items 以组织抓取的数据并使用带有输入和输出处理器的 Scrapy Itemloader 加载项目
- 使用 Scrapy 分页从多个网页中抓取数据并从 HTML 表中提取数据
- 使用带有 CSRF 令牌的 Scrapy FormRequest 登录网站
- 使用 Scrapy-Playwright 抓取动态/JavaScript 渲染的网站并与 Web 元素交互、截取网站屏幕截图或另存为 PDF
- 识别来自网站的 API 调用并使用 Scrapy 请求从 API 中抓取数据
要求
- Python编程
- HTML 基础知识(+点)
描述
网页抓取是抓取网站并从中提取所需数据的过程,在本课程中,您将在分步深入的指导下使用 python 和 scrapy 框架学习和掌握网页抓取。
分步指南
假设您对网页抓取、网页抓取、scrapy 框架、网页抓取、甚至网页抓取一无所知,我们将从完整的基础知识开始。在第一部分中,您将逐步了解网络抓取过程(使用信息图表 – 无代码)、如何从网站抓取数据以及如何使用 scrapy 进行相同的操作(即 scrapy 的含义)。
在弄清楚基础知识并了解网页抓取的工作原理后,我们将开始使用 python 和 scrapy 框架进行网页抓取!同样,我们将逐步进行,并通过简短的课程来执行基础知识中学到的每一步。我们会慢慢讲,以便您更容易理解从网站抓取和提取数据所涉及的每个步骤。
网页抓取和 Scrapy 要点
构建了一个实际的网络抓取工具后,您将直接了解网络抓取的工作原理。现在至关重要的是涵盖网络抓取和 scrapy 的基本概念,我们接下来将进行这些概念。
- 用于选择Web 元素的CSS 选择器
- 用于选择 Web 元素的 XPath。
- Scrapy Shell用于测试和验证选择器。
- 用于组织提取的数据的项目
- 使用具有输入和输出处理器的ItemLoaders加载项目
- 将数据导出为 JSON、CSV、XLSX ( Excel ) 和 XML 文件格式
- 使用ItemPipelines将提取的数据保存到 MongoDB 等在线数据库。
深入掌握网页抓取
学习如何抓取网站和基本知识已经使您成为一个完整的网络抓取工具,但我们将更进一步,学习先进的网络抓取技术,成为专家!
- 按照网页中的链接到达另一个页面。
- 爬取多个页面并提取数据,即分页。
- 使用正则表达式 (RegEx) 抓取数据
- 从 HTML 表中提取数据
- 使用 Scrapy FormRequest 登录网站
- 绕过受 CSRF 保护的登录表单。
- 使用 Scrapy Playwright抓取动态或JavaScript 渲染的网站。
- 与填写表单、单击按钮等网络元素进行交互。
- 处理无限滚动网站。
- 当内容/数据加载需要时间时等待元素
- 截取网站的屏幕截图。
- 将网站另存为PDF。
- 识别来自网站的 API 调用并从API中抓取数据
- 在 scrapy 项目中使用中间件。
- 在 scrapy 项目中配置设置
- 使用和轮换用户代理和代理
- 网页抓取最佳实践
现实世界的项目
掌握网页抓取和网页爬行后,我们需要启动项目!这就是为什么您还将执行三个项目:
- 冠军联赛积分榜 [ ESPN ]
- 产品追踪器 [亚马逊]
- 刮刀应用程序 [ GUI ]
加入我们这个深入的课程,您将从头开始学习网络抓取,并逐步掌握从网站提取数据的过程。查看预览课程,了解网页抓取的工作原理!到时见~
本课程适合谁:
- 想要掌握网页抓取的 Python 初学者开发人员
- 自由职业者网络爬虫希望提高自己的技能