README.md

    在这里插入图片描述 Python 爬虫系列教程,2021年国内最系统+最强

    作者: 🍊 梦想橡皮擦(擦哥&擦姐),技术+产品 博客地址,希望你有所收获 🏮

    Python 爬虫 120 例,已完成文章清单

    📙 requests 库 + re 模块

    1. 10 行代码集 2000 张美女图,Python 爬虫 120 例,再上征途
    2. 通过 Python 爬虫,发现 60%女装大佬游走在 cosplay 领域
    3. Python 千猫图,简单技术满足你的收集控
    4. 熊孩子说“你没看过奥特曼”,赶紧用 Python 学习一下,没想到
    5. 技术圈的【多肉小达人】,一篇文章你就能做到
    6. 我用 Python 连夜离线了 100G 图片,只为了防止网站被消失

    📘 requests 库 + re 模块 + threading 模块

    1. 对 Python 爬虫编写者充满诱惑的网站,《可爱图片网》,瞧人这网站名字起的
    2. 5000张高清壁纸大图(手机用),用Python在法律的边缘又试探了一把
    3. 10994部漫画信息,用Python实施大采集,因为反爬差一点就翻车了
    4. 爬动漫“上瘾”之后,放弃午休,迫不及待的用Python薅了腾讯动漫的数据,啧啧啧

    📗 requests 库 + lxml 库

    1. 他说:“只是单纯的想用Python收集一些素颜照,做机器学习使用”,“我信你个鬼!”
    2. 1小时赚100元,某群X友,周末采集了20000+漫展历史数据,毫无技术难度
    3. 程序员(媛)不懂汉服?岂能让别人小看,咱先靠肉眼大数据识别万张穿搭照
    4. 老友(研发岗)被裁后,想加盟小吃店,我用Python采集了一点数据,多少是个心意
    5. 整个大活,采集8个代理IP站点,为Python代理池铺路,爬虫120例之第15例
    6. 极复杂编码,下载《原神》角色高清图、中日无损配音,爬虫 16 / 120 例
    7. 爬虫120例之第17例,用Python面向对象的思路,采集各种精彩句子

    📙 技术阶段整理

    1. requests库与 lxml 库常用操作整理+总结,爬虫120例阶段整理篇
    2. 正则表达式 与 XPath 语法领域细解,初学阶段的你,该怎么学?

    📕 requests 库 + lxml 库 + cssselect 库

    1. Python爬虫120例之第20例,1637、一路商机网全站加盟数据采集
    2. 孔夫子旧书网数据采集,举一反三学爬虫,Python爬虫120例第21例

    📙 多线程爬虫之 threading 模块

    1. 谁有粉?就爬谁!他粉多,就爬他!Python 多线程采集 260000+ 粉丝数据
    2. 懒人畅听网,有声小说类目数据采集,多线程速采案例,Python爬虫120例之23例
    3. 虎牙直播数据采集,为数据分析做储备,Python爬虫120例之第24例
    4. 我们的骄傲!非遗数据采集,来自官方的数据,Python爬虫无所不爬

    📗 预备知识

    📕 多线程 threading + queue 模块

    1. 全国美容大夫数据采集数据(花容网 huaroo 公开数据),爬虫120例之26例
    2. 一个站点不够学?那就在用Python增加一个采集目标,一派话题广场+某金融论坛话题广场爬虫
    3. Python爬虫采集,中介网互联网网站排行榜, 样本数量:58341
    4. 用Python保住“设计大哥“的头发,直接甩给他10000张参考图,爬虫采集【稿定设计】平面模板素材

    📗 requests-html 库学习

    1. requests-html库初识 + 无资料解BUG之 I/O error : encoder error,Python爬虫第30例
    2. 低调的采集,低调的学习,用自然资源部信息中心网站,来练习Python爬虫

    📙 pyquery 库学习

    1. 大桥数据,国外大桥排行榜数据清单,Python爬虫120例第32例
    2. 程序员是这样学习【中药学】知识的,先用python采集分析一波

    📕 BeautifulSoup 库学习

    1. 第九工场
    2. 溧阳摄影圈
    3. pngimg.com 透明 PNG 图片站采集

    📙 协程学习

    1. 腾牛个性网QQ头像采集,gevent 模块
    2. 麦涩网 MyCoser|cosplay 采集,asyncio 库学习
    3. 中少绘本 MP4 视频采集,asyncio 协程第3篇
    4. Bensound 站 MP3 采集,asyncio + aiohttp 协程第4篇
    5. 历史剧网采集,协程并发控制

    项目简介

    2021年5月21日,升级版 Python 爬虫 120 例上线啦。

    更新内容如下:

    更新频率更快,上次 800 天完成 100 例,这次 300 天完成 120 例; 更新所有目标网站; 更新最新框架;

    Python 爬虫的整体技术思想是不会发生变化的,所以你依旧可以购买原专栏进行学习,购买与预览地址为 https://dream.blog.csdn.net/category_9280209.html

    发行版本

    当前项目没有发行版本

    贡献者 3

    开发语言

    • HTML 97.9 %
    • Python 2.1 %