加入CODE CHINA

· 不限速    · 不限空间    · 不限人数    · 私仓免费

免费加入
    README.md

    MOOC-Download 中国大学慕爬虫

    项目为基于python3实现的爬虫,用于爬取指定课程资源的视频及可下载文档。

    实现过程说明可以查看我的博客

    特点

    • 视频可选择清晰度,存储为下载链接,可使用第三方软件下载。
    • 下载视频提供Rename.bat用于批量修改视频名称
    • 所有文档按章节规范命名

    使用方法

    安装

    pip install -r requirements.txt

    使用

    python main.py

    注意事项

    • 课程id为进入课程页面后,位于地址栏l中的,例如地址为:https://www.icourse163.org/course/WHUT-1001861003?tid=1002066005 ,则课程id为:WHUT-1001861003
    • 运行后会出现文档结构如下
    MOOC_DOWNLOAD
      -- PDFs                     存放所有下载的pdf文档
           -- something1.pdf
           -- something2.pdf
      -- main.py                  主程序
      -- Links.txt                视频下载链接
      -- Rename.bat               视频下载完成后重命名程序(置于视频根目录下)
      -- TOC.txt                  爬取慕课的整体结构
      -- sth else
    • 如果爬取的链接用第三方无法下载,将链接复制到游览器会404的话(极少数课程出现这种情况)。可以尝试把下载链接开头http://v.stu.126.net/mooc-video/部分替换为http://jdvodrvfb210d.vod.126.net/jdvodrvfb210d/(这个应该是慕课存储资源的路径问题)。同时由于替换链接下载的文件命名也和Rename中生成的不同,需要将main.py中第171行写入Rename.bat部分代码更换为下面的代码:
    with open('Rename.bat', 'a', encoding='utf-8') as file:
         video_down_url=re.sub(r'/','_',video_down_url)
         file.write('rename "' + re.search(r'http:.*video_(.*.mp4)', video_down_url).group(1) + '" "' + name +'.mp4"' + '\n')
    • 如果部分链接提示下载失败(若全部无法下载看上一条解决方案),这个不影响,应该是爬虫爬到了已经被管理员删除或者还没有正式发布的资源,能够正常下载的就是该课程所有的资源。

    TO DO LIST

    • 下载文档按课程归类并指定存储路径
    • 输入错误判定
    • 加入直接搜索慕课功能

    致谢

    本程序思路来源于Adam的程序,感谢!

    项目简介

    🚀 Github 镜像仓库 🚀

    源项目地址

    https://github.com/cyrusrenty/mooc-download

    发行版本

    当前项目没有发行版本

    贡献者 1

    C Cyrus Ren @Cyrus Ren

    开发语言

    • Python 100.0 %