爬虫一 数据分析

需要分析的网站 : app.jinkaodian.com

分析流程

  1. 字段分析
    1. 找到核心字段 和 加密方式判断
  2. 还原核心数据库
  3. 设置抓取数据的方式和间隔

接口文档

  1. 获取一级分类列表
    http://app.jinkaodian.com/CL.ExamWebService/wxexam.ashx?op=LoadClassList

  2. 获取二级分类列表
    http://app.jinkaodian.com/CL.ExamWebService/wxexam.ashx?op=LoadSubClassList&parentClassId=12

  3. 获取三级分类
    http://app.jinkaodian.com/CL.ExamWebService/wxexam.ashx?op=LoadCourseList&cusId=4525796&subclassid=57

  4. 通过三级分类 id 查询题库列表
    http://app.jinkaodian.com/CL.ExamWebService/wxexam.ashx?op=GetCourseLastTestSubjectId&cusId=4525796&courseId=152

  5. 通过章节 id 查询 下面的分类
    http://app.jinkaodian.com/CL.ExamWebService/wxexam.ashx?op=LoadCourseChapter&cusId=4525796&courseId=152&chaptertype=0&parentChapterId=145996&showMyAnswerCount=1

  6. 查询题库 查询所有的题目列表
    http://app.jinkaodian.com/CL.ExamWebService/wxexam.ashx?op=LoadSubjectListByChapterId&cusId=4525796&courseId=152&chapterId=145988

    http://app.jinkaodian.com/CL.ExamWebService/wxexam.ashx?op=LoadCourseChapter&cusId=152&chaptertype=0&parentChapterId=145996

  7. 查询题目详情
    http://app.jinkaodian.com/CL.ExamWebService/wxexam.ashx?op=LoadSubjuectInfo&cusId=4525796&subjectId=10249507&onTest=1