毕业设计日记

2019.02.21

2019-2-21

  • 开始好好做毕设,把之前实习写的爬虫拿出来跑,发现只有三十多个数据,打开官网发现提示“ERROR: ACCESS DENIED”,应该是被反爬了,想办法搞定它。
  • 今天犯了个低级错误,刚开始运行scrapy爬虫失败好几次,最后才发现运行目录进错了。

2019-2-22

  • 反爬试了几种方法都没有成功,明天试试IP代理池的办法。
  • 今天下午开会说了大创的事情,如果顺便拿个奖还是不错的。

2019-2-23

  • 今天又试了两种办法,禁用cookies和设置download_delay
  • 下午开了这学期第一次组会,大致聊了下,导师说他有一个大数据平台可以给我用,爬虫部分可以考虑用分布式爬取。
  • ip代理池大致有办法了,就是缺代理,明天继续搞吧。

2019-2-24

  • ip代理池没有成功,还没找到错误。
  • 找了个分布式代理的文章,打算折腾一下,刚好跟导师的意思一样。
  • GitHub上有个开源的房产爬虫项目,貌似还在更新,也可以折腾下。

2019-2-25

  • 上午把那个开源的房产爬虫项目跑了下,基本满足自己的需求。感觉爬虫部分需要放一放了,想换一换脑子。不过分布式爬虫还是需要抽空学习下。
  • 下午把Hadoop的知识重新复习下,然后后期在学习一下Spark。

2019-2-26

  • 学了一点点Spark的知识,时间利用率不是太高,下午查到四级过了以后就学不进去了,给自己放个小假吧~

2019-2-27

  • 学习spark的架构与运行流程,以及RDD运行原理,也学习了Scala的开发插件安装以及一点点Scala基础。

2019-2-28 - 2019-3-4

  • 搁置

2019-3-5

  • 今天查了几篇文章,本来觉得后悔自己选的课题,选个金融大数据分析还好做一些,案例也多。后来觉得算了,做到能过就好了。

2019-3-6

  • 今天学习了Docker的入门知识,也在本地测试了下。还需要花几天时间把毕设涉及到的知识点扫盲一下。

2019-3-7

  • 今天基本没学习。刷了半天知乎。

2019-3-7 - 2019-3-8

  • 学了一点数据分析知识。看了几篇文章,感觉数据分析主要还是思维。

2019-3-9 - 2019-3-11

  • 折腾下MongoDB,打算试试一个分布式爬虫管理平台。

2019-3-12

  • 前端页面能显示出来了,但是爬虫部署不是很成功,单独运行scrapy爬虫是可以的。提了个issues,等待大佬解答吧。

2019-3-13 - 2019-3-14

  • 又找了几个开源的分布式爬虫框架,感觉还不错。打算都试试,最后用在自己的项目上。然后赶紧进行spark大数据部分。
  • 回宿舍前Scrapyd成功运行,开心!

2019-3-15

  • 今天去图书馆借了《Python3网络爬虫开发实战》。

2019-3-16

  • 今天主要学习了《Python3网络爬虫开发实战》中关于分布式爬虫的内容,把需要安装的东西安装一下,直接上手到自己现有的服务器上试试。

2019-3-17 - 2019-3-18

  • 这两天因为奖学金的事情,心不在焉。周五答辩,这几天冲刺一下吧。

2019-3-19 - 2019-3-23

  • 这几天因为中期答辩,进度飞快,也要反思自己之前效率实在太低。现在数据抓取部分全部结束,剩下的数据可视化和数据处理应该几天就可以了。争取月底结束。

2019-3-24 - 2019-3-25

  • spark环境弄好了,单机安装。
  • anaconda出问题了,搞了半天不行,干脆卸载重装。

2019-3-26 - 2019-3-28

  • pyspark能用了,但是还没找到相关的算法。
  • 给自己的期限还差三天了,加油。

2019-3-29 - 2019-3-30

  • 咸鱼状态ing

2019-3-31

  • Tableau折腾下,毕设收尾吧。

2019-4-1

  • 试了几个Tableau的图,感觉数据不太对。明天继续折腾。

2019-4-2

  • 查了几篇Pyspark的文章,感觉能用到这个项目。

2019-4-3

  • Echarts看了下,老师说最好用这个做可视化,之前打比赛用过Pyecharts,问题不大。

2019-4-3 - 2019-4-9

  • 论文ing

2019-4-10 - 2019-4-12

  • 论文ing