关于GOOSEEKER爬虫的简单介绍
本文是关于网络爬虫的第一次记叙
关于网络爬虫,是关于数据分析的第一个课程,主要是为了获得感兴趣的数据而进行简要的学习
现在流行将数据分析比作为炼石油,爬虫的主要目的就是挖石油,将石油从挖掘出来进行进一步的处理工作
简单介绍一下关于GOOseeker的软件的主要的特点,gooseaker更像是一个浏览器,能收集数据的浏览器,所以接下来将简要介绍一下关于目前的租房市场的爬虫资料
1.打开软件,在搜索栏中将想要的网址输入,
例如关于58同城的租房信息的: 【上海租房|上海租房网|上海租房信息】-上海58同城
2.在图的左上方点击定义规则按钮,将会出现相应的工作台
如上图在完成主题名命名之后,查重可使用后,点击创建规则,进行数据抓取,对于想要的数据进行直接命名,(现在大概明白各个网页的数据具有一定的规律,这个也是爬虫能够执行的主要原因),完成后点击测试,
3.样例映射复制
点击上图中任一选中的数据,鼠标右击,选择复制相关的分析
4.翻页设置
点击页码,将页码作为翻页区,新建线索
将下方的TEXT作为翻页记号
5.保存规则,跑数据,进入打数机界面
数据自然在进行收集,之后会存储在相应的文件夹中,点击文件,查询存储路径,找到相应的文件后,软件中单页文件为一个xlm文件,建议将文件集体压缩后,配合后续的操作。
6.将xlm文件转换为xls文件
打开 GooSeeker 登录中的会员中心,进行规则管理界面
选择相应的规则,点开之后,将数据导入,后下载
便可得到相应的xls文件了