​​​​ 不会写Python代码如何抓取豆瓣电影 Top 250 | 苏生不惑的博客

不会写Python代码如何抓取豆瓣电影 Top 250

说到爬虫,大多数人会想到用Python来做,毕竟简单好用,比如想抓取豆瓣电影top250 的所有电影数据。ps: 我收藏了部分top 250 的电影,可以回复对应电影名试试。
image.png

简单的代码如下:

1
2
3
4
5
6
7
8
import requests
from bs4 import BeautifulSoup

url = 'https://movie.douban.com/top250'
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36'}
s = BeautifulSoup(requests.get(url, headers=headers).text, 'html.parser')
for link in s.find_all('span', class_='title'):
print(link.text)

这样就可以输出第一页的所有电影标题,第二页的数据还需要代码处理。
image.png

但对于非程序员还是有难度的,有没有不用写代码就能抓取数据的爬虫工具呢,下面介绍几个非常实用的爬虫工具,这里还是以爬取豆瓣电影top250为例。

爬山虎采集器

爬山虎采集器是一款简单易用的网页数据采集工具,通过智能算法+可视化界面,随心所欲抓取自己想到的数据。先在官网 http://www.51pashanhu.com/download 下载软件,现在我下载的版本是 v2.4.7.0 ,它已经内置了几个采集设置了,比如百度搜索,淘宝商品等。
image.png

先输入要采集的网址https://movie.douban.com/top250
image.png
点下一步,因为有10页,因此要选择 自动识别分页
image.png
然后保存并采集
image.png
采集结果:
image.png
默认只能导出到txt,需要升级会员才能导出其他格式。
image.png
成功导出250条数据。
image.png
txt文件内容
image.png

后羿采集器

后羿采集器是一款面向零基础用户的,不限制采集和导出采集结果数量,免费不要积分的采集器,只需要输入网址就能智能识别采集结果,简直小白神器!在官网 http://www.houyicaiji.com/ 下载好软件
image.png
输入网址https://movie.douban.com/top250,它会自动分页加载。
image.png
点击开始采集
image.png

image.png
采集完成
image.png

image.png
这个相比上面的爬山虎采集器可以导出 excel csv text 等格式。
image.png
我这里导出到excel,所有电影标题,链接,封面图片,导演,评价人数都抓取下来了。

image.png

八爪鱼采集器

八爪鱼数据采集器是一款使用简单、功能强大的网络爬虫工具,完全可视化操作,无需编写代码,内置海量模板,支持任意网络数据抓取,简易采集模式内置上百种主流网站数据源,如京东、天猫、大众点评等热门采集网站,只需参照模板简单设置参数,就可以快速获取网站公开数据。软件下载地址 https://www.bazhuayu.com/download ,这个我就不演示了,另外它还有英文版 https://www.octoparse.com/download
image.png

集搜客

号称把互联网装进表格和数据库 ,网址 https://www.gooseeker.com/
image.png

Web Scraper

Web Scraper 是一款免费的、适用于任何人(没有任何编程基础)的爬虫工具。操作简单,只需鼠标点击和简单的配置,就能快速的爬取 Web 端的数据。网址 https://webscraper.io,需要先下载Chrome扩展 https://chrome.google.com/webstore/detail/web-scraper/jnhgnonknehpejjnehehllkliplmbmhn 如果上不了谷歌在公众号回复 谷歌获取扩展。

具体使用教程可以参考明白大佬的文章https://www.jianshu.com/p/cd5124ac0871,作者还专门开了一门课程《不用写代码的爬虫课》。

有了上面这些工具,不会代码的你也能轻松抓取你想要的公开数据。

其他

webscraper中文网
点点鼠标:即可抓取网页数据 http://mhtclub.com/post/29
Web Scraper 官方文档中文版.pdf文档 百度链接: https://pan.baidu.com/s/1fYRi8B4irtMqvlgV0Ix5Jg 提取码: cv43
网页正文抽取工具https://github.com/chrislinan/cx-extractor-python#ChineseVersion
火车采集器http://www.locoy.com/
爬虫工具 https://mp.weixin.qq.com/s/_YKN9KN5WenRLYn_qDe6Hg
https://blog.csdn.net/hezheqiang/article/details/79310713
介绍一些比较方便好用的爬虫工具和服务
python爬虫工具集合 https://lartpang.github.io/spyder_tool/
造数:轻便而强大的爬虫工具 http://growthbox.net/growthhack/631/
https://www.zaoshu.io/
那我们只能给你推荐另一款懒人专用的工具了:import.io。它的采集功能更丰富,操作更简便,还嵌入了机器学习系统,自动优化采集流程,让你的数据采集更加精准!你甚至可以实时监控亚马逊店铺的产品销量!
这个工具的服务器在国外,采集国外的网站更方便。另外,它能够自动切换IP,轻松突破网站的封锁机制,万军之中取上将首级!
神箭云
import.io
链接:https://juejin.im/post/5d5a571151882556ee6dd975
Python爬虫Scrapy爬取妹子图网站图片抓取 - 在线Scrapy爬虫生成测试 http://www.toolzl.com/dev/Scrapy/a26bec7f2e7ae4491837451f1283ed4d.html
排名前20的网络爬虫工具https://zhuanlan.zhihu.com/p/38832759
你都会用八爪鱼了,你可以去试试Octoparse, https://www.octoparse.com/download
八爪鱼6.X稳定版英文化
https://webscraper.io/
微博采集工具箱 https://www.gooseeker.com/land/weibo.html
后羿优于爬山虎:后羿不用注册就可以试用,且没有采集、导出限制;爬山虎免费版只能导出为TXT。
八爪鱼由于集搜客:虽然集搜客不能批量提取已知网址,但八爪鱼经常提取失败。
火车优于其余:火车是老字号了,而且界面也好看一点点。
Python爬虫 [http://www.testclass.net/crawler/get_zhihu]
(http://www.testclass.net/crawler/get_zhihu)
如何成为一名爬虫工程师
一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器。http://www.pyspider.cn/
Spyder简体中文语言包及一键安装脚本 http://www.lizenghai.com
https://github.com/kingmo888/Spyder_Simplified_Chinese

推荐阅读:

如何发一条空白的朋友圈

那些在国内还能使用的谷歌产品

那些你可能不知道的微信奇技淫巧

如何在豆瓣租房小组快速找到满意的房子

公众号苏生不惑原创文章整理

Chrome 浏览器扩展神器油猴
免费星球

公众号:苏生不惑

扫描二维码关注或搜索微信susheng_buhuo