5 行代码入门 Python 爬虫
1 | import requests |
时间处理
1 | # -*- coding: utf-8 -*- |
error: Microsoft Visual C++ 14.0 is required
1 | 源码安装,但是没有 C++ 的编译环境 |
逗号引发的悲剧
1 | >>> a = [ |
Python获取Bing图片做壁纸
1 | http://jeffyang.top/Python/python%E8%8E%B7%E5%8F%96Bing%E5%9B%BE%E7%89%87%E5%81%9A%E5%A3%81%E7%BA%B8/ |
自动化测试工具from selenium import webdriver
1 | from selenium.webdriver.common.by import By |
取交集,并集和差集
1 | a = ['a','b','c'],b = ['b','c','d'] |
list分割成固定长度子list
1 | def splite_list(splist, s): |
生成英文字母表
1 | 小写字母表 |
字典排序
1 | 按键排序 |
微信公众号或网页自动导出
1 | https://juejin.im/post/5b4cc601f265da0f5a2545a9 |
批量压缩图片
1 | pip install --upgrade tinify |
重试
1 | import random |
登录GitHub
1 |
|
多线程和多进程
1 | import concurrent.futures |
Pandas 做数据分析
1 | import pandas as pd |
多线程
1 | 线程 (Thread) 是操作系统能够进行运算调度的最小单位。它被包含在进程中,是进程中的实际运作单位。一个进程中可以并发多个线程,每条线程并行执行不同的任务。同一进程中的多个线程共享进程中的全部系统资源。 |
尾递归
1 | # 例子代码 |
获取公众号全部文章
1 | https://mp.weixin.qq.com/s/nkW2sYLcdsNTYTkk-4BeLA |
PHP 与 Python 代码对比
1 | # -*- coding: utf-8 -*- |
python2与3的编码
1 | Python2有两种表示字符序列的类型,分别叫做str和Unicode,str实例包含原始的8位值;而Unicode的实例,则包含Unicode字符。 |
Win10 下 Python2 与 Python3 兼容问题
1 | 新旧2个文件,加入环境变量 |
剪刀、石头、布
1 | #剪刀、石头、布 |
md5和sha1加密
1 |
|
concat 组合 dataframe
1 | import pandas as pd |
数学问题
1 | 数学问题:假如一个星球有 100 人,每年人数翻一倍。那么,多少年之后人数才有 100 万人 |
Python语法速查
1 | http://www.ikeguang.com/2019/03/17/python-sytnax/ |
bing搜索
1 | import requests, re, time, webbrowser, codecs |
requests-html
1 | pip install requests-html |
输出今天日期
1 | import time |
保存json文件
1 | import io |
openCV
1 | pip install --upgrade setuptools |
图片转pdf
1 | pip install reportlab |
模拟登录
1 | import requests |
猫眼票房
1 | import re |
锟斤拷
1 | >>> s = (u'\uFFFD'.encode('utf8')*2) |
###1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27pip intall nonude
import nude
print(nude.is_nude("godfather.jpg"))
print(nude.is_nude("leisheng.jpg"))
print(nude.is_nude("qiaoba.png"))
import glob
import itertools
from nude import Nude
images_format = ['jpg', 'png', 'gif'] # 图片格式
images_jpg = glob.glob("E:/Images/OOXX/*.jpg") # 返回匹配指定模式的文件名
images_png = glob.glob("E:/Images/OOXX/*.png")
images_gif = glob.glob("E:/Images/OOXX/*.gif")
images_list = itertools.chain(images_jpg, images_png, images_gif)
for i in images_list:
print(i) # 输出照片的路径
n = Nude(i) # 对图片进行识别
n.parse()
print(n.result) # 输出结果
print(n.message) # 输出判断信息
print(n.inspect()) # 输出更加详细的判断信息
原文: https://lbjheiheihei.xyz/2018/05/14/Use-Python-Identifying-Porngraphic-Images.html
安装scrapy失败
1 | 依次安装lxml、pyOpenSSL、Twisted、pywin32 这些基本库都要安装好。 |
ChromeDriver
1 | https://sites.google.com/a/chromium.org/chromedriver/downloads http://phantomjs.org/ |
生成彩色动态二维码
1 | pip install myqr |
爬取简书用户的动态
1 | import requests |
retrying 重试请求
1 | pip install retrying |
ipython
1 | 使用 Tab 实现自动补全功能。 |
列表中出现次数最多的数
1 |
|
pygame 模块
1 | import pygame |
发送html格式邮件
1 |
|
1 | import pdfkit |
天善博客内容如何转成PDF文档
1 | wkhtmltopdf 'http://www.flybi.net/blog/seng/3645' 'http://www.flybi.net/blog/seng/3599' sengblog.pdf |
如何批量添加图片水印
1 | python 利用opencv去除图片水印 https://mp.weixin.qq.com/s/BqeBk0oPP1KpueviCwZFFQ |
爬虫简书
1 | import requests |
markdown 转PDF
1 | pip install markdown |
验证身份证号
1 | import time |
NumPy 基础
1 | NumPy 的主要对象是多维数组 Ndarray。在 NumPy 中维度(dimensions)叫做轴(axes),轴的个数叫做秩(rank) |
###1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64爬取豆瓣电影TOP250
import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/top250'
# 使用U-A伪装成浏览器发送请求
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'}
# 先使用requests发送网络请求从而获取网页
r = requests.get('https://movie.douban.com/top250', headers=headers)
# 使用bs4解析获取的网页
soup = BeautifulSoup(r.text, 'html.parser')
# 调用prettify()方法来使解析的HTML更加规范化
print(soup.prettify())
movie_list = soup.find('ol', attrs={'class': 'grid_view'}) #电影列表
for movie in movie_list.find_all('li'):
movie_name = movie.find('span', attrs={'class': 'title'})
print(movie_name.get_text())
肖申克的救赎
霸王别姬
这个杀手不太冷
阿甘正传
美丽人生
import codecs
import requests
from bs4 import BeautifulSoup
DOWNLOAD_URL = 'https://movie.douban.com/top250'
def download_page(url):
return requests.get(url, headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'
}).content
def parse_html(html):
soup = BeautifulSoup(html, 'html.parser')
# 电影列表
movie_list_soup = soup.find('ol', attrs={'class': 'grid_view'})
movie_name_list = []
for movie_li in movie_list_soup.find_all('li'):
movie_name = movie_li.find('span', attrs={'class': 'title'}).get_text()
movie_info = movie_li.find('div', attrs={'class': 'bd'}).find('p').get_text()
movie_star = movie_li.find('span', attrs={'class': 'rating_num'}).get_text()
movie_name_list.append(movie_name)
movie_name_list.append(movie_info)
movie_name_list.append(movie_star)
# 下一页链接
next_page = soup.find('span', attrs={'class': 'next'}).find('a')
if next_page:
return movie_name_list,DOWNLOAD_URL + next_page['href']
return movie_name_list, None
def main():
url = DOWNLOAD_URL
with codecs.open('movies','wb', encoding='utf-8') as f:
while True:
html = download_page(url)
movies, url =parse_html(html)
f.write(u'{movies}\n'.format(movies='\n'.join(movies)))
if __name__ == '__main__':
main()
https://www.jianshu.com/p/8a460be5a26e
把bmp和png转换成jpg
1 | import os |
numpy
1 | import numpy as np |
pdf to image
1 | https://github.com/freedesktop/poppler |
图片exif
1 | https://www.irfanview.com/ |
命令行里处理数据科学问题
1 | curl -o data_dl.csv https://archive.ics.uci.edu/ml/machine-learning-databases/blood-transfusion/transfusion.data |
Pandas 做数据分析sql
1 | import pandas as pd |
在 Python 里用 is 进行比较
1 | if appointment.time_slot_id is time_slot.id: |
判断括号字符串
1 | def isValid(self, s): |
Could not fetch URL https://pypi.org/simple/pip/: There was a problem confirming the ssl certificate
1 | pip install iredis |
单行代码
1 | # 字典推导 |
python算出了同事的身份证号码
1 | //https://mp.weixin.qq.com/s?__biz=MzU5MjI3NzIxMw==&mid=2247486816&idx=1&sn=baa976db515e3b9b99e7001daa9a577a&chksm=fe2376d2c954ffc486625e5420e3ebcf3d83581986b0568b804fb5a54e4aaa032b4992c13905&mpshare=1&scene=1&srcid=1023PX0DRWmDc5E8oEZSVUx6&sharer_sharetime=1571795782903&sharer_shareid=43165518fc08bc947dca48788293333a&key=6f23511bf9e1c01f4c78d4f8f46e1b1e8fc6e548405a6029e3b015de7441c1527cd4817fc238470a3211f36f03178e6f7f9888d5f7d1ee5e6ef6b0b0fced5da2f45aa739e184ae5749a86f5102efd4f9&ascene=1&uin=NjQ3OTQwMTAy&devicetype=Windows+7&version=62070152&lang=zh_CN&pass_ticket=Nl73k%2FpmXYhrLnAbsjSStmagh1FEZZkB8fhtyVf9%2BmzY8foNNpPw%2FmaVHa2zPKdu |
b站弹幕
1 | from bs4 import BeautifulSoup |
Pandas
1 | import pandas as pd |
requests 抓取网页的通用框架
1 | # -*- coding: utf-8 -*- |
Could not fetch URL
1 |
|
Python Requests throwing SSLError
1 | import urllib3 |
Python 数据分析实战 | 用数据带你回顾乔丹的职业生涯
中国大学MOOC、学堂在线、网易云课堂、好大学在线、爱课程 MOOC 课程下载。
新闻类网站通用抽取器 https://github.com/kingname/GeneralNewsExtractor
从零开始的 TensorFlow tensorflow.google.cn/
Redis 结合 flask 及 vue 实现 SSE 在线聊天
模拟登录一些知名的网站,为了方便爬取需要登录的网站fuck login
爆破的方式收集子域名https://5alt.me/tools/
python 爬虫入门初级篇 https://piaosanlang.gitbooks.io/spiders/content/01day/README1.html
python 坦克大战源码 https://learnku.com/articles/34725