0%

百度首页爬虫

有趣的技术

思路:

效果:会在桌面生成一个html文件,打开即为百度首页。

代码:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
import requests

# 第一步 确认爬取内容的网址
url = "http://www.baidu.com/"
# headers = {
# 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362'
# }
# 第二步 向网站发出http请求
response = requests.get(url)

# 第三步 获取网站响应的数据
content = response.content.decode("utf-8")

# 第四步 对响应数据持久化
print(content)
with open("baibu.html", "w", encoding="utf-8") as fp:
fp.write(content)