课程介绍 什么是网络爬虫? 网络爬虫是一种自动化程序,用于抓取互联网上的数据。网络爬虫可以自动访问网页、解析网页内容、提取所需数据、存储数据等。通过使用网络爬虫,我们可以获取大量的数据,从而进行数据分析、数据挖掘等应用。 网络爬虫的设计原则 在设计网络爬虫时,需要遵循以下原则: 遵守网站的规则。在抓取网站数据时,需要遵守网站的robots协议和使用条款等规定,不得未经授权地进行抓取。 考虑网络性能和资源消耗。在抓取网站数据时,需要考虑网络性能和资源消耗,避免对网站造成不必要的负担。 考虑数据质量和数据安全。在抓取网站数据时,需要考虑数据质量和数据安全,避免抓取到恶意数据或错误数据。 网络爬虫的实现 在实现网络爬虫时,需要遵循以下步骤: 确定目标网站。在抓取网站数据时,需要确定目标网站,并确定目标数据的类型和来源。 分析网站结构。在抓取网站数据时,需要分析网站结构,确定需要抓取的数据页面、数据位置、数据格式等。 编写抓取程序。在抓取网站数据时,需要编写抓取程序,包括访问网站、解析网页、提取数据等功能。 存储数据。在抓取网站数据时,需要存储数据,包括数据的格式、存储位置、存储方式等。 定期更新数据。在抓取网站数据时,需要定期更新数据,保证数据的及时性和准确性。 常用的网络爬虫API 在Python中,常用的网络爬虫API包括: requests库:用于发送HTTP请求和接收HTTP响应。例如,使用requests.get(url)来发送GET请求,使用requests.post(url, data)来发送POST请求。 BeautifulSoup库:用于解析HTML和XML文档。例如,使用BeautifulSoup(html, ‘html.parser’)来解析HTML文档,使用BeautifulSoup(xml, ‘xml’)来解析XML文档。 lxml库:用于解析HTML和XML文档。例如,使用lxml.html.parse(url)来解析HTML文档,使用lxml.etree.parse(url)来解析XML文档。 re库:用于进行正则表达式匹配。例如,使用re.findall(pattern, string)来查找字符串中的所有匹配项,使用re.sub(pattern, repl, string)来替换字符串中的匹配项。 课程目录 /13-061-51CTO-Python爬虫系列-网络剖析/ │├─1 Python爬虫-必备基础概述.mp4 5.3MB │├─2 Python爬虫-网络剖析-网络.mp4 5.9MB │├─3 Python爬虫-网络剖析-IP地址.mp4 18.7MB │├─4 Python爬虫-网络剖析-域名.mp4 55.9MB │├─5 Python爬虫-网络剖析-客户端和服务器-概念.mp4 34.5MB │├─6 Python爬虫-网络剖析-客户端和服务器交互-URL.mp4 66.6MB │├─7 Python爬虫-网络剖析-协议概念.mp4 25.5MB │├─8 Python爬虫-网络剖析-TCP-IP四层模型.mp4 48.2MB │├─9 Python爬虫-网络剖析-HTTP概述.mp4 17.8MB │├─10 Python爬虫-网络剖析-HTTP组成.mp4 17.1MB │├─11 Python爬虫-网络剖析-HTTP-请求行-请求方式.mp4 44.6MB │├─12 Python爬虫-网络剖析-HTTP请求行-GET和POST.mp4 24.9MB │├─13 Python爬虫-网络剖析-HTTP请求行-请求资源和协议版.mp4 11.2MB │├─14 Python爬虫-网络剖析-HTTP请求头-Referer.mp4 26.9MB │├─15 Python爬虫-网络剖析-HTTP请求头UserAgent.mp4 17.4MB │├─16 Python爬虫-网络剖析-HTTP请求头-其他-1.mp4 19.8MB │├─17 Python爬虫-网络剖析-HTTP请求头-其他-2.mp4 26MB │├─18 Python爬虫-网络剖析-HTTP请求头-其他-3.mp4 41MB │├─19 Python爬虫-网络剖析-HTTP请求头-其他-4.mp4 6.6MB │├─20 Python爬虫-网络剖析-HTTP请求头-其他-5.mp4 22.6MB │├─21 Python爬虫-网络剖析-HTTP响应报文-组成.mp4 12.5MB │├─22 Python爬虫-网络剖析-HTTP响应报文-响应行.mp4 26.6MB │├─23 Python爬虫-网络剖析-HTTP响应报文-响应头和响应体.mp4 11.4MB │├─24 Python爬虫-网络剖析-HTTP协议-弊端.mp4 14.6MB │├─25 Python爬虫-网络剖析-HTTPS-简介.mp4 7.9MB │├─26 Python爬虫-网络剖析-HTTPS-加密算法.mp4 23.6MB │├─27 Python爬虫-网络剖析-HTTPS-数据加密步骤.mp4 67.2MB │├─28 Python爬虫-网络剖析-HTTPS-总结.mp4 4.2MB │├─29 Python爬虫-网络剖析-Cookie和Session.mp4 54.5MB │├─30 Python爬虫-网络剖析-Cookie补充.mp4 35MB │├─31 Python爬虫-网络剖析-代理.mp4 14.5MB │├─32 Python爬虫-网络剖析-抓包软件-简介.mp4 9.9MB │├─33 Python爬虫-网络剖析-Charles-注册和界面初识.mp4 15MB │├─34 Python爬虫-网络剖析-Charles-抓浏览器软件代码.mp4 29MB │├─35 Python爬虫-网络剖析-Charles-HTTPS证书.mp4 32.2MB │├─36 Python爬虫-网络剖析-Charles-HTTPS解析.mp4 16.1MB │├─37 Python爬虫-网络剖析-Charles-抓取移动端.mp4 50.2MB │├─38 Python爬虫-网络剖析-Charles-过滤请求.mp4 13.6MB │├─39 Python爬虫-网络剖析-Charles-快速定位请求.mp4 9.8MB │├─40 Python爬虫-网络剖析-总结.mp4 6.3MB │├─41 HTML+CSS-开篇介绍.mp4 16MB │├─42 HTML+CSS-开篇介绍-下.mp4 17MB │├─43 HTML+CSS-网页的结构.mp4 30.3MB │├─44 HTML+CSS-网页的结构-下.mp4 46.7MB │├─45 HTML+CSS-常见的标签-上.mp4 40.6MB │├─46 HTML+CSS-常见的标签-下.mp4 45.8MB │├─47 HTML+CSS-常见的标签-a标签-上.mp4 23.6MB │├─48 HTML+CSS-常见的标签-a标签-下.mp4 30.9MB │├─49 HTML+CSS-常见的标签-列表.mp4 26.6MB │├─50 HTML+CSS-常见的标签-表单.mp4 30.1MB │├─51 HTML+CSS-常见的标签-样式和节标签.mp4 30.7MB │├─52 HTML+CSS-HTML5-新增标签.mp4 44.6MB │├─53 HTML+CSS-HTML5-音频和视频.mp4 22.6MB │├─54 HTML+CSS-标签使用补充.mp4 52.5MB │├─55 HTML+CSS-河马牙医-结构搭建-下.mp4 32.1MB │├─56 HTML+CSS-河马牙医-结构搭建-内容.mp4 41.1MB │├─57 HTML+CSS-CSS的书写样式.mp4 51.1MB │├─58 HTML+CSS-常用选择器-1.mp4 36.2MB │├─59 HTML+CSS-CSS常用选择器-2.mp4 42.6MB │├─60 HTML+CSS-CSS常用选择器-3.mp4 31.7MB │├─61 HTML+CSS-CSS常用选择器-伪类伪元素否定伪类.mp4 44.3MB │├─62 HTML+CSS-CSS常用选择器-选择器的优先级别.mp4 31.9MB │├─63 HTML+CSS-HTML标签类型划分-上.mp4 34.5MB │├─64 HTML+CSS-HTML标签类型划分-下.mp4 31.8MB │├─65 HTML+CSS-HTML中的盒子模型-上.mp4 53.1MB │├─66 HTML+CSS-HTML中的盒子模型-下.mp4 22MB │├─67 HTML+CSS-CSS中浮动元素.mp4 27.7MB │├─68 HTML+CSS-CSS标签水平居中.mp4 33.3MB │├─69 HTML+CSS-盒子垂直居中.mp4 19.1MB │├─70 HTML+CSS-盒子居中-局部处理.mp4 20.3MB │├─71 HTML+CSS-河马牙医完善-头部布局.mp4 51.7MB │├─72 HTML+CSS-河马牙医完善-尾部处理.mp4 72.4MB │├─73 HTML+CSS-day2内容回顾.mp4 46.1MB │├─74 CSS常用属性-上.mp4 70.5MB │├─75 CSS常用属性-下.mp4 74MB │├─76 综合案例-百度-头部界面.mp4 47MB │├─77 综合案例-百度-头部样式.mp4 48.3MB │├─78 综合案例-百度-表单-上.mp4 52.8MB │├─79 综合案例-百度-表单-下.mp4 50.5MB │├─80 综合案例-百度-列表-上.mp4 42.6MB │├─81 综合案例-百度-列表-左边.mp4 51.1MB │├─82 综合案例-百度-列表-右边.mp4 48.6MB
飞豹客 · 教程详情
51CTO-Python爬虫系列-网络剖析
体系课
12 人浏览发布 2026-01-12更新 2026-03-25

