用Python写网络爬虫

用Python写网络爬虫

本书讲解了如何使用Python来编写网络爬虫程序,内容包括网络爬虫简介,从页面中抓取数据的三种方法,提取缓存中的数据,使用多个线程和进程来进行并发抓取,如何抓取动态页面中的内容,与表单进行交互,处理页面中的验证码问题,以及使用Scarpy和Portia来进行数据抓取,并在最后使用本书介绍的数据抓取技术对几个真实的网站进行了抓取,旨在帮助读者活学活用书中介绍的技术。

本书适合有一定Python编程经验,而且对爬虫技术感兴趣的读者阅读。

读者可通过https://bitbucket.org/wswp/code查看并下载本书源代码。 更多>>

10.4K 浏览 61 想读 10 推荐
  • 纸质 ¥45.00 ¥35.10 (7.8 折)
  • 电子 ¥27.00
  • 电子 + 纸质 ¥36.00
  • 我若为王 今年 02-15 21:36

    虽然对爬虫蛮有兴趣的,但却不知道用来干嘛,毕竟还用不到。不过说到底,爬下来的数据还需要整理分析也不简单,不然就失去了爬虫的意义了。随便看看。挺好玩的。就是比较复杂。

    0
  • 我若为王 今年 02-15 21:35

    虽然对爬虫蛮有兴趣的,但却不知道用来干嘛,毕竟还用不到。不过说到底,爬下来的数据还需要整理分析也不简单,不然就失去了爬虫的意义了。随便看看。挺好玩的。就是比较复杂。

    0
  • mygabbage 今年 01-13 21:34

    看了目录,书应该很薄,不过内容实用,讲得很细,可以看出作者很用心,适合没有接触过爬虫的人,想通过此书入门的话还是不错的。

    0
  • Wu_Being 今年 01-06 16:15

    好像另一个外国人也写了一本《Web Scraping with Python》,但我觉得Richard Lawson的写得更好。

    0
  • Wu_Being 今年 01-06 16:11

    这本书写得很好,薄薄的100多页没什么废话, 关键是例子简单并实际可运行,还给了源代码和测试网站源代码。 几行脚本就可以运行示例网站,在本机服务器示例网站做爬虫实验。 ——Wu_Being 

    0
印次
  • alioth310 2016/10/28 1:12:44

    页码:20  •  行数:最后1行  •  印次: 1

    Throttle对爬虫进行限速 -> throttle对爬虫进行限速。此处指代下面代码中的throttle对象,而非Throttle类。

    2016-10-28 傅道坤 已确认
  • alioth310 2016/10/28 1:13:25

    页码:88  •  行数:第2段第4行  •  印次: 1

    在网络较慢时会经常会失败 -> 在网络较慢时会经常失败

    2016-10-28 傅道坤 已确认
  • Lancelot86 2016/9/10 10:36:56

    页码:91  •  行数:15  •  印次: 1

    91页中间的“表单编码”这个框框中最后给的网址应为“该标准的官方文档为http://www.w3.org/TR/html5/forms.html#selecting-a-form-submission-encoding

    书上的selecting和a之间少了一个短横线-

    2016-09-13 傅道坤 已确认
  • alioth310 2016/10/28 1:13:50

    页码:138  •  行数:第3段第1行  •  印次: 1

    优化放置 -> 优化设置

    2016-10-28 傅道坤 已确认

关于本书有任何问题,请联系: 傅道坤

  • 书  号: 978-7-115-43179-0
  • 出版日期: 2016年9月
  • 页  数: 200
  • 印刷方式: 黑白印刷
  • 开  本: 16开
  • 出版状态: 上市销售
  • 原书名: Web Scraping with Python
  • 原书号: 9781782164364

兑换样书

电子书版本

PDF Epub Mobi

精彩推荐

本书相关文章

推荐用户

谁在看这本书