1709-342-big

 

Python网络数据采集是本编程技术电子书,专介绍围绕Python与网页内容。

《Python网络数据采集》网络上的数据量越来越大,单靠浏览网页获取信息越来越困难,如何有效地提取并利用信息已成为一个巨大的挑战。本书采用简洁强大的Python语言,全面介绍网络数据采集技术,教你从不同形式的网络资源中自由地获取数据。你将学会如何使用Python脚本与网络API一次性采集并处理成千上万个网页上的数据。书中不仅介绍了网络数据采集的基本原理,还深入探讨了更高级的主题,比如分析原始数据,用网络爬虫测试网站等。此外,书中还提供了详细的代码示例,以帮助你更好地理解书中的内容。

 

通过阅读本书,你将能够:

 

解析复杂的HTML页面

遍历多个网页和网站

了解API的基本概念和工作原理

学习存储数据的方法

下载,读取并抽取网络文档中的数据

使用工具和方法清洗格式异常的数据

读取并处理自然语言

越过表单和登录窗口采集数据

学习采集JavaScript方法

学习图像处理和文字识别方法

 

作者简介

Ryan Mitchell是数据科学家,软件工程师,目前在波士顿LinkeDrive公司负责开发公司的API和数据分析工具。此前,曾在Abine公司构建网络爬虫和网络机器人,她经常做网络数据采集项目的咨询工作,主要面向金融和零售业,另著有Instant Web Scraping with Java

 

目录:

O’Reilly Media, Inc. 介绍 阅读

译者序 阅读

前言 阅读

 

第一部分 创建爬虫 阅读

第 1 章 初见网络爬虫 阅读

第 2 章 复杂HTML解析

第 3 章 开始采集

第 4 章    使用API

第 5 章 存储数据

第 6 章 读取文档

 

第二部分 高级数据采集

第 7 章 数据清洗

第 8 章 自然语言处理

第 9 章 穿越网页表单与登录窗口进行采集

第 10 章 采集JavaScript

第 11 章 图像识别与文字处理

第 12 章 避开采集陷阱

第 13 章 用爬虫测试网站

第 14 章 远程采集

附录 A Python简介

附录 B 互联网简介

附录 C 网络数据采集的法律与道德约束

作者简介

封面介绍

 

 

download

(文件大小: 17 MB

 

 

这本书适用于网络安全从业人员,网络管理者或兴趣爱好者阅读。
 

  更多讨论在 点我进入