常用Python爬虫库汇总_高中生题库网|高考真题|高考试题-「密云二中」

常用Python爬虫库汇总

作者：高考题库网

来源：https://www.bjmy2z.cn/gaokao

2021-02-12 02:49

tags:

-

2021年2月12日发(作者：tetsuya)

常用

Python

爬虫库汇总

Python

爬虫，全称

Py thon

网络爬虫，是一种按照一定的规则，自动地抓取

万维网信息的程序或脚本，

主要用于抓取证券交易数据、

天气数据、

网站用户数

据和图片数据等，

Pytho n

为支持网络爬虫正常功能实现，内置了大量的库，主

要有以下类型：

一、

Python

爬虫网络库

Python

爬虫网络库主要包括：

urllib

、

requests

、

grab

、

pycurl

、

urllib3

、

httplib2

、

R oboBrowser

、

MechanicalSoup

、

mechanize

、

socket

、

Unirest

for

Python

、

hyper

、

PySocks

、

treq

以及

aiohttp

等。

二、

Pyt hon

网络爬虫框架

Python

网络爬虫框架主要包括：

grab

、

scrapy

、

pyspider

、

cola

、

port ia

、

restkit

以及

demiurge

等。

三、

HTML/XML

解析器

lxml

：

语言编写高效

HTML/ XML

处理库，支持

XPath

；

cssselect

：解析

DOM

树和

CSS

选择器；

pyquery

：解析

DOM

树和

jQuery

选择器；

Beau tifulSoup

：低效

HTML/ XML

处理库，纯

Python

实现；

html5lib

：根据

WHAT WG

规范生成

HTML/ XML

文档的

DOM

，该规范被用在现

在所有的浏览器上；

feedparser

：解析

RSS/ATOM feeds

；

MarkupSafe

：为

XML/H TML/XHTML

提供了安全转义的字符串；

xmltodict

：一个可以让你在处理

XML

时感觉像在处理

JSON

一样的

Python

模块；

xhtml2pdf

：将

HTML/CSS

转换为

PDF

；



untangle

：轻松实现将

XML

文件转换为

Python

对象；

Bleach

：清理

HTML(

需要

html5lib)

；

四、文本处理

difflib

：帮助进行差异化比较；

Levenshtein

：快速计算

Levensht ein

距离和字符串相似度；

fuz zywuzzy

：模糊字符串匹配；

esmre

：正则表达式加速器；



ftfy

：自动整理

Unicode

文本，减少碎片化；

unidecode

：将

Unicode

文本转为

ASCII

；

uni out

：打印可读字符，而不是被转义的字符串；

chardet

：兼容

Python

的

2/3

的字符编码器；

xpinyin

：一个将中国汉字转为拼音的库；

：格式化文本中
CJK

和字母数字的间距。

awesome-slugify

：一个可以保留

unicode

的

Python slugify

库；

python- slugify

：一个可以将

Unicode
 转为

ASCII

的

Python slugify

库；

unicode- slugify

：一个可以将生成

Unicode slugs

的工具；

pytils

：处理俄语字符串的简单工具

(

包括

y)

；

PLY

：

lex

和

ya cc

解析工具的

Python

实现；

pyparsing

：一个通用框架的生成语法分析器；

2

/

8

python- nameparser

：解析人的名字的组件；

phonenumbers

：解析，格式化，存储和验证国际电话号码；

python-user- agents

：浏览器用户代理的解析器；

HTTP Agent Parser

：

Python

的

HTTP

代理分析器。

五、特定格式文件处理

tablib

：一个把数据导出为

XLS

、

CSV

、

JSON

、

YAML

等格式的模块；


textract

：从各种文件中提取文本，比如

Word

、

PowerPoint

、

PDF

等；

messytables

：解析混乱的表格数据的工具；

rows

：一个常用数据接口，支持的格式很多，目前支持

CSV

，

HTML

，

XLS

，

TXT

；

python-docx

：

读取，

查询和修改的

Microsoft

Word2007/2008

的

docx

文件；

xlwt / xlrd

：从

Exce l

文件读取写入数据和格式信息；

X lsxWriter

：一个创建

文件的

Python

模块；

xlwings

：一个

BSD

许可的库，可以很容易地在

Excel

中调用
 Python

，反之

亦然；



openpyxl

：一个用于读取和写入的

Excel2010 XLSX/ XLSM/ xltx/ XLTM

文

件的库；

Marmir

：提取

Python
数据结构并将其转换为电子表格；

PDFMiner

：一个从

PDF

文档中提取信息的工具；

PyPDF2

：一个能够分割、合并和转换

PDF

页面的库；

ReportLab

：允许快速创建丰富的

PDF

文档；

pdftables

：直接从

PDF

文件中提取表格；

3

/

8

Python-Markdown

：一个用

Python

实现的

John Gruber

的

Markdown

；

Mistune

：速度最快，功能全面的

Markdown

纯

Python

解析器；

markdown2

：一个完全用

Python

实现的快速的

Markdown

；

PyYAML

：一个

Python

的

YAML

解析器；

 cssutils

：一个

Python
 的

CSS

库；

feedparser

：通用的

feed

解析器；

sqlparse

：一个非验证的

SQL

语句分析器；

http-parser

：

C

语言实现的

HTTP

请求

/

响应消息解析器；

opengr aph

：一个用来解析

Open Graph
 协议标签的

Python

模块；

pefile

：一个多平台的用于解析和处理可移植执行体

(

即

PE)

文件的模块；

psd- tools

：将

Adobe Photoshop PSD(

即

PE)

文件读取到
Python

数据结构。

六、自然语言处理

NLTK

：编写

Python

程序来处理人类语言数据的最好平台；

Pattern

：

Python

的网络挖掘模块；


TextBlob

：为深入自然语言处理任务提供了一致的

API

。是基于

NLTK

以及

Pattern

的巨人之肩上发展的；

jieba

：中文分词工具；

SnowNLP

：中文文本处理库；

loso

：另一个中文分词库；

genius

：基于条件随机域的中文分词；

：独立的语言识别系统；

Korean

：一个韩文形态库；

4

/

8

-

-

-

-

-

-

-

-

本文更新与2021-02-12 02:49，由作者提供，不代表本网站立场，转载请注明出处：https://www.bjmy2z.cn/gaokao/640623.html

返回列表：英语

上一篇：翻译电气工程及其自动化专业英语3
下一篇：型式试验操作流程

当前您在：主页 > 英语 >

常用Python爬虫库汇总

-

-

-

-

-

-

-

-

-

返回列表：英语

常用Python爬虫库汇总的相关文章

爱心与尊严的高中作文题库

爱心与尊严高中作文题库

爱心与尊重的作文题库

爱心责任100字作文题库

爱心责任心的作文题库

爱心责任作文题库

爱心长在作文题库

爱心中国感恩励志作文题

爱心助考作文题库

爱心助农作文题库

爱心尊重宽容拒绝作文题

爱心尊重作文题库

爱心作文题库好段

爱心作文题库120字

爱心作文题库读者

爱心作文题库分论点

爱心作文题库简短

爱心作文有哪些题库

爱需要被尊重作文题库

爱需要传递200字作文题库

爱需要公平作文题库

爱需要行动作文800高中作

爱需要行动作文题库

爱需要交流与沟通作文题

当前您在： 主页 > 英语 >

-

-

-

-

-

-

-

-

-

常用Python爬虫库汇总的相关文章

当前您在：主页 > 英语 >