-
常用
Python
爬虫库汇总
< br>
Python
爬虫,全称
Py
thon
网络爬虫,是一种按照一定的规则,自动地抓取
万维网
信息的程序或脚本,
主要用于抓取证券交易数据、
天气数据、<
/p>
网站用户数
据和图片数据等,
Pytho
n
为支持网络爬虫正常功能实现,内置了大量的库,主
要有以下
类型:
一、
Python
爬虫网络库
Python
爬虫网络库主要包括:
urllib
、
requests
、
grab
、
p>
pycurl
、
urllib3
、
httplib2
、
R
oboBrowser
、
MechanicalSoup
p>
、
mechanize
、
< br>socket
、
Unirest
for
Python
、
hyper
、
PySocks
、
treq
以及
aiohttp
p>
等。
二、
Pyt
hon
网络爬虫框架
Python<
/p>
网络爬虫框架主要包括:
grab
、
p>
scrapy
、
pyspider
、
cola
、
port
ia
、
restkit
以及
demiurge
等。
三、
HTML/XML
解析器
lxml
:
C
语言编
写高效
HTML/ XML
处理库,支持
XPath
;
cssselect
:解析
DOM
树和
CSS
选择器;
pyquery
:解析
DOM
树和
jQuery
选择器;
Beau
tifulSoup
:低效
HTML/ XML
处理库,纯
Python
实现;
html5lib
:根据
WHAT
WG
规范生成
HTML/ XML
文档
的
DOM
,该规范被用在现
在所有的浏
览器上;
feedparser
:解
析
RSS/ATOM feeds
;
MarkupSafe
:为
XML/H
TML/XHTML
提供了安全转义的字符串;
1
/
8
xmltodict
:一个可以让你在处理
XML
时感觉像在处理
JSON
一
样的
Python
模块;
xhtml2pdf
:将
HTML/CSS
转换为
PDF
;
<
/p>
untangle
:轻松实现将
XML<
/p>
文件转换为
Python
对象;
Bleach
:清理
HTML(
需要
html5lib)
;
四、文本处理
difflib
:帮助进行差异化比较;
Levenshtein
:快速计算
Levensht
ein
距离和字符串相似度;
fuz
zywuzzy
:模糊字符串匹配;
esmre
:正则表达式加速器;
<
/p>
ftfy
:自动整理
Unicode
p>
文本,减少碎片化;
unidecode
:将
Unicode
文本转为
ASCII
;
uni
out
:打印可读字符,而不是被转义的字符串;
chardet
:兼容
Python
的
2/3
的字符编码器;
xpinyin
:一个将中国汉字转为拼音的库;
:格式化文本中
CJK
和字母数字的间距。
awesome-slugify
:一个可以保留
unicode
的
Python
slugify
库;
python-
slugify
:一个可以将
Unicode
< br>转为
ASCII
的
Python
slugify
库;
unicode-
slugify
:一个可以将生成
Unicode
slugs
的工具;
pytils<
/p>
:处理俄语字符串的简单工具
(
包括
p>
y)
;
PLY<
/p>
:
lex
和
ya
cc
解析工具的
Python
实现;<
/p>
pyparsing
:一个通用框架的
生成语法分析器;
2
/
8
python-
nameparser
:解析人的名字的组件;
phonenumbers
:解析,格式化,存储和验证国际电话号码;
p>
python-user-
agents
:浏览器用户代理的解析器;
HTTP Agent Parser
:
Python
的
HTTP
代理分析器
。
五、特定格式文件处理
tablib
:一个把数据导出为
XLS
、
CSV
、
JSON
、
YAML
等格式的模块;
textract
:从各种文件中提取文本,比
如
Word
、
PowerPoint
、
PDF
等;
messytables
:解析混乱的表格数据的工具;
rows
:一个常用数据接口,支持的格式
很多,目前支持
CSV
,
HTML
p>
,
XLS
,
TXT
;
python-docx
:
读取,
查询和修改的
Microsoft
Word2007/2008
的
docx
文件;
xlwt / xlrd
:从
Exce
l
文件读取写入数据和格式信息;
X
lsxWriter
:一个创建
文件的
Python
模块;
xlwings
:一个
BSD
许可的库,可以很容易地在
Excel
中调用
< br>Python
,反之
亦然;
<
/p>
openpyxl
:一个用于读取和写入的
Excel2010 XLSX/ XLSM/ xltx/
XLTM
文
件的库;
Marmir
:提取
Python
数据结构并将其转换为电子表格;
PDFMiner
p>
:一个从
PDF
文档中提取信息的工具;<
/p>
PyPDF2
:一个能够分割、合并和
转换
PDF
页面的库;
ReportLab
:允许快速创建丰富的
PDF<
/p>
文档;
pdftables
:直接从
PDF
文件中提取表格;
3
/
8
Python-Markdown
:一个用
Python
实现的
John
Gruber
的
Markdown
;<
/p>
Mistune
:速度最快,功能全面
的
Markdown
纯
Python<
/p>
解析器;
markdown2
:一个完全用
Python
实现的快速的
Markdown
;
PyYAML
:一个
Python
的
YAML
解析器;
< br>cssutils
:一个
Python
< br>的
CSS
库;
feedparser
:通用的
feed
解析器;
sqlparse
:一个非验证的
SQL
语句分析器;
http-parser
:
C
语言实现的
HTTP
请求
/
响应消息解析器;
opengr
aph
:一个用来解析
Open Graph
< br>协议标签的
Python
模块;
pefile
:一个多平台的用于解析和处理可移植执行体
p>
(
即
PE)
文件的
模块;
psd-
tools
:将
Adobe Photoshop PSD(<
/p>
即
PE)
文件读取到
Python
数据结构。
六、自然语言处理
NLTK
:编写
Python
程序来处理人类语言数据的
最好平台;
Pattern
:
Python
的网络挖掘模块;
TextBlob
:为深入自然语言处理任务提供了一致的
API
。是基于
NLTK
以及
Pattern
的巨人之肩上发展的;
jieba
:中文分词工具;
SnowNLP
:中文文本处理库;
loso
:另一个中文分词库;
p>
genius
:基于条件随机域的中文分词;
:独立的语言识别系统;
Korean
:一个韩文形态库;
4
/
8
-
-
-
-
-
-
-
-
-
上一篇:翻译电气工程及其自动化专业英语3
下一篇:型式试验操作流程