关键词不能为空

当前您在: 主页 > 英语 >

常用Python爬虫库汇总

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-02-12 02:49
tags:

-

2021年2月12日发(作者:tetsuya)


常用


Python


爬虫库汇总

< br>


Python


爬虫,全称


Py thon


网络爬虫,是一种按照一定的规则,自动地抓取


万维网 信息的程序或脚本,


主要用于抓取证券交易数据、


天气数据、< /p>


网站用户数


据和图片数据等,


Pytho n


为支持网络爬虫正常功能实现,内置了大量的库,主


要有以下 类型:



一、


Python

< p>
爬虫网络库



Python


爬虫网络库主要包括:


urllib



requests



grab



pycurl



urllib3

< p>


httplib2



R oboBrowser



MechanicalSoup



mechanize


< br>socket



Unirest


for


Python



hyper



PySocks



treq


以及


aiohttp


等。



二、


Pyt hon


网络爬虫框架



Python< /p>


网络爬虫框架主要包括:


grab



scrapy



pyspider



cola



port ia



restkit


以及

< p>
demiurge


等。



三、


HTML/XML


解析器



lxml



C


语言编 写高效


HTML/ XML


处理库,支持


XPath




cssselect


:解析


DOM


树和

CSS


选择器;



pyquery


:解析


DOM


树和

jQuery


选择器;



Beau tifulSoup


:低效


HTML/ XML


处理库,纯


Python


实现;



html5lib


:根据


WHAT WG


规范生成


HTML/ XML


文档 的


DOM


,该规范被用在现


在所有的浏 览器上;



feedparser


:解 析


RSS/ATOM feeds




MarkupSafe


:为


XML/H TML/XHTML


提供了安全转义的字符串;



1



/


8


xmltodict


:一个可以让你在处理

XML


时感觉像在处理


JSON


一 样的


Python


模块;


< p>
xhtml2pdf


:将


HTML/CSS


转换为


PDF



< /p>


untangle


:轻松实现将


XML< /p>


文件转换为


Python


对象;



Bleach


:清理


HTML(


需要


html5lib)




四、文本处理


difflib


:帮助进行差异化比较;



Levenshtein


:快速计算


Levensht ein


距离和字符串相似度;



fuz zywuzzy


:模糊字符串匹配;



esmre


:正则表达式加速器;


< /p>


ftfy


:自动整理


Unicode


文本,减少碎片化;



unidecode


:将


Unicode


文本转为


ASCII




uni out


:打印可读字符,而不是被转义的字符串;



chardet


:兼容


Python



2/3


的字符编码器;



xpinyin


:一个将中国汉字转为拼音的库;




:格式化文本中

CJK


和字母数字的间距。



awesome-slugify


:一个可以保留


unicode



Python slugify


库;



python- slugify


:一个可以将


Unicode

< br>转为


ASCII



Python slugify


库;



unicode- slugify


:一个可以将生成


Unicode slugs


的工具;



pytils< /p>


:处理俄语字符串的简单工具


(


包括


y)




PLY< /p>



lex



ya cc


解析工具的


Python


实现;< /p>



pyparsing


:一个通用框架的 生成语法分析器;



2



/


8


python- nameparser


:解析人的名字的组件;



phonenumbers


:解析,格式化,存储和验证国际电话号码;



python-user- agents


:浏览器用户代理的解析器;



HTTP Agent Parser



Python



HTTP


代理分析器 。



五、特定格式文件处理



tablib


:一个把数据导出为


XLS



CSV



JSON



YAML


等格式的模块;

< p>


textract


:从各种文件中提取文本,比 如


Word



PowerPoint



PDF


等;



messytables


:解析混乱的表格数据的工具;



rows


:一个常用数据接口,支持的格式 很多,目前支持


CSV



HTML



XLS



TXT




python-docx



读取,


查询和修改的


Microsoft


Word2007/2008



docx


文件;



xlwt / xlrd


:从


Exce l


文件读取写入数据和格式信息;



X lsxWriter


:一个创建



文件的


Python


模块;



xlwings


:一个


BSD


许可的库,可以很容易地在


Excel


中调用

< br>Python


,反之


亦然;


< /p>


openpyxl


:一个用于读取和写入的


Excel2010 XLSX/ XLSM/ xltx/ XLTM



件的库;



Marmir


:提取


Python

数据结构并将其转换为电子表格;



PDFMiner


:一个从


PDF


文档中提取信息的工具;< /p>



PyPDF2


:一个能够分割、合并和 转换


PDF


页面的库;



ReportLab


:允许快速创建丰富的


PDF< /p>


文档;



pdftables

< p>
:直接从


PDF


文件中提取表格;



3



/


8


Python-Markdown


:一个用


Python


实现的


John Gruber



Markdown


;< /p>



Mistune


:速度最快,功能全面 的


Markdown



Python< /p>


解析器;



markdown2


:一个完全用


Python


实现的快速的


Markdown




PyYAML


:一个


Python



YAML


解析器;


< br>cssutils


:一个


Python

< br>的


CSS


库;



feedparser


:通用的


feed


解析器;



sqlparse


:一个非验证的


SQL


语句分析器;



http-parser



C


语言实现的


HTTP


请求


/


响应消息解析器;



opengr aph


:一个用来解析


Open Graph

< br>协议标签的


Python


模块;



pefile


:一个多平台的用于解析和处理可移植执行体


(



PE)


文件的 模块;



psd- tools


:将


Adobe Photoshop PSD(< /p>



PE)


文件读取到

Python


数据结构。



六、自然语言处理



NLTK


:编写


Python


程序来处理人类语言数据的 最好平台;



Pattern



Python


的网络挖掘模块;


< p>
TextBlob


:为深入自然语言处理任务提供了一致的


API


。是基于


NLTK


以及


Pattern


的巨人之肩上发展的;



jieba


:中文分词工具;



SnowNLP


:中文文本处理库;



loso


:另一个中文分词库;



genius


:基于条件随机域的中文分词;




:独立的语言识别系统;



Korean


:一个韩文形态库;



4



/


8

-


-


-


-


-


-


-


-



本文更新与2021-02-12 02:49,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/640623.html

常用Python爬虫库汇总的相关文章