在利用python进行就网页数据采集时,我们往往通过urllib或requests发送请求,返回的数据结构是json格式的,我们就使用json解析;其他格式的网页数据可以采用XPath(lxml)解析数据或者使用BeautifulSoup解析数据或者使用pyquery解析数据等很多方法。其中,pyquery同样是一个强大的网页解析工具,它提供了和jQuery类似的语法来解析HTML文档,支持CSS选择器,使用非常方便。
目录1、准备及初始化2、使用pyquery的CSS选择器(Selectors)基本使用3、伪类选择器4、遍历、获取信息(属性、文本)5、子(孙)节点,父(祖)节点查找、兄弟节点的查找6、节点操作1、准备及初始化#pipinstallpyquery#安装frompyqueryimportPyQueryaspq#引入importrequestshtml=divpclass="pidg"id="name"nba/ptdclass="nobrplayerdesktop"ahref="bucks"class="ng-binding"target="_parent"href1="/teams/#!/bucks"!--ngIf:row.clinched--密尔沃基nbsp;雄鹿bnba/b/a/tdtrdata-ng-repeat="(i,row)inpage"index="0"class="ng-scope"tdclass="nobrcenterboldng-binding_0"href="href01"6/tdtdclass="nobrcenterbolddesktopng-binding"18nbsp;-nbsp;4/tdtdclass="nobrcenterbolddesktopng-binding"胜6/tdtdclass="nobrcenterbolddesktopng-binding".5/td/tr/div*************1、初始化***********************doc=pq(html)#初始化:它的初始化方式有多种,比如直接传入字符串,传入URL,传人文件名,等等。#doc=pq(requests.get(