博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python 搜索页面标签
阅读量:6148 次
发布时间:2019-06-21

本文共 1074 字,大约阅读时间需要 3 分钟。

import urllib2 from sgmllib import SGMLParser class ListName(SGMLParser):	def __init__(self):		SGMLParser.__init__(self)		self.is_h4=""		self.name=[]	def start_h4(self,attrs):		self.is_h4=1	def end_h4(self):		self.is_h4=""	def handle_data(self,text):		if self.is_h4==1:			self.name.append(text)#content = urllib2.urlopen('http://list.taobao.com/browse/cat-0.htm').read()listname = ListName()listname.feed(content)for item in listname.name:	print item.decode('gbk')

 显示以下内容:

虚拟票务

数码市场
家电市场
女装市场
男装市场
童装童鞋
女鞋市场
男鞋市场
内衣市场
箱包市场
服饰配件
珠宝饰品
美容市场
母婴市场
家居市场
日用市场
食品/保健
运动鞋服
运动户外
汽车摩托
玩具市场
文化用品市场
爱好市场
生活服务

 ---------------------

另一种方式:

pyQuery

是jQuery在python中的实现,能够以jQuery的语法来操作解析HTML文档,十分方便。使用前需要安装,easy_install pyquery即可,或者Ubuntu下

sudo apt-get install python-pyquery

以下例子:

from pyquery import PyQuery as pyqdoc=pyq(url=r'http://list.taobao.com/browse/cat-0.htm')cts=doc('.market-cat') for i in cts:	print '====',pyq(i).find('h4').text() ,'===='	for j in pyq(i).find('.sub'):		print pyq(j).text() ,	print '\n' --------------- (转)

转载于:https://www.cnblogs.com/xmyy/articles/2839363.html

你可能感兴趣的文章
代码描述10313 - Pay the Price
查看>>
jQuery最佳实践
查看>>
centos64i386下apache 403没有权限访问。
查看>>
vb sendmessage 详解1
查看>>
jquery用法大全
查看>>
PC-BSD 9.2 发布,基于 FreeBSD 9.2
查看>>
网卡驱动程序之框架(一)
查看>>
css斜线
查看>>
Windows phone 8 学习笔记(3) 通信
查看>>
重新想象 Windows 8 Store Apps (18) - 绘图: Shape, Path, Stroke, Brush
查看>>
Revit API找到风管穿过的墙(当前文档和链接文档)
查看>>
Scroll Depth – 衡量页面滚动的 Google 分析插件
查看>>
Windows 8.1 应用再出发 - 视图状态的更新
查看>>
自己制作交叉编译工具链
查看>>
Qt Style Sheet实践(四):行文本编辑框QLineEdit及自动补全
查看>>
[物理学与PDEs]第3章习题1 只有一个非零分量的磁场
查看>>
深入浅出NodeJS——数据通信,NET模块运行机制
查看>>
onInterceptTouchEvent和onTouchEvent调用时序
查看>>
android防止内存溢出浅析
查看>>
4.3.3版本之引擎bug
查看>>