博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬姓名大全网站的姓名
阅读量:6923 次
发布时间:2019-06-27

本文共 1678 字,大约阅读时间需要 5 分钟。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
#coding=utf-8
import 
urllib2
import 
re
from 
bs4 
import 
BeautifulSoup
import 
sys
reload
(sys)  
sys.setdefaultencoding(
'utf-8'
def 
getHtml(url):
   
page
=
urllib2.urlopen(url)
   
html
=
page.read()
   
return 
html
url
=
"http://www.yw11.com/html/mi/3-85-0-1.htm"
user_agent
=
'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_4) AppleWebKit/600.7.12 (KHTML, like Gecko) Version/8.0.7 Safari/600.7.12'
headers
=
{
"User-Agent"
:user_agent}
request
=
urllib2.Request(url,headers
=
headers)
html
=
getHtml(request)
# print html
soup
=
BeautifulSoup(html,
'html.parser'
)
divs
=
soup.find_all(
'div'
,attrs
=
{
"class"
:
"listbox1_text"
})[
0
]
ul
=
divs.find_all(
'ul'
)[
0
]
lis
=
ul.find_all(
'li'
)
f
=
open
(
'name1.txt'
,
'a'
)
for 
index 
in 
range
(
len
(lis)):
    
# print lis[index].text
    
name
=
lis[index].text.lstrip()
    
f.write(name)
    
f.write(
'\r\n'
)
print 
"抓取了"
+
str
(index)
+
"个名字"
f.close()
f
=
open
(
'name1.txt'
,
'r'
)
lines
=
f.readlines()
print 
"当前一共有"
+
str
(
len
(lines))
f.close()

上面的程序是抓取网站起名网站

1
http:
/
/
www.yw11.com
/
namelist.php

的名字的,点开每个姓,可以查看要抓的数据的格式,分析一下数据的格式就可以很好的用BS匹配出来了。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
<div 
class
=
"listbox1_text"
>
    
<ul>
        
<li>
            
刘佳乐<
/
li>
        
<li>
            
刘慧娴<
/
li>
        
<li>
            
刘嘉源<
/
li>
        
<li>
            
刘建成<
/
li>
        
<li>
            
刘艾佳<
/
li>
。。。。。。。。。。。。。。。。。。。
            
刘威铭<
/
li>
        
<li>
            
刘焕军<
/
li>
        
<li>
            
刘舒锦<
/
li>
        
<li>
            
刘瑾炎<
/
li>
        
<li>
            
刘瑾昭<
/
li>
    
<
/
ul>
    
<div 
class
=
"clear"
>
        
&nbsp;<
/
div>
<
/
div>

PS:博主这里找到每个姓,然后打开他所在的页面提取网址然后粘贴到程序的。。。。还是有点麻烦。。。。应该想办法把那些网址全部匹配出来然后统一抓取。。。。。后期有时间再说吧。毕竟实验室项目需要自己造数据,时间有点紧~~

本文转自 努力的C 51CTO博客,原文链接:http://blog.51cto.com/fulin0532/1749909

转载地址:http://rvujl.baihongyu.com/

你可能感兴趣的文章
Android WebView 缓存处理
查看>>
Require的使用 CMD
查看>>
为什么软件定制项目难做?软件外包公司该怎么发展?
查看>>
官方揭秘OpenAI如何打败人类:10个月训练4.5万年
查看>>
一次前端面试经验总结
查看>>
POJ 2479 Maximum sum
查看>>
连线:微软Adobe同仇人忾 谋求配合抗衡苹果
查看>>
python中用os.system+sqlcmd执行sql脚本
查看>>
【PHP cookie | 欢迎效果】
查看>>
PB5.0 features/sysgen参数和ceconfig.h中宏定义的对应关系
查看>>
PHP与MySQL学习笔记8:重要概念与设计Web数据库
查看>>
11.22 访问日志不记录静态文件 11.23 访问日志切割 11.24 静态元素过期时间
查看>>
Bash脚本语法泛述
查看>>
SSH打通密钥后仍需要密码
查看>>
GZIP(1)
查看>>
在线压缩解压缩PHP代码
查看>>
使用vmware vdp备份2008虚机时,如果出错可以参考这篇文章。
查看>>
新网互联域名注册量动态:6月下旬净增3341个
查看>>
一台服务器的黑道生涯之六 保安来了
查看>>
LINUX的交换分区或交换文件SWAP的查看与维护
查看>>