博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python通过HTTP协议定期抓取文件
阅读量:5815 次
发布时间:2019-06-18

本文共 879 字,大约阅读时间需要 2 分钟。

分类:
698人阅读
(1)

 

可以扩充成为简单的抓取工具,定时抓取

 

#
!usr/bin/python
import
 urllib2,time;
class
 ErrorHandler(urllib2.HTTPDefaultErrorHandler):
    
def
 http_error_default(self, req, fp, code, msg, headers):
        result 
=
 urllib2.HTTPError(req.get_full_url(), code, msg, headers, fp)
        result.status 
=
 code
        
return
 result
URL
=
'
http://www.ibm.com/developerworks/js/ajax1.js
'
req
=
urllib2.Request(URL)
mgr
=
urllib2.build_opener(ErrorHandler())
while
 True:
    ns
=
mgr.open(req)
    
if
(ns.headers.has_key(
'
last-modified
'
)):
        modified
=
ns.headers.get(
'
last-modified
'
)
    
if
(ns.code
==
304
):
        
print
 
'''
          ==============================
              NOT MODIFIED
          ==============================
        
'''
    
elif
(ns.code
==
200
):
        
print
 ns.read()
    
else
:
        
print
 
'
there is an error
'
;
        
    
if
(
not
 locals().has_key(
'
modified
'
)):
        modified
=
time.time();
    req.add_header(
'
If-Modified-Since
'
,modified)
    time.sleep(
10
)

转载地址:http://ngmbx.baihongyu.com/

你可能感兴趣的文章
关于Android四大组件的学习总结
查看>>
java只能的round,ceil,floor方法的使用
查看>>
由于无法创建应用程序域,因此未能执行请求。错误: 0x80070002 系统找不到指定的文件...
查看>>
新开的博客,为自己祝贺一下
查看>>
puppet任务计划
查看>>
【CQOI2011】放棋子
查看>>
采用JXL包进行EXCEL数据写入操作
查看>>
一周总结
查看>>
将txt文件转化为json进行操作
查看>>
线性表4 - 数据结构和算法09
查看>>
C语言数据类型char
查看>>
Online Patching--EBS R12.2最大的改进
查看>>
Binary Search Tree Iterator leetcode
查看>>
Oracle性能优化--DBMS_PROFILER
查看>>
uva-317-找规律
查看>>
Event事件的兼容性(转)
查看>>
我的2014-相对奢侈的生活
查看>>
zoj 2412 dfs 求连通分量的个数
查看>>
Java设计模式
查看>>
一文读懂 AOP | 你想要的最全面 AOP 方法探讨
查看>>