我要投稿
  • 您当前的位置:365bet官方 -> 技术教程 -> 办公软件教程 -> 教程内容
  • [ 收藏本页教程 ]
  • 用python来为自己办事-抓取网页内容用python来为自己办事-抓取网页内容

    教程作者:佚名    教程来源:不详   教程栏目:办公软件教程    收藏本页

    每天早上都要听美国总统电台演说,都没有保存资料。昨天上班上的郁闷特写一个python脚本自动抓取并保存该资料,python真是强大。从学到整个东西写完只用了1个多小时,去掉页面上的大量广告,只留下所需信息,自动保存为html文件。程序很简单,就不错说了看代码

    import sys,urllib
    url="http://www.putclub.com/html/radio/VOA/presidentspeech/index.html"
    wp = urllib.urlopen(url)
    print "start download..."
    content = wp.read()
    print content.count("center_box")
    index =  content.find("center_box")
    content=content[content.find("center_box")+1:]
    content=content[content.find("href="/html/jishu515)+7:content.find(.html"target")-2]
    filename = content
    url ="http://www.putclub.com/"+content
    print content
    wp = urllib.urlopen(url)
    print "start download..."
    content = wp.read()
    #print content
    print content.count("<div class=\"content\"")
    #content = content[content.find("<div class=\"content\""):]
    content = content[content.find("<!--info end------->"):]
    content = content[:content.find("<div class=\"dede_pages\"")-1]
    filename = filename[filename.find("presidentspeech")+len("presidentspeech/"):]
    filename = filename.replace('/',"-",filename.count("/"))
    fp = open(filename,"w+")
    fp.write(content)
    print content

    发表于: 2009-12-18 ,修改于: 2009-12-18 16:44,已浏览67次,有评论0条推荐投诉



    网友评论
    发表评论
    此博文原地址为:http://blog.chinaunix.net/u3/93893/showart_2125208.html
    我要投稿   -   广告合作   -   关于本站   -   友情连接   -   网站地图   -   联系我们   -   版权声明   -   设为首页   -   加入收藏   -   网站留言
    Copyright © 2009 - 20012 www.www.ct131.com All Rights Reserved.365bet官方 版权所有