URN Logo
UNIX Resources » Linux » China Linux Forum » Python 编 程 » 20 » 小程序:crawl 2.0发布
announcement 声明: 本页内容为中国Linux论坛的内容镜像,文章的版权以及其他所有的相关权利属于中国Linux论坛和相应文章的作者,如果转载,请注明文章来源及相关版权信息。
Resources
China Linux Forum(finished)
Linux Forum(finished)
FreeBSD China(finished)
linuxforum.net
  业界新闻与评论
  自由软件杂谈
  IT 人生
  Linux软件快递
  翻译作坊
  Linux图书与评论
  GNU Emacs/XEmacs
  Linux 中文环境和中文化
  Linux桌面与办公软件
  Linux 多媒体与娱乐版
  自由之窗Mozilla
  笔记本电脑上的Linux
  Gentoo
  Debian 一族
  网络管理技术
  Linux 安装与入门
  WEB服务器和FTP服务器
  域名服务器和邮件服务器
  Linux防火墙和代理服务器应用
  文件及打印服务器
  技术培训与认证
  Linux内核技术
  Linux 嵌入技术
  Linux设备驱动程序
  Linux 集群技术
  LINUX平台数据库
  系统和网络安全
  CPU 与 编译器
  系统计算研究所专栏
  Linux下的GUI软件开发
  C/C++编程版
  PHP 技 术
  Java&jsp技术
  Shell编程技术
  Perl 编 程
  Python 编 程
  XML/Web Service 技术
  永远的Unix
  FreeBSD世界
   
小程序:crawl 2.0发布
小程序:crawl 2.0发布 - limodou [2004-03-04 22:08 | 316 byte(s)]
 
Re: 小程序:crawl 2.0发布 - czz [2004-03-06 18:48 | 8 byte(s)]
 
Re: 小程序:crawl 2.0发布 - limodou [2004-03-06 21:20 | 92 byte(s)]
 
Re: 小程序:crawl 2.0发布 - xyb [2004-03-07 10:58 | 149 byte(s)]
 
Re: 小程序:crawl 2.0发布 - czz [2004-03-06 21:26 | 74 byte(s)]
 
Re: 小程序:crawl 2.0发布 - limodou [2004-03-07 15:05 | 64 byte(s)]
 
Re: 小程序:crawl 2.0发布 - yikuf [2004-03-07 20:12 | 162 byte(s)]
 
Re: 小程序:crawl 2.0发布 - xyb [2004-03-07 20:38 | 138 byte(s)]
 
Re: 小程序:crawl 2.0发布 - limodou [2004-03-07 20:43 | 210 byte(s)]
 
Re: 小程序:crawl 2.0发布 - xyb [2004-03-07 21:03 | 287 byte(s)]
 
Re: 小程序:crawl 2.0发布 - limodou [2004-03-08 09:10 | 58 byte(s)]
 
Re: 小程序:crawl 2.0发布 - yikuf [2004-03-08 11:00 | 444 byte(s)]
 
Re: 小程序:crawl 2.0发布 - limodou [2004-03-08 11:21 | 146 byte(s)]
 
Re: 小程序:crawl 2.0发布 - yikuf [2004-03-07 22:41 | 388 byte(s)]
 
Re: 小程序:crawl 2.0发布 - limodou [2004-03-08 09:03 | 163 byte(s)]
 
Re: 小程序:crawl 2.0发布 - xyb [2004-03-07 15:25 | 183 byte(s)]
 
Re: 小程序:crawl 2.0发布 - czz [2004-03-07 15:11 | 45 byte(s)]
 
Re: 小程序:crawl 2.0发布 - limodou [2004-03-07 20:40 | 182 byte(s)]
 
Re: 小程序:crawl 2.0发布 - czz [2004-03-07 20:42 | 46 byte(s)]
 
Subject: 小程序:crawl 2.0发布
Author: limodou    Posted: 2004-03-04 22:08    Length: 316 byte(s)
[Original] [Print] [Top]
crawl是一个抓网页的小程序。你可以输入一个地址,它会自动将此地址下的相关链接下载到本地。它不是一个很强大的工具,但对于下载网上的教程之类的东西应该足够了。而且还支持代理服务器。有兴趣的试试吧。

在我的主页上有。http://writedown.126.com

同时还有几篇关于DocBook学习的文章可以看一看。
----
Python在向你招手(http://writedown.126.com)
[Original] [Print] [Top]
Subject: Re: 小程序:crawl 2.0发布
Author: czz    Posted: 2004-03-06 18:48    Length: 8 byte(s)
[Original] [Print] [Top]
wget??
[Original] [Print] [Top]
Subject: Re: 小程序:crawl 2.0发布
Author: limodou    Posted: 2004-03-06 21:20    Length: 92 byte(s)
[Original] [Print] [Top]
不是。wget我没用过。这个算是个原创吧。因为有源码,有不满意的地方可以马上修改。好处就在这里。
----
Python在向你招手(http://writedown.126.com)
[Original] [Print] [Top]
Subject: Re: 小程序:crawl 2.0发布
Author: czz    Posted: 2004-03-06 21:26    Length: 74 byte(s)
[Original] [Print] [Top]
我是说,功能和wget相似。

wget用的非常广泛。rh带这个包。
[Original] [Print] [Top]
Subject: Re: 小程序:crawl 2.0发布
Author: xyb    Posted: 2004-03-07 10:58    Length: 149 byte(s)
[Original] [Print] [Top]
我一般下载都用 wget 和 curl,很方便,想用他们编制复杂的脚本也没有问题。但没有特殊要求,只想 mirror 一个网站或一组文件时,我也常用 httrack,也很好用。
[Original] [Print] [Top]
Subject: Re: 小程序:crawl 2.0发布
Author: limodou    Posted: 2004-03-07 15:05    Length: 64 byte(s)
[Original] [Print] [Top]
可能是。不过我常在windows下使用,在windows下没有用过类似的东西。
----
Python在向你招手(http://writedown.126.com)
[Original] [Print] [Top]
Subject: Re: 小程序:crawl 2.0发布
Author: czz    Posted: 2004-03-07 15:11    Length: 45 byte(s)
[Original] [Print] [Top]
wget有windows版本的。你做了个国产的,很不错。
[Original] [Print] [Top]
Subject: Re: 小程序:crawl 2.0发布
Author: xyb    Posted: 2004-03-07 15:25    Length: 183 byte(s)
[Original] [Print] [Top]
httrack 有windows的发布:
http://www.httrack.com/page/2/en/index.html
[Original] [Print] [Top]
Subject: Re: 小程序:crawl 2.0发布
Author: yikuf    Posted: 2004-03-07 20:12    Length: 162 byte(s)
[Original] [Print] [Top]
头定义 coding:gb2312 在XP的2.3.3上无法解析。有没有办法可以不修改PYTHON原代码,只是预先申明就可以支持中文,因我搜索精华部分,都要对python本身代码动刀。觉得不是很好
[Original] [Print] [Top]
Subject: Re: 小程序:crawl 2.0发布
Author: xyb    Posted: 2004-03-07 20:38    Length: 138 byte(s)
[Original] [Print] [Top]
把原来文件的第一行:
#coding=gb2312
改成:
# -*- coding: GB2312 -*-
除了这样,恐怕现在还没有别的办法。
[Original] [Print] [Top]
Subject: Re: 小程序:crawl 2.0发布
Author: limodou    Posted: 2004-03-07 20:40    Length: 182 byte(s)
[Original] [Print] [Top]
不敢是国产的。这个小程序也是先从《Python核心编程》上抄来的,后来觉得有点用,然后就改了改,加入了一些新的功能。本来是想自已用的,不过也想让大家用一用。也没有想代替别人什么东西的意思。
----
Python在向你招手(http://writedown.126.com)
[Original] [Print] [Top]
Subject: Re: 小程序:crawl 2.0发布
Author: czz    Posted: 2004-03-07 20:42    Length: 46 byte(s)
[Original] [Print] [Top]
那好,我好的点子,就告诉你。大家一起“国产”。
[Original] [Print] [Top]
Subject: Re: 小程序:crawl 2.0发布
Author: limodou    Posted: 2004-03-07 20:43    Length: 210 byte(s)
[Original] [Print] [Top]
不过我的写法也应该符合要求的呀。Python文档上说的是:coding[=:]s*([w-_.]+)
因此我的写法应该不会有错。而且我是在windows 98上使用Python 2.3.3 执行的,就没有出错。XP因为没有环境,没试过。我还一直在用98呢。
----
Python在向你招手(http://writedown.126.com)
[Original] [Print] [Top]
Subject: Re: 小程序:crawl 2.0发布
Author: xyb    Posted: 2004-03-07 21:03    Length: 287 byte(s)
[Original] [Print] [Top]
这倒也是,重新看了看rep263和c代码,发现就是符合这个正则表达式就行了。以前没仔细看,是直接照抄263上给出的那个例子,一直还觉得很纳闷:难道python的人都喜欢用emacs?!按说在xp上不应该有什么差异的。不知道那位同志的问题出在什么地方。

还在用98呀,是不是感觉速度比较快,嘿嘿。
[Original] [Print] [Top]
Subject: Re: 小程序:crawl 2.0发布
Author: yikuf    Posted: 2004-03-07 22:41    Length: 388 byte(s)
[Original] [Print] [Top]

就是上面这个,s输出的是内码,而print却可以正常显示中文。但按理应该2者输出是一样的。有点糊涂了
还有:

在IDLE里面手工输入都可以正常识别GB2312,却无法在命令行中识别,奇怪。GB2312/gb2312是一样的。
[Original] [Print] [Top]
Subject: Re: 小程序:crawl 2.0发布
Author: limodou    Posted: 2004-03-08 09:03    Length: 163 byte(s)
[Original] [Print] [Top]
你可以修改python/lib/encodings目录下的aliases.py文件,在大概298行处,增加:
'gb2312':'mbcs',
再试试。 windows下这样改,linux要增加codec解码文件。
----
Python在向你招手(http://writedown.126.com)
[Original] [Print] [Top]
Subject: Re: 小程序:crawl 2.0发布
Author: limodou    Posted: 2004-03-08 09:10    Length: 58 byte(s)
[Original] [Print] [Top]
我的机器内存小,而且装得东西又多,所以一直还没换呢。呵呵。
----
Python在向你招手(http://writedown.126.com)
[Original] [Print] [Top]
Subject: Re: 小程序:crawl 2.0发布
Author: yikuf    Posted: 2004-03-08 11:00    Length: 444 byte(s)
[Original] [Print] [Top]
我如您所说,修改了别名那段代码,,但如果
>>>s="大家"
>>>s
'xb4xf3xbcxd2'
为什么print能正常显示,而s不行。
而在Tkinter中

还是不行。难道还要如同2.2版本以前一样,修改 c:Python22Libsite.py中的把encoding = "ascii"改encoding = "mbcs"吗?谢谢
[Original] [Print] [Top]
Subject: Re: 小程序:crawl 2.0发布
Author: limodou    Posted: 2004-03-08 11:21    Length: 146 byte(s)
[Original] [Print] [Top]
tkinter中使用的是unicode,所以直接使用中文不行,而要用unicode才可以。可以使用unicode()内置函数。你说得这个问题是tcl/tk的问题,与python无直接关系。
----
Python在向你招手(http://writedown.126.com)
[Original] [Print] [Top]
« Previous thread
看《Mod_python Manual》产生的一个疑问
Python 编 程
20
Next thread »
有问题请教。
     

Copyright © 2007 UNIX Resources Network, All Rights Reserved.      About URN | Privacy & Legal | Help | Contact us
备案序号: 京ICP备05006143    webmaster: webmaster@unixresources.net
This page created on 2008-07-17 04:11:43, cost 0.078639984130859 ms.