1
TheSe7en Aug 14, 2012
贊一個!
|
2
neildd Aug 14, 2012
其实文件名是流水号的话,用wget一个命令就完成了,根本用不着写脚本。
|
3
ouankou OP @neildd 问题就是网页参数是流水号,而且从-6开始,变态⋯⋯。pdf地址内尾部是随机的6位数字,至少我看不出什么规律,所以就手动提取了。
类似这样的,最后六位数字每页都不同。 <PARAM NAME="SRC" VALUE=/bjm/bjwh/zrdl/200711/P020071117503730461643.pdf> |
4
zern Aug 14, 2012
|
5
huihen Aug 14, 2012
楼上不错
|
6
armoni Aug 14, 2012 curl提取pdf地址,然后wget,这事儿还是shell好使
|
7
twor2 Aug 14, 2012
赞一个
|
8
zhaobei92 Aug 17, 2012
pagesrc = str(fileHandle.read(), 'utf-8') 这句好像不能实现吧。
|
9
ouankou OP @zhaobei92 是的,那个编码选错了,这里贴的代码已经改了不少。这句改成了:
pagesrc = str(fileHandle.read(), 'euc-jp', 'ignore') 请参见: https://github.com/ouankou/Caribrenamer |