V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
plart
V2EX  ›  Python

收集整理 Python 爬虫的工具,求 PR

  •  
  •   plart · Aug 7, 2018 · 3815 views
    This topic created in 2820 days ago, the information mentioned may be changed or developed.

    对于 Python 的学习,有个关键又极其适合练手的应用场景——网络爬虫。

    之前在做类似项目的时候,发现总是会找不到合适的工具以及不清楚对应工具的应用方法及场景,所以想要整理一份小集合,希望可以帮助自己以及其他有需求的人,目前我简单整理了一下,但是有些说明是直接复制的英文,没有翻译,以及可能感觉格式、板式,尚需完善,但是自己暂时没有太多想法,希望有人可以帮助自己共同进步。

    page 地址 page

    项目地址(强烈建议 PR )https://github.com/lartpang/spyder_tool

    11 replies    2018-08-19 19:41:38 +08:00
    timboy
        1
    timboy  
       Aug 7, 2018
    phantomjs 已经不被新版 selenium 支持了,得用 Headless Chrome( http://chromedriver.storage.googleapis.com/index.html)和 Headless Firefox(这个暂时没用过)
    beny2mor
        2
    beny2mor  
       Aug 7, 2018
    先观望( watch )下
    timboy
        3
    timboy  
       Aug 7, 2018
    charles 也可以做抓包
    SpiderXiantang
        4
    SpiderXiantang  
       Aug 7, 2018   ❤️ 1
    工具:Fiddler/Chrome(调试 js)
    渲染:Pyqt5/scrapy-splash
    解析:lxml/re
    下载:requests/aiohttp(异步)
    队列:Queue(爬虫队列)
    增速:thread/mutilprocessing/gevent
    数据库:pymysql/redis/sqlalchemy(ORM)
    其他:fack-user-agent
    brucedone
        5
    brucedone  
       Aug 7, 2018
    https://github.com/BruceDone/awesome-crawler , 已经有类似的了,收集的也相对齐全
    xFrank
        6
    xFrank  
       Aug 7, 2018
    缺失最重要组件:验证码识别
    hellwys1
        7
    hellwys1  
       Aug 7, 2018
    mark
    tanglijun
        8
    tanglijun  
       Aug 8, 2018
    还有最重要也是最容易忽略的一点:数据分析
    这个归纳的挺好的 https://www.zhihu.com/question/20899988/answer/58388759
    plart
        9
    plart  
    OP
       Aug 9, 2018
    @brucedone 感谢
    plart
        10
    plart  
    OP
       Aug 9, 2018
    我会再考虑下这个仓库存在的必要性,或者说进一步进行提升。
    plart
        11
    plart  
    OP
       Aug 19, 2018
    进行了一下想法的调整,感觉仓库存在是值得滴。

    且行且看吧!
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1199 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 41ms · UTC 23:25 · PVG 07:25 · LAX 16:25 · JFK 19:25
    ♥ Do have faith in what you're doing.