V2EX › Scrapy

现在大型的爬虫项目用的是什么框架， scrapy 过时了吗

程序员 • pureGirl • 2025 年 12 月 17 日 • 最后回复来自 xjiang1982154112

14

急需会爬虫的老哥们，兼职。。。。。

酷工作 • fanweiguo • 2025 年 7 月 11 日 • 最后回复来自 zzj0311

12

2025 年如果还想做一些爬虫相关的任务，还是首选 scrapy 吗？

问与答 • rainbowmorel • 2025 年 5 月 21 日 • 最后回复来自 rainbowmorel

9

要怎么实现快速爬取 1w 个网站呢？

1

程序员 • baozaodexiaomila • 2025 年 4 月 15 日 • 最后回复来自 YJi

14

scrapy 的 item 队列把内存挤爆

Python • bwijn • 2025 年 2 月 22 日 • 最后回复来自 baozaodexiaomila

6

[求助] 使用 scrapy 爬 nytimes, html 中时间的值总是错误的

程序员 • CareiOS • 2025 年 1 月 24 日 • 最后回复来自 alabrala

3

写的 Scrapy 爬虫程序在 For 循环中会漏爬很多数据

Python • Windy418 • 2024 年 12 月 25 日 • 最后回复来自 wineast

14

使用 scrapy 对多个站点爬虫采集，每个站点都创建一个 scrapy 的项目，如果有部分代码或函数多个项目都是通用的时候。应该如何处理呢？

问与答 • xoxo419 • 2024 年 10 月 28 日 • 最后回复来自 clysto

9

scrapy 爬虫采集多个站点，会不断增加站点，如何工程化项目呢是把全部站点的爬虫写到一个 scrapy 还是每个站点都创建一个 scrapy 工程？

问与答 • xoxo419 • 2024 年 10 月 25 日 • 最后回复来自 Pepsigold

3

Scrapy 断点续爬

问与答 • joker2026 • 2024 年 9 月 18 日 • 最后回复来自 Phant0m

2

sqlalchemy 使用疑问，每次表改了， model 也要改，感觉好麻烦，你们是怎么解决的

问与答 • hahahalololo • 2024 年 3 月 4 日 • 最后回复来自 lonisletend

6

大佬们， scrapy 请求会自动跳转的 url，跳转后的新 url 请求，不会带上 cookies，请问怎么弄才能跳转后也带上 cookies

问与答 • hahahalololo • 2024 年 1 月 10 日 • 最后回复来自 hahahalololo

2

求教同样的 url 参数头部 cookies， scrapy 请求返回验证码， requests 直接请求就正常，代码如下

HTTP • hahahalololo • 2024 年 1 月 9 日 • 最后回复来自 hahahalololo

2

推荐下我的 scrapy 扩展工具

Python • ayugesheng • 2024 年 1 月 8 日 • 最后回复来自 ayugesheng

12

Scrapy 异步问题求助

Python • kekeones • 2023 年 12 月 28 日 • 最后回复来自 kekeones

7

就 web 爬虫来说， scrapy， selenium 之类的爬虫框架和自己用 chrome 扩展做爬虫有啥区别？

程序员 • Features • 2023 年 9 月 18 日 • 最后回复来自 locoz

29

[杭州 / 幻方量化] 高级数据采集工程师（AGI）

酷工作 • xiaoxianyu • 2023 年 8 月 1 日 • 最后回复来自 xiaoxianyu

5

关于 Scrapy 请求的 header 自动转换为 bytes 导致请求失败的问题。

Python • kaiger • 2022 年 8 月 29 日 • 最后回复来自 Nostalgia

2

pyspider 是弃坑了么..有啥类似的集成式的爬虫框架推荐不

问与答 • l0wkey • 2022 年 4 月 19 日 • 最后回复来自 l0wkey

8

Scrapy Scapy spaCy 分不清了

Python • zscself • 2022 年 3 月 5 日 • 最后回复来自 winterbells

7

分享一个 IPTV 爬虫

分享发现 • yscg • 2022 年 1 月 14 日 • 最后回复来自 yscg

6

scrapy xpath 取值为空

问与答 • CaptainD • 2021 年 12 月 22 日 • 最后回复来自 CaptainD

3

scrapy 反爬问题

问与答 • CaptainD • 2021 年 11 月 29 日 • 最后回复来自 CaptainD

2

scrapy 部署之后是怎么和后台管理传递信息的？

Python • featureoverload • 2021 年 11 月 9 日 • 最后回复来自 996635

6

JavaScript 爬虫方案有推荐的吗？

JavaScript • dcsuibian • 2021 年 10 月 19 日 • 最后回复来自 dcsuibian

10

发现一个 scrapy 的奇怪问题

Python • daiqiangbudainiu • 2021 年 8 月 6 日 • 最后回复来自 zhijiansha

1

scrapy 设置 cookie 有的时候会失效是怎么回事？

Python • ZoeYn • 2021 年 6 月 7 日 • 最后回复来自 ZoeYn

1

[深圳] 中年全栈程序员求职

职场话题 • vf2020 • 2021 年 3 月 27 日 • 最后回复来自 idragonet

15

Scrapy 使用 SOCKS5 代理的好方法是啥呢？

Python • Te11UA • 2021 年 3 月 21 日 • 最后回复来自 Kobayashi

3

[深圳] Automizely/AfterShip 招聘高级/资深 Python 工程师

酷工作 • alvie • 2021 年 3 月 5 日 • 最后回复来自 linw1995

2

为什么抓不到 scrapy 的包

Python • tuoov • 2021 年 2 月 20 日 • 最后回复来自 ch2

6

打算搞一个在线爬虫平台

奇思妙想 • alexchinatests • 2021 年 5 月 8 日 • 最后回复来自 linktom

27

强大高效而精简易用的 Golang 爬虫框架 Colly，能否取代 Scrapy？

2

程序员 • tikazyq • 2022 年 11 月 19 日 • 最后回复来自 cugxuan

12

关于 scrapy 的几个问题

问与答 • 13936 • 2020 年 7 月 24 日 • 最后回复来自 13936

3

如何让 scrapy 返回数据？

Python • smallgoogle • 2020 年 7 月 20 日 • 最后回复来自 Fizzyi

15

conda 安装框架的问题

Python • shunconf • 2020 年 6 月 30 日 • 最后回复来自 Muniesa

2

scrapy 项目中怎么获取代理 IP 呢

Python • aladdindingding • 2020 年 6 月 18 日 • 最后回复来自 1018ji

6

用 scrapy +selenium 练习采集，怎么都输出一些这个，是哪里设置的不对？

Python • python30 • 2020 年 5 月 29 日 • 最后回复来自 python30

4

快毕业了，该怎么办？

问与答 • t298 • 2020 年 5 月 7 日 • 最后回复来自 YadongZhang

7

scrapy 十几个项的优雅部署方案？后期方便修改爬虫和好维护的

Python • songdezu • 2020 年 5 月 6 日 • 最后回复来自 tikazyq

5

重构蜘蛛，现在选择是基于 crawlab 还是 DotnetSpider 还是其他更好的选择？

程序员 • songdezu • 2020 年 5 月 6 日 • 最后回复来自 tikazyq

3

分享两张阅读 scrapy 源码整理的其程序设计框图（其循环逻辑） - 欢迎指正

Python • oahebky • 2020 年 5 月 3 日 • 最后回复来自 xingheng

5

Scrapy CrawlSpider rules 中的 callback 未被调用

Python • gsz2015 • 2020 年 3 月 13 日 • 最后回复来自 gsz2015

5

在用 scrapy 写爬虫的时候，想爬 1 万条，实际只爬了 1000 条，如何解决

1

Python • Colorful • 2020 年 5 月 19 日 • 最后回复来自 Skyline57

29

爬虫小白，想请教几个问题

Python • Colorful • 2020 年 3 月 6 日 • 最后回复来自 Colorful

6

scrapy 好像会丢任务

Python • daiqiangbudainiu • 2020 年 3 月 4 日

写了一个代理池, 觉得不错的点个 star 咯

Python • zone10 • 2019 年 12 月 17 日

求解 scrapy 爬取报错问题

Python • yifengs • 2019 年 11 月 25 日 • 最后回复来自 yifengs

3

Selenium + scrapy 采集微信公众平台出现如示错误。Google Chrome 78.0.3904.87 (正式版本) （64 位） (cohort: 78_87_Win) 应该用什么版本的 chrome 驱动？

Python • python30 • 2019 年 11 月 8 日 • 最后回复来自 python30

7

付费寻找深圳地区会 scrapy 和 PHP 的师傅带

问与答 • linfox • 2019 年 10 月 28 日 • 最后回复来自 linfox

9

scrapy 扫描目录下所有 py 文件并坚持错误

问与答 • okface • 2019 年 10 月 15 日 • 最后回复来自 ClericPy

1

如果用 scrapy 抓取多个不同的站点放在同一个 spider 里,用下面哪种方法好点?

Python • python30 • 2019 年 9 月 29 日 • 最后回复来自 tisswb

2

为什么诸位老哥的爬虫的都是自己写的，不用 scrapy 呢？

问与答 • wellhome • 2019 年 9 月 18 日 • 最后回复来自 niknik

26

scrapy 在搜狗微信按时间段搜索时，返回的源码是“无搜索结果”

程序员 • zdnyp • 2019 年 9 月 18 日 • 最后回复来自 zdnyp

3

萌新又来了 scrapy 启动时能不能传参数

Python • wersonliu9527 • 2019 年 9 月 17 日 • 最后回复来自 wersonliu9527

2

分享一个 scrapy 爬虫用的插件

Python • UserNameisNull • 2019 年 8 月 29 日

为什么 scrapy 框架选择使用 Twisted 而不是 asyncio+aiohttp 等实现？

Python • waibunleung • 2019 年 8 月 27 日 • 最后回复来自 julyclyde

8

请教下用 scrapy 如何抓 1688 上的商品数据呢？

Python • MrMike • 2020 年 3 月 16 日 • 最后回复来自 yangqinger

15

scrapydweb 和 spiderkeeper 有什么区别？

Python • aaronhua • 2019 年 8 月 29 日 • 最后回复来自 15399905591

12

Scrapy 的 Middleware 为什么要用字典的形式设置顺序而不直接用一个列表?

Python • morefreeze • 2019 年 8 月 21 日 • 最后回复来自 lshu

1

[求助] Scrapy 报错 KeyError: 'item'

问与答 • viiii • 2019 年 8 月 21 日 • 最后回复来自 warcraft1236

7

管理和监控 Scrapy 爬虫项目和 Scrapyd 集群的最佳实践

程序员 • my8100 • 2019 年 8 月 19 日 • 最后回复来自 luzihang

1

请问如何在 scrapy 中使用非阻塞暂停

Python • zpwsmile • 2019 年 8 月 5 日 • 最后回复来自 zpwsmile

2

scrapy FilesPipeline 下载视频文件问题

1

Python • ranlele • 2019 年 7 月 17 日 • 最后回复来自 locoz

4

[不懂就问] Scrapy 这类框架到底好在哪里？

Python • JCZ2MkKb5S8ZX9pq • 2019 年 7 月 17 日 • 最后回复来自 leopku

11

请问一下 scrapy 爬虫的 received_count 和 scraped_count 相差很大是什么原因？

Python • dengwen168 • 2019 年 7 月 12 日

scrapy 单页面多条数据怎么样存入 mysql?

1

问与答 • mon3 • 2019 年 7 月 1 日

准全栈工程师入门计划 Flutter Go Python Docker

程序员 • hailong0707 • 2019 年 7 月 2 日 • 最后回复来自 alexmy

8

正式成为 scrapy/scrapyd 开源项目开发成员，欢迎大家留言反馈问题和建议

1

Python • my8100 • 2019 年 6 月 28 日 • 最后回复来自 my8100

16

现在大家爬虫爬淘宝都是用什么办法能全站大量爬取啊?给个思路吧?能用手机 app 端爬取吗?

1

Python • z1421012325 • 2020 年 7 月 10 日 • 最后回复来自 gxlonline

49

LogParser 现已支持 Scrapy>=1.5.2 的 telnet 认证登录（Windows 除外）

Python • my8100 • 2019 年 6 月 21 日

请教 scrapy 爬虫的一个问题,中间件问题

Python • wersonliu9527 • 2019 年 6 月 20 日 • 最后回复来自 wersonliu9527

4

scrapy 框架中的 crawlspider 爬虫问题请教！

Python • xiushenbuhuihui • 2019 年 6 月 14 日 • 最后回复来自 xiushenbuhuihui

4

Python scrapy 怎么做成一个 flask 的接口

Python • DOUWH • 2020 年 3 月 23 日 • 最后回复来自 wwb721

6

Python scrapy yield 无法获取到返回内容

Python • leegoo • 2019 年 5 月 29 日 • 最后回复来自 leegoo

6

scrapy 代理 ip 失效后更换 IP

Python • Fizzyi • 2019 年 6 月 5 日 • 最后回复来自 popbayun

3

scrapy 如何对接 selenium？

Python • 911speedstar • 2019 年 5 月 12 日 • 最后回复来自 exip

12

使用 scrapy 爬取梦幻藏宝阁的数据并分析

1

Python • moxiaowei • 2019 年 5 月 10 日 • 最后回复来自 echo1937

33

用 scrapy 框架爬取数据时， pipelines.py 里面的 process_item 方法为什么一定要 return,又 return 到何处？

问与答 • rt95 • 2019 年 4 月 28 日 • 最后回复来自 neptuno

2

Python 对类好像没有太大的要求啊

Python • moxiaowei • 2019 年 4 月 16 日 • 最后回复来自 Marsss

37

一个关于 scrapy-redis 调度的问题

Python • ghd700 • 2019 年 4 月 3 日 • 最后回复来自 ghd700

2

scrapy 去重与 scrapy_redis 去重与布隆过滤器

Python • zhangslob669 • 2019 年 3 月 27 日 • 最后回复来自 petelin

4

如何在 Scrapy 里面发送一个延时的请求？

问与答 • ghd700 • 2019 年 3 月 23 日 • 最后回复来自 wuyue92tree

3

Sublimetext3 的 Scrapy 包有人用过吗？

Python • shoreyfish • 2019 年 3 月 18 日 • 最后回复来自 Trim21

1

请教各位 scrapy-redis 如何实现 post 请求

问与答 • deepall • 2019 年 3 月 14 日

scrapy-redis 如何实现 post 请求

Python • deepall • 2019 年 12 月 3 日 • 最后回复来自 deepall

4

坐标武汉，想找 Python 爬虫，或者 Python 开发也行

求职 • 1660551499 • 2019 年 3 月 8 日

Python 爬虫框架 Scrapy 入门与实践之爬取豆瓣电影 Top250 榜单

Python • wsgzao • 2019 年 3 月 8 日 • 最后回复来自 wsgzao

11

Scrapy 的 CrawlSpider+selenium 爬取一个网站，出现了一些问题

Python • huyu • 2019 年 7 月 9 日 • 最后回复来自 xiushenbuhuihui

1

scrapy Middleware 里面的类算不算装饰器?

Python • mapnaqi • 2019 年 3 月 2 日 • 最后回复来自 911speedstar

7

如果第二门语言学 PHP 直到完整做出一个网站，一般要多久

问与答 • Alfred1993 • 2019 年 2 月 26 日 • 最后回复来自 Tokin

5

使用 Scrapy 爬取股票代码

Python • lovezww2011 • 2019 年 3 月 7 日 • 最后回复来自 911speedstar

5

scrapy 每次翻页的时候换 session 如何处理

问与答 • Ewig • 2019 年 2 月 18 日

scrapy

Python • Ewig • 2019 年 2 月 15 日 • 最后回复来自 julyclyde

1

scrapy post 怎么发送 json 数据

Python • mapnaqi • 2019 年 2 月 15 日 • 最后回复来自 luoleng

12

[Remote - 远程] Web developer (8k-15k)

酷工作 • zsj888 • 2019 年 3 月 22 日 • 最后回复来自 MaxZ

15

想搭建一个 kindle RSS 推送网站

问与答 • Jacky2333 • 2019 年 2 月 11 日 • 最后回复来自 Jacky2333

13

用 VSCode 开发 Scrapy 工程的包路径问题

Python • tomleung1996 • 2019 年 11 月 19 日 • 最后回复来自 guowei121493

15