各位彦祖,由于公司给出了 AI 提效的压力,想请教一下各位,在爬虫开发工作中,是如何基于 AI 进行提效的,希望能深入一些。
1
samersions 4 小时 9 分钟前 via iPad
写个 todo.md 让他去爬某个网站 agent 会自己分析,如果爬出来的不合要求就提点一下(哪个元素的哪个值),他自己全都搞好了。没有什么值得研究的了,因为不上 ai 自己要研究元素,上了 ai 他自己全部搞完没有给你留下自己干预的空间😂
|
2
KingZZZZ OP @samersions 方便说明一下使用的什么 agent 还有什么技能吗?
|
3
members 4 小时 4 分钟前
我感觉用颠覆形容比较准确。直接告诉他抓哪个网站,它会自己去不断的尝试、切换方案,最终成功。
|
4
samersions 4 小时 3 分钟前 via iPad
gemini-cli 和 opencode+glm5 ,没有额外装技能
|
7
cairnechen 3 小时 7 分钟前
楼上的各位兄弟让 agent 去爬虫的时候没有遇到安全限制么?比如付费内容不让爬,成人内容不让爬
|
8
HotieCutie 2 小时 30 分钟前
有反扒的网站,根本就不行,ai 解决不了
|
9
jonty 2 小时 11 分钟前
唯一的限制是,现在有些 ai 的道德感太强。说的就是你,close ai
|
10
fkdtz 1 小时 51 分钟前
体感上来说,纯代码、数据层面的东西基本可以全部交给 AI 了
但想要规模化必然会涉及到 IP 、账号等这些实物的东西,而这些方面 AI 似乎能够发挥的作用有限 AI 搞定那些可以数字化的东西问题不大,涉及到实物作用有限 |
12
kamilic 1 小时 22 分钟前
没风控和 captcha 的平台让他自己在里面游走下就写出来爬虫操作了,ai 分析稳定的部分挺好的,但是爬虫最怕不稳定,突然之间给你加点变化的那就歇菜,这些分支逻辑还是得趟的。
|
13
namebai 1 小时 16 分钟前 我目前只会爬一些简单的接口 去搭建自动化的 workflow ,一般我会打开控制台 network ,然后录制一段时间请求,导出 HAR 文件,扔给 AI 自己分析,说出我的需求他就能把很多接口给我找到,感觉挺好用的。
|
15
feiniu 48 分钟前
我总感觉,复杂的 HTML 结构,给 AI 写解析脚本,写的总是不够好。
|
16
hantconny 21 分钟前
不知道能不能爬 facebook 的发帖时间,我自己干的时候需要从 network 里过滤特定的请求,仅分析静态页面是不行的,不知道道德感强的 ai 愿不愿意干
|