zizon

V2EX 第 229404 号会员，加入于 2017-05-06 16:33:58 +08:00

今日活跃度排名 8610

zizon 提问技术话题好玩工作信息交易信息城市相关

eSIM 安全性

问与答 • zizon • 2025 年 9 月 16 日 • 最后回复来自 SenLief

10

简单的反诈 App 估算

问与答 • zizon • 2025 年 5 月 27 日 • 最后回复来自 huaweii

3

» zizon 创建的更多主题

zizon 最近回复了

3 月 29 日

回复了 cpalead 创建的主题 › deepseek › 为什么 deepseek 的源代码只有几个文件？

1. generate.py 描述了数据/权重文件怎么加载的.
2. model.py,尤其 Transformer 类描述了模型结构/层等怎么构成的信息.
3. kernel.py 描述了 2 里用到的一些核心自定义算子.

给你 2+1 类似与给了头文件声明和.so 文件.

开源的是这个.h.

4. 更接近一些你理解的开源的是有些会提供 finetune.py,做微调的.
这个会告诉你一部分真实完整训练场景下,input/训练数据大概长什么样.
理论上,你有可能根据这个数据格式,去完整重新训练一个等价模型,前提是有对应的硬件资源.

但,通常来说 fintune.py 暴露的信息是不够的.
之所以叫微调,也就是因为它只是一部分 input 长这样.

你可以看看 olmo 的 train.py,比较符合你的对开源的想法.
属于一个端到端,理论上你有硬件条件就可以从 repo 完整复刻的开源形态.
https://github.com/allenai/OLMo/blob/main/scripts/train.py

你说 1/2/4 够不够.
也不能说不够吧.

但 pretrain 的 datasource 直觉上还是很影响跟模型交互的语言/prompt 风格的.

3 月 27 日

回复了 gotOwt 创建的主题 › 职场话题 › 问个问题，国外女职工怀孕了，政府会补贴钱给公司吗？

因为国内不允许开除孕产哺乳期员工.
所有有了钻这个漏洞的人.
反过来企业会对孕产哺乳期员工增加额外道德风险成本.

3 月 27 日

回复了 cutiechi 创建的主题 › 宽带症候群 › Clash 里看到一条奇怪的 UDP 外连，源 IP 还是 10.x，有点看不懂

容器或者某种 sandbox 隔离的 network namespace 里的进程发起的吧.

3 月 24 日

回复了 Lowlife 创建的主题 › 生活 › 遇到那种喜欢自残的女生

这种是真抑郁症吧.
一旦停下来什么都不干就会想死.

3 月 20 日

回复了 kphcdr 创建的主题 › 问与答 › 有没有大佬能帮我看看这个提示词有什么问题？

3-8 过于细节干扰了吧.

3 月 17 日

回复了 yusf 创建的主题 › 职场话题 › 希望 v 友能点评下简历，感觉上海地区 boss 上约不到啥面试机会

先把 API key 截断了.

3 月 14 日

回复了 fjc0k 创建的主题 › 分享发现 › 个人小程序流量主 0 税之法

工商注册又经营范围限定的吧.
不在经营范围的原则上来说不能计入经营收入吧.

» zizon 创建的更多回复