zizon 最近的时间轴更新
zizon

zizon

V2EX 第 229404 号会员,加入于 2017-05-06 16:33:58 +08:00
今日活跃度排名 8610
eSIM 安全性
问与答  •  zizon  •  2025 年 9 月 16 日  •  最后回复来自 SenLief
10
简单的反诈 App 估算
问与答  •  zizon  •  2025 年 5 月 27 日  •  最后回复来自 huaweii
3
zizon 最近回复了
3 月 29 日
回复了 cpalead 创建的主题 deepseek 为什么 deepseek 的源代码只有几个文件?
1. generate.py 描述了数据/权重文件怎么加载的.
2. model.py,尤其 Transformer 类描述了模型结构/层等怎么构成的信息.
3. kernel.py 描述了 2 里用到的一些核心自定义算子.

给你 2+1 类似与给了头文件声明和.so 文件.

开源的是这个.h.

4. 更接近一些你理解的开源的是有些会提供 finetune.py,做微调的.
这个会告诉你一部分真实完整训练场景下,input/训练数据大概长什么样.
理论上,你有可能根据这个数据格式,去完整重新训练一个等价模型,前提是有对应的硬件资源.

但,通常来说 fintune.py 暴露的信息是不够的.
之所以叫微调,也就是因为它只是一部分 input 长这样.

你可以看看 olmo 的 train.py,比较符合你的对开源的想法.
属于一个端到端,理论上你有硬件条件就可以从 repo 完整复刻的开源形态.
https://github.com/allenai/OLMo/blob/main/scripts/train.py

你说 1/2/4 够不够.
也不能说不够吧.

但 pretrain 的 datasource 直觉上还是很影响跟模型交互的语言/prompt 风格的.
因为国内不允许开除孕产哺乳期员工.
所有有了钻这个漏洞的人.
反过来企业会对孕产哺乳期员工增加额外道德风险成本.
容器或者某种 sandbox 隔离的 network namespace 里的进程发起的吧.
3 月 24 日
回复了 Lowlife 创建的主题 生活 遇到那种喜欢自残的女生
这种是真抑郁症吧.
一旦停下来什么都不干就会想死.
3-8 过于细节干扰了吧.
先把 API key 截断了.
3 月 14 日
回复了 fjc0k 创建的主题 分享发现 个人小程序流量主 0 税之法
工商注册又经营范围限定的吧.
不在经营范围的原则上来说不能计入经营收入吧.
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   855 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 15ms · UTC 20:25 · PVG 04:25 · LAX 13:25 · JFK 16:25
♥ Do have faith in what you're doing.