hewking's blog
Author: hewking
Labels: blog
Created: 2025-01-30T02:11:50Z
Link and comments: https://github.com/hewking/blog/issues/50
——从原理到实践的全面解析
| 能力 | 局限 | |————————-|————————–| | 海量知识记忆与重组 | 无法理解因果逻辑 | | 跨领域信息关联 | 可能强化数据偏见 | | 动态情境适应 | 依赖数据质量与训练方式 |
tokenizers
库# 示例代码(PyTorch)
model = torch.load("model.pt")
input_ids = tokenizer.encode("Hello, world!")
outputs = model(input_ids)
prediction = outputs.argmax()
| 类型 | 资源 | 特点 | |———–|————————————–|————————-| | 书籍 | 《深度学习》(花书) | 系统性强,适合打基础 | | 课程 | Stanford CS224N(NLP) | 理论与实践结合 | | 工具库 | Hugging Face Transformers | 预训练模型丰富 | | 论文库 | arXiv + Papers with Code | 跟踪前沿技术 |
| 问题现象 | 解决方案 |
|———————–|———————————-|
| Loss突然变为NaN | 启用梯度裁剪,降低学习率 |
| GPU利用率低 | 优化数据加载(增加num_workers
) |
| 显存不足(OOM) | 启用ZeRO-3,减小批次大小 |
大模型开发 = 数据规律压缩 + 数学架构雕刻 + 工程化调优
附:核心公式速记
文档说明
本文档基于真实技术讨论整理,用比喻简化复杂概念,适合作为入门学习指南。建议结合代码实践加深理解。