唯爱ぺ灬babyル = Keep Moving = 天将降大任于斯人也

2024-12-11 266 字 1 分钟

其他未学习的可用工具

dolma: 包含三万亿 Token 的语言模型预训练研究开放语料库 ColossalAI: 一个旨在使大型 AI 模型更便宜、更快速、更易获得的开源项目 TensorRT-LLM: 用于优化大型语言模型推理的 TensorRT 工具箱 langchain: LangChain 是一个用于开发由大型语言模型（LLM）驱动的应用程序的框架。 AIAK: AIAK 大模型训推加速套件是百舸推出的大模型 AI 加速能力，用来加速 Megatron、Megatron-Core 等训练框架的大语言模型。 llamaindex: 一个将大语言模型（LLM）和外部数据连接在一起的工具。

more...

2024-12-11 1.5k 字 1 分钟

Deepspeed

参考连接：https://zerolovesea.github.io/2024/05/12 / 分布式训练：了解 Deepspeed 中的 ZeRO1-2-3/ # 一、Deepspeed 介绍 DeepSpeed 是微软推出的大规模模型分布式训练的工具，分布式训练场景目前主要分成三个策略：数据并行模型并行流水线并行在数据并行的策略下，每个模型都需要跑一个完整的模型，这时就需要考虑训练模型占用的参数量。ZeRO 就是为了解决这个问题而诞生的。 ZeRO 的全称是 Zero Redundancy...

more...

2024-11-01 6.6k 字 6 分钟

Qwen2.5-Math

参考链接：https://blog.csdn.net/qq_27590277/article/details/142466419 等待学习的技术：Common Crawl、Fasttext、MinHash+LSH、MuggleMath、DotaMath、拒绝微调（RFT）、GRPO、13-gram matching、ChatLearn5 # 一、引言从 Qwen2.5-Math 的技术报告副标题：“Toward Mathematical Expert Model via Self-Improvement”，可以看出，Self-Improvement 是一个贯穿整个...

more...

2024-10-23 4.1k 字 4 分钟

git

参考文章：https://www.bilibili.com/video/BV1HM411377j/?spm_id_from=333.1007.top_right_bar_window_custom_collection.content.click&vd_source=e01172ea292c1c605b346101d7006c61 # 一、git 本地操作 # 1.1 git 安装如果 git 已经安装好，那么输入 git -v 命令，可以查看版本号。 C:\Users\Ember>git -vgit version 2.42.0.windows.2git...

more...

2024-10-22 1.8k 字 2 分钟

Ubuntu 20.04 Nvidia驱动安装

参考：https://blog.csdn.net/zataji/article/details/123104569、https://blog.csdn.net/choimroc/article/details/104630491#:~:text=WARNING%3A Unable to determine the path to install,libraries installed%2C or specify a path with --glvnd-egl-config-path. # 一、禁用 nouveau 驱动因为 NVIDIA 的官方驱动和系统自带的 nouveau...

more...

2024-10-21 5.6k 字 5 分钟

vLLM

参考连接：https://github.com/vllm-project/vllm # 一、vLLM 介绍大型语言模型（LLMs）承诺将彻底改变我们在所有行业中使用人工智能的方式。然而，实际上部署这些模型是具有挑战性的，并且即使在昂贵的硬件上也可能出人意料地慢。 vLLM 是一个用于快速大型语言模型推理和服务的开源库。vLLM 利用了新注意力算法 PagedAttention，它有效地管理注意力键和值（KV cache）。配备 PagedAttention 的 vLLM 重新定义了大型语言模型服务的新标准：它提供的吞吐量比 HuggingFace Transformers...

more...

2024-10-20 12k 字 11 分钟

docker

参考：https://yeasy.gitbook.io/docker_practice、https://www.bilibili.com/video/BV1YRWse1ESD/?spm_id_from=333.1007.top_right_bar_window_custom_collection.content.click # 一、Docker 简介 # 1.1 什么是 docker Docker 使用 Google 公司推出的 Go 语言进行开发实现，基于 Linux 内核的 cgroup，namespace，以及 OverlayFS 类的 Union FS...

more...

2024-10-20 9.1k 字 8 分钟

Linux常用命令

参考：https://blog.csdn.net/m0_46422300/article/details/104645072 # 一、基础知识 # 1.1 Linux 系统的文件结构 /bin # 二进制文件，系统常规命令/boot # 系统启动分区，系统启动时读取的文件/dev # 设备文件/etc # 大多数配置文件/home # 普通用户的家目录/lib # 32 位函数库/lib64 # 64 位库/media # 手动临时挂载点/mnt # 手动临时挂载点/opt # 第三方软件安装位置/proc # 进程信息及硬件信息/root # 临时设备的默认挂载点/sbin #...

more...

2024-10-20 1k 字 1 分钟

linux翻墙操作

参考：https://www.youtube.com/watch?v=Ef8juEnFAFI、https://www.youtube.com/watch?v=aVcFQU8FO98 # 下载 gdebi（可选）（1）传统软件套间管理工具 dpkg dpkg 是 Debian package 的简写，为”Debian“ 操作系统专门开发的套件管理系统，用于软件的安装，更新和移除。所有源自 "Debian" 的 Linux 的发行版都使用 dpkg, 例如 "Ubuntu" 首先，要安装 dpkg...

more...

2024-10-05 3.3k 字 3 分钟

MAE

# 一、MAE 概述深度学习在计算机视觉领域取得了显著进展，但随着模型规模的增长，对数据的需求也在增加。在自然语言处理（ NLP ）领域，通过自监督预训练的方法（如 BERT 和 GPT ）成功解决了数据需求问题，这些方法通过预测数据中被 masked 的部分来训练模型。然而，在计算机视觉领域，尽管存在相关研究，自监督学习方法的发展仍然滞后于 NLP 。这篇论文使用掩码自编码器 ( masked autoencoders (MAE) ) 进行自监督学习。这种类型自监督学习的另一个著名的例子就是 BERT 。对于 BERT 模型而言，一个 sentence 中间盖住一些...

more...