266 1 分钟

dolma: 包含三万亿 Token 的语言模型预训练研究开放语料库 ColossalAI: 一个旨在使大型 AI 模型更便宜、更快速、更易获得的开源项目 TensorRT-LLM: 用于优化大型语言模型推理的 TensorRT 工具箱 langchain: LangChain 是一个用于开发由大型语言模型(LLM)驱动的应用程序的框架。 AIAK: AIAK 大模型训推加速套件是百舸推出的大模型 AI 加速能力,用来加速 Megatron、Megatron-Core 等训练框架的大语言模型。 llamaindex: 一个将大语言模型(LLM)和外部数据连接在一起的工具。
1.5k 1 分钟

参考连接:https://zerolovesea.github.io/2024/05/12 / 分布式训练:了解 Deepspeed 中的 ZeRO1-2-3/ # 一、Deepspeed 介绍   DeepSpeed 是微软推出的大规模模型分布式训练的工具,分布式训练场景目前主要分成三个策略: 数据并行 模型并行 流水线并行   在数据并行的策略下,每个模型都需要跑一个完整的模型,这时就需要考虑训练模型占用的参数量。ZeRO 就是为了解决这个问题而诞生的。   ZeRO 的全称是 Zero Redundancy...
6.6k 6 分钟

参考链接:https://blog.csdn.net/qq_27590277/article/details/142466419 等待学习的技术:Common Crawl、Fasttext、MinHash+LSH、MuggleMath、DotaMath、拒绝微调(RFT)、GRPO、13-gram matching、ChatLearn5 # 一、引言   从 Qwen2.5-Math 的技术报告副标题:“Toward Mathematical Expert Model via Self-Improvement”,可以看出,Self-Improvement 是一个贯穿整个...
4.1k 4 分钟

参考文章:https://www.bilibili.com/video/BV1HM411377j/?spm_id_from=333.1007.top_right_bar_window_custom_collection.content.click&vd_source=e01172ea292c1c605b346101d7006c61 # 一、git 本地操作 # 1.1 git 安装 如果 git 已经安装好,那么输入 git -v 命令,可以查看版本号。 C:\Users\Ember>git -vgit version 2.42.0.windows.2git...
1.8k 2 分钟

参考:https://blog.csdn.net/zataji/article/details/123104569、https://blog.csdn.net/choimroc/article/details/104630491#:~:text=WARNING%3A Unable to determine the path to install,libraries installed%2C or specify a path with --glvnd-egl-config-path. # 一、禁用 nouveau 驱动 因为 NVIDIA 的官方驱动和系统自带的 nouveau...
5.6k 5 分钟

参考连接:https://github.com/vllm-project/vllm # 一、vLLM 介绍   大型语言模型(LLMs)承诺将彻底改变我们在所有行业中使用人工智能的方式。然而,实际上部署这些模型是具有挑战性的,并且即使在昂贵的硬件上也可能出人意料地慢。   vLLM 是一个用于快速大型语言模型推理和服务的开源库。vLLM 利用了新注意力算法 PagedAttention,它有效地管理注意力键和值(KV cache)。   配备 PagedAttention 的 vLLM 重新定义了大型语言模型服务的新标准:它提供的吞吐量比 HuggingFace Transformers...
12k 11 分钟

参考:https://yeasy.gitbook.io/docker_practice、https://www.bilibili.com/video/BV1YRWse1ESD/?spm_id_from=333.1007.top_right_bar_window_custom_collection.content.click # 一、Docker 简介 # 1.1 什么是 docker Docker 使用 Google 公司推出的 Go 语言 进行开发实现,基于 Linux 内核的 cgroup,namespace,以及 OverlayFS 类的 Union FS...
9.1k 8 分钟

参考:https://blog.csdn.net/m0_46422300/article/details/104645072 # 一、基础知识 # 1.1 Linux 系统的文件结构 /bin # 二进制文件,系统常规命令/boot # 系统启动分区,系统启动时读取的文件/dev # 设备文件/etc # 大多数配置文件/home # 普通用户的家目录/lib # 32 位函数库/lib64 # 64 位库/media # 手动临时挂载点/mnt # 手动临时挂载点/opt # 第三方软件安装位置/proc # 进程信息及硬件信息/root # 临时设备的默认挂载点/sbin #...
1k 1 分钟

参考:https://www.youtube.com/watch?v=Ef8juEnFAFI、https://www.youtube.com/watch?v=aVcFQU8FO98 # 下载 gdebi(可选) (1)传统软件套间管理工具 dpkg dpkg 是 Debian package 的简写,为”Debian“ 操作系统 专门开发的套件管理系统,用于软件的安装,更新和移除。 所有源自 "Debian" 的 Linux 的发行版都使用 dpkg, 例如 "Ubuntu" 首先,要安装 dpkg...
3.3k 3 分钟

# 一、MAE 概述   深度学习在计算机视觉领域取得了显著进展,但随着模型规模的增长,对数据的需求也在增加。在自然语言处理( NLP )领域,通过自监督预训练的方法(如 BERT 和 GPT )成功解决了数据需求问题,这些方法通过预测数据中被 masked 的部分来训练模型。然而,在计算机视觉领域,尽管存在相关研究,自监督学习方法的发展仍然滞后于 NLP 。   这篇论文使用掩码自编码器 ( masked autoencoders (MAE) ) 进行自监督学习。这种类型自监督学习的另一个著名的例子就是 BERT 。   对于 BERT 模型而言,一个 sentence 中间盖住一些...