置顶文章

1.1k 1 分钟

shoka 主题原说明网址戳此 # links 连接块 優萌初華 琉璃的医学 & 编程笔记 優萌初華 https://shoka.lostyu.me 優萌初華 琉璃的医学 & 编程笔记 # code 代码块 支持的语言戳此 如果不需要代码高亮,但希望显示代码块样式,则 language 设为 raw 行高亮参考链接import java.util.Scanner;...Scanner in = new Scanner (System.in);// 输入 Scan 之后,按下键盘 Alt + “/” 键,Eclipse 下自动补全。System.out.println...
4k 4 分钟

# 一、一些小技巧 # 1.1 Blog 上传问题解决 解决 OpenSSL SSL_read: Connection was reset, errno 10054 git config --global http.sslVerify "false" 解决 Failed to connect to github.com port 443: Timed out git config --global https.proxy git config --global --unset https.proxy # 1.2 获取网站图标 icon 直接在网址后面加...

文章列表

16k 15 分钟

参考链接:https://www.bilibili.com/video/BV1PB6XYFET2?spm_id_from=333.788.videopod.sections&vd_source=e01172ea292c1c605b346101d7006c61、https://github.com/ZJU-LLMs/Foundations-of-LLMs/tree/main # 一、语言模型基础   语言是概率的,并且语言的概率性与认知的概率性也存在着密不可分的关系。语言模型(LanguageModels, LMs)旨在准确预测语言符号的概率。从 ELIZA 到...
548 1 分钟

在 Python 中,__init__.py 文件用于将一个目录标记为 Python 的包。这个机制允许 Python 进行模块导入和组织代码的分层结构。尽管在 Python 3.3 及以上版本中,引入了隐式的命名空间包,这意味着在某些情况下即使没有__init__.py 文件,目录也可以被视为包,但__init__.py 文件仍然有其独特的作用和用途。   __init__.py 的主要作用和用途包括: 将目录标记为 Python 包:这是__init__.py 最基本的作用,它使得 Python 解释器知道该目录及其包含的文件应该被视为一个包。 初始化包:__init__.py...
2.3k 2 分钟

# 一、MinHash MinHash 是一种用于近似集合相似度计算的技术。它被广泛用于大规模数据集中的快速相似度估计,特别是在处理文本、图像和网络数据等领域。 MinHash 的基本思想是通过将集合中的元素哈希成一个较小的签名(通常是一个固定长度的整数或比特串),从而快速地比较两个集合之间的相似度。 MinHash 算法的主要步骤如下: 集合转换成签名:对于一个集合中的元素,通过哈希函数将其映射到一个固定长度的哈希值。通常会使用多个哈希函数生成多个哈希值,这样就得到了一个签名。 选择最小值:从生成的哈希值中选取最小的一个作为该集合的 MinHash...
1.4k 1 分钟

# 一、引言   n-gram 算法通过统计文本中连续 n 个词的序列(或称为 “词组”)出现的频率,为各种 NLP 任务提供了有力的支持。   N-gram 模型的基本原理是基于马尔可夫假设,在训练 N-gram 模型时使用最大似然估计模型参数 —— 条件概率. # 二、示例   例如,对于 “The cow jumps over the moon” 这句话。如果 N=2(称为二元模型),那么 ngram 将为: the cow cow jumps jumps over over the the moon   在这种情况下有 5 个 n 元语法。请注意,从 the->cow...
116 1 分钟

ToRA github 网站:https://github.com/microsoft/ToRA 集成工具推理相关数据集:https://huggingface.co/datasets/AI-MO/NuminaMath-TIR?row=0
2.4k 2 分钟

参考链接:https://blog.csdn.net/u012856866/article/details/140308083 # 一、引言 大多数语言模型都是通过生成 token 序列(sequence)中的下一个 token。每次模型生成下一个 token 时,会输入完整的 token 序列并预测下一个 token。这种策略被称为自回归生成(autoregressive generation)。 为了生成输出文本,在每一步预测下一个 token 的过程中,模型会给出一个概率分布,表示它对下一个单词的预测。例如,如果输入的文本是...
5.5k 5 分钟

参考链接:https://zhuanlan.zhihu.com/p/631398525https://zhuanlan.zhihu.com/p/676655352https://www.bilibili.com/video/BV1UT421k7rA/?spm_id_from=333.1007.top_right_bar_window_custom_collection.content.click&vd_source=e01172ea292c1c605b346101d7006c61、https://zhuanlan.zhihu.com/p/687832172 #...
1.1k 1 分钟

参考:论文《Scaling Relationship on Learning Mathematical Reasoning with Large Language Models》、https://www.zhihu.com/tardis/bd/art/703848627、https://zhuanlan.zhihu.com/p/507830576   RFT(Rejection sampling Fine-Tuning,拒绝采样微调)的整体思路是使用多个模型生成推理路径,经过质量筛选和多样性筛选之后,获得增强的数据集,其中每一个问题都对应了多种解析,用作训练集训练模型。RFT...
2.6k 2 分钟

# 一、混淆矩阵   在机器学习领域,混淆矩阵(Confusion Matrix),又称为可能性矩阵或错误矩阵。混淆矩阵的结构一般如下图表示的方法。   混淆矩阵要表达的含义: 混淆矩阵的每一列代表了预测类别,每一列的总数表示预测为该类别的数据的数目; 每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的数据实例的数目;   每一类的具体定义如下: True Positive(TP):真正类。样本的真实类别是正类,并且模型识别的结果也是正类。 False Negative(FN):假负类。样本的真实类别是正类,但是模型将其识别为负类。 False...
2.9k 3 分钟

# 一、基础概念   Shell 编程跟 JavaScript、php 编程一样,只要有一个能编写代码的文本编辑器和一个能解释执行的脚本解释器就可以了。 Linux 的 Shell 种类众多,常见的有: Bourne Shell(/usr/bin/sh 或 /bin/sh) Bourne Again Shell(/bin/bash) C Shell(/usr/bin/csh) K Shell(/usr/bin/ksh) Shell for Root(/sbin/sh) ……   其中,Bash,也就是 Bourne Again...