2.7k 2 分钟

参考:https://www.bilibili.com/video/BV1ES4y1S7RD/?spm_id_from=333.1007.top_right_bar_window_custom_collection.content.click&vd_source=e01172ea292c1c605b346101d7006c61、https://www.bilibili.com/video/BV1hL411r7p2/?spm_id_from=333.337.search-card.all.click&vd_source=e01172ea292c1c605b3461...
3.2k 3 分钟

# 一、引言   虽然 Transformer 架构已成为 NLP 任务的首选模型,但它在 CV 中的应用仍然有限。在视觉上,注意力要么与卷积网络结合使用,要么用于替换卷积网络的某些组件,同时保持其整体结构。而这种对 CNNs 的依赖是不必要的,直接应用于图像块序列 ( sequences of image patches ) 的纯 Transformer 可以很好地执行图像分类任务。当对大量数据进行预训练并迁移到多个中小型图像识别基准时 ( ImageNet 、 CIFAR-100 、 VTAB 等),与 SOTA 的 CNN 相比, Vision Transformer (ViT)...
2.9k 3 分钟

# 一、引言   在没有人类监督的情况下学习有效的视觉表征是一个长期存在的问题。大多数主流方法可分为两类:生成式或判别式。生成式方法学习在输入空间中生成或以其他方式建模像素。然而,像素级生成在计算上是昂贵的,并且对于表示学习可能不是必需的。判别方法使用类似于用于监督学习的目标函数来学习表征,但训练网络执行借口任务,其中输入和标签都来自未标记的数据集。许多这样的方法都依赖于启发式来设计借口任务,这可能会限制学习表征的一般性。基于潜在空间中对比学习的判别方法最近显示出很大的前景,取得了最先进的结果。   其中 SimCLR 为视觉表征的对比学习引入了一个简单的框架。 SimCLR...
2.2k 2 分钟

# 一、引言    BERT ( Bidirectional Encoder Representations from Transformers )是一种基于深度学习的自然语言处理( NLP )模型。它是由 Google 在 2018 年提出的,采用了 Transformer 架构,并在大规模语料库上进行了预训练。 BERT 的特点之一是其双向( Bidirectional )处理能力,它能够同时考虑到句子中所有单词的上下文,而不仅仅是单词之前或之后的部分。这种双向性使得 BERT 在许多 NLP 任务中表现出色,例如文本分类、问答和命名实体识别等。 # 二、BERT    BERT...
5.1k 5 分钟

# 一、引言   自从 CLIP 横空出世,各种 视觉语言预训练 ( Vision-Language Pre-training, VLP ) 模型逐渐涌现,显著提高了各种视觉语言任务的性能。然而,现有的 VLP 方法主要存在以下两个问题: 模型角度:大多数方法都是基于 编码器模型 ( encoder-based model ) 或编码器 - 解码器模型 ( encoder-decoder models ),前者难以完成文本生成任务,后者无法完成图像文本检索任务,这两项任务无法兼顾; 数据角度:以 CLIP 为代表的方法都是从互联网上收集海量图像 -...
4.9k 4 分钟

# 一、简介 # 1.1 前言    CLIP 是 OpenAI 在 2021 年 2 月发表的一篇文章,其全称为 Contrastive Language-Image Pre-training ,即一种基于对比文本 - 图像对的预训练方法。 CLIP 用文本作为监督信号来训练可迁移的视觉模型,使得最终模型的 zero-shot 效果堪比 ResNet50 ,泛化性非常好。    zero-shot 就是直接推理,用见过的图片特征去判断没见过的图片的类别,而完全不用下游任务训练集进行微调。(相当于把模型用作特征提取,但是没有分类头)   作者在 30...
266 1 分钟

IPython Debugger (简称 ipdb )是一个强大的交互式调试工具 # 启动 ipdb import ipdb; ipdb.set_trace()# 常用命令 c :继续执行代码,直到遇到下一个断点或程序结束。 n :单步执行下一行代码(不会进入函数内部)。 s :单步进入下一行代码(如果有函数调用,则进入函数内部)。 q :退出调试器并终止程序的执行。 l :查看当前位置附近的代码。 p :打印变量的值,例如 p variable_name 。 h :查看帮助信息,例如 h command_name 。 w :查看当前的调用栈。 u :向上移动一层调用栈。 d...
7.4k 7 分钟

参考链接:https://blog.csdn.net/DFCED/article/details/132394895、https://www.bilibili.com/video/BV1QAexeiEZK?p=2&vd_source=e01172ea292c1c605b346101d7006c61   扩散概率模型(为简洁起见,我们称之为 “扩散模型”)是一种通过参数化的马尔科夫链,并使用变分推断进行训练,以在有限时间后生成与数据相匹配的样本。该链的转换过程旨在学习逆向扩散过程,即一个马尔科夫链,该链逐步向数据中添加噪声,方向与采样相反,直到信号完全被破坏。 #...
12k 11 分钟

参考链接:https://blog.csdn.net/qq_56591814/article/details/131293940、https://www.bilibili.com/video/BV1WkbzeUEVD/?spm_id_from=333.880.my_history.page.click&vd_source=e01172ea292c1c605b346101d7006c61、https://zhuanlan.zhihu.com/p/635152813 peft 库可以实现几乎所有的微调 #...
17k 16 分钟

主要参考:《基于子空间辨识的船舶微电网模型预测控制策略研究》- 金慧敏 # 一、MOESP 算法概述   MOESP (Multivariable Output Error State Space, 多变量输出误差状态空间) 方法是系统辨识领域中一种常用的子空间方法,其于 1993 年由 Verhaegen 提出。MOESP 算法的辨识过程包含两个步骤。首先是通过给定的 I/O 数据构造 Hankel 矩阵,对其进行实施 QR 分解技术,然后由分解得到的子空间对扩展观测矩阵进行估计。其次是通过估计扩展的观测矩阵来获取辨识对象的状态空间模型的系数。虽然 MOESP 算法在求解输入矩阵 B...