四川建站模板网站公司,网站建设海淀,asp网站转wap网站,金融投资网站自监督学习指的是不依赖标注数据#xff0c;模型直接从无标注的大量数据中进行学习。【属于无监督学习的一部分#xff0c;它在训练过程中有正负样本#xff0c;但是正负样本不是人工标号得来的#xff0c;而是通过自己产生的。】 自监督学习总体分成两类#xff1a;生成式…自监督学习指的是不依赖标注数据模型直接从无标注的大量数据中进行学习。【属于无监督学习的一部分它在训练过程中有正负样本但是正负样本不是人工标号得来的而是通过自己产生的。】 自监督学习总体分成两类生成式自监督学习和判别式自监督学习。 其中生成式自监督学习的代表是VAE和GAN他们利用一个生成器来学习真实的样本分布不需要提供负样本就可以学习到一个生成器。 判别式监督模型的任务难度要低一些典型的代表是对比学习。其指导思想是「通过自动构造相似实例和不相似实例通过一个表示学习模型使得相似实例在投影空间中比较接近不相似实例在投影空间中距离比较远。」
对比学习判别式监督模型
对比学习最开始是从CV领域发展来的典型的模型是MOCO和simCLR主要是解决图像表示的问题。对比学习的目标是学习一个编码器此编码器对同类数据进行相似的编码并使不同类的数据的编码结果尽可能的不同。 那怎么定义相似实例和不相似实例呢这通常通过一个代理任务来实现也就是通过规则来产生数据增强就是一种常见的代理任务。 对比学习的典型范式就是代理任务目标函数。常见的一种选择是代理任务用数据增强目标函数用infoNCE。
SimCSE:Simple Contrastive Learning of Sentence Embeddings
GAN生成式自监督学习
GAN主要的优化不再学习原始的分布函数最大化似然函数而是用一个生成模型MLP来近似真实分布这个分布生成的结果与实际图片用判别模型无法判别。 数据集对生成器随机初始化直接输出假的样本集同时我们有真实的样本集这样就得到了真假样本。 训练方式迭代训练。先固定生成器不变对判别器进行训练训练任务是一个有监督的二分类任务。接着固定判别器参数不变对生成器进行训练训练任务是给生成器一个随机输入损失函数是判别器的结果是否为真。经过这一轮迭代生成器的造假能力得到提升然后再继续迭代判别器和生成器直到收敛。最终拿到一个好的生成器它生成的结果在判别器中难以区分真假。