当前位置:首页 » 《随便一记》 » 正文

PyTorch 词向量模型简介_我是小白呀的博客

6 人参与  2021年03月09日 14:43  分类 : 《随便一记》  评论

点击全文阅读


词向量模型简介

  • 概述
  • 词向量维度
  • Word2Vec
    • CBOW 模型
    • Skip-Gram 模型
  • 负采样模型
  • 词向量的训练过程
    • 1. 初始化词向量矩阵
    • 2. 神经网络反向传播

概述

我们先来说说词向量究竟是什么. 当我们把文本交给算法来处理的时候, 计算机并不能理解我们输入的文本, 词向量就由此而生了. 简单的来说, 词向量就是将词语转换成数字组成的向量.
在这里插入图片描述
当我们描述一个人的时候, 我们会使用身高体重等种种指标, 这些指标就可以当做向量. 有了向量我们就可以使用不同方法来计算相似度.
在这里插入图片描述
那我们如何来描述语言的特征呢? 我们把语言分割成一个个词, 然后在词的层面上构建特征.
在这里插入图片描述

词向量维度

词向量的维度越高, 其所能提供的信息也就越多, 计算结果的可靠性就更值得信赖.

50 维的词向量:
在这里插入图片描述
用热度图表示一下:
在这里插入图片描述
在这里插入图片描述
从上图我们可以看出, 相似的词在特征表达中比较相似. 由此也可以证明词的特征是有意义的.

Word2Vec

Word2Vec 是一个经过预训练的 2 层神经网络, 可以帮助我们将单词转换为向量. Word2Vec 分为两种学习的方法: CBOW 和 Skip-Gram.
在这里插入图片描述

CBOW 模型

CBOW (Continuous Bag-of-Words) 是根据单词周围的上下文来预测中间的词. 如图:
在这里插入图片描述

Skip-Gram 模型

Skip-Gram 用于预测同一句子中当前单词前后的特定范围内的单词.
在这里插入图片描述
Skip-Gram 所需的训练数据集:
在这里插入图片描述

在这里插入图片描述

负采样模型

如果一个语料库稍微大一些, 可能的结果简直太多了. 词向量模型的最后一层相当于 softmax (转换为概率), 计算起来会非常耗时.

我们可以将输入改成两个单词, 判断这两个词是否为前后对应的输入和输出, 即一个二分类任务.
在这里插入图片描述
在这里插入图片描述

但是我们会发现一个问题, 此时的训练集构建出来的标签全为 1, 无法进行较好的训练. 这时候负采样模型就派上用场了. (默认为 5 个)
在这里插入图片描述
在这里插入图片描述

词向量的训练过程

1. 初始化词向量矩阵

在这里插入图片描述
在这里插入图片描述

2. 神经网络反向传播

通过神经网络反向传播来计算更新. 此时不光更新权重参数矩阵 W, 也会更新输入数据.
在这里插入图片描述


点击全文阅读


本文链接:http://m.zhangshiyu.com/post/16265.html

<< 上一篇 下一篇 >>

  • 评论(0)
  • 赞助本站

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

最新文章

  • (番外)+(结局)温幼梨傅宴珩(春天是他最爱的季节+全书+后续)_(温幼梨傅宴珩)列表_笔趣阁(春天是他最爱的季节+全书+后续)
  • 求求你别抽了,全服资源都被你抽光了后续更新_「张元李雪儿」小说节选免费试读
  • 听说了吗?京圈太子爷怕老婆结局+番外免费(封凌江棠)免费在线_封凌江棠(听说了吗?京圈太子爷怕老婆结局+番外)
  • 长恨歌宝藏(宋可卿谢景御)_长恨歌宝藏宋可卿谢景御
  • (番外)+(结局)宋可卿谢景御(长恨歌+全书+后续)_(宋可卿谢景御)列表_笔趣阁(长恨歌+全书+后续)
  • 秦见鹿谢梵声(我在回忆里万劫不复结局后续+番外)完结_(秦见鹿谢梵声)列表_笔趣阁(我在回忆里万劫不复结局后续+番外)
  • 秦见鹿谢棠梨谢梵声(谢梵声秦见鹿谢棠梨结局+番外)结局_(秦见鹿谢棠梨谢梵声谢梵声秦见鹿谢棠梨结局+番外全书结局)结局列表_笔趣阁(秦见鹿谢棠梨谢梵声)
  • (番外)+(结局)秦见鹿谢梵声(我在回忆里万劫不复结局后续+番外)_(秦见鹿谢梵声)列表_笔趣阁(我在回忆里万劫不复结局后续+番外)
  • 与卿知全书+后续+结局(沈蕴萧岐)列表_与卿知全书+后续+结局(沈蕴萧岐)与卿知全书+后续+结局在线
  • [山雨欲来风满楼]最新章节在线阅读_梁诗予顾念安江以川小说精彩节选试读
  • 爱到最后是放手结局+番外+后续(苏南星沈叙白)全书免费_(苏南星沈叙白)爱到最后是放手结局+番外+后续后续(苏南星沈叙白)
  • 姜栀的他的月光永远西沉精心打造姜栀季柏燃全书在线

    关于我们 | 我要投稿 | 免责申明

    Copyright © 2020-2022 ZhangShiYu.com Rights Reserved.豫ICP备2022013469号-1