sequence model

虚拟模型

Posted by muwu on December 8, 2021

专业术语

第i个训练样本的第t个单词

image-20211208212753048

image-20211209165400767

第i个训练样本的长度

image-20211208212824575

RNN

image-20211208214718361

架构

image-20211209113352901

RNN 语言模型

image-20211209141304097

language model 语言模型

语言模型其实就是看一句话是不是正常人说出来的正常的话

[公式]

改进: [公式]元模型(n-gram model)

机器翻译、语音识别得到若干候选之后,可以利用语言模型挑一个尽量靠谱的结果。

GRU

gamma (Γ)表示我们有多大程度想要改变之前的memory cell (C)中存储的值

C等同于上图中RNN计算出的a

image-20211209144840116

image-20211209150135536tanh 和 sigmoid中间的式子得到的结果一般很小,负数。

(两个gate: update gate and relevant gate here)

LSTM

image-20211209150725302

将c和a进行分割,c用两个门进行更新,a用当前的c来进行计算。

image-20220124223722898

新的训练流程

  • forward pass,
  • cost computation,
  • backward pass,
  • (optional) clip, [np.chip()]
  • parameter update.

word2vec

skip-gram: content word with random choice target in a range.

疑问

怎么训练语言模型呀?