sequence model

虚拟模型

Posted by muwu on December 8, 2021

专业术语

第i个训练样本的第t个单词

image-20211208212753048

image-20211209165400767

第i个训练样本的长度

image-20211208212824575

RNN

image-20211208214718361

架构

image-20211209113352901

RNN 语言模型

image-20211209141304097

GRU

gamma (Γ)表示我们又多大程度想要改变之前的memory cell (C)中存储的值

C等同于上图中RNN计算出的a

image-20211209144840116

image-20211209150135536tanh 和 sigmoid中间的式子得到的结果一般很小,负数。

LSTM

image-20211209150725302

新的训练流程

  • forward pass,
  • cost computation,
  • backward pass,
  • (optional) clip, [np.chip()]
  • parameter update.

word2vec

skip-gram: content word with random choice target in a range.

疑问

怎么训练语言模型呀?