以“我爱中国”为例,输入时每个字都是以one_hot形式,假设是8位的,那么此时输入神经元数量是8吧,设置一层隐藏层,隐藏层神经元为5。
t1时刻,输入“我”的one_hot,得到隐藏层参数h1,此时的参数量是85。
t2时刻,输入“爱”的one-hot,在考虑输入时同时考虑h1,得到隐藏层参数h2,此时参数量也是85。
我不明白的是,h2会覆盖h1吗,如果不覆盖的话是不是就表示有多少个输入(这里是4个)就在纵向连接上有多少个隐藏层,那么总的隐藏层部分的参数是485。但我查rnn的参数计算时,看到很多分析是不考虑输入的数量的。
如果我们最终得到的模型是最后的hn覆盖掉前面,那么我们测试时不就对每一个输入(例如“我爱学习”中的每一个字)同等看待了吗。