本来是想把文章输入后,第一层lstm取每个句子的最后作为输出,输入到第二层的LSTM,但是这样一想,每篇文章句子数不一样,是不是要按句子padding,然后每个句子字数也不一样,还要按单词做padding,一下子感觉好蠢。请问有没有简单明了点的方法?如果用句向量的话,是不是也要按句子padding?目前了解的句向量是相当于这句话的词向量的平均值,这样padding的句向量是一个[embedding size,1]的0矩阵吗?