新手用2层LSTM做NLP时遇到一个问题

本来是想把文章输入后，第一层lstm取每个句子的最后作为输出，输入到第二层的LSTM，但是这样一想，每篇文章句子数不一样，是不是要按句子padding，然后每个句子字数也不一样，还要按单词做padding，一下子感觉好蠢。请问有没有简单明了点的方法？
如果用句向量的话，是不是也要按句子padding？目前了解的句向量是相当于这句话的词向量的平均值，这样padding的句向量是一个[embedding size，1]的0矩阵吗？