请问这种网址里面的pdf页面怎么爬取

http://www.cpppc.org:8083/efmisweb/ppp/projectLibrary/getProjInfoNational.do?projId=45f747ac429b4773a88938efbde7c197

它的html片段是

 <a style="color:#167bd5;font-size:13px;" href="./ppp/projManage/perview.do?fileName=可行性研究报告及批复-潮白河.pdf&amp;ftpFileName=2017/08/25/20170825045201787.pdf&amp;content=efmisweb&amp;xsg=:8083/" onclick="perviewPdf(this)" url="./ppp/projManage/perview.do?fileName=可行性研究报告及批复-潮白河.pdf&amp;ftpFileName=2017/08/25/20170825045201787.pdf" target="_blank" uniqueid="htmlelement1000">预览</a>

对应的实际的pdf是

http://www.cpppc.org:8083/efmisweb/ppp/projManage/perview.do?fileName=%E5%8F%AF%E8%A1%8C%E6%80%A7%E7%A0%94%E7%A9%B6%E6%8A%A5%E5%91%8A%E5%8F%8A%E6%89%B9%E5%A4%8D-%E6%BD%AE%E7%99%BD%E6%B2%B3.pdf&ftpFileName=2017/08/25/20170825045201787.pdf&content=efmisweb&xsg=:8083/

你用正则表达式提取几个部分，拼接出来即可。其中中文的文件名，它用urlencode编码了下。