本来想用爬虫xpath导出某助教里面的PPT文件,本来之前已经用xpath在某助教里面导出了一份试题,是能确保无误的。
但是却突然发现,这个PPT里面的每个地方div所保存的地方不一样。
(下方代码我是直接把某助教里面的html源代码保存到了本地,省去了用python登录这个环节,因为某助教比较特殊,只能通过小程序打开,并不能网页登录,这样也没有那么麻烦。)
import os
import requests
from lxml import etree
from requests_file import FileAdapter
import sys
s = requests.Session()
s.mount('file://', FileAdapter())
pwd = os.getcwd().replace("\", "/")
resp = s.get(f'file:///{pwd}/PPT.html')
html = etree.HTML(resp.text)
divs = html.xpath("/html/body/div/div")
f = open(r'F:\Homework2.docx', 'w',encoding="utf-8")
sys.stdout = f
for div in divs:
one = div.xpath("./div/div[3]/div[2]/div[2]/div[2]/div/div/div/span/text()")
two = div.xpath("./div/div[3]/div[4]/div[2]/div[2]/div/div/div/span/text()")
print(one)
print(two)
f.close()
['·', '细胞', ':', '生命活动的基本单位。', '·', '细胞的发现', '发现细胞结构:', '胡克', '首次观察到活细胞:', '列文虎克', '·', '细胞学说', '(施莱登、施旺)', '\xa0', '·', '脂质体', ':根据磷脂分子可在水相中形成稳定的脂双层', '膜而制备的人工膜。', '·', '特征', '流动性:', '膜脂、膜蛋白', '不对称性:', '膜糖', '、膜脂、膜蛋白', '·', '小分子和离子的跨膜运输方式', '(', '1', ')', '简单扩散', ':', '疏水小分子或小的不带电荷的极性分子,不', '需要能量,也不需要膜蛋白参与的跨膜运输方式。', '举例:', '氧气、', '乙醇', '、', '甘油', '、', '尿素', '等', '(', '2', ')', '协助扩散', ':在膜转运蛋白协助下,顺浓度梯度跨膜转运', ',不需要提供能量。例如:', '葡萄糖', '。', '(', '3', ')', '主动运输', ':', '由', '载体蛋白介导', '的物质', '逆电化学梯度', '或', '浓度', '梯度', '进行跨膜转运的方式。', '·', '大分子和颗粒性物质(膜泡运输)', '1', '、胞吞作用(', 'LDL', '受体介导的胞吞作用', ')', '2', '、胞吐作用(', '组成型', '和', '调节型', ')', '\xa0', '·', '内膜系统', '组成', '内质网、高尔基体、溶酶体', '、胞内体、液泡、', '分泌泡等。', '(', '1', ')标志酶:', '糖基转移酶', '(', '2', ')', '形态结构特点:', '由扁平囊泡及周围的大小囊泡组成,具', '有极性。', '4', '个组成部分', ':', '顺面网状结构', '(', 'CGN', ')', '、中间膜囊', '、反面网状结构', '(', 'TGN', ')', '及周围大小不等的囊泡。', '(', '3', ')', '主要功能', '①', '参与细胞的分泌活动。', '②', '蛋白质的糖基化及其修饰', '。', '③', '蛋白酶的水解加工', '。', '·', '类型', '初级溶酶体、次级溶酶体、残质体', '·', '标志酶', ':', '酸性磷酸酶', '·', '功能', '细胞内消化、细胞凋亡、自体吞噬、防御作用、', '参与分泌过程的调节、形成精子的顶体。', '·', '膜泡运输的类型', '①', 'COPII', '包被膜泡', ':从内质网向高尔基体顺面膜囊的转运', '(', '膜蛋白', '、', '可溶性蛋白', ')', '。', '②', 'COPI', '包被膜泡', ':逆向膜泡运输', ';', '从高尔基体反面膜囊到顺', '面膜囊', '、', '从', 'CGN', '到内质网', '。(', '再循环的膜脂双层、内质网', '驻留蛋白和膜蛋白', ')', '③', '网格蛋白', '/', '接头蛋白包被膜泡', ':介导分泌泡和内吞泡形成', '。', 'TGN', '向细胞膜', '、', '内体', '、', '溶酶体的转运', ';', '受体介导的胞吞作用中内吞泡的形成。', '(一)', '蛋白质分选途径', '·', '后翻译转运途径', ':在细胞质基质中合成的多肽链被转运至细', '胞器,例如线粒体、叶绿体、细胞核等。', '·', '共翻译转运途径', ':蛋白质合成起始后,由信号肽引导转移至', '粗面内质网,边合成边转入内质网腔中,经高尔基体加工、', '包装、转运至溶酶体、细胞膜或分泌到细胞外。', '(二)蛋白质分选类型', '①', '蛋白质的跨膜转运。', '②', '膜泡运输。', '③', '选择性的门控转运。', '④', '细胞质', '·', '线粒体', '超微结构', '(', '1', ')外膜', ':通透性较高。', '(', '2', ')内膜:', '通透性极低;', 'ATP', '合成酶。', '电子传递链', '复合物', 'Ⅰ', ':', 'NADH-CoQ', '还原酶复合物', '复合物', 'Ⅱ', ':琥珀酸脱氢酶复合物', '复合物', 'Ⅲ', ':细胞色素', 'bc1', '复合物', '复合物', 'Ⅳ', ':细胞色素氧化酶。', '\xa0', '(', '3', ')膜间隙', '(', '4', ')基质:', '含有', 'DNA', '、', 'RNA', '、核糖体、三羧酸酶系。', '\xa0', '●', '半自主性细胞器', ':自身含有遗传表达系统', '(', '自主', '性', ')', ';但编码的遗传信息十分有限,其', 'RNA', '转录、', '蛋白质翻译、自身构建和功能发挥等必须依赖', '核基因组编码的遗传信息', '(', '自主性有限', ')', '。', '举例:', '线粒体', '、', '叶绿体', '。', '\xa0', '·', '核孔复合体', '结构模型', '(', '1', ')', '胞质环', ':位于核孔边缘的胞质面一侧,有', '8', '条短', '纤维伸向胞质。', '(', '2', ')', '核质环', ':位于核孔边缘的核质面一侧,有', '8', '条细', '长的纤维,向核内伸入。纤维的末端形成一个小环', ',小环由', '8', '个颗粒构成。', '(', '3', ')', '辐', ':由核孔边缘伸向中心,辐射状八重对称。', '(', '4', ')', '栓', ':中央栓,位于核孔的中心。颗粒状或棒状', '二、', '染色质包装的结构模型', '(', '1', ')', '多级螺旋模型', '·', '一级结构', ':由', 'DNA', '和组蛋白组装成核小体,以多聚核小体串', '联形成的纤维状结构(', '核小体串珠结构', ')。', '·', '二级结构', ':核小体串珠结构螺旋盘绕,每圈', '6', '个核小体,形', '成', '螺线管', '。', '·', '三级结构', ':螺线管螺旋盘绕,形成', '超螺线管', '。', '·', '四级结构', ':超螺线管继续螺旋化,形成', '染色单体', '。', '\xa0', '(', '2', ')', '骨架放射环模型', '三、染色体', '·', '染色体的三大功能元件(', 'DNA', '复制起点、', '着丝粒、端粒', ')', '·', '端粒', ':', '染色体两个端部特化结构,维持染色体', '的完整性和独立性。端粒的长度与细胞及生物', '个体的寿命有关。', '\xa0', '四、核仁', '·', '超微结构(', '纤维中心、致密纤维组分、', '颗粒组分', ')', '·', '功能', ':核糖体的生物发生(', '合成、加工', 'rRNA', '和组装核糖体亚单位', ')', '\xa0', '·', '细胞膜表面受体', '(', '1', ')', '离子通道偶联受体', ':一种离子通道蛋白,参与电', '兴奋细胞间突触信号转导。', '(', '2', ')', 'G', '蛋白偶联受体', ':受体激活后,通过细胞质膜上', '的', 'G', '蛋白调节靶蛋白的活性,调控细胞内酶的活性或', '离子通道的开关。', '(', '3', ')', '酶联受体', ':具有细胞外配体结合位点和细胞内催', '化或酶的结合位点,受体的激活直接调控某种酶的', '活性。', '·', 'G', '蛋白', ':三聚体', 'GTP', '结合调节蛋白。', '·', '组成:', 'αβγ', '三个亚基。', '·', '作用:', '分子开关,', 'α', '亚基结合', 'GDP', '处于关闭状态,', '结合', 'GTP', '处于开启状态(', '活化', ')。', 'cAMP', '信号通路的主要效应是激活靶酶和开启基', '因表达,这是通过蛋白激酶完成的。', '反应链可表示为:', '激素', '→', 'G', '蛋白偶联受体', '→', 'G', '蛋白', '→', '腺苷酸环化酶', '→', 'cAMP', '→', 'cAMP', '依赖的蛋白激酶', 'A', '→', '基因调控蛋白', '→', '基因转录。', '·', '细胞周期:', '从一次细胞分裂结束开始,经过物质准', '备,直到下一次细胞分裂结束所经历的整个过程。', '·', 'G1', '期', ':差异最大。', '·', 'S', '期:', 'DNA', '复制', '。', '·', 'G2', '期:指', 'DNA', '复制完成到有丝分裂开始之前。', '·', 'M', '期:细胞分裂开始到结束。', '第十四章', '细胞衰老与细胞程序性死亡', '·', '保证正常胚胎发育进程,塑造个体及器官形态,形', '成免疫耐受', '。', '·', '维持生物体内的自稳态', '。', '·', '生理保护,肿瘤监控', '。', '(', '1', ')细胞通过出芽的方式形成许多', '凋亡小体', ',凋亡小', '体内有结构完整的细胞器。', '(', '2', ')', '不引起炎症', '。', '(', '3', ')内切酶活化,', 'DNA', '有控降解', ',凝胶电泳图谱呈梯状', '(', '4', ')凋亡通常是', '生理性变化', ',细胞坏死是病理性变化']
['·', '细胞的基本共性', '相似化学组成', '细胞质膜(脂', '-', '蛋白体系)', '遗传装置(双链', 'DNA', '为遗传信息载体、核糖体)', '分裂方式', '·', '最小最简单的细胞', ':', '支原体', '·', '光学显微镜分辨率', '(', '0.2', 'µm', ')。肉眼分辨率(', '0.2mm', ')', '·', '免疫荧光技术', ':将免疫学方法与荧光标记技术相结合,', '用于研究特异蛋白抗原在细胞内分布的方法。', '·', '传代细胞', ':适应在体外培养条件下,持续传代培养的', '细胞。', '·', '细胞融合', ':两个或多个细胞融合成一个双核或多核细', '胞的现象。', '·', '细胞质膜结构模型:', '流动镶嵌模型', '·', '组成', '1', '、膜脂(', '甘油磷脂', '、固醇、鞘脂)', '膜脂是', '兼性分子', '。', '不饱和脂肪酸含量高', ',', '流动性高', '。', '2', '、膜蛋白(', '外在膜蛋白、内在膜蛋白、脂锚定膜蛋白', ')', '·', '在', '游离核糖体', ',', '分泌蛋白起始合成', ',由信号肽', '、', 'SRP', '(信号', '识别颗粒)引导,', '转移至糙面内质网', '。', '·', '新生肽', '边合成边转入内质网腔', ',', '加工修饰', '(糖基化、折叠和', '装配)。', '·', '通过', 'COP', 'Ⅱ', '包被膜泡', ',分泌蛋白由内质网', '运至高尔基体', '。', '·', '在高尔基复合体,分泌蛋白进行', '糖基化等修饰', '。', '·', '在', 'TGN', '区,分泌蛋白被', '分选包装', ',', '网格蛋白', '/', '接头蛋白介导分', '泌泡', '的形成。分泌泡与细胞质膜融合,蛋白质被分泌到细胞', '外', '。', '●', '内共生起源学说', ':', '线粒体和叶绿体分别起源于原', '始真核细胞内共生的行有氧呼吸的细菌和行光能', '自养的蓝细菌。', '●', '主要证据', '·', '基因组', '具有明显的相似性。', '·', '具备独立、完整的', '蛋白质合成系统', '。', '·', '分裂方式', '与细菌相似。', '·', '膜的特性', ':', '内膜和外膜有明显的性质和成分差异。', '·', '细胞质骨架三种结构成分(', '微丝、微管、中间丝', ')', '·', '微丝:', '1', '、组成:', '肌动蛋白', '2', '、形成', '结构', ':微绒毛、细胞皮层、应力纤维、伪足、胞质', '收缩环、肌肉组织等', '3', '、分子马达:', '肌球蛋白', '4', '、特异性药物:', '鬼笔环肽、细胞松弛素', '·', '细胞松弛素:一类真菌的代谢产物,与微丝结合并将其切断', ',阻止肌动蛋白的聚合,但对微丝的解聚没有影响。', '·', '鬼笔环肽:一种毒蕈产生的双环杆肽,与微丝表面有强亲和', '力,但不与游离的肌动蛋白单体结合,与微丝结合后能阻止', '微丝的解聚。', '\xa0', '\xa0', '·', '微丝的功能', '(', '1', ')', '构成细胞的支架,维持细胞形态', '(细胞皮层、应', '力纤维、小肠微绒毛等)。', '(', '2', ')', '非肌细胞的运动', '(伪足的形成与细胞迁移)。', '(', '3', ')形成', '胞质分裂环', '。', '(', '4', ')', '肌细胞的收缩运动', '。', '·', '微管的组成、特异性药物、功能', '1', '、组成单位:', '微管蛋白二聚体', '2', '、形成', '结构', ':鞭毛、纤毛、中心粒、纺锤体(丝)', '3', '、功能', '4', '、', '分子马达', ':驱动蛋白、动力蛋白', '5', '、', '特异性药物', ':长春花碱、秋水仙素、紫杉醇等。', '\xa0', '·', '微管的功能', '(', '1', ')', '细胞结构的支持与组织', '。', '(', '2', ')参与', '细胞内物质运输', '。', '(', '3', ')', '纤毛和鞭毛运动', '。', '(', '4', ')', '纺锤体与染色体运动', '。', '(', '5', ')', '中心体的形成', '。', '\xa0', '一、核被膜的结构、功能', '·', '结构:', '外核膜、内核膜、核周间隙、核孔', '·', '核孔复合体', '结构模型:', '胞质环、核质环、辐、中央栓。', '功能:', '控制细胞核内外物质的交换(', '亲核蛋白', '入核;', 'RNA', '和', 'RNP', '出核', ')', '。', '(', '1', ')', 'MPF', ',', '由', 'CDK1', '和', 'cyclin', 'B', '结合', '。', 'CDK1', '含量相对', '稳定,', 'cyclinB', '呈周期性变化。', 'CDK1', '活性在', 'G2', '期晚期', '达最大值并一直维持到', 'M', '期的中期。', '(', '2', ')', 'CDK1', '使某些底物蛋白磷酸化,调控细胞周期。', '第十三章', '细胞分化与干细胞', '第十三章', '细胞分化与干细胞', '第十三章', '细胞分化与干细胞', '(', '1', ')', '凋亡的起始', ':表面特化结构消失;核糖体逐渐与', '内质网脱落,内质网囊腔膨胀,逐渐与质膜融合;', '染色质固缩,沿核膜分布。', '(', '2', ')', '凋亡小体的形成', ':', '染色质断裂,与某些细胞器', ',被反折的细胞质膜包裹,形成凋亡小体。', '(', '3', ')', '凋亡小体被邻近的细胞或巨噬细胞吞噬并消化', '。', '·', '细胞连接', ':', '在细胞质膜的特化区域,通过膜蛋白、细', '胞骨架蛋白或者胞外基质形成的细胞与细胞之间,或', '细胞与胞外基质之间的连接结构。', '2', '、', '类型', '(', '1', ')紧密连接', '(', '2', ')锚定连接', '桥粒', '/', '半桥粒(与', '中间丝', '相连);', '黏着带', '/', '黏着斑(与', '肌动蛋白纤维', '相连)', '(', '3', ')通信连接', '胞间连丝(植物)、间隙连接(动物)、化学突触', '(神经细胞)']
[]
[]
[]
[]
[]
[]
我仔细观察了里面的div位置,发现有的地方文字是保存在div[2],有的地方是保存在div[4]里面,最后修改了代码以后达到了上面的效果,能够把所有的内容导出来了,但是却发现,因为每张PPT里面的内容由于没有按照顺序来摆放,所以最后虽然把所有的结果都打印出来了,但是没有按照顺序。。。孩子要复习,不按照顺序来,不知道怎么办了。
我想过能不能在打印一个循环之后在打印另一个循环,因为每张PPT其实就是一个循环。
但是其实孩子是外行,只是初步接触,所有希望能有大神能帮帮忙,救救孩子吧。
希望最后打印出来的内容能够按照PPT的展示顺序来进行导出。