请问如何python从一段文字或一张图片中识别出里面提到的所有股票名?

比如随便一段文字

受电动汽车发展拉动、相关材料价格上涨影响,锂电、锂矿、电解液板块同时大涨。

截至7月2日收盘,Wind锂电池指数上涨1.74%。该指数下南都电源(300068.SZ)上涨17.13%,报收11.9元;嘉元科技(688388.SH)上涨10.85%,报收100.1元;超华科技(002288.SZ)涨停;诺德股份(600110.SH)上涨9.66%。

同日,WIND锂矿指数大涨3.55%。截至收盘,中矿资源(002738.SZ)涨停,永兴材料(002756.SZ)盘中一度涨停,最终收涨8.72%;天齐锂业(002466.SZ)、盛新锂能(002240.SZ)等跟涨,涨幅分别达4.39%和2.99%。

电解液板块同样表现强势。多氟多(002407.SZ)盘中最高涨幅达到9.57%逼近涨停,最终收于37.5,上涨6.78%;奥克股份(300082.SZ)、天际股份(002759.SZ)涨幅分别超4%和3%。

这最重要影响因素为相关材料价格出现上扬。

【新能源汽车产业链锂电池各类细分个股】

1.电池:宁德时代、比亚迪、亿纬锂能、国轩高科、鹏辉能源、川能动力、欣旺达。

2.正极材料:a.三元正极:容百科技、当升科技、杉杉能源(杉杉股份 )、格林美、中伟股份、厦钨新能(厦门钨业 )。b.磷酸铁锂正极:德方纳米。c.钴酸锂和锰酸锂正极:湘潭电化。

3.隔膜:恩捷股份。

4.电解液:天赐材料、天际股份、新宙邦、杉杉能源。

5.负极材料:璞泰来、中科电气、杉杉能源、翔丰华。

6.导电剂:天奈科技。

7.锂电设备:先导智能、杭可科技。

8.锂资源:赣锋锂业、天齐锂业、永兴材料。

9.钴资源:华友钴业、寒锐钴业、洛阳钼业。

10.镍资源:格林美、华友钴业、盛屯矿业。

11.铜箔:超华科技、诺德股份、嘉元科技。

12.结构件:科达利。

主要问题

1  股票名有一个数据库  包括曾用名 这个很多财经网站或数据库如tushare上都有数据列表   我准备了一个简单的  https://share.weiyun.com/USpxwDPW

2 有的股票是三个字  有的是四个字

3 有的股票还有st 等等前缀

4 带股票代码的比较好识别  没有代码的靠文字来识别

5  能识别错别字就最好了 因为很多人打字股票名 容易出错 但大家都知道他说的是啥股票

6 一堆文字中实现了 再加上图片文字识别 就可以识别图片里的股票名了 需要python工具包来完成

410712012@qq.com

在python用相关库比如tesseract进行图像识别准确率有时不是太高,至于纯文本部分,可通过使用正则表达式提取。

拿分词工具把整段文字分成一个一个的词,然后跟你的字典比较,一致的就是股票名。

常见中文分词工具见:
https://blog.csdn.net/qiang12qiang12/article/details/80792190

百度一下LSTM CRF命名实体识别