2001年-2021年A股上市公司年报,pdf版及txt版
数据收集过程如下:1.python下载pdf年报,2021年年报是2022年8月3日统一下载
2.python使用pdfminer库将pdf转成txt文本
3.针对扫描件、图像格式的pdf年报使用嗨格式pdf转换器直接转txt文本,部分加密pdf年报也是使用嗨格式处理,为节约时间2021年年报是直接使用嗨格式pdf转换器转txt文本
4.对txt文本同一删除换行符和段落符
5.数据集包括pdf版和txt版,如需python批量下载年报代码(包括深交所、沪交所、巨潮三个网站),pdf转txt代码,请私聊
6.数据集使用分卷压缩,解压缩的时候注意下
7.txt年报示例及每年年报数量如下图所示
8.私聊有优惠