金融新闻数据挖掘分析
本项目致力于完成金融相关的数据抓取、NLP算法分析、量化策略、回测框架等的系统搭建工作,系统包括如下几个主要的部分;
代码和tutorial仍在完善中,将于近期更新
.
├── algorithm(算法模型框架)
├── analyze(具体策略)
├── crawler(scrapy爬虫)
│ └── crawler
│ └── spiders(爬虫具体抓取代码)
├── database(数据库操作)
├── preprocess(数据预处理)
│ └── pre_data(预处理存放目录)
├── strategy(回测接口)
├── tonglian(通联数据获取接口)
├── tools(通联数据获取接口)
├── utils(通用处理类)
└── data(存放数据的目录)
中文分词: jieba
爬虫: scrapy
Mysql连接: MySQLdb
ORM工具: sqlalchemy
AC自动机: esmre
布隆过滤器: pybloom
机器学习: scikit-learn
文本主题模型: gensim
快速生成Python扩展模块: Cython