火眼®数据科学建模平台



聚焦大数据+算法模型:语义理解,图谱关系,机器学习,时序预测

让业务流程变得更加个性化,并最大化数据价值
证券行业合同智能识别与分类
产品详情


项目背景


对于证券公司来说,签订合同属于日常不过的业务流程。传统的纸质合同经过日积月累,造成了大量的空间堆积。针对繁琐的合同文件整理和统计分析,更是需要耗费大量的人力查看大量资料。在互联网技术发达的今天,通过大数据管理合同才能构建起互联网时代节约、高效的移动办公新模式。



项目需求


通过机器学习方法对某证券公司的合同训练文本分类模型,从而达到预测合同分类的效果。分类分为合同类型和合同子类型,其中,合同类型共14,合同子类型共161种,标注样本共7120条,剔除无效数据,剩余有效样本共4067条



实现过程


2.jpg


本次文本分类的实现流程如下


合同文件扫描件进行OCR识别


导入证券行业分词词典+人工补充词典

由于缺乏行业词典,需要从搜狗词库上下载专业行业词典以供分词的辅助训练。


jieba分词


去掉停用词


根据规则清洗数据

由于合同文件中扫描的清晰度不高,导致OCR的效果不是很好。因此出现部分缺漏和识别不准,单字词出现的概率比较高,文本语义不连续,因此需要后续对文本进行预处理。


数据增强

在四千条标注的样本数据里,有些分类达到100条以上,而有些只有1条。因此,该数据严重不均衡,需要通过过采样的步骤增加样本数据。


TFidf

文本向量化的方法有很多种,比如TFidf、bow、lda/lsi和中文词向量的方法,不过在这次分类任务中,由于样本噪音比较大,lda/lsi的工作量会比较大,所以考虑采用TFidf


GBDT分类+交叉验证+oof

对于单个模型来说,效果取决于数据划分的合理性。

因此,训练过程采用了四折交叉验证方法,能够保证最终结果的公平。GBDT结合了多个弱分类器,是集成学习,所以泛化能力和准确率更高,是在分类问题中排行比较靠前的算法。



结果分析


在严重不均衡的数据中,最常见的判别指标是f1_score。在模型完成训练之后,训练集的f1_score为86%,验证集的f1_score为82%


通过文本分类模型,大大节省了人力物力,原来单人分类的速度为2-5篇/分钟,10个合同就得需要3-5分钟,并且人为分类会因为认知误差而导致分类不一致。通过机器学习方法,模型分类速度提高为500篇/分钟,分类标准更加客观。


对于本次文本分类任务来说,要想提升模型效果,还可以通过增加数据、提高OCR的效果、提高分词效果等方式,后续有待实践。


会员登录
登录
我的资料
留言
回到顶部