对于证券公司来说,签订合同属于日常不过的业务流程。传统的纸质合同经过日积月累,造成了大量的空间堆积。针对繁琐的合同文件整理和统计分析,更是需要耗费大量的人力查看大量资料。在互联网技术发达的今天,通过大数据管理合同才能构建起互联网时代节约、高效的移动办公新模式。
通过机器学习方法对某证券公司的合同训练文本分类模型,从而达到预测合同分类的效果。分类分为合同类型和合同子类型,其中,合同类型共14种,合同子类型共161种,标注样本共7120条,剔除无效数据,剩余有效样本共4067条。
① 合同文件扫描件进行OCR识别
核心功能包括通用文字识别、印章识别、表格识别、水印识别等。
由于缺乏行业词典,我们建立了15个专业行业词典(包括超过1亿自然语言语料)以供分词的辅助训练。
⑤ 根据规则清洗数据
由于合同文件中扫描的清晰度不高,导致OCR的效果不是很好。因此出现部分缺漏和识别不准,单字词出现的概率比较高,文本语义不连续,因此需要后续对文本进行预处理。
⑥ 数据增强
在四千条标注的样本数据里,有些分类达到100条以上,而有些只有1条。因此,该数据严重不均衡,需要通过过采样的步骤增加样本数据。
⑦ TFidf
文本向量化的方法有很多种,比如TFidf、bow、lda/lsi和中文词向量的方法,不过在这次分类任务中,由于样本噪音比较大,lda/lsi的工作量会比较大,所以考虑采用TFidf。
⑧ GBDT分类+交叉验证+oof
对于单个模型来说,效果取决于数据划分的合理性。
因此,训练过程采用了四折交叉验证方法,能够保证最终结果的公平。GBDT结合了多个弱分类器,是集成学习,所以泛化能力和准确率更高,是在分类问题中排行比较靠前的算法。
★ 在严重不均衡的数据中,最常见的判别指标是f1_score。在模型完成训练之后,训练集的f1_score为86%,验证集的f1_score为82%。
★ 通过文本分类模型,大大节省了人力物力,原来单人分类的速度为2-5篇/分钟,10个合同就得需要3-5分钟,并且人为分类会因为认知误差而导致分类不一致。通过机器学习方法,模型分类速度提高为500篇/分钟,分类标准更加客观。