合同智能审核

产品简介


项目背景


对于证券公司来说,签订合同属于日常不过的业务流程。传统的纸质合同经过日积月累,造成了大量的空间堆积。针对繁琐的合同文件整理和统计分析,更是需要耗费大量的人力查看大量资料。在互联网技术发达的今天,通过大数据管理合同才能构建起互联网时代节约、高效的移动办公新模式。



项目需求


通过机器学习方法对某证券公司的合同训练文本分类模型,从而达到预测合同分类的效果。分类分为合同类型和合同子类型,其中,合同类型共14,合同子类型共161种,标注样本共7120条,剔除无效数据,剩余有效样本共4067条



实现过程


2.jpg


本次文本分类的实现流程如下


合同文件扫描件进行OCR识别

核心功能包括通用文字识别、印章识别、表格识别、水印识别等。


导入证券行业分词词典+人工补充词典

由于缺乏行业词典,我们建立了15个专业行业词典(包括超过1亿自然语言语料)以供分词的辅助训练。


jieba分词


去掉停用词


根据规则清洗数据

由于合同文件中扫描的清晰度不高,导致OCR的效果不是很好。因此出现部分缺漏和识别不准,单字词出现的概率比较高,文本语义不连续,因此需要后续对文本进行预处理。


数据增强

在四千条标注的样本数据里,有些分类达到100条以上,而有些只有1条。因此,该数据严重不均衡,需要通过过采样的步骤增加样本数据。


TFidf

文本向量化的方法有很多种,比如TFidf、bow、lda/lsi和中文词向量的方法,不过在这次分类任务中,由于样本噪音比较大,lda/lsi的工作量会比较大,所以考虑采用TFidf


GBDT分类+交叉验证+oof

对于单个模型来说,效果取决于数据划分的合理性。

因此,训练过程采用了四折交叉验证方法,能够保证最终结果的公平。GBDT结合了多个弱分类器,是集成学习,所以泛化能力和准确率更高,是在分类问题中排行比较靠前的算法。



结果分析


在严重不均衡的数据中,最常见的判别指标是f1_score。在模型完成训练之后,训练集的f1_score为86%,验证集的f1_score为82%


通过文本分类模型,大大节省了人力物力,原来单人分类的速度为2-5篇/分钟,10个合同就得需要3-5分钟,并且人为分类会因为认知误差而导致分类不一致。通过机器学习方法,模型分类速度提高为500篇/分钟,分类标准更加客观。



商务合作
BD@ibbd.net
简历投递
fuwu@ibbd.net
关于迪奥
产品中心
联系我们
行业应用
公司简介
新闻动态
人才招聘
自然语言理解
场景文字识别
文档OCR识别
金融行业
政府&公共事业
零售行业
020-29179586
工作日:9:30-18:30
广州市天河区华观路田头岗二路一横街起点国际三层
能源行业
文本数据挖掘