庖丁科技首席科学家罗平:智能金融不只风控,语义理解才是真正的皇冠

2018-03-19 11:51:04
李利军
关注
2018-03-19

于传统金融领域而言,智能金融的领域还有待开拓与发掘,毕竟智能对于传统金融的转型升级是全方面的。

智能金融风起。迎向风口,大胆创业者以期成为下个独角兽。

 

在独角金融与中央财经大学发布的《2017中国智能金融产业发展报告》中,已经提到,金融被认为是人工智能落地最快的行业之一,智能金融也已经列入国家规划。

 

然而,智能金融的项目,还多集中在互联网金融领域,甚至根植在网贷这一垂直业务中。于传统金融领域而言,智能金融的领域还有待开拓与发掘,毕竟智能对于传统金融的转型升级是全方面的。

 

比如,“读懂”金融文档就是细分领域一个难啃的骨头。智能理解文档甚至表格、图表,对于智能技术的精度提出了挑战。


微信图片_20180319114809.png

 

庖丁科技这家创业公司迎难而上,想要从这一项目切入,帮助金融从业者提升工作效率,提升金融业的生产力。

 

罗平讲述,最开始的创业构想,是庖丁科技的另一位创始人林得苗从身边在投行工作的朋友所讲述的工作痛点中想到的。在投行工作中,会有大量处理金融文档的基础工作,工作繁琐,效率低,还很容易出错。他们就想到,能不能用智能技术来读懂文档。

 

作为庖丁科技首席科学家的罗平,同时还是中科院计算所研究员、微信人工智能科学顾问,是AI技术大拿。但是于他而言,读懂金融文档,还是个不小的挑战。

 

目前庖丁科技的主要核心技术是富格式文档的语义理解(Semantic Extraction from Richly Formatted Data),其中大致包括两部分的技术内容,一是Language semantic extraction(语言语义提取),二是Table semantic extraction(表格语义提取)。

 

金融文档是典型的富格式文档,这类文档的复杂性主要体现在如下三个方面: 

1.表现形式复杂。文档中的文本,除了沿袭传统书籍中段落篇章形式以外,还往往掺杂有表格化、图片化文本。在金融文档中,蕴含的重要信息往往以无边框表格的形式表现出来的。针对这类非扁平化数据进行有效的知识抽取和分析,是当前学界研究的难点和热点之一。

2. 数据构成复杂。文本中的有效知识,除了蕴含在无线框表格中,其余部分是以自然语言的形式蕴含在文档的字里行间。这些重要的知识型数据,以非结构化的形式保存,不利于计算机处理——传统的算法只擅长处理结构化数据(键值对、词袋等)。要处理这类非结构化数据,需要相关的自然语言语义提取算法,搭建原始数据到结构化数据之间的桥梁。

3. 信息渠道来源复杂。对于同一个实体或事件,人们往往可以从多个不同的来源找到描述它的文档。这要求模型有能力从有矛盾数据、有噪音数据、有伪造数据的信道中辨别出真实的、可用的、有价值的信息,抽取其中的知识并形成分析报告和相应的知识图谱。


微信图片_20180319114756.png

 

罗平说,想要达到足够的精度,需要利用有监督的深度学习方法,结合大量的标注数据去完成一套算法的训练。

 

表格语义提取是庖丁科技的杀手锏,一般的表格是结构化的,但是很多财报里的表格并没有边框,计算机就无法读懂。

 

罗平和团队成员,通过技术,自动给没有边框的表格加上边框,从而将非结构化的数据结构化。

 

整体而言,罗平和团队所做的是,对富格式文本的语义理解和知识发现,让计算机能够读懂其中的逻辑。这类问题,学术圈已经关注了很多年,但是由于精度问题,产品化的成功案例并不多。最后的这一步,需要算法、数据、工程化三方面的深厚积累。

 

作为AI专家,罗平对于当下的智能金融也有深入思考。以他的资历看,中国的智能金融还需要更务实一些。

 

目前智能金融在风控领域的应用较多,利用大数据,金融机构,尤其是互联网金融的风控水平已显著提升。罗平也参与过相关项目,并大获成功。但他认为,与智能风控相比,智能技术支持的语义理解才是皇冠。

 

罗平希望,有更多人,可以关注他们团队所做的事儿。

 

“这是历史性工作。”他很自豪,目前工作的价值,是让金融工作者亲身体验到世界前沿技术。

 

小小文档,读懂不易。罗平和他的团队,还在努力着,冲击着全球最高水平。

 

DJ=独角金融  L=罗平

 

DJ:为什么公司产品会从to C 转向to B?

L:尽管AI概念很火,但是AI在大众推广存在两个特性——一是实际落地产品少;二是深度应用场景少。

 

我们早期推出的测试级产品,其目的主要为培育市场,解决上述两问题,B端客户也是由每个个体组成,C端试用为专业化的B端场景提供了认知基础。

 

DJ:公司的竞争壁垒在哪里?

 

L:世界最前沿技术是现在参与赛道的必备条件,技术日趋成熟,深挖垂直领域应用才是未来的壁垒。我们从一开始便深耕细分垂直实际应用,建立了领先于业界的竞争壁垒。

 

DJ:目前是否有对标的企业?

 

L:目前,国内还没有一家人工智能公司,集Fintech 金融科技/Business Intelligence (BI 商务智能)/Data Asset Management platform (DAM 数据分析管理平台)于一体的对标公司。美国的Palantir 公司更符合我们的模式。另外,斯坦福的教授Christopher Ré创办的公司Lattice(已被Apple收购),在核心技术层面上与我们心心相惜。

 

DJ:企业在2018年有哪些计划?

 

L:我们认为2017年是中国智能金融元年,我们作为首批AI+金融垂直领域公司参与开创了将AI技术落地于我国金融市场的历史性工作,为金融从业者提供了亲身体验世界前沿技术的真实场景。

 

今年,随着国家对智能监管的持续重视,我们将继续深挖金融领域的变革性智能需求,大力发展更多应用领域,将技术延伸至银行/券商/基金/保险/信托/期货等各类依赖数据进行决策的金融细分领域。比如,智能关联,智能因果,智能推理,智能撰写等。我们会在二季度初公布公司的详细计划。


点赞
收藏
参与评论
全部评论

1条评论

    暂时没有人评论

李利军
224文章
·
1评论
·
19粉丝
聊聊,wechat:fibreguy
个人主页