389544063
033-201790142
导航

如何有效的举行公司名称匹配

发布日期:2023-07-05 00:26

本文摘要:基于以上问题在处置惩罚公司名称匹配时将事情主要分为了两大部门:数据清洗和模糊匹配。数据清洗主要通太过词将公司全称拆解并对可能的简称形式举行组合;模糊匹配主要是基于最短编辑距离算法盘算推测的简称和需要匹配的简称的匹配分数然后通过筛选最高匹配分数来找到最佳的匹配效果。

开云体育官方首页网站

基于以上问题在处置惩罚公司名称匹配时将事情主要分为了两大部门:数据清洗和模糊匹配。数据清洗主要通太过词将公司全称拆解并对可能的简称形式举行组合;模糊匹配主要是基于最短编辑距离算法盘算推测的简称和需要匹配的简称的匹配分数然后通过筛选最高匹配分数来找到最佳的匹配效果。

在匹配时先划分盘算每个部门的匹配分数然后根据8:1:1的权重分配盘算最终的加权匹配分数这样就修正了直接匹配时的不足让关键词部门匹配分数越高的公司最终的匹配分数越高:

相关代码如下:

随着人工智能的生长基于深度学习的语义匹配已成为NLP领域基础技术公司也有相关的开源框架 深度语义匹配框架 可供参考学习。

在check匹配分数时会发现有些公司的匹配效果显着差池可是他们的匹配分数很高的现象。好比【深圳市麟云科技有限公司】的简称推测是【麟云科技】时与【云遥科技】的相似度最高匹配得分是92分。而【云遥网络科技(上海)有限公司】的简称【云瑶网络】与【云瑶科技】的相识度匹配得分只有83分。

同时也可以不停向内里添加新的规则当把2.1步骤获得所有公司全称形式化表现的数据应用这些规则后就可以获得一份每个公司全称对应的可能的简称形式如图所示:

2. 方案设计

1. 配景及主要问题

北京大阅文化流传有限公司 成都悦阅文化流传有限公司 杭州怡阅文化传媒有限公司 北京鼎阅文学信息技术有限公司 深圳华阅文化传媒有限公司 上海亲阅文化科技生长有限公司

3.1 最短编辑距离匹配的问题

1.1 公司简称形式多样

以下为各部门事情的详细先容:

有了分词及每个token的词性标注就可以凭据词性把差别的token归类到RXIO这四大类中。其中属于公司后缀O类型的数量有限可以接纳建设公司后缀词库的形式识别。

开云体育官方首页网站

地域R类型可以直接使用词性为ns(代表地名)的token完身分类。对于关键词X类型和行业I类型的识别这块是比力模糊的所以我没有严格的区分主要联合了 词性 和自界说的行业词库完成对关键词和行业的分类。在对所有公司全称按如上方式清洗后就可以获得一张其形式化表现的数据如图所示:

本文需要解决的是公司简称和全称之间的匹配问题传统的字符串模糊匹配在匹配字符数量相差很大的情况下通常得分很低(简称长度通常在2~6个字符全称则通常是10个字符以上)。

针对此问题本文总结了一些方式和方法来提高匹配率主要包罗如下四个步骤:

公司名称一般由地域(Region)、关键词(X)、行业(Industry)和公司后缀(Org_Suffix)四部门组成。好比【深圳市万网博通科技有限公司】地域为【深圳市】、【万网博通】是关键词、【科技】是行业词【有限公司是】公司后缀这样我们就可以用 【RXIO】 表现此公司的名称结构。其他结构的公司名称也可以用类似的方式表现好比:

针对单纯使用最短编辑算法匹配无法反映语意上的相似性在匹配时引入了对公司名称各部门权重的盘算。

同样的编辑距离如果权重越高的词匹配则匹配度越高。好比【云遥网络科技(上海)有限公司】和【深圳市麟云科技有限公司】在分词时已经标注了关键词、行业词和地名词如果所示:

有了公司全称的所有可能简称组合后就可以通过字符串相似度算法来盘算他们的匹配度如果匹配分数到达一定的阈值就可以认为是匹配的。常用的字符串相似度。


本文关键词:开云体育官方首页网站,如何,有效,的,举行,公司,名称,匹配,基于,以上

本文来源:开云体育官方首页网站-www.beautiqueplus.com