设为首页收藏本站邀请注册
开启左侧

NLPIR-KGB知识图谱引擎为大数据挖掘提供新视角

[复制链接]
25 0
  随着信息技术的高速发展、数据库管理系统的广泛应用,人们积累的数据量急剧增长,大量的信息给人们带来方便的同时,也带来了诸如:信息过量难以消化,信息真假难以辨识,信息安全难以保证,信息形式不一致难以统一处理等问题。如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。
  大数据挖掘是伴随者互联网的普及应用和传统信息检索技术的不足提出并发展起来的。大数据挖掘是从大数据中发现有用的模式(其中的数据可以存放在数据库、数据仓库或其他信息库中),它旨在解决数据挖掘、信息检索、知识抽取以及更广泛的商业问题。面向大数据的挖掘比面向数据库和数据仓库的数据挖掘要复杂,因为大数据往往是无结构的,通常是用长的句子或短语来表达文档类信息;有些则可能是半结构化的,当然也包括大量的异构信息、冗余信息等,对诸如广告、导航条、动画等无关信息的甄别与处理也都是需要考虑的问题。大数据挖掘也是一个交叉学科,它涉及信息检索(信息检索可以看成是大数据挖掘的初级阶段)、人工智能、机器学习、概率论以及数据库等。在大数据搜索和检索中,常常需要对结果进行处理和内容挖掘。应用数据分析与挖掘方法,可以帮助人们从海量网络信息中提取知识,为访问者、站点经营者以及包括电子商务在内的基于因特网的商务活动提供决策支持。由于大数据的海量、冗余、异构等复杂特点,给传统的数据挖掘技术提出了很多亟待解决的难题。
  作为大数据挖掘领域中的一个重要研究分支,文本挖掘与处理主要研究从非结构化及半结构化的海量Web文本信息中挖掘有价值的信息,处理其中可能隐藏着的概念及其联系,并完成可能的知识发现。
  北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。
  其中KGB(Knowledge Graph Builder)知识图谱引擎是我们自主研发的知识图谱构建与推理引擎,基于汉语词法分析的基础上,采用KGB语法实现了实时高效的知识生成,可以从非结构化文本中抽取各类知识,并实现了从表格中抽取指定的内容等。KGB同时可以定义不同的动作,如抽取动作,并能自定义各类后处理程序。利用KGB知识图谱引擎可以抽取到产品的详细报价信息,方便进行下一步的数据挖掘与图谱构建。
  大数据挖掘技术是一个充满希望的研究领域,商业利益的强大驱动力将会不停地促进它的发展。每年都有新的数据挖掘方法和模型问世,人们对它的研究正日益广泛和深入。对海量文本信息进行有效的数据挖掘已经是自然语言处理、信息检索、信息分类、信息过滤、语义挖掘、文本的机器学习等诸多应用领域基础且关键的研究问题,它影响着上层信息服务与信息共享的质量和水平。NLPIR大数据语义智能技术将对中文数据挖掘技术进行深入研究,必将提供出高质量、多功能的中文数据挖掘算法并促进自然语言理解系统的广泛应用。

举报 使用道具

回复 论坛版权
*滑动验证:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

2019软院考研宝典
科大软院那些事儿
软院网那些事儿
APP
软院网客户端
公众号
Google

图文热点

更多

社区学堂

更多

客服中心

关注我们

  • 软院网客户端
  • 关注官方微信
快速回复 返回顶部 返回列表