数据建模和清洗组件

数据清洗软件-HeroETL

HeroETL是在开源的Kettle基础上定制、与豪杰数据库深度集成的数据抽取、转换、装载工具,支持100多种数据源,通过图形界面来设计ETL转换过程,以工作流的形式执行数据抽取、质量检测、数据清洗、数据转换、数据过滤、结果装载等过程,ETL结果支持自动存入豪杰数据库,实现数据库检索、分析和利用。

HeroETL相比开源的Kettle,在易用性方面有比较大的改进,Kettle安装包过于庞大,插件过多,不利于初学者使用。HeroETL简化Kettle的流程定义,支持初学者快速上手。 同时,HeroETL具有自动将原文、中间结果和最终结果“一键导入”豪杰数据库,支持豪杰关系数据库、时序数据库、文档数据库和图数据库,支持连接dbBrain进行半监督学习 和非监督学习,自动抽取人物、时间、地点、关系等语义信息,增强Kettle的智能化水平。

HeroETL主要应用于数据预处理和数据治理,通过可视化、流程化的方式的进行数据融通、价值挖掘、数据交换与治理,适用于各行各业的数据治理领域。

数据建模软件-HeroModel

HeroModel是在开源的Orange3基础上定制,与豪杰数据库深度集成的数据建模、数据分析和模型训练软件,支持100多种数据源,通过图形化通过拖曳组件来搭建一个机器学习流程,涵盖主流的机器学习算法,以可视化的方法完成机器学习过程,降低机器学习的门槛,特别适用于初学者或小规模数据分析。

HeroModel主要是对Orange3进行裁剪和中文化,在公司早期使用,豪杰数据库从7.0版本开始,加入AutoML功能,此软件使用较少,不持续进行新版本的发布,用户如有定制需求,请与豪杰客服联系。

HeroModel降低了使用机器学习与深度学习的门槛,适用于非专业人士以及科研机构进行数据分析的各个领域。

手写体模型训练软件-HeroBox

HeroBox是中安豪杰自主知识产权的手写体OCR识别的模型训练软件,基于深度神经网络训练个性化手写体识别模型, 能实现样本足够的情况下,能训练出高准确率的个人写体识别模型,准确率最高能达到90%,几乎能达到印刷体的文字识别水平。

HeroBox主要应用在领导公文签批文字识别、历史档案文字识别、写作文档文字识别等领域。

数据爬取软件-HeroSpider

HeroSpider是中安豪杰自主知识产权的数据爬取软件,支持从网站、社交媒体等服务器上抓取网页、标签和数据。具有模板化定制功能,支持自定义抓取的路径, 和关键词,避免全量爬取。该软件遵循Robots协议,具有智能调度功能,支持爬取数据格式转换,支持存入豪杰数据库做实时分析。

HeroSpider主要应用于新闻、社交、舆论、热点的等实时跟踪,领域知识建模,知识图谱和用户画像等领域,以及其他需要从互联网自动化获取信息等领域。

产品咨询

  • 微信公众号

  • 咨询客服