豪杰文档数据库-HeroDB 7c

产品介绍

豪杰文档数据库管理系统(简称 HeroDB 7c)是具有自主知识产权、达到公安部EAL四级安全标准、具备海量文档存储、智能检索和自然语言处理能力的企业级NewSQL数据库产品。该产品遵循ACID特性,符合SQL92/ SQL99/SQL2003/SQL2011核心规范,支持 GBK 和 UTF-8 字符集,提供LIB、ODBC、OLE DB、JDBC、ADO.NET、PEP246、PDO等开发接口。该产品适用于数字档案馆、电子政务、电子文档管理、数据挖掘与分析、情报信息分析研判、舆情跟踪与分析等有非结构化数据处理及文本智能需求的场景。

HeroDB 7c分为:标准版、企业版、国密版。 标准版面向单机和非实时在线业务场景; 企业版面向高可靠、高性能的业务场景,支持数据库集群; 国密版面向高安全、高可靠的业务场景,具有商用密码型号证书,带商密型号的硬件密码设备。

产品功能

  1. 完全支持SQL92、SQL99、SQL2003、OLAP等国际标准,高度兼容Postgresql、MySQL语法,90%兼容Oracle语法
  2. 数据库接口:ODBC、JDBC、ADO.Net、PEP249、PDO、GO-LIBPQ等
  3. 支持标准SQL所有数据类型, INET、CIDR、UUID、IBSN等扩展数据类型,K-V、XML、JSON等半结构数据类型,POINT、CIRCLE、LINE等GIS数据类型,共计100多种
  4. 单机500G数据100毫秒以内响应,集群100T数据1秒以内响应
  5. Share Nothing MPP分布式架构,分布式引擎,多种数据分片策略,支持32个计算节点弹性扩展
  1. 海量文档存储
    • 单台 HeroDB服务器支持:10000个数据库,每个数据库可以存放1亿份文档,每份文档最大支持到4G
    • HeroDB服务器集群支持:单个集群支持到256台 HeroDB服务器接入,其中1~2台作为主节点(不存储数据),其余为数据节点,集群数据多份存储,并行检索
  2. 文档内容自动提取
    • 流式文档内容提取,如office文档、WPS、网页等
    • 版式文档内容提取,如OFD、PDF、CEB等
    • 支持200多种电子文档的内容提取,内容提取由服务器自动完成
  3. 图片文字自动识别
    • 图片文档文字识别,如PDF、JPG、JPEG、TIFF、PNG等
    • 手写扫描图片文字识别
    • 图片文档的文字识别由 HeroDB服务器自动完成
  4. 全文检索(近实时)
    • 支持入库即可全文检索,达到近实时的水平
    • 全文检索支持任意词、词语、语句三种级别的组合检索。
    • ADHOC检索:支持任意字段的组合检索和多表关联检索
    • 支持传统方式(&、|、!)与互联网方式(空格、+、-、 and、or、not)混合使用
    • 检索支持自定义词、同义词的适配,支持停用词自动过滤。
  5. 文档语义检索
    • 支持词语级、语句级、文档级的语义相似检索(非检索词硬性检索)
    • 支持文档排重检索,单台 HeroDB服务器能在千万级别文档范围内秒级检索出与任意一篇指定文档相似的文档列表
    • 支持文档模糊检索、正则检索和词距离检索,单台 HeroDB服务器能在千万级别文档范围内实现秒级模糊检索、正则检索和距离检索
    • 文档检索结果相关性排序,支持多种排序算法,实现相关度高的检索文档靠前显示
  6. 图片检索
    • 图片文档相似度分析和检索,单台 HeroDB服务器能在千万级别图片文档的范围内实现秒级找重
    • 图片隐含信息检索,HeroDB支持IMAGE字段类型,支持图片隐含数据(如时间、地点、格式、色度)提取,支持图片按时间、地点的快速检索
    • 图搜图检索,支持以图片作为条件,检索出人物相同、场景相似的图片
  1. 支持多语言分词、支持人名、地名等专用名词识别
  2. 支持专业领域word2vec、分类、聚类模型训练
  3. 支持词共现统计、语义相似检索和文本推荐
  4. 支持文档级的句法依存结构、词性标注
  5. 支持关键词提取、词频分析和内容摘要
  6. 支持分类、聚类、情感分析等
  7. 支持文档级的时间、地点、事件提取
  1. 支持电子公文SQL语句
  2. 支持电子公文序号管理
  3. 支持电子公文跨服务器加密流转
  4. 支持电子状态跟踪和SQL查询
  5. 支持OFD版式文件内容解析
  6. 支持OFD版本文件分页内存显示,终端不留密
  1. 数据存储加密,支持系统文件、表、对象、WAL日志、审计日志等存储加密
  2. 数据传输加密,基于GMSSL的传输加密
  3. 多重身份认证,支持口令、证书、令牌、APPKEY、应用水印等多重认证方式
  4. 细粒度的授权访问,支持基于角色和组的授权访问方式,授权对象支持表、行、列、函数、序列等,粒度达到select、insert、update、delete、execute等
  5. 安全标记及强制访问控制,安全标记支持密级(或等级,允许自定义)和范围(例如部门)两种安全标签组合,强制访问控制到表级、列级、行级和单元级
  6. 三员管理和多员管理,数据库系统自带三员管理,即系统管理员、安全管理员和安全审计,三员管理按照“最小授权、相互制约”的原则设计,允许定义多员管理,满足不同场景的安全需求
  7. 日志审计,支持审计日志策略配置,支持用户审计、对象审计、权限审计、登录审计、结果审计和TCB审计
  8. 接入控制,支持黑白名单,支持按IP地址段、MAC地址、登录时间段等多种方式
  9. SQL防火墙,支持SQL规则自学习和SQL注入检测
  10. 数据脱敏,支持常用数据类型自动脱敏,支持自定义脱敏规则
  11. 数据安全和应用安全统一管理,将数据授权(表、视图、字段、记录)和应用授权(链接、菜单、按钮)统一管理的授权方式,实现数据安全和应用安全有机统一,避免了应用授权和数据授权的脱节

技术指标

核心指标 HeroDB 7c
数据容量 10PB
数据库个数 10000
每个数据库大小 1PB
支持文字检索的图像文档 PDF、JPG、JPEG、TIFF、PNG等几十种常用图像文档;
支持文字检索的视频文档 mp4、avi等十多种常用视频文档(需要配合dbBrain使用)
全文检索 支持入库即可全文检索,达到近实时的水平;支持255个条件组合检索;
ADHOC检索 支持任意字段的组合检索和多表关联检索;支持任意词、词语、语句三种级别的组合检索
语义检索 支持词语级、语句级、文档级的语义相似检索(非检索词硬 性检索);支持文档排重检索;支持文档模糊检索;文档检索结果相关性排序
密表加密方式 整表加密、行加密、列加密
强制访问控制粒度 支持表级、记录级、字段级、记录字段级,支持虚拟私有数据表
密表性能损耗 关系表15%以内,文档库35%以内
密表空间膨胀 5%以内
支持数据类型 除文档类型外,支持数值类型、货币类型、字符类型、二进制数据类型、日期/时间类型、布尔类型、枚举类型、几何类型、网络地址类型、文本搜索类型、UUID类型、xml数据类型、JSON类型、范围类型、对象标识符类型、伪类型、数组类型、复合类型等
支持SQL规范 SQL92/ SQL99/SQL2003/SQL2011核心规范
服务器字符集 utf-8、gbk、unicode等
数据库接口 LIB、ODBC、OLE DB、JDBC、ADO.NET、PEP246、PDO、GO-LIB等
锁和事务隔离级别 MVCC 无锁设计,支持Read uncommitted、Read committed(默认)、Repeatable read、Serializable等四种事务隔离级别
流复制方式 支持同步、异步、半同步
备份恢复 全量备份、定时备份、增量备份;全量恢复、PITR恢复(恢复到时间点)
高可用架构 不依赖第三方软件的情况,支持双机热备、一主多从、读写分离 支持数据库虚拟IP,主备秒级切换
并发连接数 600
支持操作系统 麒麟、统信、方德、EulerOS、CentOS、Ubuntu、Windows Server 2012-2020
支持处理器 龙芯、飞腾、申威、海光、Amd64
支持云平台 支持公有/私有/混合云,例如阿里云/腾讯云/青云/金山云/易捷行云/zstack等

特点优势

典型应用案例

  • 应用1: 等保2.0数据安全保护
  • 应用2: 党政公文流转应用
  • 应用3: 情报与舆情分析
  • 应用4: MongoDB替代
  • 应用5: 档案数字化
  • 面临挑战
    • 等保2.0已经开始实施,数据安全是最难解决的环节,如何用较小代价实现等保2.0网络合规?
    • 80%的安全问题来自内部,其中最严重的问题是拖库、管理员权限无节制。如何真正实现内部安全防控?
  • 解决方案

      采用HeroDB替代现用的关系数据库,数据从现用数据库迁移至HeroDB,即能达到等保2.0中三级、四级的所有要求,让迁移代价做到较小:

    • HeroDB兼容主流数据库的语法和字段类型,数据能平滑迁移,应用系统无需二次开发;
    • HeroDB安全性对用户透明,不改变用户的使用习惯,同时对于密级与分类细粒度访问控制无需编程即可实现。
  • 客户价值

    目前市场上代价较小的等保2.0合规和内部安全防控的解决方案。

  • 应用领域

    已应用于政务、军工、央企等各类敏感信息的保护以及等保2.0系统建设。

  • 面临挑战
    • 党政公文流转应用面临三个挑战:一是公文为涉密文档,安全性如何有效解决;二是公文的实效性,公文流转如何进行快速高效的流转;三是公文交换,公文交换涉及多系统建设,如何有效杜绝单点故障。
  • 解决方案

      HeroDB 7c适合于作为党政公文应用的后台数据库,主要有3点原因:

    • HeroDB 7c安全性高,文档数据、索引均可加密保护,符合等保和分保涉密信息的保护要求;
    • HeroDB 7c数据库内置MQ,公文交换实现SQL语句化,跨服务器的公文交换较通用方案部署简单,工作高效,具有大并发量支撑能力,提升公文交换时效性;
    • HeroDB 7c实现电子公文授权、流转、传输和交换功能SQL化,开发公文流转应用项目能节省至少30%的工作量,已经被多个政务应用开发厂商选为此类应用的后台数据库。
  • 客户价值

    提升公文应用的安全性,降低高效公文流转应用的开发的门槛,缩短开发周期和成本。

  • 应用领域

    电子政务、电子公文、办公自动化(OA)等领域。

  • 面临挑战
    • 情报与舆情分析涉及海量的图、文、音像、社交媒体等多模态数据存储和处理,背后往往需要多达十来种sql、nosql数据库作为支撑,不仅选型复杂,而且实现繁琐,投入大、周期长,如何解决这个难题?
  • 解决方案

      HeroDB 7c十分适合情报和舆情分析应用场景,除HeroDB的高度的安全性之外,还有以下几点原因:

    • 首先,该产品能够在一套数据库内存储和处理结构化、半结构化和非结构化数据库,支持事务ACID特性,能解决多种数据库带来的事务、关联、一致性等问题;
    • 其次,该产品基于机器学习和深度神经网络,在多模态数据处理功能上十分强大,支持图片文档的OCR识别,音像文档语音识别和字幕识别(需配合dbBrain产品和云服务);
    • 最后,该产品内置的NLP处理引擎,具备较高的文本智能,常用的NLP任务全部SQL语句化,用户的学习和使用成本低,节省大量的开发成本,缩短开发周期;同时,一种数据库相比十多种数据库来说,部署简单,维护方便。
  • 客户价值

    情报数据的安全性,降低情报分析、舆情分析等这种复杂应用的开发的门槛,缩短开发周期和成本。

  • 应用领域

    政务、安全、档案、金融、传媒等领域。

  • 面临挑战
    • 目前,使用量最大的文档数据库为MongoDB,开源的MongoDB存在安全性差(容易被拖库和勒索)、企业版收费等问题,MongoDB的如何替代?
  • 解决方案

      HeroDB 7c是目前来说mongodb最佳替代者,有以下几点原因:

    • 首先,该产品功能上与mongodb相似,支持海量文档的存储和管理,具有很好的弹性扩展能力。HeroDB 7c在下面两个方面比mongodb有较大的优势:
    • 其次,HeroDB 7c遵循原文入库、原文存储和原型格式显示的原则,不需要预处理、内容提取和Json格式封装,使用上更加符合文档操作的习惯;同时,采用的SQL语句化操作,有别于mongodb的JSON API 访问机制,学习成本比较低,上手使用容易;
    • 最后,HeroDB 7c达到国标四级的安全性,内置NLP处理引擎,支持NLP处理和机器学习,这些功能mongodb都无法具备。
  • 客户价值

    为用户提供增值的mongodb的替代方案,保障用户利益的长远发展。

  • 应用领域

    适用于使用mongodb的所有领域,适用于mongodb的国产化低成本替代

  • 面临挑战
    • 档案的数字化多数停留在档案的管理和借阅层次,对档案价值没有很好地利用起来,尤其是涉密档案,档案资料的查询、检索、分析和利用的安全性难以保障,同时档案系统均为固定模式,二次改造建设周期长,如何提供安全性高且快速的数字档案方案?
  • 解决方案

      采用HeroDB 7c作为数字档案管理系统,不仅可以免开发,而且具备三大优势:

      1. 1.HeroDB 7c内核采用多级安全数据库内核,无缝对接密码设备,采用硬件加密涉密档案,解决涉密档案的安全保护问题;
      2. 2.HeroDB 7c支持纸质档案的OCR和手写档案的OCR(需配合HeroBox),解决很多纸质档案的再利用问题;
      3. 3.HeroDB 7c在dbBrain的配合下,能够自动分析档案的内容,建立特定领域的知识图谱,将“死”档案变成“活”知识。
  • 客户价值

    降低档案数字化的成本,解决档案的数字化之后的价值挖掘的难题。

  • 应用领域

    各级档案部门、科研院所。

产品咨询

  • 微信公众号

  • 咨询客服