豪杰知识库-HeroDB 7K

产品介绍

豪杰知识库(简称HeroDB 7K)是具有自主知识产权、开箱即用的企业级内容管理基础平台。该产品提供可视化的企业知识库管理和检索功能, 支持管理海量的文本、网页、档案、文献、办公文档、技术资料等非结构化数据按照自定义结构存储和即席检索,具有信息检索、模糊语义搜索,自动知识分类,知识规则挖掘,海量数据知识萃取等智慧化功能,为企业信息管理和知识利用的基础性平台。 该产品适用于“零开发”创建企业知识库,开箱即用,同时适用于数字图书馆、企业搜索、知识管理、内容管理、情报分析、互联网不良信息监控、信息资源开发利用、门户建设等应用场景。

产品功能和性能指标

  1. 知识库结构定义、修改。企业知识库结构采取类似关系数据库表结构,面向知识特点,简单易用
  2. 知识库入库模板、检索模板,均由知识库自动生成,无需编程
  3. 知识库的分组,方便知识库管理。支持1024个分组,每个分组支持4096个知识库
  1. 知识库支持文本、半结构文档(XML、JSON、HTML等)、版式文档(OFFICE、WPS等)、流式文档(PDF、OFD、ECB等)、图片文档(BMP、PNG、JPEG等)等200多种文档类型,支持原文入库、原文下载和内容统一格式显示,无需入库前预处理和第三方软件
  2. 全文检索
    • 支持入库即可全文检索,达到近实时的水平
    • 全文检索支持任意词、词语、语句三种级别的组合检索。
    • ADHOC检索:支持任意字段的组合检索和多表关联检索
    • 支持传统方式(&、|、!)与互联网方式(空格、+、-、 and、or、not)混合使用
    • 检索支持自定义词、同义词的适配,支持停用词自动过滤。
  3. 文档语义检索
    • 支持词语级、语句级、文档级的语义相似检索(非检索词硬性检索)
    • 支持文档排重检索,单台知识库服务器能在千万级别文档范围内秒级检索出与任意一篇指定文档相似的文档列表
    • 支持文档模糊检索、正则检索和词距离检索,单台知识库服务器能在千万级别文档范围内实现秒级模糊检索、正则检索和距离检索
    • 文档检索结果相关性排序,支持多种排序算法,实现相关度高的检索文档靠前显示
  4. 图片检索
    • 图片文档相似度分析和检索,单台知识库服务器能在千万级别图片文档的范围内实现秒级找重
    • 图搜图检索,支持以图片作为条件,检索出人物相同、场景相似的图片
  1. 支持多语言分词、支持人名、地名等专用名词识别
  2. 支持专业领域word2vec、分类、聚类模型训练
  3. 支持词共现统计、语义相似检索和文本推荐
  4. 支持文档级的句法依存结构、词性标注
  5. 支持关键词提取、词频分析和内容摘要
  6. 支持分类、聚类、情感分析等
  7. 支持文档级的时间、地点、事件提取
  1. 数据存储加密,支持系统文件、表、对象、WAL日志、审计日志等存储加密
  2. 数据传输加密,基于GMSSL的传输加密
  3. 多重身份认证,支持口令、证书、令牌、APPKEY、应用水印等多重认证方式
  4. 细粒度的授权访问,支持基于角色和组的授权访问方式,授权对象支持表、行、列、函数、序列等,粒度达到select、insert、update、delete、execute等
  5. 安全标记及强制访问控制,安全标记支持密级(或等级,允许自定义)和范围(例如部门)两种安全标签组合,强制访问控制到表级、列级、行级和单元级
  6. 三员管理和多员管理,数据库系统自带三员管理,即系统管理员、安全管理员和安全审计,三员管理按照“最小授权、相互制约”的原则设计,允许定义多员管理,满足不同场景的安全需求
  7. 日志审计,支持审计日志策略配置,支持用户审计、对象审计、权限审计、登录审计、结果审计和TCB审计
  8. 接入控制,支持黑白名单,支持按IP地址段、MAC地址、登录时间段等多种方式
  9. SQL防火墙,支持SQL规则自学习和SQL注入检测
  10. 数据脱敏,支持常用数据类型自动脱敏,支持自定义脱敏规则
  11. 数据安全和应用安全统一管理,将数据授权(表、视图、字段、记录)和应用授权(链接、菜单、按钮)统一管理的授权方式,实现数据安全和应用安全有机统一,避免了应用授权和数据授权的脱节
  1. 全文检索速度: 500GB /秒
  2. 相似检索速度: 100万文献量/30毫秒
  3. 单表支持最大记录个数:10亿
  4. 单表支持最大容量:8 TB(分区表最大容量 2PB)
  5. 可同时跨库检索最大数:255个
  6. 支持分类、聚类、情感分析等
  7. 拥有30万数量级的概念关系词典

技术指标

核心指标 HeroDB 7K
数据容量 10PB
知识库个数 10000
每个知识库大小 1PB
可视化定义知识库结构 支持
自动生成知识库检索页面 支持
知识库操作语言 扩展SQL
知识库使用方式 web
支持文字检索的图像文档 PDF、JPG、JPEG、TIFF、PNG等几十种常用图像文档;
支持文字检索的视频文档 mp4、avi等十多种常用视频文档(需要配合dbBrain使用)
全文检索 支持入库即可全文检索,达到近实时的水平;支持255个条件组合检索;
ADHOC检索 支持任意字段的组合检索和多表关联检索;支持任意词、词语、语句三种级别的组合检索
语义检索 支持词语级、语句级、文档级的语义相似检索(非检索词硬 性检索);支持文档排重检索;支持文档模糊检索;文档检索结果相关性排序
密表加密方式 整表加密、行加密、列加密
强制访问控制粒度 支持表级、记录级、字段级、记录字段级,支持虚拟私有数据表
密表性能损耗 关系表15%以内,文档库35%以内
密表空间膨胀 5%以内
支持数据类型 支持数值类型、货币类型、字符类型、二进制数据类型、日期/时间类型、布尔类型、枚举类型、几何类型、网络地址类型、文本搜索类型、UUID类型、xml数据类型、JSON类型、范围类型、对象标识符类型、伪类型、数组类型、复合类型、文档类型、图类型等
支持SQL规范 SQL92/ SQL99/SQL2003/SQL2011核心规范
服务器字符集 utf-8、gbk、unicode等
数据库接口 LIB、ODBC、OLE DB、JDBC、ADO.NET、PEP246、PDO、GO-LIB等
锁和事务隔离级别 MVCC 无锁设计,支持Read uncommitted、Read committed(默认)、Repeatable read、Serializable等四种事务隔离级别
流复制方式 支持同步、异步、半同步
备份恢复 全量备份、定时备份、增量备份;全量恢复、PITR恢复(恢复到时间点)
高可用架构 不依赖第三方软件的情况,支持双机热备、一主多从、读写分离 支持数据库虚拟IP,主备秒级切换
扩展能力(逻辑节点) 1024
扩展能力(物理节点) 256
并发连接数 600
支持操作系统 麒麟、统信、方德、EulerOS、CentOS、Ubuntu、Windows Server 2012-2020
支持处理器 龙芯、飞腾、申威、海光、Amd64
支持云平台 支持公有/私有/混合云,例如阿里云/腾讯云/青云/金山云/易捷行云/zstack等

特点优势

应用场景

  • 企业内容与知识管理
    • 通过建立人物关系图谱,构建情报关系网络,覆盖并跟踪可疑份子,尤其是在大国博弈之时,既是保护自己,也能更好的洞悉阴谋诡计。
  • 数字图书馆
    • 风控一直以来都是金融难题,欺诈手段防不胜防,传统的分析手段很容易被造假的信息所蒙蔽。基于图数据平台,可以很清楚的基于人物关系绘制资金流转的图谱,不仅分析申请人的个人信息,与其有资金往来关系的联系人,以及联系人的联系人都可以同时分析。
  • 企业搜索
    • 通过用户生活交集、互动情况等数据,绘制关联关系图,管理社交关系,实现更精准的好友推荐机制和垃圾用户识别,Facebook, Twitter,Linkedin都是通过图做到的。
  • 信息资源共享
    • 通过构建物联网设备节点的关联关系图,可以打造更加智慧更加合理的智能交通、道路规划、平安城市、轨迹分析、钓鱼网站识别,惠及民生。
  • 门户建设
    • 根据病人的病情特征、电子病历、历史用药、药物成分、临床试验、保险情况等多维数据绘制以用户为中心的图表,从而实现智能诊断,提高诊断效率和准确性,共享医疗资源。

产品咨询

  • 微信公众号

  • 咨询客服