hive/presto 的数仓数据血缘关系工具
此项目是对大学生的一卡通消费数据、图书借阅记录和图书馆门禁数据在spark集群的大数据框架环境之下进行聚类、关联分析,分析出学生的消费水平、生活规律、学习强度等聚类结果,以及将聚类结果进行FPGrowth关联分析得出学生聚类之间存在的关联性,此项目是使用scala语言,利用sparkSQL集合hive进行大数据分析。
sql解析工具。主要解析hive sql、spark sql、presto sql。从sql中解析出输入表、输出表以及字段等信息
WeDataSphere是微众银行的一套金融级、一站式、开源开放的大数据平台套件。基础平台由数据交换、数据分发、计算、存储四大层次组成,关注底层数据传输计算存储能力;功能平台由平台工具、数据工具、应用工具三大层次组成,关注用户各类功能工具需求实现。形成了完整的大数据平台技术体系,提供一站式的丰富数据平台组件及功能支撑。
Exchangis是微众银行开源的轻量级数据交换平台,用于数据在不同存储介质中快速传递,并解决数据交换过程中面临的复杂性、兼容性等问题。设计上采取微服务架构形态,上下层服务松耦合,易于进行个性化的,高拓展性的迭代开发。
Schedulis 是微众银行基于 LinkedIn 的开源项目 Azkaban 开发的一款工作流任务调度系统,用于解决金融级场景下,大量批量作业任务的复杂依赖、灵活调度。
Qualitis是一个支持多种异构数据源的质量校验、通知、管理服务的数据质量管理平台,用于解决业务系统运行、数据中心建设及数据治理过程中的各种数据质量问题。 Qualitis基于Spring Boot,依赖于Linkis进行数据计算,提供数据质量模型构建,数据质量模型执行,数据质量任务管理,异常数据发现保存以及数据质量报表生成等功能。并提供了金融级数据质量模型资源隔离,资源管控,权限隔离等企业特性,具备高并发,高性能,高可用的大数据质量管理能力。
Event Mesh是一个动态的插件式云原生基础服务层,用于分离应用程序和中间件层。它提供了灵活,可靠和快速的事件分发,并且可以进行管理。 目前EventMesh已经进入Apache软件基金会孵化器,成为孵化项目。
Prophecis 是微众银行自研的一站式机器学习平台,集成多种开源机器学习框架,具备机器学习计算集群的多租户管理能力,提供生产环境全栈化容器部署与管理服务。
将满足从数据交换、脱敏清洗、分析挖掘、质量检测、可视化展现、定时调度到数据输出等数据应用开发全流程场景需求。欢迎申请体验demo环境:https://sandbox.webank.com/wds/dss/#/register
打通了多个计算存储引擎如:Spark、TiSpark、Hive、Python和HBase等,对外提供统一REST/WebSocket/JDBC接口,提交执行SQL、Pyspark、HiveQL、Scala等脚本的计算中间件。
在数据仓库建设中,经常会使用到数据血缘追踪方面的功能,本项目实现了对hql集合进行静态分析,获取hql对应的血缘图(表血缘 + 字段血缘)
整合Flowable官方的Rest包(flowable-modeler,flowable-idm,flowable-task,flowable-admin,flowable-rest),后端SpringBoot,前端Nginx,前后台分离部署,表单设计器汉化处理,提供在线体验地址
springboot-flowable-modeler快速开发工作流, 在线流程设计器
盘古BPM工作流平台(DMN)是国内首款开源的互联网决策引擎系统,拥有独立的DMN1.3标准设计器、解析器、决策引擎、支持决策表(decision table)、DRD、DRG。目标是打造一款集成主流工作流且轻量易用的DMN决策引擎系统,满足互联网业务系统以及工作流系统打通决策管理等功能。可以无缝对接Activiti/Flowable/Zeebe/Drools等多种工作流系统
Jiagu深度学习自然语言处理工具 知识图谱关系抽取 中文分词 词性标注 命名实体识别 情感分析 新词发现 关键词 文本摘要