ETL 业务字段工具数据

kettle转换时字段超长怎么解决 kettle按一列分组并把另一列合并为一条记录怎么做？

[更新]

日期：2023-07-10 16:48:47

分类：互联网

1362 阅读

kettle转换时字段超长怎么解决

kettle按一列分组并把另一列合并为一条记录怎么做？

kettle按一列分组并把另一列合并为一条记录怎么做？

首先：使用Sort rows控件，根据需要分组的字段AA排序下；
其次：使用Group by控件，分组字段为：AA，Aggredates部分Name为新字段名，Subjest为BB,Type选择Concatenate strings separated by ,

kettle文件取数如何截取字段长度？

kettle文件取数通过字节数量可以截取字段长度

ETL工具，Kettle和DataStage各自有什么优缺点，目前哪个更流行一些？

kettle是小数据需求用唯一的优点就是免费
1、没有进程管理，当表被锁不好查原因，也无法终止进程，也不能控制最大进程数。
2、数据抽取不能自动分包，也没有类似ABAP那种高效查询语句如SELECT FROM .. ALL ENTRIS IN.. 大数据处理很慢，大数据量日处理业务无法完成。
3、增量要指定字段无法自动处理。
4、无法调试，调试不会真抽数据。
5、计划处理链需要命令指定非常麻烦没有界面操作，处理链中途出错不能继续跑或者跳过继续处理。
6、无法对各个处理细节日志以及记录处理花的时间。
7、字段不能共用，字段没有类似本位币单位的关联，没有主数据字段概念。
8、处理没有信息包概念，没有处理日志。
9、没有版本控制，上线不是传输tr。
10、另外没有对外发布ws，odata接口功能
报表功能就不说了，权限控制也不强大，而且底层数据库也不是多维信息立方体结构，字段不区分指标与特征。。。。。

ETL工具的典型代表主要有什么？

Extraction-Transformation-Loading的缩写，中文名称为数据提取、转换和加载。 ETL工具有：OWB(Oracle Warehouse Builder)、ODI(Oracle Data Integrator)、Informatic PowerCenter、Trinity、AICloudETL、DataStage、Repository Explorer、Beeload、Kettle、DataSpider
目前，ETL工具的典型代表有:Informatica、Datastage、OWB、微软DTS、Beeload、Kettle……
开源的工具有eclipse的etl插件。cloveretl.
数据集成：快速实现ETL
ETL的质量问题具体表现为正确性、完整性、一致性、完备性、有效性、时效性和可获取性等几个特性。而影响质量问题的原因有很多，由系统集成和历史数据造成的原因主要包括:业务系统不同时期系统之间数据模型不一致；业务系统不同时期业务过程有变化；旧系统模块在运营、人事、财务、办公系统等相关信息的不一致；遗留系统和新业务、管理系统数据集成不完备带来的不一致性。
实现ETL，首先要实现ETL转换的过程。它可以集中地体现为以下几个方面：
1、空值处理：可捕获字段空值，进行加载或替换为其他含义数据，并可根据字段空值实现分流加载到不同目标库。
2、规范化数据格式：可实现字段格式约束定义，对于数据源中时间、数值、字符等数据，可自定义加载格式。
3、拆分数据：依据业务需求对字段可进行分解。例，主叫号 861082585313-8148，可进行区域码和电话号码分解。
4、验证数据正确性：可利用Lookup及拆分功能进行数据验证。例如，主叫号861082585313-8148，进行区域码和电话号码分解后，可利用Lookup返回主叫网关或交换机记载的主叫地区，进行数据验证。
5、数据替换：对于因业务因素，可实现无效数据、缺失数据的替换。
6、Lookup：查获丢失数据 Lookup实现子查询，并返回用其他手段获取的缺失字段，保证字段完整性。
7、建立ETL过程的主外键约束：对无依赖性的非法数据，可替换或导出到错误数据文件中，保证主键唯一记录的加载。