Sunday, June 27, 2010

kettle组件说明

De-serialize from file input 从一个二进制的KettleCube读取数据 最好做暂存使用,容错能力差
Xbase Input input 从一个Xbase家族的文件中读入数据
Serialize to file input 将数据以二进制形式保存,读入时无需转换
Access Input Input 该步骤提供了从MSAccess数据库读数据的能力 需要指定Table Name FileName is defined in a filed,从指定的区域读数据.否则从指定位置读取,可以按照正则表达式读取
CSV Input input 该步骤提供了从确定分解文件中读取数据的能力 需要指定分隔符和结束符
Delemitor input 分隔符
NIO buffer input 非阻塞(异步传输)缓存
Lazy Conversaition input 延迟转换,不主动转换,在其他步骤有需要时才进行转换,为了提高性能.
running in parallel input 并行运行,如果同一步骤有三个部分在执行,可以选择然后前面的数据会平均的分给本数据.
Excel Input input 该步骤提供了从一个或者多个Excel表读取数据的能力
Wildcard input 疯狂卡~~~ 提供正则表达式匹配
Accept filename from previous step input 从前一步骤中获取文件名
Fixed file input Input 该步骤提供了从固定行宽度的文件的数据读取能力
Line feed character Input 行满符 ascll值 010
Add filename to result option input 向结果输出文件名称
trim type Input 选择消除空格的方式,右边的,左边的,都或者都不
Line feed present Look UP 检查文件是否包含行满符
Generate rows Look UP 产生行,可以指定固定值和行数
Generate random value Look UP 产生随机数,字符串等等
Get file name Look UP 获取文件名称
get file rows count Operation 获取文件行数,可以指定换行符
Get System info Operation 获取系统信息
get data from XML Operation 从XML文件中获取数据
loop Xpath Operation 选择XML文件的循环层,个人理解是根节点
Ignore Comments Operation 忽略注释,不读入数据流
Use Token Operation 使用宏?
Igore empty file Operation 如果是空文件跳过,似乎如果该步骤中只有一个空文件且跳过会出错 选择 Do not raise an error if no file exists似乎就可以正常了.
Property Input Opertion 从Property文件中读入数据
Streaming XML Input Opiton 以流文件的形式从xml文件中读出数据
Table Input Opiton 从数据表中读入数据
Get sql Statement Option 提供与sql相关的功能
Preview first row option 获取前100行
preview first rows option 获取指定行数行
Number Of rows of Option 获取指定表,schema,view和行数
Show Layout of Option 获取指定表,schema,view的一些参数
Generate DDL Option 获取指定表,schema,view的DDL
DDL Option Data define language 数据定义语言
generate DDL for Other language Option 以其它连接(数据库)的的标准产生DDL,感觉很有用
Open SQL for Option 产生一个 Select 语句,OK后会询问是否采用非*的全部查询,感觉挺好用的
trunscate table Option 提供临时的一个查询分析器
text file input Option 提供一个普通文件的数据录入系统
Escape Other 转义字符
SQL File Output Other 以insert语句的形式进行存储
Call DB Procedure Other 调用数据库存储过程
Database lookup output 查询数据库
Stream Lookup Output 从前一步骤的数据流中查询数据
Web Service Lookup transform 查看用作子服务器的服务器状态
Abort transform 夭折,使之结束
add a checksum transform 校验和
Add a constants transform 增加一个常量做属性列
Add a sequence transform 增加一个自增长属性列
Append Streams transform 将一个流连接到另外一个流之后
Blocking Step transform 障碍步骤,使得所有前置步骤执行完成之后才执行下一步,很有用
Calculator transform 提供高效的运算
Clone row transform 复制列
Closeure generator transform 以父子点为基点,父子连接为初识链接,获取所有可以互相连接的点,高级计算的时候很有用
Delay row transform 暂停流转,似乎在debug或者观察性能时有用
Dummy transform 无作为点,对debug很有用
Filter row transform 其它步骤可以引用,分离数据
Group by transform 和数据库中提供的group by 一样强大
Metadata structure of stream transform 获取元数据
Null if transform 置空动作
row normalizer transform 将列映射到行中
Row DeNormaliser` transform 将行转换成列
Row Flatterner transfrom 合并行,合并相同属性,继承不同属性
Select Values trasfrom 选择流中流转到下一步的数据列
sort rows transform 给列排序,和sql的类似
Field split transform 将记录中指定属性分裂成多个属性.需要提供分裂的属性和分隔符,似乎可以用空格
split field to rows transform 将指定属性内容分裂,产生新属性记录和之前记录的属性笛卡尔积
switch/case transform 根据指定属性对记录分类
unique rows transform 筛选出没有重复的记录,需要预排序
value mapper transform 对指定属性进行映射,可以选择新目标属性或者覆盖原属性
XSD validator transform 使用XSD文件对XML文件进行验证
XSL transformation transform 使用XSL文件对XML文件进行转换
join rows join 对多个输入流进行笛卡尔连接,也可以判断性的链接
Merge Join join 根据主键对两个数据流进行连接
merge Rows(diff) join 对两个数据源进行相似比较合并,并可以在输出流中增加对该条记录在源数据是否一致,如果不一致将会在输出流中输出用于比较的记录的值而不是用于引用的记录的值,Identical表示两者一致,Changed表示两个数据流中的不一致,new表示只存在于比较数据流中,deleted表示只出现在引用数据流中
sorted merge join 可以多个已排好序的数据源合并
XML join join 对两个XML进行连接
Excuete SQL script scripting 在指定的数据库上执行sql语句
Modified java script value scripting 对数据流进行处理,默认是每条记录运行一次
Regex Evaluation scripting
Dimension lookup/update data warehouse 对数据库中缓慢变化维进行更新,有update和insert两种,需要有专门的版本属性
Combination lookup/update data warehouse 对一个junk dimension进行代理主键的更新或者插入
Mapping(sub-transformation mapping 调用一个映射transformation,可以设置参数
Mapping Input specification mapping 一个映射transformation的开始步骤,提供参数的输入
Mapping output specification mapping 一个映射transformation的输出步骤,可以输出参数
Copy rows to result Job 将数据传送到下个任务
Get Variables job 从上一个Job中获取参数
Get files from result Job 从上一个Job中获取其所创建的文件信息
Injector Inline 本步骤允许通过JAVA API 注入数据
Socket reader Inline 从一个PDISocket输出流读取数据
Socket Writer Inline 向一个PDISocket输入流输出数据
Data Validator experimental 数据验证步骤,可以按照是否null等进行验证,需要给出filedname和数据类型,如果验证数据流中有数据没有通过会停止transformation
Greenplum bulk loader experimental 从greenplum中获取数据数据的高速步骤
Oracle bulk Loader experimental 从Oracle数据库中高速获取数据
PostgreSql Bulk Loader experimental 从PostgreSQL中高速获取数据
Aggregate Rows Deprecated 简单聚集步骤建议不使用而是使用groupby步骤代替
history history 对历史中使用最多的步骤的集合
export as xml file FILE 用XML格式保存Job或者transformation
inport from XML file FILE 打开XML格式KTR文件
Search meta data Edit 按照指定条件获取当前job或者transformation中的所有元数据
Set environment EDIT 在当前JVM中定义一个全局变量
Get Envirment EDIT 获取当前JVM中的全局变量
Repository Repository 管理资源库,包括连接,断开资源库,管理资源库中资源等
View View 设置当前查看的大小
JOB JOB MENU 当前任务为job级时开始job,编辑job等功能
Wizard Wizard 提供创建数据库源,TABLE-TABLE的数据复制,TABLES-TABLES的数据复制

No comments: