Sunday, June 27, 2010

kettle学习记录

日志服务器随便选择服务器后运行后程序会死掉.似乎是字符编码集的问题 否
似乎对中文支持不好 是的,名称不支持中文
假死怎么办 不知道
起始数据库的作用 存储元数据,保存程序数据
分区的作用
2008-7-29 日期
当自己有特殊要求的时候可以写插件或者JavaScript 知识
Regex evaluation 里面的选项 dotall model 汗,这是regex知识,enable的时候 ‘.’可以匹配任意字符包括结束符,disable的时候不可以匹配结束符
Regex evaluation 里面result fieldname 提示是使用control+ space 其实还是control + alter +space. 心得

Environment variable可以使用${}或者%%变量%%进行引用
最好像kettle的命名规范一样 ‘域名.变量名’ 心得
数据库乱码问题
在新建connection的general中是没有办法设置encoding方案的
解决方法,在option中可以添加NEWCODESET,picc690使用的是gbk,8859-1,819,所以我们就在value处填写gbk,8859-1,819即可
事实上 知识+心得
在table input 中有 lazy conversion, 意思是延迟转换,不主动转换,在其他步骤有需要时才进行转换,为了提高性能.
PDI Pentaho Data Integration 知识
在输出过程中如果已有该数据,不会被update,但是会被insert 心得
在使用 control+ alter + space 选择的时候可以使用首字母快速跳转 心得
一方面因为JVM不能长时间运转无错,另一方面Kettle还没有那么强大,不能schedule过长时间 知识
有时候上次保存的环境变量或者新建的connection会消失, -_-!
环境变量容易消失,connection有时候不会 心得
在database explorer中有generate DDL 选项,即创建数据表的语句 心得
常用的transition Table Input(表输入)Value mapping (映射Code到名称)
Select Values (选择进入下一步的列) add constants (增加常量到列)
Merge join (按主键进行合并,常和 Select Values 合用) 心得
2008-7-29
注意在merge以前要排序,而且排序的方向要相同,估计是算法的原因 心得
Hop颜色含义
绿色 分发
红色 复制
黄色 给步骤提供信息,分发
橙红 给步骤提供信息,复制
灰色 不可用
黑色 无条件运行到下一步(从’开始’出来的)
蓝色 候选链接
橙色,虚线 没有数据经过
红色 粗虚线 发送在源步骤出错的行
知识
Add Sequence:
这个步骤在流中增加一个序列。一个序列是在某个起始值和增量的基础上,经常改变的
整数值。你可以使用数据库的序列,也可以使用 Kettle 决定的序列
备注:Kettle 序列在同一个转换中是唯一使用的。每一次转换运行的时候,序列的值
又会重新循环一次(从开始值开始) 知识
计算器的一个重要优势是,它有着几倍于常用的 JavaScript 脚本的速度 知识
扁平化: 多行合并相同的属性,继承不同的属性, 知识+心得
Blocking :它冻结所有的输出,直到从上一步骤来的最后一行数据到达,
最后一行数据将发送到下一步。 知识
Merge Row :两个行流被合并,一个是引用流(旧数据),一个比较流(新数据)。每次都是行的最后 版本通过进入下一步骤。
Store merge 用于多个数据源相同表的合并
JavaScript 中 行(row)是一个特殊的字段,包含了当前行的所有值 知识
Injector 注射器主要是针对以下人使用:想利用 Kettle API 和JAVA来注射记录到转换中。 知识
Socket Injector 套接字读入器是通过 TCP/IP 协议将数据从一个服务器向另一个服务器传输。 知识
Stream XML Input这个步骤主要提供值的解析,它信赖于 SAX 解析器,在大文件解析上能提供更好的性能。 它与 XML 输入非常相似,仅仅在内容和字段制表符上略有不同。 知识
有transformation和job两个级别,在job里面是对job和transformation进行调度. 知识
用ksh在Unix上面安装bin后缀的文件 知识
2008-7-31
如果因为transformation或者job找不到而不能启动可以在.spoonrc中把OpenLastFile设置问N 知识+心得
步骤介绍
http://wiki.pentaho.com/display/EAI/Pentaho+Data+Integration+Steps 知识
Plug-In
http://wiki.pentaho.com/display/EAI/List+of+Available+Pentaho+Data+Integration+Plug-Ins 知识
设置自动登录
在环境变量里面设置三个变量
KETTLE_REPOSITORY, KETTLE_USERand KETTLE_PASSWORD. 知识
Multiple SQL Statements have to be separated by semi-colons (;).
Before these SQL Statements are sent to the database to be executed, Spoon removes returns,
line-feeds and the separating semi-colons.
Kettle clears the database cache for the database connection on which you launch DDL statements. 知识
可以在右键功能菜单中修改Data Movement 知识
Number Formats
The information on Number formats was taken from the Sun Java API documentation 知识
在Table look up 的时候如果有事务处理的话使用缓存可能造成脏数据 知识
对话框请扩展开,否则会隐藏组件 心得
当采用kettle的sort rows 时当数据超过5000行时需要缓存 知识
Unique Row(合并行)需要源流已经被排过序了. 知识
A_B映射时可以从空值映射到非空值 知识
Set Variable 在前一转换中设置Variable使得下一步可以使用,应该是被当作Environment variable 使用.会很有用.同一VM上的都可见. 知识
如果使用了资源库并且断过网络,可能出现无法保存的情况,可以暂时Export到本地,重新打开并import然后保存. 心得
2008-7-31
Closure generator 以parent 和child为一组节点群,存在以元组中parent指向child的基本连接,cg的作用就是在节点群和基本连接的基础上寻找所有可能连接,使用的迭代的算法,直至不再更新. 知识+心得
Oracle 支持 Delete from table 不支持 delete * from table 知识+心得
2008-8-1
假死的情况,通常是由第一个步骤引起的 心得
alter table combination rename column limite to limit 心得

No comments: