close
当前位置: 物联网在线 > IT技术 > 商业智能 >

DataStage(ETL)技术总结

通常数据抽取工作分抽取、清洗、转换、装载几个步骤:
    抽取主要是针对各个业务系统及不同网点的分散数据,充分理解数据定义后,规划需要的数据源及数据定义,制定可操作的数据源,制定增量抽取的定义。
清洗主要是针对系统的各个环节可能出现的数据二义性、重复、不完整、违反业务规则等问题,允许通过试抽取,将有问题的纪录先剔除出来,根据实际情况调整相应的清洗操作。
转换主要是针对 数据仓库建立的模型,通过一系列的转换来实现将数据从业务模型到分析模型,通过内建的库函数、自定义脚本或其他的扩展方式,实现了各种复杂的转换,并且支持调试环境,清楚的监控数据转换的状态。
    
装载主要是将经过转换的数据装载到数据仓库里面,可以通过数据文件直接装载或直连数据库的方式来进行数据装载,可以充分体现高效性。在应用的时候可以随时调整数据抽取工作的运行方式,可以灵活的集成到其他管理系统中。

一.数据源连接能力:
数据整合工具的数据源连接能力是非常重要的,这将直接决定它能够应用的范围。DATASTAGE 能够直接连接非常多的数据源,包括:
1
、 文本文件
2
XML 文件
3
、 企业应用程序,比如 SAPPEOPLESOFTSIEBELORACLE APPLICATION
4
、 几乎所有的数据库系统,比如 DB2ORACLESQL SERVERSYBASE ASE/IQTERADATAINFORMIX等以及可通过ODBC连接的数据库
5
WEB SERVICES
6
SASWEBSPHERE MQ

二.多国语言支持(NLS):
DATASTAGE
能够支持几乎所有编码,以及多种扩展编码(IBMNEC、富士通、日立等),可以添加编码的支持,DATASTAGE内部为UTF8编码。

三.并行运行能力:
ETL JOB
的控件大多数都支持并行运行,此外DATASTAGE企业版还可以在多台装有DATASTAGE SERVER的机器上并行执行,这也是传统的手工编码方式难以做到的。这样,DATASTAGE就可以充分利用硬件资源。而且,当你的硬件资源升级的时候也不用修改已经开发好的ETL JOB,只需要修改一个描述硬件资源的文件即可。并行执行能力是DATASTAGE所能处理数据的速度可以得到趋近于线性的扩展,轻松处理大量数据。

四.便捷的开发环境:
DATASTAGE
的开发环境是基于 C/S 模式的,通过 DATASTAGE CLIENT 连接到DATASTAGE SERVER 上进行开发。这里有一点需要注意,DATASTAGE CLIENT 只能安装在 WINDOWS 平台上面(WIN2000/XP上运行过)。而 DATASTAGE SERVER 则支持多种平台,比如 WINDOWSSOLARISREDHAT LINUXAIXHP-UNIX(WINXP/SOLARIS8上运行过)
DATASTAGE CLIENT
有四种客户端工具。分别是 DATASTAGE ADMINISTRATORDATASTAGE DESIGNERDATASTAGE MANAGERDATASTAGE DIRECTOR。下面介绍这几种客户端工具在 DATASTAGE 架构中所处的位置以及它们如何协同工作来开发 ETL JOB 的。
(1) DATASTAGE ADMINISTRATOR
DATASTAGE ADMINISTRATOR
的主要功能有以下几个:
1
. 设置客户端和服务器连接的最大时间。
以管理员的身份登陆 DATASTAGE ADMINISTRATOR(默认安装下管理员为DSADM)。你可以设置客户端和服务器的最大连接时间,默认的最大连接时间是永不过期。最大连接时间的意思就是如果客户端和服务器的连接时间超过了最大连接时间,那么客户端和服务器之间的连接将被强行断开。


you might also like

  • 创业公司做数据分析(六)数据仓库的建设
  • 用大数据技术挖掘投资信息
  • 我是数据分析师(二):假老公又提数据分析要多表关联—为了爱情,我忍了
  • 自助分析工具将终结商业智能(BI)吗?
  • 是英雄还是狗熊?大数据那些事之SparkSQL
  • 德日物联网合作成果不乐观 政府带头恐沦为口号
  • BIGBANG成员胜利代言节奏大爆炸 4月25日中国公测
  • Fitbit发布Alta HR活动跟踪器,支持原始心率监测
  • Synopsys和Silicon Mobility日前宣布:推出Synopsys Virtualizer™开发工具包(VDK)
  • DynamIQ世界中的big.LITTLE

  • (责任编辑:ioter)