关键词不能为空

当前您在: 主页 > 英语 >

pentaho介绍

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-02-06 01:58
tags:

-

2021年2月6日发(作者:蔡)


一、









Pentaho


整体架构





cc








二、









Client tools


1.









Report Designer


报表创建工具。如果想创建 复杂数据驱动的报表,这是合适工具。



2.









Design Studio


这是基于


eclipse


的工具,


你可以使用它来创建手工编辑的报表 或分析视图


xaction


文件,



般用来对在


report designer


中无法增加修改的报表进行修改。



3.









Aggregation Designer


帮助改善


Mondrian cube


性能的图形化工具。



4.









Metadata Editor


用来添加定制的元数据层到 已经存在的数据源。


一般不需要,


但是它对应业务用户在创建报


表时解析数据库比较容易。



5.









Pentaho Data Integration


这是


kettle etl


工具。



6.









Schema Workbench


帮助你创建


rolap


的图形化工具。这是为分析准备数据的必须步骤。





三、









Pentaho BI suit community editon


安装



硬件要求:



RAM




At least 2GB


Hard drive space




At least 1GB


Processor




Dual-core AMD64 or EM64T


软件要求:





需要


JRE 1.5


版本,


1.4


版本已经不再支持。




修改默认的端口

< p>
8080


,打开


biserver-cetomc atconf


目录下的



文件,修改



为你想要的端口号。< /p>


同时在这部分可以调整


Apache Tomcat


参数。


在修


改了该端口号后,必须同时修改


tomcatwebappspentahoWEB-INF


目录下的< /p>



文件




base- urlhttp://localhost:8080 /pe


ntaho< /p>


中的端口号。


否则


administra tion-console


中不能连接到


bi server




四、









配置数据库连接



如果要是


pentaho


bi


server


能连接到关系数据库,需要将相应数据库


driver



jar


包拷 贝到


server/biserver- ce/tomcat/common/lib


目录。







为了能在


administration

console


中创建数据库连接并测试,需要将相应的数据库

driver



jar


包拷贝到< /p>


server/administration


console /jdbc


目录。下面是具体关系数据库连接设置说


明。



1


、连接


orac le


数据库。



需要将


oracle



driver




包拷贝到


/Pentaho/ser ver/enterprise-console- server/jdbc/



/biserver- ee/server/enterprise-console-server/jdbc/


/Pentaho/server/bi-server/tomcat/common /lib/



/biserver- ee/server/bi- server/tomcat/common/lib/


目录。



执行


PentahoServeradministratio n-console


目录下的



启动


admin


console




bi


server







Adminstrator console


中配置数据库连接:





iE


中输入


http://localhost:8099/


后进入管理界面,

点左边的


administrator


,在右边窗口中



database connection


进入下面的界面。



name


中输入要创建的数据库连接的名称,在


driver class


中选择要使用的


dr iver


类,


user


name


中输入访问数据库的用户、


password


中输入相应的密码,在


url


中输入访问数据库的

< p>
连接信息:


jdbc:oracle:thin:@xzq:1521:o radata


。在


@


之前的是固定信息 ,


@


之后分别是服务


器名称或


IP


:端口号:数据库服务名。



2


、连接


MS Sql server


数据库




iE


中输入


http://localhost:8 099/


后进入管理界面,点左边的


administrato r


,在右边窗口中



database connection


进入下面的界面。



name


中输入要创建的数据库连接的名称,在


driver class


中选择要使用的


dr iver


类,


user


name


中输入访问数据库的用户、


password


中输入相应的密码,在


url


中输入访问数据库的

< p>
连接信息:


jdbc:Microsoft:sqlserver://l ocalhost:41433;DatabaseName=GOSLDW



//


前的字符是


固定的,


//


后是数据库服务器名或


ip


地址 :端口号


;DatabaseName=


数据库名。

< p>


五、









Report Designer


创建报表



5.1.





创建步骤



第一步:定义数据源,创建


dataset


第二步:


定义


report layout



report layout

< br>有一组


band


构成,


包括


reportheader



report footer



group header



group footer

以及


detail


构成。



第三步:部署报表到


BI



server.


5.2.





创建


report title


在左 边的工具栏上拖一个


label


报表元素到

reportheader


band


中,双击

< p>
label


报表元素输入


你想要的


report


title


,如图

5-2


。你可以在右边的属性窗口中对该


title


进行属性定义,包括


字体大小、颜色、样式等。




5-2


创建


report title


5.3.





创建


column header



report title


下加几个


label


报表元素,构成你需要的


c olumnheader


,如图


5.3


所示。




5-3


创建


column header


5.4.





创建


report detail


报表的


Detail


本身将产生报表的 明细记录,这些记录有


dataset


提供,因此需要将


dataset


中的字段拖入


report detail band


即可,如图


5-4




5-4


产生


reportdetail


5.5.





创建


report summary




report footer band


加上汇总元素的描述标签和相应的汇总计算字段,如图



5-5


所示。



这里的关键是需要生产汇总计算字段,图中生成了两个


library count



total library size

,要


产生这两个汇总字段,需要在右边


data

< p>
页的


function


中增加

function


字段,分别利用了


count(runn ing)



summary(running)


函数



5.6.





画布大小设置



点击菜单


file->pagesetup


,出现图


5.6< /p>


所示的界面,在该界面中可以设置画布的大小




5.6


5.7.





创建图表



所有图表都有一个


showlabel


属性,默认是


hidela bel


,在这种情况下,图表上不会显示相应


的值,图表上能显 示的值一般有三种情况,分别是


0



1



2


(对


pi e


chart



3

< br>)


,分别表示


系列的描述、


ca tegory


描述、项值,如果需要组合显示,可以采用


{0} ,{2}


这样的格式来表示。



5.7.1.




Bar chart


Bar chart


对比较不同类别数据的大小是有用的。


< p>
在左边的工具按钮中拖入


chart


图标到


report header


,如图


5.7.1



5.7.1


双击该图出现图


5.7.2


所示的属性窗口




5.7.2 bar chart


属性设置



在左边窗口中设 置相关的显示属性,


在右边窗口中指定显示的数据字段。


这样就 完成了图形


报表的创建。



技巧:






Pentaho


中的数据集是同报表 绑定的,如果想在同一报表中显示多张


chart


报表,需要利



sub report


,在不同的


sub report


中分别创建报表完成。



5.7.2.




区域图(


Area chart




区域图用于比较两个或多个数据集间的差异是有用的。



5.7.3.




线性图(


line chart




线性图对分析发展趋势是有用的。



注意,堆积和堆积百分比(


stackand stack p ercent


)不能用于


linechart

< br>。



5.7.4.




饼图(


pie chart




饼图一般用来分析不同


category


占总值的占比分析。



饼图有一个


labelformat


属 性,该属性值有以下几种:



{0}



series name,


{1}:



series raw value


{2}




percentage value


{3}




total raw value


5.7.5.




环形图


(ring chart)


环 形图类似于饼图,除了它呈现为环形,而饼图是实体填充外,没有什么差异。



5.7.6.




多饼图(


muti pie chart




根据

< br>category


呈现一组饼图,每一个


categor y


对应一个饼图。



5.7.7.




瀑布图(


warterfall chart




瀑布图呈现了唯一一个 跨


category



stacked


bar


chart


。这种图形对于一 个


category


同另一



category


进行比较时是有用的。通常最后一个

< br>category


等于所有别的


category


的总和。



5.7.8.




条形和线形组合图(


bar line chart




在比较


category


值的同时查看趋势。这是一个需要两个


category


数据集的图形,第一个产



bar chart


,第二个产生


line chart




5.7.9.




冒泡图(


bubble chart




冒泡图允许你查看三维 数据,


前两维是传统的


X/Y


维,


也就是域和范围



domainand r ange




第三维代表单个气泡的大 小。





六、










pentaho


的资料库迁移到


oracle


数据库



默认情况下是使用


HSQLDB


数据库作为

pentaho


的资料库。



迁移步骤:



1





oracle


JDBC

< p>




< br>贝



..tomcatwebappspentahoW EB-INFlib



..tomcatcommonlib< /p>


目录,供


pentaho BI


服务器访问


oracle


数据库使用。另外也需要将


oracle JDBC


驱动拷贝到


administration-cons olejdbc


目录,


否则用户不能正常使用

< br>pentaho



理控制台。



2




初始化


Oracle


10g


数据库。依次执行下面的


sql


包,在执行


sql


包前先创建两个用户,


quartz /password



用于存储


qua rtz


相关信息,


另一个用户


hibu ser/password


用户存储


pentaho


bi


服务本身资料库。


Sql

< br>包说明:



l



Create_repository_


,用于创建


pentaho_tablespace


表空间、新增


hibu ser/password


用户,以及


datasource


表。



l



Create_sample_datasource_,


往< /p>


datasource


表中增加外部业务资料库连接信息。



l



Creat e_quartz_


,创建


pentaho_user/pas sword


用户,


quartz


数据库 、


quartz


表等。



3








< p>
















bi server-cetomcatwebappspentahoMETA-INF


位置 。


修改该文件中的数据库连接相关信息。



4




打开


biserver-cepentaho-solutio nssystemhibernate


中的


配置文件,


并启用



配置文件,配置 示例如下。



system/hibernate/


5




调整< /p>



文件,主要是连接数据库的相关信息。



6






ties



置< /p>








biserver- cepentaho- solutionssystem


。下面是配置示例。



=Driver


=jdbc:oracle:thin@localhost:1521:ORCL


me=hibuser


rd=password


t=10Dialect


7




修改< /p>


ties


,位于


biserver- cepentaho-solutionssystemquartz


目录。当使用


oracle




quartz




< br>信



















CDelegate


被替换成


OracleDelegate




DelegateClass=Delegate


8




可选地 ,用户需要修改


start_


中的相关信息。

< br>




七、









设置


publication


口令



Pentaho


设置工具用来定义


BI


内容,如


report



olap cube



metadata


。在这些工具中创建


的内容文件要 部署到


BI server


上,


可以通 过手工拷贝这些内容文件到


pentaho


相应的


solution


文件夹下来完成部署,但典型的方式还是通过


publication


来完成部署。


< p>
为了能完成


publication


,需要设置相 应的口令,默认情况下是没有设置口令的。为了设置这


个口令,需要在

< br>pentaho-solution/system


目录下的

publisher_


文件中添加











password



这个例子中将



password


设置为”


password





八、









Pentaho Data integration


Pentaho DI


包含的主要工具和实用程序:



Spoon




图形化的


DI IDE


,用于创建


Transformation



job


Kitchen




运行


job


的命令行工具



Pan


–运行


transforma tion


的命令行工具



Carte


–在远程主机上运行


transformation

< p>


job


的轻量级服务器。默认的登录用户是


cluster/cluster.


可以使用


Encr



carte



修改口令。


Carte


将 登录用户信息存储在


/data-integration/pwd

目录下的



文件中。



Encr


—这个用来加密口令,用法为


Encr



kettle


下图是关于


pentahoDI


各个工具和组件工作情况说明。










Dataintegration engine


负责解释和执行数据集成


job

< br>和


transformation


Data integration engine


在物理上是以

< br>java


库的形式存在,


前端可以通过调用公共的


api


来执行


job



transformation




Data integration engine


也包括


pentaho BI server




job



transformation


作为



action sequence


的一部分来执行。



Repository



Job



transformation


可以存储 在数据库知识库中,


前端工具可以通过连接知识


库来装载


job



tranformation


定义。



8.1


自动连接知识库



< br>user



home


目录下的< /p>


.kettle


目录中打开


ties


文件,然后添加:



KETTLE_REPOSITORY = KETTLE_MD



repositoryname


KETTLE_USER = admin




-- credential user name


KETTLE_PASSWORD = admin



--user password


这样每次启动


spoon


时,可以自动登录默认的


reposit ory




8.2


使用集群



要使用集群,首先要定义相关的子服务器


(slave server)


,然后定义


cluster schema


,最后将定


义好的


cluster schema


分配给相应的


Transformation step




8.3


创建数据库连接




spoon


IDE


中在


Transformation


树结构中右键单 击“数据库连接”


->


新建连接或新建数据

库连接向导或按快捷键


F3


进入“创建数据连接”窗口。< /p>



目前支持几乎所有的数据库连接。



数据库连接选项:



1)



Connection name


: 定义转换或者任务访问的连接的唯一名称,可以自行设置;



2)



Connection type


:连接的数据类型;



3)



Method of access


:可以是


Native(JDBC)



ODBC


,或者


OCI


,一般选择


JDBC




4)



Server host name


:指定数据库部署的主机或者服务器的名称,也可以指定



IP




址;



5



Database name


:指定连接的数据库的名称,如果是



ODBC


方式就指定



DSN


名称;



6



Port number


:设定数据库监听的



TCP/IP


端口号



7



Username/password


:指定连接数据库的用户名和密码;



数据库用法:



8.4 Transformation Step


8.4.1.












Text File input


这个


step


用来读取各种不同类型的


text-file


类型文件,常见的是由


excel


生成的


cvs


文件和


固 定宽度的


flat file




该组件提供了指定文件列表或文件目录列表的能力,


支持正则表达式 ,


还可以接收前面步骤


生成的文件。



8.4.2.












表输入(


table input




该组件用来从数据库获 取信息。主要的属性有数据库连接、


sql


等。在


sql


中可以使用变量,


如果使用了变量,则必须勾 选上“替换


sql


语句中的变量”选项,否则变量不能传入,


sql


语句将报错。



“允许延迟转换”选项可以避免不必要的数据类型转换,改善数据处理性能。



8.4.3.












获取系统信息(


get systeminfo




该组件用来 获取


kettle


环境中可用的信息。



8.4.4.












行发生器(


generaterows


)< /p>



产生多行,具体产生多少行可以通过设置


limit


(限制)来做设定。可以通过


field(


字段


)


列表


来指定字 段名称及类型。



8.4.5.













输入(


De-serializefrom file


,原名


cube


输入)



从二进制的


kettlecube


文件 中读取记录行数据。



8.4.6.












XBase


输入



使用这一步可以读取大多数被称为



XBase family


派生的



DBF


文件。



8.4.7.












Excel


输入


该组件可以从一个或多个


excel


文件中读取数据,可以 使用正则表达式来指定文件。



8.4.8.












插入或更新


(insert/update)


这个组件首先使用一个或多个对照


key


来查询表中的 一行,如果找到,则更新,如果没有找


到则插入。



选项



1


、步 骤名称:步骤的名称,在单个转换中必须唯一。



2

< p>
、连接:目标表所在的数据库连接名称。



3



Target



schema:


要写入数据的表的



Schema


名称。



允许表名中包含



< br>.


”是很重要的。




4


、目标表:想插入或者更新的表的名称。



5



Commit size:


提交之前要改变(插入


/


更新)的行数。



6


、不执行任何更新:如果被选择,数据 库的值永远不会被更新。仅仅可以插入。



7

< br>、用来查询的关键字:可以指定字段值或者比较符。可以用以下比较符:


=




<>,<,<=,>,LIKE,BETWEEN,ISNULL,IS NOT NULL




8


、更新字段:指定你想要插入


/


更新的字段

< br>


8.4.9.












更新(


Update



这个步骤类似于插入


/


更新步骤 ,除了对数据表不作插入操作之外。它仅仅执行更新操作。



8.4.10.








删除


(Delete)


这个步骤类似于上一步,除了不更新操作。所有的行均被删除。



8.4.11.








XML


输出(


XMLoutput< /p>




这个步骤允许你从源中写入行到一个或者多个



XML


文件。



选项



8.4.12.








数据库查询


(Databaselookup)


这个步骤类型允许你在数据库表中查找值。



选项



步骤名称:在单一转换中步骤名称必须唯一。



数据库连接:想要写入数据的连接。



查询表:想要查询的表名。



使用缓存 :数据库查询是否使用缓存。这意味着在某种查询值的条件下,每次数据



库都能返回同样的结果。



8.4.13.








流查询(


Streamlookup




这个步骤类型允许你从其它步骤中查询信息。首先,



“源步骤(


lookup step



”的数据被读


到内存中,



然后被用来从主要的流中查询数据。



选项



步骤名称:在单个转换中步骤名必须唯一。



源步骤:数据来源的步骤名称



查询值 所需要的关键字:允许你来指定用来查询值的字段名称。值总是用“等于”



比较符来搜索。



接收的字段:你可以 指定用来接收字段的名称,或者在值没有找到的情况下的缺省



值,或者你不喜欢旧的字段名称的情况下的新字段名称



Preserve Memory:


排序的时候对数据行进行编码以保护内存



Key and value are exactly one integer field:


排序的时候对数据行进行编码



以保护内存



Use sorted list:


是否用一个排序列表来存储值,它提供更好的内存使用。


这个步骤的使用类似于数据库查询步骤,


区别在于数据库 查询使用的是数据库表,


而流查询


是从文本文件等数据流中查询 。



8.4.14.








调用数据库存储过程


(Call DBProcedure)


这个步骤允许你运行一个数据库存储过程,获取返回结果。



8.4.15.








字段选择(


selectvalue







该组件对于选择、重命名或修改字段的长度和精度方面很有用。这几方面被放在了不同

< p>


category


中,在组件上分别放在不同的


tab


中。



8.4.16.








过滤记录


(Filterrows)


这个步骤允许你根据条件和比较符来过滤记录。



一旦这个步骤连接到先前的步骤中,你可以简单的单击“








=


”和“





区域来构建条件。



选项



步骤名称:步骤的名称,在单一转换中必须唯一。



技术资料,




Kette3.0


用户手册】



< /p>


发送“


true


”数据给步骤:指定条件 返回



true


的数据将发送到此步骤。




发送“


false

< br>”数据给步骤:指定条件返回



false


的数据将发送到此步骤。



8.4.17.








空操作(什么也不做)



dummy(do nothing)




该组件什么也不做,只是用来做一些测试时的占位符。



8.4.18.








Row DeNormalizer(


行转列


)


该组件做行转列。在“构成分组的字段”中指定分组字段,在“目标字段”中指定“目标字

段”的名称,目标字段的值字段(从哪个字段中获取值)和“关键字值”


。如下图所 示的样


例:





8.4.19.








列转行(


Rownormalise r




用于将列转行



例如下表的数据



转换成下表所示的数据



Row normaliser


步骤的设置如下图



8.4.20.








拆分字段(


split field



-


-


-


-


-


-


-


-



本文更新与2021-02-06 01:58,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/604688.html

pentaho介绍的相关文章

  • 爱心与尊严的高中作文题库

    1.关于爱心和尊严的作文八百字 我们不必怀疑富翁的捐助,毕竟普施爱心,善莫大焉,它是一 种美;我们也不必指责苛求受捐者的冷漠的拒绝,因为人总是有尊 严的,这也是一种美。

    小学作文
  • 爱心与尊严高中作文题库

    1.关于爱心和尊严的作文八百字 我们不必怀疑富翁的捐助,毕竟普施爱心,善莫大焉,它是一 种美;我们也不必指责苛求受捐者的冷漠的拒绝,因为人总是有尊 严的,这也是一种美。

    小学作文
  • 爱心与尊重的作文题库

    1.作文关爱与尊重议论文 如果说没有爱就没有教育的话,那么离开了尊重同样也谈不上教育。 因为每一位孩子都渴望得到他人的尊重,尤其是教师的尊重。可是在现实生活中,不时会有

    小学作文
  • 爱心责任100字作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文
  • 爱心责任心的作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文
  • 爱心责任作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文