-
信息聚合概念的构成与聚合模式研究
0
引言
网络和数字化环境下,
海量信息资源
为用户带来丰富数据和
信息的同时,
也给用户带来了信息超载的
难题。
因此,
信息组织
和检索在解决海
量网络信息开发利用的同时,
还肩负着搭建从信
息资源到用户多
样化信息需求之间桥梁的重任。
然而,以往信息组织的研究和实践偏重信息资源的开发利
p>
用,
而真实情境下用户的复杂信息需求在主流信息组织和检索模
p>
式中未得到充分的考虑和支持。
例如,
在当
前典型的信息检索系
统中,
用户往往需要对来源分散的信息进行
逐一检索和相关性判
别,
并对结果进行人工整合,
才能解决一个具体的问题,
这为时
间紧迫的用户带来
了负担
[1]
。因而,用户需要能帮助他们按照
需求从多个分散来源中获取信息并以整合方式呈现的信息服务
方式——信息聚合
由此而生。
简言之,
信息聚合是指根据用户的复
杂信息需求,
对来源分
散的多类型信息资源进行采集、
筛选、
组织、
整合和呈现的信息
组织与检索方式。
聚合搜索
(Aggregated
Search)
的概念在信息
科学国际
会议
ACM SIGIR 2008
中被提出时,就被认为是信
息检
索的新范式
[2]
与新趋势
[3]
。
在国内,
国
家社会科学基金和国家
自然科学基金立项支持的与
“聚合”
p>
有关的项目至今累计达十余
个。
可见,
p>
信息聚合作为信息组织与检索研究的新问题正得到包
括图书情报学在
内的诸多领域的关注。
适时厘清信息聚合的内涵
与概念构成,<
/p>
明晰其发展历史和已有基础,
进而对现有的聚合理
论研究与实践模式进行梳理,
可为聚合研究提供理论基础和发展
的路向。
1
信息聚合概念的构成
《
牛
p>
津
现
代
英
汉
双
解
字
典
》
中
,
< br>“
聚
合
”
一
词
与
英
文
“
Aggregation
”对应,是
指异类成分组成的集合,或由很多细
小单元组成的集合组成一个整体
[4]
。
杜晖指出,
聚合的概念
来
源于化学领域,
是描述高分子化学领域中单体小分子通过相互
连
接成为新的高分子化合物的专用术语
[5]
< br>。可见,信息组织领域
中的聚合概念应具有多来源信息单元的融合和重组的含义,
指多
源信息单元的聚合,包含聚合对象粒度这一要素。
北卡罗来纳大学信息与图书馆学院信息检索领域的研究人
员
< br>Arguello
等提出了内容聚合的概念,认为内容聚合是指特定
情
境
下
围
< br>绕
核
心
内
容
(Core
Content)
和
垂
直
内
容
p>
(Vertical
Content)
进
行信息筛选、组织、排序与呈现的任务与方法
[6]
。
与前述的聚合对象粒度这一要素相比,
内容聚合的概念关注的多
源异构的信息“内容”实际上与“聚合对象”对应,同时还增加
了
“情景”
要素。
情景是由宏观社会环境下的信
息组织和检索环
境以及用户需求共同决定的。作为聚合对象的信息内容的粒度,
主要根据宏观社会环境下用户的复杂信息需求而定,
同时还受到
来源信息粒度及信息组织和检索系统性能的影响。
情景和聚合对
象两个要素之间衍生出第三要素,
即涵盖聚合对象与用户之间关
系以及聚合对象之间关系的“关系”要素。因而,信息组织领域
中的信息
聚合可视为面向用户需求的、
基于多维聚合关系的、
多
来源、多粒度信息对象的筛选、组织、排序与呈现,包括聚合情
景、
p>
聚合对象粒度、
聚合对象之间关系及用户和聚合对象之间关
系这三大构成。
与
信
息
p>
聚
合
相
近
的
概
念
还
有
信
息
整
< br>合
、
信
息
联
合
(Syndication)
、
信息融合和信息集成等。此外,网络聚合搜索
通
常
被
等
同
于
< br>统
一
搜
索
(Unified
Search)
、
混
合
垂
直
搜
索
(Blended
Vertical
Search)
或
通用搜索
(Universal
Search)[3]
等概念。
正如本文开篇所提到的,
信息聚合与
这些概念的区别在
于,
这些概念主要从信息资源开发利用的角度
提出,
忽略了聚合
所关注的
“情景”<
/p>
要素以及由情景要素所带来的聚合对象、
聚合
对象之间关系和聚合对象与用户之间关系的差异。
可见,
信
息聚合是在当前搜索系统并未满足用户复杂多样的
信息需求的情况下,以“情景”因素的
融入为主要特征,在相应
技术和理论基础上发展而来的信息组织与搜索模式的革新。
p>
内容
聚合的概念可包括情景、
聚合对象和关
系三大要素,
其中情景决
定聚合的领域、目标、资源特征、用户
特征、工具和方法,是聚
合模式的决定因素;
信息是聚合控制的
基本对象,
面向信息融合
和知识发现的各种应用是聚合结果;<
/p>
关系是聚合的基本依据,
包
括情景、
p>
聚合对象和用户三者本身蕴含的关系以及三者之间的关
系。
2
聚合模式分析方法
虽然近
年来信息聚合问题成为信息组织与检索研究的新热
点,但
Arg
uello
认为内容聚合的现象可追溯到更传统的表现形
式,如
:报纸可视为最早的“聚合媒体”
,数字环境下聚合系统
则表现
为内容过滤系统,
万维网初期更多呈现为主题导航式的手
工的内
容聚合、
网络内容的自动聚合和新闻推荐等形式。
当前技
术环境下,
内容聚合者则采用复合的、
实时的
、
基于地理空间信
号、语义分析和社会信息分析的方式进行
p>
[6]
。国内对于信息聚
合的研究也涵盖了
馆藏资源聚合和网络资源聚合等方面,
如,
伍
< br>革新和程秀峰提出数字图书馆语义检索从功能上可以划分为面
向服务的聚合与检索
、
面向用户的聚合与检索、
面向知识推理与
知识创新的聚合与检索
[7]
。可见,信息聚合具有多样化
的应用
领域和应用模式,
加上学界对于信息聚合概念的认识和聚
合类型
划分尚不一致,
当前与聚合模式相关的研究和实践是多样
而又分
散的。
本研究以信息聚合的概念构成为基
础,
对当前国内外关于信
息聚合的典型应用和研究前沿进行梳理
,归纳出聚合的主要模
式。
为获取国内外图情领域关于信息聚合
研究与实践的信息,
本
研究搜集并整理了以下项目和资料:
p>
全球
iSchool
图书情报学院
的教师科研项目、
2009
~
2013
年间图书情报领域的国际会议论
文、
2009
~
2013
年
间图情领域的五种国际期刊的论文
(Journal
of
the
American
Society
for
Information
Science
and
Technology,Journal
Information
of
Documentation,Journal
Processing
of
and
Science,Information
Manageme
nt,Scientometrics)
、
我国国家自然科学基
金和国家社
会科学基金资助项目论文和
CNKI
中的学位论文,并以此为线索
进行扩展。
在此范围内,
选取资料完整的、
有代表性的研究和实
践案例进行分析,对聚合模式进行归纳和梳理。
通过分析发现,
< br>这些项目和研究中包含的聚合模式主要是以
情景、
对象、
关系中的一种或几种为依据进行的信息聚合,
涵盖
特定情境下多类型信息资源的采集、抽取、组织、分析、应用等
多个方面的内
容。
围绕这些特征,
我们提出本研究模式分析的思
路,
即:
以信息聚合的主要构成要素为模式分析的立
足点,
围绕
情景、
关系和聚合对象粒度
三种主要的聚合依据,
按照其研究和
实践的侧重点不同,划分为
情景聚合、语义聚合、引用聚合、社
会网络聚合和粒度聚合五种主要模式。
以此为框架,
以聚合情景
分析为基础,
以聚合机制解释和聚合应用介绍为主要内容,
对现
阶
段信息聚合研究和实践的基本模式及其具体表现形式进行梳
理,
具体如图
1
所示。
这三种聚合模式并非
相互排斥、
独立存在,
而是互相包容和渗透。
< br>值得注意的是,
以下各模式下所讨论的研
究和实践例子除
了具备该模式的显著特征外,
也可能同时具有其
他模式的特征和
要素,甚至是其中几种模式的复合体。
图
1
基于信息聚合概念构成的聚合模式与表现形式
3
信息聚合的主要模式与表现
3.1
基于情景的聚合
情景是指领域、用户、时间、地点
等可影响聚合目标、聚合
对象特征、
聚合方法和工具的应用的社
会环境因素。
情景聚合模
式即基于应用目标、
< br>用户需求、
行为或时间地点等客观情景因素
进行的信息对
象的采选、
整合与动态呈现。
该模式可分为基于情
景感知的事件信息聚合、
基于实时信息的新闻或消息聚合和基于
个性化用户模型的聚合三种表现形式。
3.1.1
基于情景感知的事件信息聚合
大数据环境下,科研、商业、政府
管理、军事和社会生活中
使用的各类传感器产生的多媒体信息是海量信息的主要组成之<
/p>
一。
基于情景感知的事件信息聚合模式是指通过对来自多个传感<
/p>
器的实时、
海量的多媒体信息进行事件情景识别、
事件相关信息
或数据抽取和事件整合的聚合模式。
基于
大规模多媒体传感器的
应用系统被称为情景感知的应用
[8]<
/p>
。
相关研究和实践包括:
Ramach
andran
以视频监控为例构建
情景感知的应用模型,在监测
器识别和异常事件触发的基础上,
通过多传感器和追踪器进行事件信息
< br>(
如:
位置等
)
的持续聚合和
联合追踪,形成面向实际应用的相关知识
[8]
。
Gao
等构建了一
个情景信息监测的系统,
通过异构信息流聚合方法提供个性化信
息和行动提醒。该系统通过统一的数据模型聚合异构网络数据
流,
并监测个人或整合数据流的时间和空间特性,
从而对复杂情
景进行监测并提供个性化信息服务与提醒
[9]
。<
/p>
Dao
等构建涵盖
网络、
实体和社会系统的事件信息管理平台,
以帮助领域专家实
现大规模动态事件数据的监测和实时情景预测。
该平台设计半自
动的情景识别模型,
通过输入来自传感器的或书面报告的、
实
时
的或档案信息中的同构或异构数据格式,
对数据流实现浅层或
深
层的混合式整合,
从而产生可视化的分析方法或行动和警告,
并
帮助发现隐藏的时间模式
[10]<
/p>
。
3.1.2
基于实时情景信息的聚合
实时情景信息主要是指用户所处的
地理位置、
时间甚至是社
会关系网络等即时的或历时的情景信息
。
基于实时信息的聚合是
当前聚合研究的热点。
相关研究和实践包括:
Wenze
和
Kieling
开展首个对多来源
的位置—社会网络数据进
行聚合、建模和分析的研究,从
Facebook
、
Google+
、
Twitter
和
Foursquare
中抽取数据并生成
物化的空间架构,
在此基础上生成扩展的用户模型并实现基于用
户模型的相似性分析,从而应用到用户间的场景式推荐中
[11]
。
Singh
等在研究中提出,
微博等社会网络程序产生的空间—时间
—主题数据的整合,
可帮助检测事件,
并理解同一事件在不同时
间—空间粒度中
发展的情景。
作者受到传统图像像素代表某位置
中光子强弱的聚
合的启发,
将处于不同地理位置的用户兴趣层次
作为社会聚合的
像素,
将这种社会像素以时间—空间的方式联系
起来即可形成社
会图像和音频。
作者提出通过情景监测操作器实
现基于时间、空
间和主题社会像素的图像和音频聚合
[12]
。
Liu
提出的
LocalSavvy
< br>原型系统,将不同地点对于相同新闻事件的
官方与非官方等不同观点聚合到统一界
面,同时进行摘要呈现,
用户可对不同的观点进行比较,从而丰富用户新闻阅读体验
p>
[13]
。
3.1.3
基于个性化用户模型的聚合
基于个性化用户模型的聚合可分为
面向用户个体的建模与
聚合和面向用户群体的建模与聚合。
其中
,
面向个体的用户模型
聚合可划分为个性化新闻推荐中的用户建
模
(
如:主题跟踪和语
义标签匹配模型
[14]
、
基于用户交互行为特征的多
变量优化模型
[14]
、
动态的行为学
习模型
[15]
等
)
< br>和场景模型构建
(
如:
基于生<
/p>
活事件法的电子政务服务场景模型
[16-17])
。
基于多来源数据的用户群组建模研究近年来备受关注,
下面
介
绍
较
为
典
型
的
研
究
和
实
< br>践
。
ASTERIX(Advances
in
Small
Trials
dEsign for Regulatory Innovation and eXcellence
,
创新卓越小型实验系统
)
< br>大数据信息管理系统,旨在为洛杉矶地
区产生的地理、商业、人口、新闻、本地相
关或提及本地的博客
和微博等多源、
异构和动态的事件数据管理
提供基本框架,
构建
动态数据模型,最终实现基于用户兴趣群组
(
如选举、电影等
)
< br>的事件信息聚合
[18-19]
。微软亚洲研究院的研究
人员
Zhuang
等提出移动环境下基于潜在情境因素的感知与
个性化商业机构
推荐问题。
在对手机点击行为进行大规模分析的
基础上识别商业
机构类型和条目,通过用户的特定情境估算相关商业机构的概
率,
推荐与用户情景
(
过
往行为
)
和感知情景
(
时间和地点
)
相关的
机构类型
和机构。该研究在
Windows
Phone
7
设备的基础上开发
个性化推荐应用
[20]
。
3.2
基于关系的聚合
基于关系的聚合是指特定情境下依
据聚合对象之间的各类
关系进行聚合,
主要包括基于语义关系的
聚合、
基于引用关系的
聚合和基于社会关系的聚合。
3.2.1
语义聚合模式
语义聚
合模式着重探索文本信息资源内容所包含的概念间
或实体间关系,从而通过语义关系网络
实现多类型资源
(
文本、
馆藏、数据和
服务
)
的聚合。
概念关
系可分不同的层次,
主要包括概念的包含关系,
如分
类法的类目等级关系,
叙词法的属分关系,
本体类
的树状结构包
含关系等。
Peace
构
建了关于医护实践知识的知识组织系统,辅
助计算机理解和分析
[21]
;
李劲等研究如何揭示馆藏资源内部的
知识对象以及知识对象间的语义关系,
通过聚类、
融合
和重组使
分散无序、相对独立的馆藏资源重新组织为一个新的有机整体
< br>[22]
。
实体关系,如人物、时间、地点、
事件等实体是和内容主题
并存的另一大类关系载体,
在基于非主
题因素的关系的揭示与发
现方面发挥着不可忽视的作用。
基于实
体关系的聚合可包括:
面
向馆藏资源实体关系的聚合
(
如:基于
FRBR
模型
的
OPAC
系统聚
合
< br>[23]
,基于关联数据的馆藏信息资源聚合
[24])
,面向事务实
体关系的聚合
(
如:基于语义网络的多来源水质量管理数据源的
聚合
[25]
,生物等学科领域的数据与服务聚合
[26-2
7])
,以及
面向具体领域实体关系的聚合
(
如:
ad
hoc
网络层面的基于语义
和规则网络的软件构件聚合
[2
8])
。
3.2.2
引用聚合模式
信息资源间存在大量的链接和引用
关系,
这些关系构成了特
-
-
-
-
-
-
-
-
-
上一篇:《圣经》罗马书讲解:第五讲 进入这恩典中 (罗5:章)
下一篇:哲学的定义