扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
1、系统部署
信息采集子系统
实现对政府门户网站和下属单位部门的子网站WEB页面的批量采集,支持对各类网页格式信息的采集和附件内容的采集,并通过内容过滤、自动去重、自动分类,加载到CGRS网页检索库进行管理与提供网站全文检索服务。主要包含以下几个部分:
(1)、确定采集目标网站,建立采集工程配置;
(2)、对采集工程进行搜索策略的定义及过滤条件等内容的设定;
(3)、根据URL特征完成检索地址设置,对网站频道进行分类采集、过滤及内容自动去重;
(4)、将采集的内容自动加载到CGRS网页检索库,交由CGRS全文数据库管理系统进行统一管理。
(5)、采集的文件类型。系统支持对页面内容(htm、html、xml、shtml、asp、php、jsp、notes等)、网页附件(doc、xls、ppt、txt、pdf等)、图片(jpg、gif、jpeg、bmp等)、音频(MP3等)、视频(AVI、RM、MPEG等)、JAVA(由JavaScript程序生成的页面)等内容的采集。
信息管理子系统
通过WSE DBA对采集下来的各类WEB页面、附件等非结构化信息资源通过CGRS全文数据库进行统一管理。同时实现对采集过程及用户权限进行全局管理。
后台CGRS全文数据库是对WEB页面、文本、电子文档、图像、声音、映像等页面附件提供强大的数据库管理和检索功能的全文数据库平台,具有数据库管理及维护功能,如搜索引擎数据库定义、建立、备份、恢复、逻辑删除、物理删除、重组、增量备份、记录查重等。
用户与审计管理。包括用户权限管理,用户操作审计、分析与统计,日志分析与统计等功能。
信息检索子系统
采用先进的基于字元索引技术,不需要安装分词词库,全面解决了分词技术所造成的网页漏查、错查、索引更新等现象。支持任意字、词、短语、句和片段的全文检索,保证对采集的海量WEB页面100%的查全率和较高的查准率。提供智能化的全文检索和各类复合检索手段。支持逻辑组合检索、多字段复合精确检索、历史检索、相关词扩展检索、分类导航检索、中英文(字符)混合检索、二次检索、网页附件内容的检索等。检索关键词在标题和摘要中高亮显示,检索结果分别按照标题、摘要、内容进行类聚,并剔除重复性的内容。检索结果可以按相关性和时间排序。
2、工程部署
系统部署完毕后,进入工程部署阶段,对政府门户网站和下属单位部门的子网站发布的内容、信息资源的信息采集工程进行设置和调试。根据发文规律,提供定时采集设置,达到无人值守自动采集之目的,提高系统的时效性和高效性。同时系统具有良好的稳定性与安全性,可以实现7*24小时无间断工作。
成功案例
“中国杭州”政府门户网站搜索引擎项目是天宇政府门户网站群搜索引擎的一个典型应用。该项目采用天宇公司网站搜索引擎系统产品,构建杭州市政府门户网站“全网站”搜索引擎,整合采集杭州市下属65个局、委、办门户网站信息资源,实现整个杭州市政务信息“网站群”的搜索,为各级党政机关和社会公众提供公开政务信息的“一站式”检索服务。用户只需要访问杭州市政府门户网站,通过站点检索功能便可以查询到所有杭州市政府及下属各单位各部门的门户网站上所发布的政务信息。该项目有助于提高公众查询与使用政务信息的效率,真正体现政府部门亲民、利民、便民的服务宗旨。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者