[1]王孟博.一种网页信息抽取算法的研究与实现[J].青岛远洋船员职业学院学报,2021,42(4):32-37.
 WANG Mengbo.Research and Implementation of a Web Information Extraction Algorithm[J].Journal of Qingdao Ocean Shipping Mariners College,2021,42(4):32-37.
点击复制

一种网页信息抽取算法的研究与实现()
分享到:

《青岛远洋船员职业学院学报》[ISSN:2095-3747/CN:37-1489/U]

卷:
42
期数:
2021年4期
页码:
32-37
栏目:
信息工程
出版日期:
2021-12-30

文章信息/Info

Title:
Research and Implementation of a Web Information Extraction Algorithm
文章编号:
2095-3747(2021)-04-0032-06
作者:
王孟博
(广州新华学院,广东 广州510520)
Author(s):
WANG Meng—bo
(Guangzhou Xinhua University,Guangzhou 510520,China)
关键词:
网页信息抽取信息过滤自动存储
Keywords:
web information extraction information filtering automatic storage
分类号:
TP311
文献标志码:
A
摘要:
随着互联网上的信息资源日益丰富,数量上难以计数,几乎每一个网页都包含与关键信息无关的噪音信息。如果想要收集自己需要的信息,仅通过手工方式存储到数据库或者文档中,需要消耗大量的时间和人力来整理以及存储并且存在一定的难度。基于此,本研究选用windows系统作为开发平台,运用JAVA对网页信息抽取进行研究,实现一个基本、简略但具备可行性的算法。当前台通过关键字搜索,后台算法即会过滤噪音信息,自动抽取出智能及相关网站的信息并自动存储到数据库中。
Abstract:
With the increasing abundance of information resources on the Internet, the quantity is hard to count. Almost every web page contains noise information that has nothing to do with the key information. If you want to collect the information you need, you can only store it in a database or document by hand, it takes a lot of time and Labor to organize and store and is difficult. Based on this, this research chooses the Windows system as the development platform, uses the Java to carry on the research to the web page information extraction, the foreground searches through the key word, the background algorithm will filter the noise information immediately, automatically extract information from smart and related sites and automatically store it in a database. The goal is to achieve a basic, simple but feasible algorithm.

参考文献/References:

[1] 葛萌,黄素萍,欧阳宏基. 基于Spring MVC框架的Java Web应用[J].计算机与现代化,2018,(08):97-101.
[2] 聚慕课教育研发中心Java Web从入门到项目实践. [M]. 北京:清华大学出版社,2019.
[3]黄文毅Web轻量级框架Spring+Spring MVC+MyBatis整合开发实战[M]. 北京:清华大学出版社,2020.05.
[4]王梓,夏凯. 基于SSM框架的水质监测数据管理系统研究[J].计算机时代, 2018,(07):25-27+31.
[5]方美玉,郑小林,陈德人,华艺,施艳. 商品评论聚焦爬虫算法设计与实现[J].吉林大学学报(工学版),2012,42(S1):377-381.

备注/Memo

备注/Memo:
收稿日期:2021—04—26作者简介:王孟博(1990— ),男,助理研究员
更新日期/Last Update: 2021-12-30