摘 要
信息技术的迅猛发展带动文本信息数量以几何速度快速增涨。如何从海量文本信息中迅速捕获到适用于自身的信息,进而对这些信息进行合理的应用与管理是当前急需解决的问题。新闻热点设计文本挖掘技术是一项解决从庞杂的文本信息中提取出有用知识的重要技术。新闻热点设计是一种能自动从网络上收集水情信息分析的工具,可根据用户的需求定向采集新闻热点信息来作可视化操作,自动在网络上获取新闻热点网页数据。对于新闻热点信息数量较少的工作而言,实现一个网页下载程序会很麻烦,但是,当从网络上采集海量信息的时候,新闻热点设计系统的实现将变得十分复杂。
新闻热点设计系统技术仅仅处理数据抽取这一步。网络爬虫只将网络上的页面下载下来,对下载的新闻热点数据没有进行处理。这样做的劣势在于:新闻热点设计的后续操作首先要从数据库种获取到这些非结构化信息。这样无形之中增添了两次操作数据库的任务量,在数据量极其庞大的背景下,会大大降低整个系统的效率。新闻热点设计当前最为流行的python技术来实新闻热点爬取功能。
关键词:msyql;信息;python;新闻热点;可视化
目 录
本 科 生 毕 业 论 文(设计) II
题目:新闻热点设计系统 II
摘 要 III
Abstract IV
第一章 概述 1
1.1 研究背景 1
1.2 目的及意义 1
1.3 系统体系结构 2
1.4 Python技术 3
第二章 系统需求分析 4
2.1可行性分析 4
2.1.1经济上的可行性 4
2.1.2技术上的可行性 4
2.1.3操作上的可行性 4
2.2功能需求分析 4
2.3 系统用例图 5
2.4 业务流程分析 6
2.5 系统数据流图 7
2.6 数据字典 9
第三章 系统总体设计 11
3.1网站功能结构图 11
3.3网站开发目标 12
3.4网站性能需求 12
第四章 数据库设计 13
4.1数据库概念结构设计 13
4.2数据库逻辑结构设计 14
第五章 系统详细设计 16
5.1爬虫功能模块设计 16
5.2 服务器数据库管理端 19
5.2.1新闻信息管理功能实现 19
5.2.2用户信息管理功能实现 19
5.3 新闻系统前台实现 20
第六章 系统测试 23
6.1 测试的任务及目标 23
6.1.1测试的任务 23
6.1.2测试的目标 23
6.2测试方案 23
6.2.1模块测试 23
6.2.2集成测试 24
6.2.3验收测试 24
6.2.4平行运行 24
结 论 25
致 谢 26
参考文献 27