基于Python的新闻聚合系统网络爬虫研究 |
| |
作者姓名: | 左卫刚 |
| |
作者单位: | 山西管理职业学院 |
| |
摘 要: | 本研究旨在创建一个能够从不同页面布局中提取数据的开源爬虫,其中包括网络爬虫、API、网络爬虫调度器以及Socket服务器的实现等。使用Python语言开发网络爬虫,利用BeautifulSoup作为网络爬虫的Web提取工具,以Laravel为Web应用程序框架,PHP作为主要后端语言,承载CMS和API。网络爬虫可以通过利用用户创建的配置文件来适应从不同的页面布局中提取数据,并将提取的数据导出到JSON文件或数据库系统中。
|
本文献已被 CNKI 等数据库收录! |
|