博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬取外文工业技术期刊网页源码(自用)
阅读量:6952 次
发布时间:2019-06-27

本文共 1380 字,大约阅读时间需要 4 分钟。

#coding=utf-8import requestsfrom pymongo import MongoClientfrom lxml import etreeimport datetimeclient = MongoClient("localhost", 27017)db = client["wanfang"]collection=db["journal_name"]collection1=db["journal_foreign_2014"]db.authenticate("","")cursor = collection.find()[1]for i in range(2645):    name = cursor['name_list'][i]    num = int(cursor['number_list'][i][1:-1])    mo = num%50    count = 0    if mo!=0:        count = num/50 + 1    else:        count = num/50        for i in range(count):        url = "http://new.wanfangdata.com.cn/search/searchList.do?searchType=perio&pageSize=50&page="+str(i+1)+u"&searchWord= 摘要:is 起始年:2014 结束年:2014 刊名:" + name + "&order=correlation&showType=detail&isCheck=check&isHit=&isHitUnit=&firstAuthor=false&rangeParame=all"        result = requests.post(url)        html = result.text        tree = etree.HTML(html)        table = tree.xpath("//div[@class='title']/strong/following-sibling::*[1]/@href")        for j in table:            bson = {}            url1 = "http://new.wanfangdata.com.cn" + j            result1 = requests.post(url)            html1 = result1.text            time = datetime.datetime.now()            bson['date'] = time            bson['url'] = url1            bson['html'] = html1            bson['year'] = "2014"            collection1.insert(bson)

 

转载于:https://www.cnblogs.com/zhangtianyuan/p/8547559.html

你可能感兴趣的文章
Android攻略--单位转化器UC--Units Converter(学习笔记)
查看>>
js 的强制 类型 转换cast, 伪对象?
查看>>
jsfl 全选
查看>>
MySQL安装与配置
查看>>
为什么开发移动端web不使用jQuery
查看>>
查询结果列传行
查看>>
RH253读书笔记(4)-Lab 4 The Domain Name System
查看>>
Inside SharePoint 2010 (3): Developing a SharePoint Solution (Class Library Project)
查看>>
【玩转开源】BananaPi R2——移植RPi.GPIO 到 R2
查看>>
mysql之事务详解
查看>>
弱引用和弱事件
查看>>
[Linux/Ubuntu] vi/vim 使用方法讲解
查看>>
Java基础-运行原理及变量(01)
查看>>
理解ASP.NET MVC中的ActionResult
查看>>
Java实时读取日志文件
查看>>
sql反模式分析2
查看>>
杭电oj--Tickets(dp)
查看>>
java反射机制
查看>>
下拉框点链接js
查看>>
项目管理-计划与实施,哪个更重要
查看>>