scrapy的helloworld - 走在左边 - ITeye博客

`

haoningabc

浏览: 1444306 次
性别:
来自: 北京

最近访客更多访客>>

zfyq124

bartontang

dlzdy

cnnlush0605

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

wahahachuang8：我喜欢代码简洁易读，服务稳定的推送服务，前段时间研究了一下go ...
websocket的helloworld
q114687576： http://www.blue-zero.com/WebSoc ...
websocket的helloworld
zhaoyanzimm：感谢您的分享，给我提供了很大的帮助，在使用过程中发现了一个问题 ...
nginx的helloworld模块的helloworld
haoningabc： leebyte 写道太NB了，期待早日用上Killinux！么 ...
qemu+emacs+gdb调试内核
leebyte：太NB了，期待早日用上Killinux！
qemu+emacs+gdb调试内核

scrapy的helloworld

博客分类：

python

阅读更多

http://scrapy.org/

安装python virlualenv
yum install libxslt-devel
yum install python-devel libffi-devel
cp /usr/lib64/python2.6/lib-dynload/bz2.so Scrapy/lib/python2.7/
否则可能汇报bz2的错误

pip install scrapy


from scrapy import Spider, Item, Field

class Post(Item):
    title = Field()

class BlogSpider(Spider):
    name, start_urls = 'blogspider', ['http://blog.scrapinghub.com']

    def parse(self, response):
        return [Post(title=e.extract()) for e in response.css("h2 a::text")]

EOF
 scrapy runspider myspider.py

参考
http://scrapy-chs.readthedocs.org/zh_CN/0.24/intro/tutorial.html

scrapy shell "http://app.shafa.com/apk/baobaoanquanjiaoyu.html"

response.xpath('//title')
response.xpath('//title').extract()
response.xpath('//title/text()')
response.xpath('//title/text()').re('(\w+):')
response.xpath('//section[@class="app-info"]//div[contains(@class,"meta-info")][2]//div[@class="info-title"]/following-sibling::span[1]/text()').extract()

http://www.shumeipai.net/forum.php?mod=viewthread&tid=20894&highlight=%D0%A1%B3%B5

分享到：

qemu nat网络跑gentoo | rsyslog 重新整理

2014-12-01 16:02
浏览 839
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

scrapy-pyppeteer:Scrapy的Pyppeteer集成: 未维护如果您需要Scrapy的浏览器集成，请考虑使用Scrapy的Pyppeteer集成该项目提供了一个Scrapy下载处理程序，该处理程序使用执行请求。它可用于处理需要JavaScript的页面。该软件包不会干扰常规的Scrapy工作流程...

scrapy依赖文件包: scrapy的所有依赖文件打包（不包含scrapy文件）,scrapy文件可以自行安装pip后，用pip安装命令为：pip install scrapy==1.0.5 scrapy1.0.5中文文档地址 ...

scrapy 0.22.3: Scrapy Documentation

django+scrapy+mysql完成简单微博热点系统的开发: 系统是采用的Django+Scrapy+Mysql三层架构进行开发的，主要思路是我们通过scrapy框架进行微博热点的爬取，经过一系列的处理最终成为我们想要的item，然后存入mysql数据库，最后Django从数据库中读取数据在网页上输出...

django+scrapy结合: 将Django和scrapy结合，实现通过Django的网页控制scrapy的运行，并将爬取的数据存入数据库。

scrapy 中文教程文字版最新: scrapy 中文教程最新版 0.25版的， epub格式

Learning Scrapy 中文版: Learning Scrapy 中文版 Learning Scrapy 中文版 Learning Scrapy 中文版

Scrapy文档1.4.0 文档: Scrapy文档1.4.0

scrapy 分布式爬虫全集: 其中包括爬虫入门，虚拟环境搭建，对scrapy的调试，对动态网站的爬取，scrapy与mysql的使用，scrapy-redis分布式爬虫的使用， elasticsearch搜索引擎的使用， scrapyd部署scrapy爬虫。等相关内容

Scrapy ImagesPipeline下载图片: Scrapy ImagesPipeline下载图片 Scrapy ImagesPipeline下载图片

大数据爬虫技术第10章初识爬虫框架Scrapy.ppt: 我们简单介绍一下各个主要文件的作用： scrapy.cfg --配置文件，用于存储项目的配置信息。 mySpider/ --项目的Python模块，将会从这里引用代码。 mySpider/items.py --实体文件，用于定义项目的目标实体。 mySpider/...

scrapy: scrapy附带安装指导

python scrapy电子书开发文档: python框架 scrapy pdf

scrapy_Python的爬虫框架Scrapy_scrapy_: 学习Python的爬虫框架Scrapy，框架函数讲解，非常详细，零基础入门

Python程序设计：Scrapy爬虫框架的使用.pptx: Scrapy爬虫框架笔趣阁小说抓取知识点：Scrapy爬虫框架使用 Scrapy爬虫框架使用 scrapy爬虫开发的基本步骤新建项目 (scrapy startproject xxx)：新建一个新的爬虫项目明确目标（编写items.py）：明确你想要抓取...

scrapy&request_异步数据爬取_scrapy_: 分别使用scrapy和request进行异步数据爬取

scrapy 爬取酷狗T500音乐: scrapy 爬取酷狗T500音乐,并把音乐下载到本地，其中下载的音乐信息保存到mongoDB

Scrapy依赖包.zip: Scrapy的依赖包

scrapy教程: scrapy教程

scrapy1.1 帮助文档: 最新版PDF版本scrapy1.1帮助文档

Global site tag (gtag.js) - Google Analytics