2010年6月21日星期一

Google Reader全文输出 小结

      对于更新量非常大和更新量非常小的网站,我们都希望能通过全文输出,然后通过RSS订阅在Google reader等阅读器里完成阅读和额标记。如果想快速阅读新闻,一个标题和间断摘要就可以,比如网易的头条新闻。如果每一篇文章都要点进原地址读一遍,无疑增加了了阅读时间,阅读体验也差了很多。当然作为用户,时间花得越少,东西阅读得更快更多无疑是众望所归,但对于网站来说,PV和流量是他们所期望的,所以大门户网站等都只会给出摘要,想阅读全文就得进入官网。事情总有个过渡和解决,对于不在乎的用户,网站和用户达到共赢,对于有洁癖和刁钻的用户,我们只能走下弯路来达到一劳永逸。
一、RSS feed 摘要输出轻松全文 (via:小众软件
  
傻瓜化的 RSS feed 全文化利器:まるごとRSS
  1. FollowThatPage – 它会把页面的更新信息发送到你的邮箱,大部分的中文网站都可以识别,只有少数会乱码。
  2. Page2RSS – 把更新的那部分内容烧成一个 Feed。
  3. Update Scanner – Firefox 扩展,定时扫描页面并提示。      这些都是通过第三方网站,直接输入rss feed,由第三方输出全文后再订阅,成功度高,方便快捷,适合菜鸟……。缺点就是定制较差,抓取时间间隔长,更新经常漏掉某篇文章。
  4. Wizardrss   
  5. まるごとRSS   傻瓜化的 RSS feed 全文化利器
      另外还有Full Text RSS Feed(推荐)、Create Full-Text FeedsFeedEx.net ,但也都有一些小缺點,有些A工具無法成功轉成全文的目標,換用B工具就會成功了。

      想以最快的速度看到rss里的文章当然是订阅官方提供的rss了,所以可以通过脚本的方法来实时获得全文。
      基于Firefox,安装Greasemonkey,安装 google reader full feed changer 脚本。

      二、RSS feed 不输出全文?一样搞定你 (via:老肥博客

      以 新浪 体育新闻 为例,打开一篇新浪上的原文,按 ctrl+u 查看页面源代码,发现正文部分是用div class标注的,那么修改一下刚才的脚本,该脚本通常位于 Firefox 配置文件夹下:%appdata%\Mozilla\Firefox\Profiles\****\gm_scripts\googlereaderfullfeedchan.user.js
编辑它,在第九行以下,添加一个 SITE_INFO:
{
  url: 'http://(sports|rss).sina.com.cn',
  xpath: '//div[@class="artibody"]',
  charset: 'gb2312' //非必需
},

      保存脚本文件,F5 刷新 Google Reader, 看看新浪的 feed 吧。现在您知道了如何添加一个 SITE_INFO, 添加一下您需要看全文的 feed 信息,以后就省事喽。注意事项:
  • 如果网站域名和 feed 域名不一样,需要把两个域名都写进去,比如: url: 'http://(site.com|feed.feedsky.com)',
  • class 和 id 都可以识别
  • 如果出现乱码,在该网站页面源代码中搜索 charset, 设定进 SITE_INFO 中

       Google reader full feed changer 可谓是最万能的全文输出方法。除了以一些不标准的模板无法读取全文,大部分的都可以完成。如:http://www.zaobao.com/。

    三、用Yahoo Pipes做RSS全文输出 (via:天空

      很多网站尤其是一些新闻类的网站虽然提供RSS输出,但他们的RSS输 出并不是全文输出,如果要看全文还要点击进去,而且有些文章还可能要翻墙才能浏览,这样总感觉 不是很爽……不过现在有了Yahoo Pipes就好办了!这是Yahoo提供的一款超级强大的RSS处理工具,今天俺就教你如何用它来输出网站的全文!
———————————分割线————————
第一步

先在 Yahoo Pipes 里新建一个 pipe(如图)


第二 步

拖入一个 Fetch Feed 模块,输入你想要全文输出的RSS地址(如图我添加的是路透社-时事要闻的RSS


第三步

然后到Operators条目下拖入一个 Loop 模块,与 Fetch Feed 相连接



再到Sources条目拖一 出个 Fetch Page 模块拖进入 Loop(注意是拖进Loop里面去,如图)



设置 URL 为 item.link
第四步

这是最关键的一步!!!

        随便打开你要全文输出的RSS其中一篇文章,然后等网 页加载完毕后,查看这篇网页的源代码


        然后查找网页源代码中正文部分,把能囊括正文的复制出来(这个div的值,是网站管理者 设定的,一定要,不然pipes不知道收录哪里,如图,路透社的路透社的)



然后填入到Fetch Page中的Cut content from中,如图



第五步

       把assign项选为first,然后把results to填为item.description,将 Loop 连接到 Pipe Out,保存,大功告成!!!


最后

这是我做的路透社-时事新闻的截图



       当然你要检查一下有时候 item.descriptiom下可能输不出全文或乱码,那你要debug了,可能我以后会写文章另解,今天就写到这了,如图,反正路透社这个 Pipes是正常的



如果你要输出的RSS的地址 美观一些,可以将 Pipes 弄好的 RSS 烧录到 Feedburner feedsky

博主弄的rss全文输出网址 http://rss.imlim.com/
     推荐一个通用RSS全文输出:http://pipes.yahoo.com/pipes/pipe.info?_id=84e40ae9ab8a8c8c2e1906cd35604609 ,能省不少麻烦。

     这样后通过Greader全文输出不仅可以阅读被封的网站,还节省了不少阅读时间。
提供几个pipes弄的rss:
  1. Mtime时光网:http://pipes.yahoo.com/pipes/pipe.run?_id=63570037c6738178037475d4c65dd765&_render=rss
  2. 每日一句:http://feeds.feedburner.com/meiri
  3. 南方周末热点新闻:http://feeds.feedburner.com/south_weekend
  4. 网易头条新闻:http://pipes.yahoo.com/pipes/pipe.run?_id=2b339df54900fa985e4559c70a411b3b&_render=rss
     有的网站更狠,比如新浪,干脆不提供rss了,你想看,乖乖输入sina.com来开吧,不然拉倒,咱不愁没人来看。实在太气人,作为一个门户网站,就这点气魄,小气得要命。

四、Super Google Reader
如果你使用Google Reader(谷歌阅读器)用户,那么Super Google Reader是一个必备的Chrome扩展,他直接集成到google reader,允许用户全文阅读摘要输出的RSS。安装之后,你会发现3个新的按钮(Readable、link和Feed),点击Readable按钮将获取全文RSS内容,在Super Setting下拉菜单中,可以进行设置,其中“pre-fetch all readable content”特别实用。


五、Full Text Rss Feed

不喜欢Super Google Reader?那么选择Full Text Rss Feed,你不需要安装任何扩展,而且在任何浏览器上都可以使用,在这个网站输入你喜欢的RSS,将会输出一个全文的FEED。
Full Text Rss Feed的优点是在各个浏览器和各个RSS阅读器上都可以使用,当然,缺点是更新的时间间隔比较长,你可能会错过喜欢的最新消息。

六、FiveFilters


和Full Text Rss Feed一样,Five Filters也是输入你喜欢的摘要RSS地址并产生一个全文的RSS源,所不同的是,你可以选择托管或者自托管。
所谓托管,就是使用fivefilters的服务器托管烧制之后的FEED,免费服务每次只能显示一个FEED中的三个项目,付费账户每次可以显示超过10个项目。

而自托管则是一次性花费20欧元,购买FiveFilters的源代码,并在自己的服务器上使用这个服务。

七、Unsum

Unsum(貌似需要翻墙)的优点在于其高度的可定制性,默认状态下,Unsum将抓取FEED的HTML代码,并去掉其中的标签及其他无关的东西,只显示网页内容,不幸的是,对于一个结构复杂的HTML,就需要自己定义开始和结束的地方了。
你还可以配置抓取的缓存时间以及自定义FEED的名称。


如何订阅不提供RSS Feed输出的网站?(via:可能吧

1、利用Google资讯

     也许国内使用Google 资讯的人并不多,Google 资讯是一个由计算机生成的资讯网站。它汇集了来自中国大陆超过1,000 个中文资讯来源的新闻资源,并将相似的报道组合在一起,根据读者的个人喜好进行显示。
Google资讯支持RSS或Atom的Feed输出,通过设定一些关键词我们可以利用Google资讯订阅不提供Feed输出的网站。
比如我要订阅新浪F1,怎样通过Google资讯订阅呢?通过观察我发现,新浪F1的每一篇新闻的URL是有规律的,都是 sports.sina.com.cn/f1/日期/数字.shtml 的形式的,我在Google资讯里通过"inurl:f1 site:sina.com.cn”将新浪F1里的新闻全部找了出来,经核实发现没有其它新闻混杂在里面。

(Google资讯条目(上)与新浪F1新闻条目(下)对比)

      这时页面左边的RSS或Atom链接即是新浪F1的Feed输出了。

      后来我觉得光是新浪F1的新闻并不足够,就加上了搜 狐F1的新闻。因为搜狐F1的文章URL里也含有F1,这样操作就简便多了,并不需要分开两个Feed来订阅。具体操作只是扩大搜索范围,关键词 更换为"inurl:f1 site:sina.com.cn OR site:sohu.com"

      如果某个不提供RSS输出的网站,它的新闻内容都含有特定的文字,比如“XXXXXXXXXXXXX-新华网YY频道”,这时我们可以用 “intitle:新华网YY频道 site:某个网站”来限定新闻的范围。

      对于URL或新闻标题有规律的资讯类网站,使用Google资讯为其烧制一个Feed是很不错的选择。

      事实上百度新闻也支持Feed输 出,但百度不支持inurl和intitle搜索,所以并不能准确地将某些特定的新闻区分出来。

      2、使用在线Feed创建工具

      有些我们想订阅的网站的文章URL没有什么规律,很难用Google资讯来订阅,这时我们可以使用一些在线的Feed烧制网站。

      有不少网站提供Feed烧制,只要提供网站地址,剩下的操作一般是选择烧制的区域或点击两个要烧制内容的链接。

      但使用这些服务烧制出来的Feed只含有标题和链接,并不像Google资讯那样有内容摘要。
列举一些:
  1. http://dapper.net/  这个可能吧以前介绍过。功能强 大,定制强度很高。
  2. http://feed43.com  这个使用起来可能会有点难度,对不熟悉网页编程的人可能会有点困难。但定制强度很高。
  3. http://www.ponyfish.com/ 这个操作简单,可定制性强, 推荐使用
  4. Feedity

  5. 使用Feedity可以为任意网页创建RSS Feed,也可以合并多个RSS Feeds。Feedity在网址输入框下面的下拉列表中包括了几个示例可供查看。

    其原理有点类似文章采集,需要网友从页面源代码中找出需要跟踪内容的起始和结束代码,将它们添加到“Start Block”(开始锁定)和“End Block”(结束锁定)中。查看详细教程

  6. FeedBeater 输入任意网站网址,点击“Beat it!”即可生成RSS订阅地址,再点击“Add”选择阅读器完成订阅。


  7. FeedFire  网站需要注册才能使用。

  8. 网页跟踪监测服务:ChangeDetection  用户只需填写需要跟踪监视的网页网址以及接受提醒的Email地址即可。当ChangeDetection监测到填写网页有所变动的时候就会发邮件提醒你了。

  9. Page2RSS.com
  10. Page2RSS.com是一个免费的RSS Feed制作网站,只要你进入http://page2rss.com/输入你要监测的网站地址,点击【to RSS】它会帮你产生一个可在RSS阅读器里订阅的RSS Feed。该网站还提供了浏览器扩展,安装后,访问那些没有提供RSS输出的网站,就会自动在地址栏尾部显示一个图标,点击该图标就可以直接强制订阅到Google Reader等RSS阅读服务。
9.http://fullrss.net/
10.RSSxl - Convert an HTML Web Page to RSS
http://www.wotzwot.com/rssxl.php这个工具可以将任意网页转换为RSS 2.0 Feed。(大头:还可以定义内容起止的字符,真象采集。。。)
11.The Super Simple RSS Generator
http://sourceforge.net/project/showfiles.php?group_id=173787这是一个软件,体积只有100多K。使用效果未知。
12.MySyndicaat
http://www.mysyndicaat.com/home从网上大量的信息源聚合内容-比如新闻机构、博客上的论述都加入Feed。内容可以自动、准确的更新,还可以过滤新闻、信息来保证内容的简洁、正确。
13.PC Accessories Free HTML to RSS Tool
http://www.pcaccessoriesparts.com/tools/html-to-rss-converter/html-to-rss.html一个简单的在线转换工具。RSS中最多允许25个项目。(大头:这个需要修改原来的html文件)
14.Feed Writer
http://www.mirabyte.com/en/products/feedwriter.htmlFeed Writer是一个专业的RSS编辑软件,使用它可以简单轻松的创建、维护你的RSS feed。这个软件支持大多数的RSS格式:RSS 0.91,RSS 0.92,RSS 2.0甚至播客。Feed Writer完全支持UTF-8字符,因此可以采用西里尔、波兰语、汉语等非拉丁字母。除了可以创建和编辑各种新闻Feed,你也可以创建自己的独立博客。
15.Free RSS Feed Writer by LinkAssure
http://www.linkassure.com/rss-writer.phpLinkAssure使创建RSS的工作更加简单。一旦你完成了初始步骤,你将可以增加一些特殊的项目到RSS中,来生成发布Feed必须的“拷贝、粘贴”XML代码。
16.RSS Builder
http://www.filedudes.com/RSS_Builder-download-11244.html如果你在寻找简单易懂的方法来管理网站上的RSS feeds,这就是一个值得一试的免费软件。同时他有一项特殊功能:生成RSS feed不需要占用任何硬盘空间。
17.Runstream
http://runstream.com/runstream.com允许每一个免费账户都创建1个feed,并且在他们的服务器上保存、管理这个feed。feed的设置页面给出了完整的控制功能,方便用户管理feed和提供用法和统计。
18.RSSPect
http://www.rsspect.com/RSSPect 是最简单的转换工具之一。你可以将任何在线内容转换成RSS feed。快速、免费、自动完成。
19.Feed For All ($39.95)
http://www.feedforall.com/feedforall.htm这是一个收费工具,但还是把它加到了这个列表中。用FeedForAll能够快速方便的创建RSS feed。高级功能可以可以快速的创建更专业的feed。
     
       http://feed43.com 定制性最高,推荐使用,只要懂得一点点html就行,即用即学,就是通过观察网页源代码来找出想抓取文字的规律来输出想要的rss,不过缺点就是不能抓取分页的文章,只能获取第一页,pipes也是这样。
提供几个feed43弄的rss feed:
  1. 电影天堂_2010新片精品:http://feed43.com/4475846678183578.xml
  2. 电影天堂-最新影片:http://www.feed43.com/5875045053743126.xml 
  3. 电影天堂-欧美电视剧:http://feed43.com/8535400204178352.xml 
        上面的rss也可以通过Yahoo pipes来输出全文的,不过获取最新文章时间间隔可能会更久一些,而且这样的rss只要看标题就可以了,完全没必要看全文。

        尽管有很多手段,但有些网站还是不能实现全文输出,蛋疼不已!

没有评论:

发表评论