solr Nutch:通过在头中放置cookie进行身份验证

kkbh8khc  于 2023-03-29  发布在  Solr
关注(0)|答案(2)|浏览(150)

我感到惊讶的是,有这么少的支持或信息有让Nutch能够爬取部分网站,需要身份验证。
我知道Apache Nutch目前可能无法(but apparently hopes to)支持Http POST身份验证。
然而,我们真正想做的是能够添加一个cookie到我们的Nutch bot头,这将允许它以这种方式访问网站的这些部分(而不是将用户名和密码发布到表单,然后接收cookie)。
所以我花了大量的时间搜索,令人惊讶的是,大多数关于这一点的讨论都可以追溯到2005年或2008年:这里是thereeverywhere
经过这么多年,有没有办法绕过这个限制,或者只是仍然没有办法通过给Nutch一个'预烤' cookie来进行身份验证,这样它就可以访问我们网站的会员专用部分?

laawzig2

laawzig21#

我已经在nutch protocol-httpclient插件中添加了自定义代码来解决这个问题。
在下面的链接中共享了更改
http://www.gingercart.com/Home/search-and-crawl/nutch-custom-authentication-cookies-session-management-to-crawl-secure-enterprise-websites

pkbketx9

pkbketx92#

我相信nutch已经在最新的1.19版本中添加了cookies.txt。我正在尝试评估这是否能解决这个问题。
https://www.mail-archive.com/commits@nutch.apache.org/msg03012.html

相关问题