BeautifulSoup与ASP.NET/C#

mfpqipee  于 4个月前  发布在  .NET
关注(0)|答案(3)|浏览(89)

有没有人将BeautifulSoup与ASP.NET/C#集成在一起(可能使用IronPython或其他方式)?
计划使用该库的目的是从任何随机URL中提取 * 可读的 * 文本。
谢谢

uemypmqf

uemypmqf1#

Html Agility Pack是一个类似的项目,但用于C#和.NET
编辑:
要提取所有可读文本,请执行以下操作:

document.DocumentNode.InnerText

字符串
请注意,这将返回<script>标记的文本内容。
要解决这个问题,您可以删除所有<script>标记,如下所示:

foreach(var script in doc.DocumentNode.Descendants("script").ToArray())
    script.Remove();
foreach(var style in doc.DocumentNode.Descendants("style").ToArray())
    style.Remove();


(图片来源:Slaks)

kkih6yb8

kkih6yb82#

我知道这是相当古老的,但我决定张贴这为未来的参考。我偶然发现这寻找一个类似的解决方案。
我发现了一个建立在Html Agility Pack之上的库,名为ScrapySharp。
我使用它的方式与BeautifulSoup https://bitbucket.org/rflechner/scrapysharp/wiki/Home非常相似(编辑:断开链接,项目移动到https://github.com/rflechner/ScrapySharp
编辑:https://www.nuget.org/packages/ScrapySharp/有包

d6kp6zgx

d6kp6zgx3#

你可以尝试一下,虽然它目前有一些bug:
http://nsoup.codeplex.com/

相关问题