hadoop：只阅读“英语”页面

gmol1639 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(298)

我正试着从网上阅读“英语”网页 Common Crawl . 我在做这些 Hadoop 亚马逊界面中的作业。请看下面的代码，那是mapper部分。我没有减速机。


# !/usr/bin/php

<?php

$word2count = array();
$counter = 0;
$closeit = false;

while (($closeit == false)&& (($line = fgets(STDIN)) !== false)) {
    $counter++;
   $line = strtolower(trim($line));
   echo "$line\n";
    if($counter > 100)
    {
    $closeit = true;
    }
}

   echo "mapper1\n";

?>

在这里，这段代码将阅读本文的前100行。我如何才能改变这一点，使这将只阅读“英语”的文章？除此之外，我应该使用哪个数据集？
请帮忙。

hadoop php amazon-s3 hadoop-streaming web-crawler

来源：https://stackoverflow.com/questions/21001379/hadoop-reading-only-the-english-pages