unicodeencodeerror在使用spark submit和beautifulsoup时出错

vfwfrxfs  于 2021-05-27  发布在  Hadoop
关注(0)|答案(1)|浏览(365)

当我向spark1.6和hadoop2.7提交作业时,在python2.7中不断出现unicodeencodeerror,但是当我在pysparkshell上逐行执行相同的代码时,没有出现相同的错误。
我正在使用 BeautifulSoup 要使用以下代码行获取所有标记并从中获取文本: [r.text for r in BeautifulSoup(line).findAll('ref') if r.text] 我试过以下方法:
设置 export PYTHONIOENCODING="utf8" 使用 r.text.encode('ascii', 'ignore') 也试图申请 sysdefaultencoding('utf-8') 有人能告诉我怎么修吗?下面是错误堆栈:

"/hdata/dev/sdf1/hadoop/yarn/local/usercache/harshdee/appcache/application_1551632819863_0039/container_e36_1551632819863_0039_01_000004/pyspark.zip/pyspark/serializers.py", line 263, in dump_stream
    vs = list(itertools.islice(iterator, batch))
  File "/home/harshdee/get_data.py", line 63, in get_as_row
    return Row(citations=get_citations(line.content), id=line.id, title=line.title)
  File "/home/harshdee/get_data.py", line 47, in get_citations
    refs_in_line = [r.text for r in BeautifulSoup(line).findAll('ref') if r.text]
  File "/usr/lib/python2.7/site-packages/bs4/__init__.py", line 274, in __init__
    self._check_markup_is_url(markup)
  File "/usr/lib/python2.7/site-packages/bs4/__init__.py", line 336, in _check_markup_is_url
    ' that document to Beautiful Soup.' % decoded_markup
  File "/usr/lib64/python2.7/warnings.py", line 29, in _show_warning
    file.write(formatwarning(message, category, filename, lineno, line))
  File "/usr/lib64/python2.7/warnings.py", line 38, in formatwarning
    s =  "%s:%s: %s: %s\n" % (filename, lineno, category.__name__, message)
UnicodeEncodeError: 'ascii' codec can't encode characters in position 21-28: ordinal not in range(128)```
kg7wmglp

kg7wmglp1#

我自己解决了这个问题。我认为问题出在字符串的表示上。
为此,我使用了 repr 返回对象表示的函数。换句话说,它基本上返回 string 是统一编码的。
我把这个用在 line 变量。

相关问题