将主题模型中的术语跟踪到R中的全文版本

l2osamch  于 5个月前  发布在  其他
关注(0)|答案(1)|浏览(63)

如何检索组成主题模型的术语的全文示例?我们的目标是了解更多关于ngram的上下文,以帮助更好地分配标签。为了实现这一点,与主题相关的ngram,例如'numerr_method',将被跟踪到它在数据集中的全文出现。在我看来,代码与这个问题无关,这是一个如何实现的一般性问题,而不是编码问题。
我非常感谢任何帮助!
我已经在dfm中添加了全文文档变量。我想如果我可以让dfm在各自的列中显示ngram和全文,我就可以搜索我想要查找的ngram并查看包含它们的文本。由于其大小(21 Gb作为字符),导出到Excel不起作用。

dwthyt8l

dwthyt8l1#

由于没有人提供任何帮助,我已经转移到手动解决方案,我分享任何可怜的灵魂在未来有同样的问题。而不是试图保存我的dfm或转换它,这是不可能的,由于它的大小和所需的计算能力,我现在做的手动在excel使用原始的,未经处理的数据集。我使用我的二元语法术语,并添加一个星号(*)作为前缀和后缀的两个克.这产生的东西,我需要整齐.对于大量的条款,我可以想象出口的条款,并作出一个自动化的功能,但对我的情况下,这是没有必要的.

相关问题