阅读CSV并按列分组数据

6yjfywim 于 7个月前发布在其他

关注(0)|答案(3)|浏览(104)

我正在处理一个包含3列的csv文件，看起来像这样：

timeStamp, value, label
15:22:57, 849, CPU pid=26298:percent
15:22:57, 461000, JMX MB
15:22:58, 28683, Disks I/O
15:22:58, 3369078, Memory pid=26298:unit=mb:resident
15:22:58, 0, JMX 31690:gc-time
15:22:58, 0, CPU pid=26298:percent
15:22:58, 503000, JMX MB

字符串
label列包含不同的值（例如总共5个），其中包括空格、冒号和其他特殊字符。
我试图实现的是根据每个指标绘制时间（无论是在同一个图上还是在不同的图上）。我可以用matplotlib做到这一点，但我首先需要根据“标签”对[timeStamps, value]进行分组。
我查看了csv.DictReader以获取标签，并通过“标签”对itertools.groupby进行分组，但我正在努力以适当的“Python”方式做到这一点。
有什么建议吗？

csv

来源：https://stackoverflow.com/questions/16210941/reading-a-csv-and-grouping-data-by-a-column

3条答案

按热度按时间

gblwokeq1#

您不需要groupby;您希望使用collections.defaultdict来收集一系列由标签键控的[timestamp, value]对：

from collections import defaultdict
import csv

per_label = defaultdict(list)

with open(inputfilename, 'rb') as inputfile:
    reader = csv.reader(inputfile)
    next(reader, None)  # skip the header row

    for timestamp, value, label in reader:
        per_label[label.strip()].append([timestamp.strip(), float(value)])

字符串
现在，per_label是一个字典，标签作为键，[timestamp, value]对列表作为值;我去掉了空白（输入示例中有很多多余的空白），并将value列转换为浮点数。
对于您的（有限的）输入样本，结果为：

{'CPU pid=26298:percent': [['15:22:57', 849.0], ['15:22:58', 0.0]],
 'Disks I/O': [['15:22:58', 28683.0]],
 'JMX 31690:gc-time': [['15:22:58', 0.0]],
 'JMX MB': [['15:22:57', 461000.0], ['15:22:58', 503000.0]],
 'Memory pid=26298:unit=mb:resident': [['15:22:58', 3369078.0]]}

型

赞(0）回复(0）举报 7个月前

bakd9h0s2#

你可以尝试pandas，它提供了一个很好的数据处理结构。
将csv读取到DataFrame

In [123]: import pandas as pd

In [124]: df = pd.read_csv('test.csv', skipinitialspace=True)

In [125]: df
Out[125]: 
  timeStamp    value                              label
0  15:22:57      849              CPU pid=26298:percent
1  15:22:57   461000                             JMX MB
2  15:22:58    28683                          Disks I/O 
3  15:22:58  3369078  Memory pid=26298:unit=mb:resident
4  15:22:58        0                  JMX 31690:gc-time
5  15:22:58        0              CPU pid=26298:percent
6  15:22:58   503000                             JMX MB

字符串
将DataFrame按label分组

In [154]: g =  df.groupby('label')

型
现在你可以得到你想要的了

In [155]: g.get_group('JMX MB')
Out[155]:
  timeStamp   value   label
1  15:22:57  461000  JMX MB
6  15:22:58  503000  JMX MB

型

赞(0）回复(0）举报 7个月前

htrmnn0y3#

可以使用numpy.loadtxt：

import numpy as np
result = np.loadtxt('MYFILE', usecols=(0, 1, 2), 
          dtype=[('time', 'S8'), ('values', np.uint), ('label', 'S33')], 
          delimiter=', ')

字符串
这将把你的表加载到一个结构化数组中，其中时间保存为8个字符的字符串（'S8'），值保存为无符号整数，标签保存为最多33个字符的字符串（'S33'，你可能需要调整这个大小）。然后你可以按类型索引你的值：

>>> print result['values']
[    849  461000   28683 3369078       0       0  503000]

型
并根据标签进行过滤，如果您需要：

>>> print result['values'][result['label'] == 'JMX MB']
[461000 503000]

型
要将时间从字符串转换为浮点数，可以使用pylab的date datestr2num并将其作为loadtxt的转换器：

import pylab
result = np.loadtxt('MYFILE', usecols=(0, 1, 2), 
           dtype=[('time', np.float), ('values', np.uint), ('label', 'S33')],
           delimiter=', ', converters={0: pylab.datestr2num})

型

赞(0）回复(0）举报 7个月前

我来回答

阅读CSV并按列分组数据

3条答案

相关问题

热门标签

最新问答