博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python轻量级数据分析库DaPy
阅读量:6095 次
发布时间:2019-06-20

本文共 1025 字,大约阅读时间需要 3 分钟。

1 前言

Python拥有著名的重量级科学计算库Numpy和数据分析库Pandas,他们在工业界拥有着举足轻重的地位。但今天我们要介绍的是一个轻量级的数据分析库DaPy,其致力于节约数据科学家对数据集分析过程中的时间和成本,提高数据科学家的工作效率。

2 丰富且专业的功能

数据分析的过程大致为:数据载入,描述性统计,数据清洗,推断性统计,模型开发与调试。

在数据载入方面,DaPy的数据结构清晰简洁利于数据科学家 "感受" 数据;函数功能丰富且高效,节约数据科学家对于复杂数据的处理时间。在描述性统计方面,DaPy已经提供了全面的计算公式,可以帮助数据科学家快速了解数据特征。

在未来,DaPy将添加更多数据清洗、推断性统计方面的函数;实现更多数学模型建立过程中使用的公式;甚至内置一些简易的机器学习模型(多层感知机、支持向量机等)。DaPy按照数据分析的流程,正在不断地完善。

3 特性

3.1 优异的性能

                      

通过DaPy加载并且遍历整个数据集(1,815,008条)所花费的时间,大约只有Numpy的30%和Pandas的6%;而内存占用仅仅为Numpy的20%和Pandas的8%。

3.2 精炼的语法

import DaPy as dpdatas = dp.DataSet('ExamplesDB.csv') # 初始化数据集datas.readframe() # 数据框方式读取数据datas.readcol() # 按列读取数据datas.titles # 查阅数据集变量名datas[title] # 提取数据集某一列变量datas.tocsv('MyDB.csv') # 将当前数据集保存至文件dp.Statistic(data) # 返回数据的数字特征dp.CountDistribution(data) # 返回数据的分布直方图参数dp.CountQuantiles(data) # 返回数据的分位数dp.cor(data1, data2) # 返回两组数据的相关性复制代码

4 最新版本功能

    <1> 支持从文件中以“数据表导入”,“数据框导入”和“按列导入”方式读取数据集;

    <2> 支持快速地读取数据集中的记录;

    <3> 支持快速地将数据集写入csv文件;

    <4> 支持快速计算一组数据的数字特征,多角度统计数据的分布情况;

详细的使用指南请查询官方网站:https://github.com/JacksonWuxs/DaPy

转载地址:http://gbzza.baihongyu.com/

你可能感兴趣的文章
小程序: 查看正在写的页面
查看>>
dedecms生成文档数据库崩溃 mysql daemon failed to start
查看>>
Linux的50个基本命令
查看>>
Objective-C中创建单例方法的步骤
查看>>
[转]无法安装MVC3,一直卡在vs10-kb2483190
查看>>
Codeforces 520B:Two Buttons(思维,好题)
查看>>
web框架-(二)Django基础
查看>>
Jenkins持续集成环境部署
查看>>
emoji等表情符号存mysql的方法
查看>>
Excel到R中的日期转换
查看>>
检查磁盘利用率并且定期发送告警邮件
查看>>
MWeb 1.4 新功能介绍二:静态博客功能增强
查看>>
linux文本模式和文本替换功能
查看>>
Windows SFTP 的安装
查看>>
摄像机与绕任意轴旋转
查看>>
rsync 服务器配置过程
查看>>
预处理、const与sizeof相关面试题
查看>>
爬虫豆瓣top250项目-开发文档
查看>>
Elasticsearch增删改查
查看>>
oracle归档日志增长过快处理方法
查看>>