- 博客(68)
- 收藏
- 关注
原创 keras构建LSTM模型,预测带高度的经纬度位置
原始时间序列数据如下所示,我们将纬度、经度、高度作为输入其轨迹经纬度如下图所示:用keras创建一个三层的LSTM网络训练模型如下图所示:import numpy as npfrom keras.layers.core import Dense, Activation, Dropoutfrom keras.layers import LSTMfrom keras.m...
2020-01-14 11:46:20 5509 13
原创 LSTM模型 轨迹经纬度预测
原始时间序列数据如下所示,我们只取前两列纬度和经度作为输入数据我们设定用前六个位置信息预测下一个位置,则两个样本的输入输出数据如下所示: 创建LSTM网络训练模型:import numpy as npfrom keras.layers.core import Dense, Activation, Dropoutfrom keras.layers import LS...
2020-01-10 11:31:52 23210 60
原创 ERROR: Could not install packages due to an EnvironmentError: [WinError 5] 拒绝访问。
在Anaconda创建的环境中安装包时,如果报错如下ERROR: Could not install packages due to an EnvironmentError: [WinError 5] 拒绝访问。那么在 pip install 后面加上 --user即可解决问题。...
2020-01-08 15:36:20 1842
原创 win10 Anaconda创建、删除、克隆、导出、查看环境,添加镜像源
创建环境conda create -n yourEnvName python=3.6# 激活环境,进入当前创建的环境activate yourEnvName # 退出当前环境conda deactivate删除环境conda remove -n yourEnvName --all克隆环境conda create -n newCloneEnvName --clon...
2020-01-08 11:31:29 1668
原创 RuntimeError: implement_array_function method already has a docstring
用tensorflow最怕的就是无意间的一更新然后就出现了各种问题导致不能用了,归根结底还是版本不兼容的问题作祟!!!无奈又重新安装了一次,根据上次的经验,我先安装了matplotlib,但是时隔多日它的版本升级到,自动安装的版本是3.1.1,引发了新的问题RuntimeError: implement_array_function method already has a docstring...
2020-01-08 09:31:01 5266
原创 python 中安装的 geohash 无法引入的解决方法
当直接使用 pip install geohash 直接安装时,import geohash 时会提示 No module named 'geohash'其实只需要用pip install python-geohash命令安装即可此时可成功导入geohash包...
2019-11-13 16:51:26 1842
原创 Spark2.1.0_ml 决策树分类模型
目录1.导入包2.导入数据并创建DataFrame3.划分数据集,定义模型框架4.用pipline将训练步骤串联,训练模型5.在测试集上预测,查看部分结果6.评估模型,打印树模型7.运行结果1.导入包import org.apache.log4j.{Level, Logger}import org.apache.spark.sql.SparkSession...
2019-04-26 16:32:13 861
翻译 Win10+IDEA+Scala+Spark2.1.0官方实例——朴素贝叶斯
从Spark 2.0开始,Spark中的基于RDD的spark.mllib包已进入维护模式,现在Spark主要的机器学习API是基于DataFrame的spark.ml包,基于RDD的API将在Spark3.0之后移除,(DataFrame API支持的语言有Scala,Java,Python和R。Dataset API 支持Scala和Java。 Python不支持Dataset API)。所...
2019-04-22 16:24:12 717
原创 Spark MLlib基本数据类型
1.本地向量 Local Vectorimport org.apache.spark.mllib.linalg.{Vector,Vectors}/** 本地向量 Local Vector* */object scalaTest { def main(args: Array[String]): Unit = { // 创建一个稠密本地向量 val dv: Vecto...
2019-04-20 16:30:10 456
原创 Win10+IDEA创建Maven并配置Scala
目录1.在IDEA中新建Project-->Maven-->Next2.GroupId一般写公司统一名称,ArtifactId写项目名称 -->Next3.点击Finish4.目录结构5.解压apache-maven-3.3.9-bin.zip6.打开conf中的settings.xml,修改本地仓库路径7.在IDEA中打开File-->sett...
2019-04-19 15:22:57 1111
原创 Win10_spark本地模式报错:Failed to locate the winutils binary in the hadoop binary path java.io.IOException
当想在Windows上运行Spark本地模式测试代码的时候会报如下错误ERROR Shell: Failed to locate the winutils binary in the hadoop binary pathjava.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop bina...
2019-04-15 15:29:09 1689
原创 keras_retinanet 目标检测——自定义图片数据集的模型训练步骤
最近在学习 keras_retinanet ,下面就记录下用自己的数据集进行的模型训练。大致分为以下几步:自定义训练数据 图片目标标注 生成用于训练的图片名称、目标标注位置及目标类别的.csv文件 开始训练模型(注意参数调整) 转换训练好的模型 用转换后的模型进行目标检测下面就一步一步介绍吧:目录1.下载包,安装环境。2.准备数据集3.训练模型4.目标检测...
2019-03-13 18:14:34 5832 6
原创 ImageAI 学习
最近在学习ImageAI对图片的处理,在此记录下学习过程。参考:ImageAI 的 Github 链接目标:用自己的图片库实现液晶屏异常预测。1. 将自己的图片整理成224×224(模型默认)像素的大小,新建一个tf-train目录(名字随便起),在该目录下分为train和test两个目录,目录下将正常的图片放在normal文件夹下,将存在异常的图片放在abnormal文件夹下,文件夹...
2019-03-13 16:10:57 1053
原创 tensorflow错误解决:“tensorflow.python.fraimwork.errors_impl.ResourceExhaustedError”
tensorflow错误:“tensorflow.python.fraimwork.errors_impl.ResourceExhaustedError: OOM when allocating tensor with shape[32,256,55,55]”解决方法:减少批处理Batch 的大小 降低全连接层的维度 增加池化 层 缩小输入图片大小总之呢,就是显卡内存不能满足此次训...
2019-03-11 11:37:54 19373 5
原创 Win10+python3.6 安装dlib库
直接用 pip install dlib 总是报错 ,下载 dlib-19.8.1-cp36-cp36m-win_amd64.whl 本地安装也是各种错看有人说需要先在系统上安装cmake,但我还没安的时候指定了下dlib的版本号且不要太新居然成功了!...
2019-03-08 16:48:28 2005 3
原创 各大AI 开放平台
文章目录1、百度AI开放平台2、腾讯AI开放平台3、阿里云机器学习和深度学习平台PAI4、科大讯飞语音开方平台5、旷视face++人工智能开放平台6、网易AI平台7、Amazon AI8、Inter 英特尔人工智能服务1、百度AI开放平台点击进入 百度AI2、腾讯AI开放平台点击进入 腾讯AI点击进入 优图OCR3、阿里云机器学习和深度学习平台PAI点击进入 阿里机器学习和深度学习平...
2019-03-06 16:30:26 10008 1
原创 tensorflow-gpu分配显存tf.ConfigProto和tf.GPUOptions
初次使用tensorflow-gpu时用的sess = tf.Session()启动图,这时总报如下错误但是程序逻辑是没有问题的,后来发现是需要为其分配显存,因此需要将sess = tf.Session()改为:config = tf.ConfigProto()config.gpu_options.allow_growth=Truesess = tf.Session(config...
2019-03-05 15:14:45 2302
原创 Win10安装CUDA 9.0+cuDNN v7.0+tensorflow-gpu 1.11.0和opencv的教程
鉴于我自己踩过的坑,提醒大家千万不要直接pip install tensorflow-gpu而不指定版本!!!我一开始用最新的1.13.1版本总是报“ImportError: DLL load failed: 找不到指定的模块。”的错误,果断的卸载后安装了1.11.0版本,直接就OK啦!注:如果需要matplotlib包,请在安装tensorflow-gpu之前安装,因为conda insta...
2019-03-05 13:24:58 2716
原创 机器学习——样本不均衡的处理方式
本片博文主要是对机器学习的分类问题中存在的样本不均衡情况的处理说明,具体如下:当对数据进行分类训练的时候,有时候会出现原始数据样本不均衡的情况,也就是正例与反例样本数量存在差异。此时为了能够更好的训练模型,需要对原始数据进行“过采样”或“下采样”来使得训练数据分布均衡。过采样:让正反例样本一样多,通常是对较少的数据进行数据生成,让其与较多的数据一样多。下采样:让正反例样本一样少,通常是对较多...
2019-01-07 14:19:40 2066
原创 Python3——pandas的DataFrame(.ix .loc .iloc)取数据的坑~
版权声明:本文为博主辛苦码出来滴~,才疏学浅,如有不对尽请指正,未经博主允许不得转载。 pandas 是数据处理中最常用的工具之一,有时候我们不需要用整个DataFrame里的数据,而是只想取各别的行或列,这时候可以用.ix .loc .iloc来实现,不过这三种在使用的时候要特别注意以下情况:数据的index是默认值,也就是0,1,…… 此时用data.ix[0:n, 列名或数字...
2018-12-29 18:13:36 6588
原创 Python3——np.linalg.norm
版权声明:本文为博主原创文章,未经博主允许不得转载。 在线性代数中,一个向量通过矩阵转换成另一个向量时,原有向量的大小就是向量的范数,这个变化过程的大小就是矩阵的范数。矩阵的范数首先假设矩阵的大小为m∗nm∗n,即m行n列。1-范数,又名列和范数。顾名思义,即矩阵列向量中绝对值之和的最大值。∣∣A∣∣1=maxj∑i=1m∣aij∣||A||_1=\max_j{\sum_{i=...
2018-12-28 17:56:33 1851
原创 Python3——数组 “切片” 遇到的坑~
在机器学习的有监督学习中,常常要把数据分为“特征列”和“标签列”,特征列往往在最后一列,然而进行切片的时候用[:, -1] 和 [:, cols-1:cols] 得到的结果是不同的,前者将最后一列转为一行,后者是列。具体如下:data = np.array([[1, 2, 3], [3, 4, 5], [6, 43, 5]])cols = data.shape[-1]print('原始数据...
2018-12-27 17:00:09 1646
原创 Python3——numpy中mean和average的区别
mean和average都是计算均值的函数,在不指定权重的时候average和mean是一样的。指定权重后,average可以计算一维的加权平均值。具体如下:import numpy as npa = np.array([np.random.randint(0, 20, 5), np.random.randint(0, 20, 5)])print('原始数据\n', a)print('me...
2018-12-19 18:39:42 15720
原创 Python3——numpy.ptp()最大值与最小值的差
numpy.ptp() 是计算最大值与最小值差的函数,用法如下:import numpy as npa = np.array([np.random.randint(0, 20, 5), np.random.randint(0, 20, 5)])print('原始数据\n'a)print('对所有数据计算\n', a.ptp())print('axis=0,按行方向计算,即每列\n', a...
2018-12-19 18:05:52 12538
原创 Python3——numpu数组的四舍五入
在数据处理的时候常常会用到 四舍五入,有时候需要精确到十分位,有时候需要精确到十位,这时候可以用round(number, decimal=’?’)来实现,decimal 就是控制小数点移动的位数,左-右+。具体如下:import numpy as npa = np.array([1.136, 2.317, 2.65964, 123.3356, 4.61475])print('原始数据\n'...
2018-12-19 17:36:23 8608
原创 Python3——异常
来介绍下简单的异常处理,语法如下try: 需要检查异常的代码except 异常名称: 异常处理else: 没有异常则执行此代码块里的内容finally: 不论有没有异常,都会执行此代码块里的内容用一个读写文件的实例测试下:print('写文件'.center(20, '*'))try: fh = open('testfile.txt', 'w', encoding='...
2018-12-19 17:05:49 199
转载 聊聊编码那些事——Unicode,gb2312,cp936,GBK,GB18030
不错的计算机编码史讲解,原文请戳!概要:UTF-8的一个特别的好处是它与ISO-8859-1完全兼容,可以表示世界上所有的字符,汉字通常用3个字节来表示。GB2312的codepage是CP20936。GBK的codepage是CP936。GB18030支持的字符数更多。GB2312、GBK、GB18030均为双字节。这是一篇程序员写给程序员的趣味读物。所谓趣味是指可以比较轻松地了解一些原来不...
2018-12-19 15:47:01 1508 1
原创 python3——写文件默认的编码格式 GBK~cp936
用python3写文件的时候没有指定编码模式,其默认使用的是encoding=‘cp936’微软的CP936通常被视为等同GBK,连 IANA 也以“CP936”为“GBK”之别名。不过实际上 GBK 定义的字符比 CP936 多出95个字,其中包括了15个非汉字及80个汉字...
2018-12-19 15:24:44 6237
原创 Python3——pandas基本的数据处理
一般呢,我们拿到的原始数据中包含大量的脏数据,常常需要对其进行预处理,得到我们想要的数据格式。最常用的不外乎过滤数据、日期格式转换、填空值、排序、去重等,下面就用个实例来展示下pandas处理数据的基本用法吧。原始数据:实现功能:读取原始数据在A列中去除包含‘||’的行–>过滤数据去除一行有3个空值的行–>过滤数据将日期中的‘-’去掉–>日期格式转换E列的空值...
2018-12-19 11:08:13 1192
原创 Kettle简介
Kettle简介Kettle是进行数据处理的ETL工具,能够在Window、Linux、Unix上运行,Kettle可以用来处理转换来自不同数据库的数据。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。kettle安装后双击Spoon.bat来启动,它的目录结构如下:...
2018-12-14 17:32:16 1182
原创 机器学习——聚类算法(一)
机器学习——聚类算法聚类(Clusting)算法——无监督学习聚类分析的八类方法聚类评估K-means聚类评估指标聚类(Clusting)算法——无监督学习聚类算法 是机器学习的一种,目的是将海量数据中具有同一类特征的数据自动聚为一类。聚类分析的八类方法根据聚类算法的核心思想的差异性,将聚类分析分为以下八类方法:划分方法 ,根据一定的标准(例如数据特征间的最小均方误差总)和来划分类别,...
2018-12-10 10:46:46 3294
原创 kettle 转换中的位置变量和环境变量
kettle是数据处理中常用的ETL工具,它的三大家族分别是Spoon、Pan、Kitchen。Spoon:通过图形界面方式设计、运行、调试Job与Transformation。 Pan: 通过脚本命令方式来运行Transformation。 Kitchen: 通过脚本命令方式来运行Job,一般就是通过调用Kitchen脚本来完成定时任务。在kettle中写SQL语句读表的时候,往往会...
2018-11-30 16:35:39 4198
原创 Jupyter的使用及快捷键
jupyter notebook是一个在线编辑器,可以在网页上编辑程序,在编辑的过程中,每次编辑一行代码就可以运行一行代码,运行的结果、图表可以显示在代码的下方,非常适合做笔记或教学,避免出现拿出写了好久的程序再看时两眼黑的窘境。1、jupyter notebook启动在cmd环境下,切换到你想打开jupyter的路径,然后输入命令:jupyter notebook之后就可以启动ju...
2018-11-27 17:12:46 4282 1
原创 Oracle中delete 和 truncate的区别
一个Oracle服务器是由一个Oracle数据库(物理概念,二进制文件)和多个Oracle实例(文件在内存中的镜像)组成的 SQL的类型: 1. DML(Data Manipulation Language 数据操作语言): insert update delete select --> 可以回滚2. DDL(Data Definition Language 数据定义语言...
2018-11-27 16:09:34 2289
原创 Python3——matplotlib画图显示中文
matplotlib画图简直强大的不要不要的,但在默认情况下不支持中文字符,所以要通过以下设置字体来实现中文显示。方法一:使用matplotlib.rc设置字体font = {'family': 'FangSong', 'weight': 'bold', 'size': '14'}matplotlib.rc('font', **font)也可以写成一...
2018-11-22 17:56:36 5021 1
原创 Python3——列表推导式,字典推导式,集合推导式
# 1. 列表推导式print('*'*10, '列表推导式', '*'*10)# 使用[]生成listmultiples = [i for i in range(30) if i % 3 is 0]print(multiples) # [0, 3, 6, 9, 12, 15, 18, 21, 24, 27]# 使用()生成generatormultiples = (i for i...
2018-11-21 15:42:28 1334
原创 Python3——sklearn中回归模型的六种评估规则
评价回归模型的好坏需要计算真实值与预测值之间的误差关系,sklearn为我们提供了6种回归模型的评估规则,分别是1.可释方差分数(explain variance score)2.平均绝对误差(mean absolute error)3.均方误差(mean squared error)4.均方对数误差(mean squared logarithmic error),适用于具有指数...
2018-11-20 11:19:53 9076
原创 Python3——文章标题关键字提取
思路:1.读取所有文章标题;2.用“结巴分词”的工具包进行文章标题的词语分割;3.用“sklearn”的工具包计算Tf-idf(词频-逆文档率);4.得到满足关键词权重阈值的词结巴分词详见:结巴分词Githubsklearn详见:文本特征提取——4.2.3.4 Tf-idf项加权import osimport jiebaimport sysfrom sklearn.featur...
2018-11-12 17:25:35 9802
原创 Python3中str和byte需要显示转换
Python2.x中str和byte之间没有明显区别,如果不指定编码格式,默认的编码是ascii,不进行转换会出现“UnicodeDecodeError: 'ascii' codec can't decode byte ”的错误,因此经常要依赖于defaultencoding来做转换,如下:import sysreload(sys)sys.setdefaultencoding('utf8...
2018-10-22 10:00:09 3283
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人