湘西州公共数据资源共享清单(第一批)(算法类)
编码 |
算法名称 |
算法种类 |
算法内容及说明 |
共享类型 |
提供方式 |
提供方 |
更新周期 |
备注 |
3013S001 |
人脸识别服务 |
图像识别 |
提供多种族人脸识别服务; |
有条件共享 |
平台对接 |
视频综合服务平台 |
每年 |
需将视频数据以国标或者SDK方式接入视频综合平台 |
3013S002 |
人群分析服务 |
图像识别 |
提供3类人群分析服务(安全防范类、交通疏导类、商业统计类); |
有条件共享 |
平台对接 |
视频综合服务平台 |
每年 |
需将视频数据以国标或者SDK方式接入视频综合平台 |
3013S003 |
机动车识别服务 |
图像识别 |
提供不少于205种机动车车辆品牌的识别服务; |
有条件共享 |
平台对接 |
视频综合服务平台 |
每年 |
需将视频数据以国标或者SDK方式接入视频综合平台 |
3013S004 |
非机动车识别服务 |
图像识别 |
提供非机动车车辆颜色、车辆类型识别服务; |
有条件共享 |
平台对接 |
视频综合服务平台 |
每年 |
需将视频数据以国标或者SDK方式接入视频综合平台 |
3013S005 |
人体识别服务 |
图像识别 |
提供人体上下身颜色识别服务; |
有条件共享 |
平台对接 |
视频综合服务平台 |
每年 |
需将视频数据以国标或者SDK方式接入视频综合平台 |
3013S006 |
视频行为分析服务 |
图像识别 |
提供识别视频图像中区域入侵、徘徊检测、物品遗留、物品移除、拌线检测等服务。 |
无条件共享 |
平台对接 |
视频综合服务平台 |
每年 |
需将视频数据以国标或者SDK方式接入视频综合平台 |
3013S007 |
广义线性回归 |
回归 |
广义线性模型[generalize dlinear model]的扩展,通过联结函数建立响应变量的数学期望值与线性组合的预测变量之间的关系。其特点是不强行改变数据的自然度量,数据可以具有非线性和非恒定方差结构。是线性模型在研究响应值的非正态分布以及非线性模型简洁直接的线性转化时的一种发展。 |
无条件共享 |
算法代码 |
数据共享服务平台 |
每年 |
提供算法示例 |
3013S08 |
保序回归模型 |
回归 |
保序回归是特殊的线性回归,如果业务上具有单调性,这时候就可以用保序回归,而不是用线性回归。 |
无条件共享 |
算法代码 |
数据共享服务平台 |
每年 |
提供算法示例 |
3013S009 |
线性回归 |
回归 |
线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。其表达形式为y = w'x+e,e为误差服从均值为0的正态分布。 |
无条件共享 |
算法代码 |
数据共享服务平台 |
每年 |
提供算法示例 |
3013S010 |
逻辑回归 |
回归 |
logistic回归是一种二分类算法,将样本数据的在线性回归中转化为预测值,然后映射到Sigmoid函数中,将值作为x轴的变量,y轴作为一个概率,预测值对应的Y值越接近于1说明完全符合预测结果。 |
无条件共享 |
算法代码 |
数据共享服务平台 |
每年 |
提供算法示例 |
3013S011 |
朴素贝叶斯分类模型 |
分类 |
贝叶斯分类可以预测类隶属关系的概率,如一个给定元组属于一个特定类的概率。朴素贝叶斯分类法假定一个属性值在给定类上的概率独立于其他属性的值。 |
无条件共享 |
算法代码 |
数据共享服务平台 |
每年 |
提供算法示例 |
3013S012 |
基于前馈人工神经网络(ANN)的多层感知器分类器 |
分类 |
多层感知器是一种前馈人工神经网络模型,其将输入的多个数据集映射到单一的输出的数据集上。 |
无条件共享 |
算法代码 |
数据共享服务平台 |
每年 |
提供算法示例 |
3013S013 |
梯度提升树模型 |
分类 |
梯度提升树是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。 |
无条件共享 |
算法代码 |
数据共享服务平台 |
每年 |
提供算法示例 |
3013S014 |
随机森林 |
分类 |
随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。 |
无条件共享 |
算法代码 |
数据共享服务平台 |
每年 |
提供算法示例 |
3013S015 |
支持向量机 |
分类 |
支持向量机(Support Vector Machine, SVM)是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面。SVM使用铰链损失函数(hinge loss)计算经验风险(empirical risk)并在求解系统中加入了正则化项以优化结构风险(structural risk),是一个具有稀疏性和稳健性的分类器 。SVM可以通过核方法(kernel method)进行非线性分类,是常见的核学习(kernel learning)方法之一。 |
无条件共享 |
算法代码 |
数据共享服务平台 |
每年 |
提供算法示例 |
3013S016 |
决策树模型 |
分类 |
决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。 |
无条件共享 |
算法代码 |
数据共享服务平台 |
每年 |
提供算法示例 |
3013S017 |
基于交替最小二乘的协同过滤算法 |
推荐系统 |
在矩阵分解(matrix factorization)中使用的一种算法。有一个稀疏矩阵,假设这个矩阵是低阶的,可以分解成两个小矩阵相乘。然后交替对两个小矩阵使用最小二乘法,算出这两个小矩阵,就可以估算出稀疏矩阵缺失的值。与坐标下降法有点相似。 在机器学习上下文中,它通过观察到的所有用户给物品的打分,来推断每个用户的喜好并向用户推荐合适的物品。 |
无条件共享 |
算法代码 |
数据共享服务平台 |
每年 |
提供算法示例 |
3013S018 |
关联分析算法 |
推荐系统 |
在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。 |
无条件共享 |
算法代码 |
数据共享服务平台 |
每年 |
提供算法示例 |
3013S019 |
k均值聚类算法 |
聚类 |
k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。 |
无条件共享 |
算法代码 |
数据共享服务平台 |
每年 |
提供算法示例 |
3013S020 |
隐式狄利克雷文档主题生成模型 |
聚类 |
LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。 LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序,每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。 |
无条件共享 |
算法代码 |
数据共享服务平台 |
每年 |
提供算法示例 |
3013S021 |
高斯混合模型 |
聚类 |
高斯混合模型就是用高斯概率密度函数(正态分布曲线)精确地量化事物,将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。 |
无条件共享 |
算法代码 |
数据共享服务平台 |
每年 |
提供算法示例 |
3013S022 |
幂迭代聚类 |
聚类 |
幂迭代聚类是一种简单且可扩展的图聚类方法,称之为幂迭代聚类(PIC)。在数据归一化的逐对相似矩阵上,使用截断的幂迭代,PIC寻找数据集的一个超低维嵌入(低纬空间投影,embedding),这种嵌入恰好是很有效的聚类指标,使它在真实数据集上总是好于广泛使用的谱聚类方法。 |
无条件共享 |
算法代码 |
数据共享服务平台 |
每年 |
提供算法示例 |
3013S023 |
二分K均值算法 |
聚类 |
二分KMeans(Bisecting KMeans)算法原理是:首先将所有点作为一个簇,然后将该簇一分为二。之后选择能最大限度降低聚类代价函数(也就是误差平方和)的簇划分为两个簇。以此进行下去,直到簇的数目等于用户给定的数目k为止。以上隐含的一个原则就是:因为聚类的误差平方和能够衡量聚类性能,该值越小表示数据点越接近于他们的质心,聚类效果就越好。所以我们就需要对误差平方和最大的簇进行再一次划分,因为误差平方和越大,表示该簇聚类效果越不好,越有可能是多个簇被当成了一个簇,因此首先需要对这个簇进行划分。 |
无条件共享 |
算法代码 |
数据共享服务平台 |
每年 |
提供算法示例 |
3013S024 |
关联规则算法(Apriori) |
关联规则 |
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。 |
无条件共享 |
算法代码 |
数据共享服务平台 |
每年 |
提供算法示例 |
3013S025 |
主成分分析 |
预处理 |
主成分分析是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。 |
无条件共享 |
算法代码 |
数据共享服务平台 |
每年 |
提供算法示例 |
3013S026 |
移除停用词 |
自然语言处理 |
移除文档中指定的词以节省存储空间提高搜索效率。 |
无条件共享 |
算法代码 |
数据共享服务平台 |
每年 |
提供算法示例 |
3013S027 |
分词 |
自然语言处理 |
对输入文本进行单词切分,分割成一个个单词(可自定义去停用词)。 |
无条件共享 |
算法代码 |
数据共享服务平台 |
每年 |
提供算法示例 |
3013S028 |
词频向量 |
自然语言处理 |
根据文本中每一个词出现频度得到词频向量。 |
无条件共享 |
算法代码 |
数据共享服务平台 |
每年 |
提供算法示例 |
3013S029 |
词性标注 |
自然语言处理 |
对文本进行分词,对分词后的每个单词进行词性标注。 |
无条件共享 |
算法代码 |
数据共享服务平台 |
每年 |
提供算法示例 |
3013S030 |
关键词抽取 |
自然语言处理 |
计算单词在文本中的重要性,按要求返回数组中最大的前K个值的词,作为关键词。 |
无条件共享 |
算法代码 |
数据共享服务平台 |
每年 |
提供算法示例 |
3013S031 |
图像分类 |
CV(跨平台计算机视觉库) |
基于图像特征实现对该图像内容分类的工作。 |
无条件共享 |
算法代码 |
数据共享服务平台 |
每年 |
提供算法示例(2019年7月提供) |
3013S032 |
目标检测(行人/人脸) |
CV(跨平台计算机视觉库) |
基于目标几何和统计特征的图像分割,它将目标的分割和识别合二为一,定位目标,确定目标位置及大小。 |
无条件共享 |
算法代码 |
数据共享服务平台 |
每年 |
提供算法示例(2019年7月提供) |
3013S033 |
目标检测(文本) |
CV(跨平台计算机视觉库) |
基于目标几何和统计特征的图像分割,它将目标的分割和识别合二为一,定位目标,确定目标位置及大小。 |
无条件共享 |
算法代码 |
数据共享服务平台 |
每年 |
提供算法示例(2019年7月提供) |
3013S034 |
人脸识别 |
CV(跨平台计算机视觉库) |
提取人脸特征,完成人脸比对。 |
无条件共享 |
算法代码 |
数据共享服务平台 |
每年 |
提供算法示例(2019年7月提供) |
3013S035 |
字符识别 |
CV(跨平台计算机视觉库) |
对英文字符,中文字符,标点符号进行识别。 |
无条件共享 |
算法代码 |
数据共享服务平台 |
每年 |
提供算法示例(2019年7月提供) |
3013S036 |
目标跟踪 |
CV(跨平台计算机视觉库) |
实现对于同一目标在连续视频中的跟踪及轨迹分析。 |
无条件共享 |
算法代码 |
数据共享服务平台 |
每年 |
提供算法示例(2019年7月提供) |
3013S037 |
单变量方差分析 |
统计 |
只对单因素实验结果对输入的两列数组平均数进行比较分析,检验多个平均数之间的差异来确定因素对试验结果有无显著性影响。 |
无条件共享 |
算法代码 |
数据共享服务平台 |
每年 |
提供算法示例(2019年7月提供) |
3013S038 |
皮尔逊卡方检验 |
统计 |
检验输入两组特征具有显著的独立性或不显著的独立性。 |
无条件共享 |
算法代码 |
数据共享服务平台 |
每年 |
提供算法示例(2019年7月提供) |
3013S039 |
AndersonD正态性检验 |
统计 |
检验输入的数值型特征是否符合正态分布。 |
无条件共享 |
算法代码 |
数据共享服务平台 |
每年 |
提供算法示例(2019年7月提供) |
相关文件: