`
文章列表
前言 elasticsearch 将各种功能、配置、服务都以API的形式暴露,这也是elasticsearch区别于其他搜索引擎框架的一个特征。这几天在看一个elasticsearch的培训资料,将资料中提到的URL单独罗列了出来。 索引相关 URL 说明 /index/_search 不解释 /_aliases 获取或操作索引的别名 /index/ /index/type/ 创建或操作类型 /index/_mapping 创建或操作mapping /index/_settings 创建或操作设置(number_of_shards是不可更改的) /index/_open 打开被关闭的索引 ...
elasticsearch官方只提供smartcn这个中文分词插件,效果不是很好,好在国内有medcl大神(国内最早研究es的人之一)写的两个中文分词插件,一个是ik的,一个是mmseg的,下面分别介绍下两者的用法,其实都差不多的,先安装插件,命令行: 安装ik插件: plugin -install medcl/elasticsearch-analysis-ik/1.1.0  下载ik相关配置词典文件到config目录 cd config  wget http://github.com/downloads/medcl/elasticsearch-analysis-ik/ik.zip - ...
Mapping,就是对索引库中索引的字段名及其数据类型进行定义,类似于关系数据库中表建立时要定义字段名及其数据类型那样,不过es的mapping比数据库灵活很多,它可以动态添加字段。一般不需要要指定mapping都可以,因为es会自动 ...
环境准备: 1、预先安装jdk7(Elasticsearch 官方推荐使用 Oracle JDK 7) Elasticsearch是一个全文搜索引擎。 2、安装 第一步:安装es wget https://download.elastic.co/elasticsearch/elasticsearch/elasticsearch-1.7.2.zip unzip elasticsearch-1.7.2.zip cd elasticsearch 测试正常启动:./bin/elasticsearch haow@Lenovo:/haow/es/elasticsearch-1.7.2$ ./bin/e ...
官网地址:http://www.elasticsearch.org/ 1、下载:http://www.elasticsearch.org/downloads/ 解压无须修改即可运行。 2、使用elasticsearch-servicewrapper这个es插件,它支持通过参数,指定是在后台或前台运行es,并且支持启动,停止,重启es服务(默认es脚本只能通过ctrl+c关闭es)。使用方法是到https://github.com/elasticsearch/elasticsearch-servicewrapper下载service文件夹,放到es的bin目录下。下面是命令集合: bin/ser ...
测试环境: Linux ubuntu 3.11.0-12-generic 2GB Mem 1 core of Intel(R) Core(TM) i5-3470 CPU @ 3.20GHz Redis 2.6.13 以下 R1 表示master, R2表示slave 配置采用运维组标准配置,默认主从配置一样,在从节点启动后设置为slave R1: 127.0.0.1 6378 R2: 127.0.0.1 6379 0. 初始情况下各节点info情况(部分有用信息): MASTER -> 'connected_slaves': 1,            #可判断slave存活状况 S ...
Redis在linux上的安装 步骤1: 首先从官网下在redis正式版的压缩包redis-2.8.19.tar.gz http://download.redis.io/releases/redis-2.8.19.tar.gz 步骤2:编译源程序: tar zxvf redis-2.8.19.tar.gz [neil@neilhost Downloads]$ tar zxvf redis-2.8.19.tar.gz [neil@neilhost Downloads]$ c ...
Java™ 语言包含两种内在的同步机制:同步块(或方法)和 volatile 变量。这两种机制的提出都是为了实现代码线程的安全性。其中 Volatile 变量的同步性较差(但有时它更简单并且开销更低),而且其使用也更容易出错。 Java 语言中的 volatile 变量可以被看作是一种 “程度较轻的 synchronized”;与 synchronized 块相比,volatile 变量所需的编码较少,并且运行时开销也较少,但是它所能实现的功能也仅是 synchronized 的一部分。本文介绍了几种有效使用 volatile 变量的模式,并强调了几种不适合使用 volatile 变量的情形。 ...
已知推断未知概率, 也叫贝叶斯分类 先上问题吧,我们统计了14天的气象数据(指标包括outlook,temperature,humidity,windy),并已知这些天气是否打球(play)。如果给出新一天的气象指标数据:sunny,cool,high,TRUE,判断一下会不会去打球。 ...
引用一篇文章: 贝叶斯推断及其互联网应用 1、什么是贝叶斯过滤器? 垃圾邮件是一种令人头痛的顽症,困扰着所有的互联网用户。 正确识别垃圾邮件的技术难度非常大。传统的垃圾邮件过滤方法,主要有"关键词法"和"校验码法"等。前者的过滤依据是特定的词语;后者则是计算邮件文本的校验码,再与已知的垃圾邮件进行对比。它们的识别效果都不理想,而且很容易规避。 2002年,Paul Graham提出使用"贝叶斯推断"过滤垃圾邮件。他说,这样做的效果,好得不可思议。1000封垃圾邮件可以过滤掉995封,且没有一个误判。 另外,这种过滤器还具有自我学习的功 ...
/**在信息理论中,两个等长字符串之间的汉明距离 * 是两个字符串对应位置上不同字符的个数, * 换句话说,汉明距离就是将一个字符串替换成另外一个字符串所需要替换的字符长度。 *例如,1011101和1001001之间的汉明距离是2, *toned和roses之间的汉明距离是3. *汉明重量是字符串相对于同样长度的零字符串的汉明距离, *也就是说,它是字符串中非零的元素个数:对于二进制字符串来说,就是 1 的个数, *所以 11101 的汉明重量是 4。 *下面的代码展示了在Java中如何计算汉明距离和汉明重量。 */ package ...
这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。 有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到? 这个问题涉及到数据挖掘、文本 ...
今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。 为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举一个例子来说明,什么是"余弦相似性"。 为了简单起见,我们先从句子着手。   句子A:我喜欢看电视,不喜欢看电影。  句子B:我不喜欢看电视,也不喜欢看电影。 请问怎样才能计算上面两句话的相似程度? 基本思路是:如果这两句话的用词越相似,它们的内容就应该越相似。因此,可以从词频入手 ...
需求:比较两个地址相似程度 1, 排除数字, 排除字母(大小写), 特殊符号 如以下三个地址都可以认为是实际相同,只是表述不同: 湖北省-武汉市-东西湖区 湖北省武汉市东西湖区革新大道四明路物流园c5 湖北省-武汉市-东西湖区 ...
转载文章地址: http://wdhdmx.iteye.com/blog/1343856 1.百度百科介绍: Levenshtein 距离,又称编辑距离,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。 许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。 编辑距离的算法是首先由俄国科学家Levenshtein提出的,故又叫Levenshtein Distance。 2.用途 模糊查询 package com.leve; /** * @className:MyLevenshtein.java * @classDescription:Leven ...
Global site tag (gtag.js) - Google Analytics