经纬度搜索(1)-Geohash算法原理

博客分类：

solr
lucene
geohash
算法

geohash作为Solr的位置信息搜索算法，有必要了解其基本的实现原理。geohash算法的wiki链接为http://en.wikipedia.org/wiki/Geohash，这里再结合自己的理解，重新复述一下。由经纬度变成base32标识 geohash的思想，是将所有的经纬度坐标，通� ...

2012-01-13 17:10
浏览 12929
评论(4)
分类:开源软件

Solr 4.0 : Realtime Get

博客分类：

solr
lucene
realtime get

solr lucene RealTime Get

原文链接：Solr 4.0: Realtime GET 在即将到来的Solr 4.0中，"Realtime get"是我准备要研究的。它甚至允许你查看发送到Solr但还没被commit到索引文件的数据。下面让我们看一下它是如何运作的。原理原来Lucene/Solr中的更新操作有一个小问题：在你提交数据但是还没有执行commit命令时，它们是不能被访问的。原因在于commit是非常耗性能的，如果执行过于频繁则会引起性能问题。所以，当你需要让数据变的可用时，你就需要在性能和快速commit之间做出选择。为了这个Lucene实现了Near Real Time(NRT)，这在 ...

2012-01-12 20:23
浏览 3807
评论(3)
分类:开源软件

Lucene & Solr Year 2011 in Review

博客分类：

lucene
solr

solr lucene 2011

原文链接：Lucene & Solr Year 2011 in Review 2011就要过去了，是时候回顾一下过去的12个月里做过的事了。让我们简要回顾一下这12个月以来，lucene/solr 业内的一些重要的事件。从下一段开始，我们将回顾一下Lucene/solr的主要修改、新 ...

2012-01-11 16:42
浏览 1799
评论(0)
分类:开源软件

Solr的自动完成/自动补充实现介绍(第三部分)

博客分类：

lucene
solr
autocomplete

原文URL：http://java.dzone.com/news/solr-and-autocomplete-part-3?mz=33057-solr_lucene 在之前的两个部分(part1、part2)中,我们学会了如何配置和查询solr来获取自动完成的功能。今天，我们来看一下如果为suggester添加字段，以这种方式来提供自动完成的功能。组件配置在上一期的配置组件中添加如下的参数： <str name="sourceLocation">dict.txt</str> 这样我们的配置就变成了： <searchComponent ...

2011-10-25 20:59
浏览 2570
评论(0)
分类:编程语言

Solr的自动完成/自动补充实现介绍(第二部分)

博客分类：

autocomplete
solr
lucene

原文链接：Solr and Autocomplete (part 2) 在Solr的自动完成/自动补充实现介绍(第一部分) 中我介绍了怎么用faceting的机制来实现自动完成(autocomplete)的功能，今天我们来看一下如何用Suggester的组件来实现自动完成功能. 开始这里有一点需要提醒：Suggest组件在1.4.1或以下版本不可用。要使用这个组件，你需要下载3_x或lucene/solr的主干版本。配置在索引配置之前，我们定义一个searchComponent： <searchComponent name="suggest" cla ...

2011-09-14 11:06
浏览 4956
评论(3)
分类:编程语言

影响solr性能的一些因素（附使用经验）

博客分类：

solr+lucene solrPerformance

solr lucene peformance

原文：SolrPerformanceFactors Solr本身的性能不错，但是在使用过程中，还是会遇到一些使用错误，或是没考虑到的地方；在出现瓶颈时，可以首先考虑哪些点呢？下面就来看一下Solr官方的总结，个人觉得总结的很好。SOLR+LUCENE的官网还是挺给力的对Schema设计的考虑索引域的数量增长会很大程度的影响以下的内容：引用索引期间的内存使用段的合并时间优化(optimization)时间如果设置omitNorms="true" ，则可以减小对这些影响批注：如果设置Norms，则会影响评分的标准，但会大大的增大索引文件的大小，如果对该 ...

2011-08-19 11:55
浏览 23974
评论(3)
分类:编程语言

Solr的自动完成/自动补充实现介绍(第一部分)

博客分类：

solr+lucene

solr facet autocomplete

原文：http://java.dzone.com/news/solr-and-autocomplete-part-1 大部分人已经见过自动完成(autocomplete)的功能了(见下图)，solr提供了构建这个功能的机制。今天，我将给你展示如何使用facet的方式来添加自动完成机制。索引设想你想在你的在线商店中，给用户一些提示，比如商品的名称。假设我们的索引构建如下： <field name="id" type="string" indexed="true" stored="true" mult ...

2011-08-01 21:52
浏览 3331
评论(0)
分类:编程语言

lucene/solr中查询结果的分组/字段的压缩

博客分类：

solr+lucene

Solr lucene Apache SVN Blog

原文链接：http://blog.jteam.nl/2011/05/19/search-result-grouping-field-collapsing-in-lucene-solr/#more-3424 在搜索的项目中，我们经常有对搜索结果进行分组或对字段进行压缩的需求。之前的文章提到这个功能已经添加到solr中并成为用户一个非常需 ...

2011-06-28 14:49
浏览 2817
评论(0)
分类:编程语言

Solr、lucene查询语句作或查询时的注意点

博客分类：

solr+lucene

lucene Solr ITeye 搜索引擎 XML

在使用lucene做搜索引擎时，中文的查询是值得注意的一点。其中有一些问题需要尤其注意：首先推荐在lucene方面的牛人的博客：http://forfuture1978.iteye.com/blog/588716，这里有关于查询的一些疑惑，在此不再做介绍。另：他的其他关于lucene的文章，也强烈推荐。在查询方面，与的查询，基本不会有太大问题，中文分词工具分好词后，所有的term都会变为PhraseQuery的方式，依次对查询条件进行查询。如果用户输入的查询条件，想到的是或的关系，或者因为需求方面的问题，希望返回更多的数据给用户，则都需要使用或的关系。 1. autoGenerat ...

2011-06-14 15:56
浏览 3529
评论(1)
分类:编程语言

SOLR优化-filter cache

博客分类：

solr+lucene

Solr Cache lucene XML

原文链接：http://java.dzone.com/news/merge-policy-internals-solr?mz=33057-solr_lucene 今天我们关注一个solr的cache类型：filter cache。接下来，我会解释它是什么、怎么配置它以及如何更好的使用它。 What it is used for? 先从内部机制开始。FilterCache存储了一些无序的文档标识号(ID)。这些ID并不是我们在schema.xml里配置的unique key，而是solr内部的一个文档标识。请记住这个。 FilterCache的任务是保持与用户过滤的结果关联。另外，cache ...

2011-06-13 11:52
浏览 5222
评论(0)
分类:编程语言

lucene内部的合并策略

博客分类：

solr+lucene

lucene Solr 算法 ITeye 多线程

原文链接：http://java.dzone.com/news/merge-policy-internals-solr?mz=33057-solr_lucene solr(or lucene)内部的合并策略是怎样的呢？选择哪些段(segment)需要被合并，是基于名为MergePolicy的抽象类决定的。这个类创建了一个合并规则类MergeSpecification：由OneMerge对象组成的一个列表集合。其中的每一个代表了一个单独的合并操作；被指定的所有段都将被合并为一个新的段。在索引改变之后，IndexWriter会调用MergePolicy来获取一个MergeSpecificat ...

2011-05-24 22:22
浏览 4296
评论(0)
分类:编程语言

lucene索引的新设计：DWPT，充分利用系统资源

博客分类：

solr+lucene

lucene ITeye 多线程 Apache Hadoop

翻译原文：http://blog.jteam.nl/2011/04/01/gimme-all-resources-you-have-i-can-use-them/ 注：本文属个人爱好和英语学习，很多地方翻译的不好，如果需要了解真实内容，请阅读原文。 ps:lucene4.0的并发索引号称提高了265%的写速度，对系统资源的利用也很充分，下面这篇文章主要讲并发写的一个实现原理以及测试结果对比。在使用Apache Lucene时利用所有的IO和CPU并发来进行索引去年lucene发布了很大数量的一些改进，比如提升100倍的FuzzyQueries、新的词(term)字典的实现、提高了段( ...

2011-05-16 15:27
浏览 3188
评论(0)
分类:编程语言

hadoop在windows上启动遇到的一些问题

博客分类：

数据库

Hadoop Windows Java Apache .net

这里说的是hadoop-0.21.0的安装在windows上使用cygwin启动hadoop，首先参考： http://pages.cs.brandeis.edu/~cs147a/lab/hadoop-windows/ 之后启动会报出 Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/uti l/PlatformName的异常，这里已经有细心的国人帮助解决了(转自http://www.blogjava.net/snoics/archive/2010/12/11/33 ...

2010-12-29 22:17
浏览 1329
评论(0)
分类:编程语言

我对android的第一印象

博客分类：

adroid

Android Eclipse Java XML UI

今天安装上了Android的SDK，在官方上的eclipseURL连接失败，于是改用自己原有的eclipse，并安装插件；正好看到Android Development with Eclipse教程，果断helloworld了一把。首先上我参考的教程：http://www.vogella.de/articles/Android/article.html#install ...

2010-12-18 22:11
浏览 1121
评论(0)
分类:移动开发

习惯决定命运

博客分类：

我的里程

Hadoop Python

最近很久没写博客了，不过一些技术网站还是坚持在看。想来是新换了个公司，想以公司的业务熟悉为主；目前发现其实很多时候自己的心还是在技术上的。毕竟习惯不容易改变，如果一段时间内只看业务，也许会将学技术、写技术的习惯遗忘！是时候继续写博客了。我没有完成的python，还有最近在看的hadoop。我还是想把自己的学习心得写下来，督促自己、巩固知识。分享就算了，写的太烂了。。。从小工到专家的过程，我在走，而且有了一定的成果，不过离我想要的，还有很远

2010-10-31 16:11
浏览 1001
评论(1)
分类:非技术

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

经纬度搜索(1)-Geohash算法原理

Solr 4.0 : Realtime Get

Lucene & Solr Year 2011 in Review

Solr的自动完成/自动补充实现介绍(第三部分)

Solr的自动完成/自动补充实现介绍(第二部分)

影响solr性能的一些因素（附使用经验）

Solr的自动完成/自动补充实现介绍(第一部分)

lucene/solr中查询结果的分组/字段的压缩

Solr、lucene查询语句作或查询时的注意点

SOLR优化-filter cache

lucene内部的合并策略

lucene索引的新设计：DWPT，充分利用系统资源

hadoop在windows上启动遇到的一些问题

我对android的第一印象

习惯决定命运

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>