`
hankesi2000
  • 浏览: 95695 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论
文章列表
geohash作为Solr的位置信息搜索算法,有必要了解其基本的实现原理。geohash算法的wiki链接为http://en.wikipedia.org/wiki/Geohash,这里再结合自己的理解,重新复述一下。 由经纬度变成base32标识 geohash的思想,是将所有的经纬度坐标,通 ...
原文链接:Solr 4.0: Realtime GET 在即将到来的Solr 4.0中,"Realtime get"是我准备要研究的。它甚至允许你查看发送到Solr但还没被commit到索引文件的数据。下面让我们看一下它是如何运作的。 原理 原来Lucene/Solr中的更新操作有一个小问题:在你提交数据但是还没有执行commit命令时,它们是不能被访问的。原因在于commit是非常耗性能的,如果执行过于频繁则会引起性能问题。所以,当你需要让数据变的可用时,你就需要在性能和快速commit之间做出选择。为了这个Lucene实现了Near Real Time(NRT),这在 ...
原文链接:Lucene & Solr Year 2011 in Review 2011就要过去了,是时候回顾一下过去的12个月里做过的事了。让我们简要回顾一下这12个月以来,lucene/solr 业内的一些重要的事件。从下一段开始,我们将回顾一下Lucene/solr的主要修改、新 ...
原文URL:http://java.dzone.com/news/solr-and-autocomplete-part-3?mz=33057-solr_lucene 在之前的两个部分(part1、part2)中,我们学会了如何配置和查询solr来获取自动完成的功能。今天,我们来看一下如果为suggester添加字段,以这种方式来提供自动完成的功能。 组件配置 在上一期的配置组件中添加如下的参数: <str name="sourceLocation">dict.txt</str> 这样我们的配置就变成了: <searchComponent ...
原文链接:Solr and Autocomplete (part 2) 在Solr的自动完成/自动补充实现介绍(第一部分) 中我介绍了怎么用faceting的机制来实现自动完成(autocomplete)的功能,今天我们来看一下如何用Suggester的组件来实现自动完成功能. 开始 这里有一点需要提醒:Suggest组件在1.4.1或以下版本不可用。要使用这个组件,你需要下载3_x或lucene/solr的主干版本。 配置 在索引配置之前,我们定义一个searchComponent: <searchComponent name="suggest" cla ...
原文:SolrPerformanceFactors Solr本身的性能不错,但是在使用过程中,还是会遇到一些使用错误,或是没考虑到的地方;在出现瓶颈时,可以首先考虑哪些点呢?下面就来看一下Solr官方的总结,个人觉得总结的很好。SOLR+LUCENE的官网还是挺给力的  对Schema设计的考虑 索引域的数量增长会很大程度的影响以下的内容:   引用索引期间的内存使用 段的合并时间 优化(optimization)时间 如果设置omitNorms="true" ,则可以减小对这些影响 批注:如果设置Norms,则会影响评分的标准,但会大大的增大索引文件的大小,如果对该 ...
原文:http://java.dzone.com/news/solr-and-autocomplete-part-1 大部分人已经见过自动完成(autocomplete)的功能了(见下图),solr提供了构建这个功能的机制。今天,我将给你展示如何使用facet的方式来添加自动完成机制。 索引 设想你想在你的在线商店中,给用户一些提示,比如商品的名称。假设我们的索引构建如下: <field name="id" type="string" indexed="true" stored="true" mult ...
原文链接:http://blog.jteam.nl/2011/05/19/search-result-grouping-field-collapsing-in-lucene-solr/#more-3424 在搜索的项目中,我们经常有对搜索结果进行分组或对字段进行压缩的需求。之前的文章提到这个功能已经添加到solr中并成为用户一个非常需 ...
在使用lucene做搜索引擎时,中文的查询是值得注意的一点。其中有一些问题需要尤其注意: 首先推荐在lucene方面的牛人的博客:http://forfuture1978.iteye.com/blog/588716,这里有关于查询的一些疑惑,在此不再做介绍。另:他的其他关于lucene的文章,也强烈推荐。 在查询方面,与的查询,基本不会有太大问题,中文分词工具分好词后,所有的term都会变为PhraseQuery的方式,依次对查询条件进行查询。 如果用户输入的查询条件,想到的是或的关系,或者因为需求方面的问题,希望返回更多的数据给用户,则都需要使用或的关系。 1. autoGenerat ...
原文链接:http://java.dzone.com/news/merge-policy-internals-solr?mz=33057-solr_lucene 今天我们关注一个solr的cache类型:filter cache。接下来,我会解释它是什么、怎么配置它以及如何更好的使用它。 What it is used for? 先从内部机制开始。FilterCache存储了一些无序的文档标识号(ID)。这些ID并不是我们在schema.xml里配置的unique key,而是solr内部的一个文档标识。请记住这个。 FilterCache的任务是保持与用户过滤的结果关联。另外,cache ...
原文链接:http://java.dzone.com/news/merge-policy-internals-solr?mz=33057-solr_lucene solr(or lucene)内部的合并策略是怎样的呢? 选择哪些段(segment)需要被合并,是基于名为MergePolicy的抽象类决定的。这个类创建了一个合并规则类MergeSpecification:由OneMerge对象组成的一个列表集合。其中的每一个代表了一个单独的合并操作;被指定的所有段都将被合并为一个新的段。 在索引改变之后,IndexWriter会调用MergePolicy来获取一个MergeSpecificat ...
翻译原文:http://blog.jteam.nl/2011/04/01/gimme-all-resources-you-have-i-can-use-them/ 注:本文属个人爱好和英语学习,很多地方翻译的不好,如果需要了解真实内容,请阅读原文。 ps:lucene4.0的并发索引号称提高了265%的写速度,对系统资源的利用也很充分,下面这篇文章主要讲并发写的一个实现原理以及测试结果对比。 在使用Apache Lucene时利用所有的IO和CPU并发来进行索引 去年lucene发布了很大数量的一些改进,比如提升100倍的FuzzyQueries、新的词(term)字典的实现、提高了段( ...
这里说的是hadoop-0.21.0的安装 在windows上使用cygwin启动hadoop,首先参考: http://pages.cs.brandeis.edu/~cs147a/lab/hadoop-windows/ 之后启动会报出 Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/uti l/PlatformName的异常,这里已经有细心的国人帮助解决了(转自http://www.blogjava.net/snoics/archive/2010/12/11/33 ...
今天安装上了Android的SDK,在官方上的eclipseURL连接失败,于是改用自己原有的eclipse,并安装插件;正好看到Android Development with Eclipse教程,果断helloworld了一把。 首先上我参考的教程:http://www.vogella.de/articles/Android/article.html#install ...
最近很久没写博客了,不过一些技术网站还是坚持在看。 想来是新换了个公司,想以公司的业务熟悉为主;目前发现其实很多时候自己的心还是在技术上的。 毕竟习惯不容易改变,如果一段时间内只看业务,也许会将学技术、写技术的习惯遗忘! 是时候继续写博客了。我没有完成的python,还有最近在看的hadoop。我还是想把自己的学习心得写下来,督促自己、巩固知识。分享就算了,写的太烂了。。。 从小工到专家的过程,我在走,而且有了一定的成果,不过离我想要的,还有很远
Global site tag (gtag.js) - Google Analytics