Windows 10 64 bit 编译安装 PyLucene 6, 7, 8

update 2021.09: 更新了对 PyLucene 7 和 8 的支持。

update 2017.07: 添加了对 Python 3 的支持

这可能是互联网上第一篇详细介绍 Windows 下安装新版本 Pylucene 的文章。PyLucene 4 以下原本都有提供 windows 下的安装包,但是新版本没有了。

本文允许带修改的转载,但转载时请注明原文出处: lxsay.com

本文也适用于 32 位的 Windows 系统,只要把安装的软件都改成 32 位的版本就可以了

 

前提条件:

  1. 安装 python ( 本文以 Python 2.7.13 为例,Python 3.4 以上的版本也可以 ) 环境(推荐 Anaconda,自带 gensim, numpy, scipy 等在 Windows 下比较难安装的库).
  2. 安装 JDK 1.8 ( 64 位版本) 并配置环境变量 (推荐按照这篇文章操作:http://www.cnblogs.com/shinge/p/5500002.html),并且配置JRE的环境变量(将 JAVA_HOME/jre/bin/server 这个路径也加进 path 环境变量)
  3.  安装 VC for Python 2.7 ( www.microsoft.com/en-hk/download/details.aspx?id=44266 )。  如果是 Python 3,安装 Visual Studio (安装时选择所有版本的 C/C++开发工具以及其中的VC 14.0和14.1的运行库与工具) 或者 Visual C++ 2015 Build Tools (http://landinghub.visualstudio.com/visual-cpp-build-tools),现在整合以后中文名叫作 “Visual Studio 生成工具”。

 

步骤1.   安装 Apache Ant 并配置环境变量(在 path 环境变量中添加 Ant 安装主目录下的 bin 目录路径,和后面配置的 ant 可执行文件路径不一样)

步骤2.  安装 cygwin 64 bit (用于在 windows 系统中执行 linux 的命令),安装时在选择 packages 的窗口将 “Devel” 项由 “Default” 改为 “Installed”。 并且配置 cygwin 64 的环境变量(在 path 环境变量中添加 cygwin 64 安装主目录下的 bin 目录路径),重启电脑使之生效。Devel的包占用空间比较大,也可以保持 Default,然后只查找并安装 make/cmake/gcc/g++ 相关的包。

步骤2.1  打开 Anaconda Prompt,分别输入 java, javac, ant, make, cmake, gcc, g++ 这几个命令进行测试,如果显示不存在这样的命令或程序,说明环境变量配置有问题,需要重新进行配置。

步骤3.  下载并解压 pylucene 的 源代码 (一般解压出来的文件夹叫作 pylucene-6.4.1 之类)

步骤4.   对于 PyLucene 6.5 以下(不包含 6.5)的版本,进入 pylucene 安装文件夹下的 JCC 文件夹,修改 setup.py文件, 在 CFLAGS 配置这里,在 ‘win32’ 后面添加 “/bigobj” 这个参数,如下面所示

CFLAGS = {
‘darwin’: [‘-fno-strict-aliasing’, ‘-Wno-write-strings’,
‘-mmacosx-version-min=10.5’],
‘ipod’: [‘-Wno-write-strings’],
‘linux2’: [‘-fno-strict-aliasing’, ‘-Wno-write-strings’],
‘sunos5’: [‘-features=iddollar’,
‘-erroff=badargtypel2w,wbadinitl,wvarhidemem’],
‘win32’: [“/EHsc”, “/D_CRT_SECURE_NO_WARNINGS”,”/bigobj”], # MSVC 9 (2008)
‘mingw32’: [‘-fno-strict-aliasing’, ‘-Wno-write-strings’],
‘freebsd7’: [‘-fno-strict-aliasing’, ‘-Wno-write-strings’],
}

如果不添加 “/bigobj” 参数, 在编译 pylucene 时会提示文件过大,编译器无法编译

update: 在 pylucene 6.5 中,这个问题已经被解决,不需要添加此参数

 

步骤5.   在命令行下(推荐用 Anaconda prompt,如果用 windows 命令行的话要确保设置了 python 的环境变量,不然没办法运行)进入 jcc 文件夹,输入 python setup.py build ,如果没有错误信息,继续输入 python setup.py install 安装 JCC 。重启电脑

步骤6.    进入 pylucene-6.2.0 文件夹(根据要安装的版本而定,比如 pylucene-6.4.1 之类),修改 Makefile文件

首先注释掉(通过在每行前面添加’#’符号) 这一段默认配置

# Mac OS X 10.12 (64-bit Python 2.7, Java 1.8)
PREFIX_PYTHON=/Users/vajda/apache/pylucene/_install
ANT=/Users/vajda/tmp/apache-ant-1.9.3/bin/ant
PYTHON=$(PREFIX_PYTHON)/bin/python
JCC=$(PYTHON) -m jcc.__main__ –shared –arch x86_64
NUM_FILES=8

然后插入

PREFIX_PYTHON=D:/Progra~2/Anaconda2
ANT=D:/apache-ant-1.9.7/bin/ant
JAVA_HOME=C:/Progra~1/Java/jdk1.8.0_101
PYTHON=$(PREFIX_PYTHON)/python.exe
JCC=$(PYTHON) -m jcc –shared
NUM_FILES=8

*在 pylucene 6.5 中 JCC 项不再接受 shared 参数,因此应该改为 JCC=$(PYTHON) -m jcc, 否则安装时会出错

                *对于 pylucene 7 和 8,将 NUM_FILES 设置为10

其中 PREFIX_PYTHON 是 python 的安装主目录,如果你创建了一个新的 Anaconda 环境并在该环境下编译,请将 PREFIX_PYTHON 换成该环境的根目录 (一般是 Anaconda2/envs/环境名)

ANT 是 ant 的二进制可执行文件的路径(注意不是安装目录而是可执行文件路径)

NUM_FILES 参数用于指定中间文件的分割数, 使得编译器可以处理大的文件,但是如果修改为其他数值可能会引起错误。 因此最好的办法还是在前一步指定 vc的参数 “/bigobj”

另外需要注意的是,Makefile 不接受带有空格的路径,因此如果路径带有空格的话请用命令行使用的缩写路径(又叫做 dos path, 比如上面这段就采用了这种写法)

步骤7.   运行 make 进行编译(注意:如果之前没有安装并配置 cygwin64 的话,这一步会无法进行下去)。如果是中国国内的网络,建议使用 VPN 或者能够访问外网的翻墙工具,因为这一步会从 maven 仓库上下载需要的 jar 包,可能会出现编译到一半自动中止的情况,此时应该多执行几次 make 命令,让 jar 包全部下载完成。

步骤8.   编译完成后运行 make test 进行测试,由于项目的一些 bug,有几个检测 PyLucene 异常抛出的测试不会通过,但并无大碍。

步骤9.   运行 make install 进行安装

 

常见问题:

1. 编译安装 JCC 时无法使用 MSVC 编译,python 总是自动用 gcc 进行编译:要改成用 visual studio c++ 编译的话,需要编辑 python安装主目录\Lib\distutils下的distutils.cfg文件,将文件内容修改为下面所示

[build]
compiler=msvc

[build_ext]
compiler=msvc

其实本质上就是修改 setuptools 的配置文件

第二种办法是运行 setup.py 文件安装时添加参数变为  python setup.py build –compiler=msvc   但是此方法在接下来编译安装 pylucene 时会失效,因为 make 无法指定 python 使用的 C/C++ 编译器

2. make test 给出 error 123:     linux 下出错的原因在于 Lucene 的测试代码使用了旧版 python 的异常。将 test_Pylucene.py 中的 WindowsError 改为 OSError 就可以。  Windows 下出错的原因也是如此,但是涉及的文件比较多,改起来比较麻烦,所以直接忽略

3.  make 时提示 from jcc import _jcc 找不到 dll:主要原因是 JAVA 的环境变量配置不正确,找不到 jvm.dll。将包含 jvm.dll 的 JRE 目录路径加入 path 环境变量即可(如JRE\bin\server)。如果在编译安装 JCC 这一步之前没有设定好 JDK 的系统变量,也会出现这类错误。 建议设定环境变量后重启电脑一次。如果设定环境变量后仍出现这样的错误,可以修改 JCC 目录下的 setup.py 文件,将 ‘JAVAHOME’ 修改为 JDK 的实际目录路径,然后删掉 build 目录,重新安装 jcc

4. 用 pylucene 6.2 和 6.4 建立的索引可以互相兼容 , 但 pylucene 4 建立的索引不能在 6.2 以上版本使用(需要使用 IndexUpdater 包处理)。程序代码也是,因为很多函数和定义在新版本中被移除了

29 thoughts on “Windows 10 64 bit 编译安装 PyLucene 6, 7, 8

  1. 使用MinGW进行make的,出现下面这种情况,是什么原因呀,
    PS G:\zgy\桌面\pylucene-6.5.0> make process_begin: CreateProcess(NULL, pwd, …) failed. process_begin: CreateProcess(NULL, which icupkg, …) failed. process_begin: CreateProcess(NULL, uname, …) failed. process_begin: CreateProcess(NULL, uname, …) failed. cd lucene-java-6.5.0/lucene; (c:\\apache-ant-1.10.2/bin/ant ivy-availability-check || c:\\apache-ant-1.10.2/bin/ant ivy-bootstrap) process_begin: CreateProcess(NULL, uname, …) failed. 文件名、目录名或卷标语法不正确。 Buildfile: build.xml does not exist! Build failed Makefile:215: recipe for target ‘ivy’ failed make: *** [ivy] Error 1

  2. 楼主你好 我做到最后一步出现了一下问题 求大佬帮忙解决

    BUILD FAILED
    G:\pylucene\pylucene-7.7.1\lucene-java-7.7.1\lucene\common-build.xml:835: The following error occurred while executing this line:
    G:\pylucene\pylucene-7.7.1\lucene-java-7.7.1\lucene\common-build.xml:558: The following error occurred while executing this line:
    G:\pylucene\pylucene-7.7.1\lucene-java-7.7.1\lucene\common-build.xml:2056: Compile failed; see the compiler error output for details.

    Total time: 9 seconds
    make: *** [Makefile:220: lucene-java-7.7.1/lucene/build/core/lucene-core-7.7.1.jar] Error 1

    1. 试下把Makefile里面的NUM_FILES改成10. 还有要检查编译器安装和PYTHON_PATH\Lib\distutils\distutils.cfg的内容

  3. 请问,在执行make的时候,提示ivy-fail,然后他自动下载了个groovy包,可以继续编译了,但是后面卡在了patch-mrjar-classes不动了,是什么情况啊?

    1. 过了一会发现他又给我下载了一个包……现在卡在resolve不动……为啥会缺包而且还这么慢?

        1. 3. make 时提示 from jcc import _jcc 找不到 dll:原因是找不到 jvm.dll,将包含 jvm.dll 的 JRE 目录路径加入 path 环境变量即可(如JRE\bin\server)。如果在编译安装 JCC 这一步之前没有设定好 JDK 的系统变量,也会出现这类错误。 建议设定环境变量后重启电脑一次。如果设定环境变量后仍出现这样的错误,可以修改 JCC 目录下的 setup.py 文件,将 ‘JAVAHOME’ 修改为 JDK 的实际目录路径,然后删掉 build 目录,重新安装 jcc

          按照楼主的方法错误依然
          我把Java home打印出来是正确的,在命令行执行whereis jvm.dll是正常能找到的
          我的环境是Win 7 Python 3.8 pylucene 8.3 Java se 8( Oracle下的不是openjdk)的都是64位

          1. 我刚才创建了一个python 3.8 JDK 1.8的anaconda环境试了一下,是可以安装的。错误提示是什么,找不到dll吗?

    2. 如果一直卡住不动的话有一个技巧:可以编辑 Makefile,找到对应的包,然后注释掉。如果能编译不影响使用的话就将就着用吧。

  4. 到最后一步出现了这个问题,qwq
    While loading org/apache/lucene/facet/taxonomy/directory/DirectoryTaxonomyReader
    Traceback (most recent call last):
    File “D:\anaconda\lib\runpy.py”, line 193, in _run_module_as_main
    “__main__”, mod_spec)
    File “D:\anaconda\lib\runpy.py”, line 85, in _run_code
    exec(code, run_globals)
    File “D:\anaconda\lib\site-packages\jcc-3.8-py3.7-win-amd64.egg\jcc\__main__.py”, line 110, in
    cpp.jcc(sys.argv)
    File “D:\anaconda\lib\site-packages\jcc-3.8-py3.7-win-amd64.egg\jcc\cpp.py”, line 663, in jcc
    cls = findClass(className.replace(‘.’, ‘/’))
    File “D:\anaconda\lib\site-packages\jcc-3.8-py3.7-win-amd64.egg\jcc\cpp.py”, line 51, in findClass
    cls = _findClass(className)
    jcc.cpp.JavaError: Java Error
    make: *** [Makefile:396: compile] Error 1

  5. import jcc._jcc3 as _jcc3
    ImportError: DLL load failed while importing _jcc3: 找不到指定的模块。

    win10
    pylucene-8.9.0
    jdk 1.6.0_18
    python 3.8.8

    按照楼主方法还是报这个错,请问有什么解决办法吗

      1. 我最近试了一下678三代都是可以的。确认三点:JDK 1.8,环境变量设置正确,python 3.8不行就换3.7,如果实在不行我远程给你装吧。。。。。。。。

        1. 您好我遇到了同样的问题,更换了多个java的版本和python版本以及pylucene都是在最后make的时候出现这样的问题,请问该如何解决
          import jcc._jcc3 as _jcc3
          ImportError: DLL load failed: 找不到指定的模块。
          make: *** [Makefile:398: compile] Error 1

  6. LINK : fatal error LNK1189: 超过 65535 对象的库限制
    error: command ‘C:\\Program Files (x86)\\Microsoft Visual Studio\\2019\\Community\\VC\\Tools\\MSVC\\14.26.28801\\bin\\HostX86\\x64\\link.exe’ failed with exit status 1189
    make: *** [Makefile:389: compile] Error 1

    pylucene-8.9.0
    想问一下这个问题怎么解决,加了/bigobj参数,改NUM_FILES都没有用

    1. 没遇到过这个错误,感觉是系统环境的问题,我装Visual Studio的时候把C/C++下面所有版本的Windows SDK都选上了。你可以试下在虚拟机里面用一个新系统编译安装看看能不能成功

      1. 我换了个7版本的就安装上了,目前还有个问题就是,我在pycharm import lucene是没问题的,但是在导入lucene类时
        from java.nio.file import Paths
        from org.apache.lucene.analysis.miscellaneous import LimitTokenCountAnalyzer
        from org.apache.lucene.analysis.core import WhitespaceAnalyzer
        from org.apache.lucene.index import IndexWriter, IndexWriterConfig
        from org.apache.lucene.document import Document, Field, StringField, TextField
        from org.apache.lucene.store import SimpleFSDirectory
        from org.apache.lucene.search import IndexSearcher
        from org.apache.lucene.index import DirectoryReader
        from org.apache.lucene.queryparser.classic import QueryParser
        这些就全部报错Unresolved reference,完全看不到类里的属性方法,无法使用代码检查
        想问一下你有没有遇到这样的问题,如何解决。。

        1. 包没有装进去,这几个都是核心类,环境是不是配的有问题。。。我找个时间录个视频放到这个文章里面

          1. 但是我在cmd运行里面的示例代码,python IndexFiles.py xxx,是可以跑起来的,在pycharm上虽然import报错Unresolved reference,我把它选择Ignore an Unresolved reference之后也能正常执行代码,导入那些核心类实际上也能导入,安装应该是没问题的。
            只是这样非常不方便,看不到这些类里的方法,没办法代码检查,只能对着文档盲写。。。想请教一下这个应该怎么解决,十分感谢
            报错的情况的和这里的截图相似:https://stackoom.com/cn_en/question/2zfv0

  7. 出现这个时什么情况啊
    error: command ‘D:\\app\\visualstudio\\VC\\Tools\\MSVC\\14.29.30133\\bin\\HostX86\\x64\\cl.exe’ failed with exit code 2
    make: *** [Makefile:344: compile] Error 1

  8. make的时候出现这个是什么情况啊
    error: command ‘D:\\app\\visualstudio\\VC\\Tools\\MSVC\\14.29.30133\\bin\\HostX86\\x64\\cl.exe’ failed with exit code 2
    make: *** [Makefile:344: compile] Error 1

Leave a Reply to chiccs Cancel reply

Your email address will not be published. Required fields are marked *

Protected with IP Blacklist CloudIP Blacklist Cloud

This site uses Akismet to reduce spam. Learn how your comment data is processed.