bg.crawler

bg.crawler ermöglicht die Indexierung von Dateien und Dateibäumen im Dateisystem durch Solr.

bg.crawler erlaubt auf der Komandozeile (Command line interface, CLI), einzelne Dateien oder Dateibäume von Solr indizieren zu lassen.

Voraussetzungen

  • Python 2.6 oder 2.7

  • curl

Installation

In einer virtualenv-Umgebung lässt sich bg.crawler einfach installieren mit:

$ easy_install bg.crawler

Optionen

Innerhalb dieser virtuellen Umgebung lässt sich bg.crawler einfach aufrufen mit:

$ ./bin/solr-crawler --help

Folgende Parameter stehen Ihnen zur Verfügung:

--solr-url

definiert die URL des Solr-Servers.

--render-base-url

Basis-URL, die den ersten Teil von Solrs renderurl bildet.

--max-depth

begrenzt die Tiefe der Ordnerhierarchie bis zu der Dateien indiziert werden sollen.

--commit-after

Die Anzahl der Dokumente, die mit einem commit an Solr übergeben werden.

--tag

Die importierten Dokumente werden mit einer bestimmten Zeichenkette getagt.

So lassen sich unterschiedliche Datenquellen auch bei einer späteren Suchanfrage in Solr noch durch unterschiedliche Tags unterscheiden.

--clear-all

leert den Solr-Index vollständig bevor die Daten neu importiert werden.

--clear-tag

entfernt alle Dokumente aus dem Solr-Index, die einen bestimmten Tag enthalten, bevor die Daten neu importiert werden.

--verbose

ermöglicht ein besseres Logging.

--no-type-check

Falls diese Option gewählt wird, wird nicht nach bestimmten Dateitypen gefiltert.

Weitere Informationen zu bg.crawler erhalten sie unter bg.crawler documentation.