Extraktion von Beträgen aus Internetforum

Hallo zusammen,
ich suche nach einer Möglichkeit die Beiträge aus einem Internetforum zu extrahieren und auszuwerten. Ich würde gern nach einer Reihe von Begriffen suchen und deren Anzahl im Forum auszählen. (am liebsten mit einer Datenbank)
Leider kenne ich mich nicht besonders gut mit HTML, XML, PHP und co. aus aber vielleicht hat ja einer von euch eine zündende Idee.

Vorweihnachtliche Grüße und vielen Dank für eure Hilfe

Stefan

Moin,

das ist nicht völlig trivial. Da musst Du per Skript (PERL, PHP, …) HTML-Abfragen generieren und danach in einer - z. B. MySQL-Datenbank - speichern. Wenn Du keinerlei Grundkenntnisse im Bereich Programmierung, DBs und Webtechnologien hast, wird das ziemlich schwierig.

Fazit: Da kann ich Dir leider nicht weiter helfen.
Gruß
Thomas

Hallo Pilot,

was verstehst du unter „zündenden Idee“?
Ein Schalter, dass du in einem Forum auf einmal alles über PHP/MySQL und Co lernst? Das gibt es so nicht.

Du stellst weder eine Frage auf die ich hier Konkret eingehen kann, noch sonnst was du genau willst.

Du solltest erstmal folgende Fragen klären:

  1. Gibt es zu dem Forum eine API, die du unter Umständen abfragen könntest.
  2. Dann mach dich mal schlau, welche Datenbank am Besten für dich geeignet ist. Wenn du nach „Begriffen“ suchst könnte eine Full-Text Basierte Datenbank für dich in Frage kommen, erkundige dich mal nach Elastic Search (http://www.elasticsearch.org/)
  3. Lerne die Grundlagen von
    PHP (php.net, selfphp.de)
    HTML (selfhtml.net)

Wenn du dann konkrete Probleme und Fragen hast, kannst du gerne die nochmal Stellen.

Viele Grüße
Frank

Man könnte sicher etwas selbst bauen, z.B. mit PHP.

Allerdings müsstest Du dazu schon die Programmiersprache und etwas Administration drumrum verstehen (was man natürlich mit gutem Willen und Übung lernen kann).

Vielleicht gibt es aber auch vorgefertigte Lösungen. Was Du haben möchtest scheint mir ein Bot zu sein, der selbstständig Internetseiten durchstöbert, oder? Vielleicht steht in einem Buch wie diesem mehr:
http://www.amazon.com/Internet-Agents-Spiders-Wander…
(habe ich aber nicht selbst gelesen, nur Google-Suche)

Grüße

Also wenn Du der Betreiber des Forums bist, kannst Du doch mit ner SQL Abfrage die gesuchten Daten aus der Datenbank auslesen.
Das würde sogar über mehrere Felder und ev. mehrere Tabellen gehen.

Oder willst Du die Daten von einer externen Seite haben, dann musst Du das HTML auslesen und extrahieren.

Für beide Fälle hätte ich Möglichkeiten, die ich selbst einmal programmiert habe.

Es wäre aber schön, wenn man vorab mal sehen könnte was Du bereits selbst programmiert hast.
Dann könnte man meins mit Deinem abgleichen.

Mald Dich einfach nochmal mit Beispielcode und ner genauen Angabe was genau gemacht werden soll und wie Du an die Daten rankommst.

VG Mad

Aein mittelschweres Programm mit den Standartbibliotheken von Visual Studi (namespace System) sollte da schon reichen. Vom Grunde her muss es nur den Quelltext nehmen und dann immer wieder nach dem 1. vorkommen von dem Wort suchen. Dabei wird der Quelltext durch einen zweiten Befehl noch reduziert. Dann nur noch mitzählen und das wars. Rein über PHP oder Datenbanken würde mir da nichts einfallen und ein Produkt welches das kann gibt es eher auch nicht.

Hallo,

am einfachsten wäre es sicher mit google, vorrausgesetzt das Forum ist öffentlich erreichbar.
Bei google kann man die Suche auf eine Seite einschränken, siehe http://www.google.de/advanced_search

Falls das nicht ausreicht, geht es unter linux ggf. mit Curl (wg. Login) und wget. Bei dem Ansatz würd ich erstmal alle Seiten runterladen und dann mit grep in den Dateien suchen und mir die relevanten Seiten raussuchen. Die kann man dann manuel sichten oder weiter technisch aufbereiten.

Ansonsten gibt es spezielle Web-Crawler, die sowas auch unter Windows erledigen. Kenn hier aber keine spezielle Software.

Der zweite Ansatz würd auch mit PHP und Datenbank gehen, die Schritte und zu lösenden Probleme sind aber ähnlich.

Empfehlen würd ich erstmal die google-Variante.

Grüße,
Honeyhead

Leider keine Ahnung…sorry.

Ivo

hi,
ich bin für diese frage nicht experte.

auch wer-weiss-was müsste an der beantwortung solcher fragen interesse haben, denn da hapert es im moment gewaltig.

m.

Hallo,
bist Du Eigentümer des Forums oder hast Du die Rechte auf die Datenbank zuzugreifen?
MfG
Uwe

Hi!

Kommt zwar sehr spät, aber nichts desto weniger:

Wenn Du nicht genau weißt, wie die Einträge gespeichert werden bzw. Du an die Quelle nicht herankommst, brauchst Du Dir den Kopf vermutlich nicht weiter darüber zu zerbrechen.

In jedem Fall wird ein Grundwissen in zumindest MySQL (also Datenbanken) und PHP nötig sein. Einen gewissen optischen Rahmen mit HTML und CSS drum herum zaubern ist mit Hilfe von http://de.selfhtml.org kein Problem.

Tut mir Leid!

Gruß
Hringriin