Ich suche eine Möglichkeit, um das folgende Problem zu lösen:
Man hat Texte in einer Datenbank. Diese sollen automatisch kategorisiert werden. Dafür stehen 6 Kategorien bereit. Das System soll aus den alten Kategorisierungen lernen und so die neuen vornehmen.
Den Anfang muss man also selbst machen: Man teilt einigen Texten Kategorien zu. Das System erkennt so ein Muster und nimmt die Kategorisierungen selbst so vor.
Beispiel:
Bisher wurden alle Texte, in denen fünf Mal "Sport" und drei Mal "China" vorkam, der Kategorie "Olympia" zugeordnet. Also wird auch dieser Text der Kategorie "Olympia" zugeordnet.
Meine Ansätze:
1) Aus der Datenbank wird mit einer Volltext-Suche der ähnlichste Text rausgesucht. Dessen Kategorie ist auch die Kategorie für den aktuellen Text.
2) Alle Texte der einzelnen Kategorien werden verkettet. Die Kette, die mit dem aktuellen Text die höchste Übereinstimmung hat, gibt die Kategorie an.
Welchen der beiden Ansätze findet ihr besser? Habt ihr noch bessere Ansätze?
Danke im Voraus!
Man hat Texte in einer Datenbank. Diese sollen automatisch kategorisiert werden. Dafür stehen 6 Kategorien bereit. Das System soll aus den alten Kategorisierungen lernen und so die neuen vornehmen.
Den Anfang muss man also selbst machen: Man teilt einigen Texten Kategorien zu. Das System erkennt so ein Muster und nimmt die Kategorisierungen selbst so vor.
Beispiel:
Bisher wurden alle Texte, in denen fünf Mal "Sport" und drei Mal "China" vorkam, der Kategorie "Olympia" zugeordnet. Also wird auch dieser Text der Kategorie "Olympia" zugeordnet.
Meine Ansätze:
1) Aus der Datenbank wird mit einer Volltext-Suche der ähnlichste Text rausgesucht. Dessen Kategorie ist auch die Kategorie für den aktuellen Text.
2) Alle Texte der einzelnen Kategorien werden verkettet. Die Kette, die mit dem aktuellen Text die höchste Übereinstimmung hat, gibt die Kategorie an.
Welchen der beiden Ansätze findet ihr besser? Habt ihr noch bessere Ansätze?
Danke im Voraus!