ARD-PAN führt Textmining-System von picturesafe ein
14.12.2011
Medien & Kommunikation
Das PresseArchivNetzwerk hat Ende 2010 unter Federführung des
Westdeutschen Rundfunks (WDR) eine neue, von allen Mitgliedern gemeinsam genutzte und mehrere Millionen Artikel umfassende Textdatenbank eingeführt. Ergänzend wurde die von picturesafe gelieferte Textmining-Komponente dio:semantic installiert und nach Abschluss der Abnahmetests Mitte 2011 in den Produktionsworkflow übernommen.
Das neue picturesafe-System umfasst die maschinelle Vorerschließung auf Basis der PAN-Klassifikation und des Regelwerks, sowie die Realisierung eines Statistik-Moduls für Qualitätsauswertungen. Darüber hinaus leistet es die Pflege der für das Textmining relevanten Filter, Parameter und das Update/Retraining der Klassifikation und der verwendeten Named Entities.
Das hierarchische PAN-Klassifikationssystem ist Basis für eine intelligente Recherche in der Textdatenbank. Über ausgereifte Suchfunktionalitäten können Artikel in den Sprachen Deutsch, Englisch, Französisch und Spanisch treffsicher und mit geringem Zeitaufwand gefunden werden. Relevantere Suchergebnisse werden auch dadurch erzielt, dass das PAN-Klassifikationssystem mit Datenfeldern der Sacherschließung, Aspekten und freien Deskriptoren in Beziehung steht. Weiterhin werden relevante Orte, Personen und Geografika anhand von Regeln identifiziert.
Das dio:semanic Textmining-System bildet diese Inhaltsstruktur vollständig ab. Um einen Artikel im PAN-Klassifikationssystem vollständig zuzuordnen, werden vier Wissensmodelle pro Sprache verwendet.
Bei vier unterstützten Sprachen im PAN-System werden insgesamt 16 Klassifizierung-Wissensmodelle eingesetzt, um eine optimale Analyse der Presseartikel zu gewährleisten.
Trotz der komplexen Aufgabe ist die notwendige Infrastruktur für die Anbindung des picturesafe-Textmining-Systems verhältnismäßig einfach gehalten, was zur Kostensenkung beiträgt. Das speicher- und performanceoptimierte Verfahren ermöglicht es dem dio:sematic pro Stunde über 300.000 Artikel zu analysieren oder in der Wissensbasis zu trainieren.
Die Ergebnisqualität des Textmining-Systems ist von zentraler
Wichtigkeit. Schon im Vorfeld wurden die Pressedaten des PAN vom Fraunhofer Institut wissenschaftlich analysiert, und damit die Qualitätsstandards für die Auftragsvergabe festgelegt. picturesafe erfüllte diese Standards und konnte sie im Produktivbetrieb nochmals steigern.
"Besonders erfreulich ist die produktive und angenehme Zusammenarbeit zwischen den Mitarbeitern des PAN und dem picturesafe Team" sagt Entwicklungsleiter Gerhard Wendorf. "Neben der technischen Leistungsfähigkeit des Systems, ist es wichtig das wir in allen Bereichen einen guten Draht zum Kunden haben. Auch im dokumentarischen Umfeld funktioniert die Abstimmung reibungslos. Unsere Diplom-Bibliothekare und Dokumentare sprechen die gleiche Sprache wie die Mitarbeiter in den Fachabteilungen des Kunden."
Apropos Sprache: dio:semantic beinhaltet mehrsprachige Linguistikmodule zur Analyse und Aufbereitung unstrukturierter Dokumente, welche die Basis für Klassifizierung, Clusterung, Ähnlichkeitsanalyse und zur Generierung von Tag Clouds und Textsummarys bilden.
http://www.copyclick.de
picturesafe media/data/bank
Simon-von-Utrecht-Str. 31-37 20359 Hamburg
Pressekontakt
http://www.jansass.com
jansass GmbH
Lemsahler Dorfstr. 4 22397 Hamburg
Diese Pressemitteilung wurde über PR-Gateway veröffentlicht.
Für den Inhalt der Pressemeldung/News ist allein der Verfasser verantwortlich. Newsfenster.de distanziert sich ausdrücklich von den Inhalten Dritter und macht sich diese nicht zu eigen.
Weitere Artikel von Jan Sass
23.10.2013 | Jan Sass
Urlaub in St. Peter-Ording an der Nordsee
Urlaub in St. Peter-Ording an der Nordsee
11.09.2013 | Jan Sass
Private Ferienwohnung im Haus Nis Randers in St. Peter-Ording
Private Ferienwohnung im Haus Nis Randers in St. Peter-Ording
28.05.2013 | Jan Sass
GETTINGS und BrandCapture starten strategische Kooperation
GETTINGS und BrandCapture starten strategische Kooperation
27.01.2012 | Jan Sass
Picturesafe bringt den FOCUS auf den Amazon Kindle
Picturesafe bringt den FOCUS auf den Amazon Kindle
14.12.2011 | Jan Sass
Hamburger FanGator liefert maßgeschneiderte Fangates auf Facebook
Hamburger FanGator liefert maßgeschneiderte Fangates auf Facebook
Weitere Artikel in dieser Kategorie
15.05.2024 | TheNextWe
Ehemaliger Nestle-CEO Marc-Aurel Boersch wird neues Beiratsmitglied von TheNextWe
Ehemaliger Nestle-CEO Marc-Aurel Boersch wird neues Beiratsmitglied von TheNextWe
15.05.2024 | Brandplace
Virtual Placement: Mirriad bringt Uber Eats ins deutsche Fernsehen
Virtual Placement: Mirriad bringt Uber Eats ins deutsche Fernsehen
14.05.2024 | PETA Deutschland e.V
Olivia Jones sucht 350.000 Adoptiv-Eltern
Olivia Jones sucht 350.000 Adoptiv-Eltern
14.05.2024 | Adenion
Reichweitenparadies Social Media: 62 Prozent der Weltbevölkerung nutzen soziale Netzwerke
Reichweitenparadies Social Media: 62 Prozent der Weltbevölkerung nutzen soziale Netzwerke
07.05.2024 | SC.Lötters
SC Lötters begleitet Initiative Industrie zurück in die Öffentlichkeit
SC Lötters begleitet Initiative Industrie zurück in die Öffentlichkeit