ARD-PAN führt Textmining-System von picturesafe ein
14.12.2011
Medien & Kommunikation
Das PresseArchivNetzwerk hat Ende 2010 unter Federführung des
Westdeutschen Rundfunks (WDR) eine neue, von allen Mitgliedern gemeinsam genutzte und mehrere Millionen Artikel umfassende Textdatenbank eingeführt. Ergänzend wurde die von picturesafe gelieferte Textmining-Komponente dio:semantic installiert und nach Abschluss der Abnahmetests Mitte 2011 in den Produktionsworkflow übernommen.
Das neue picturesafe-System umfasst die maschinelle Vorerschließung auf Basis der PAN-Klassifikation und des Regelwerks, sowie die Realisierung eines Statistik-Moduls für Qualitätsauswertungen. Darüber hinaus leistet es die Pflege der für das Textmining relevanten Filter, Parameter und das Update/Retraining der Klassifikation und der verwendeten Named Entities.
Das hierarchische PAN-Klassifikationssystem ist Basis für eine intelligente Recherche in der Textdatenbank. Über ausgereifte Suchfunktionalitäten können Artikel in den Sprachen Deutsch, Englisch, Französisch und Spanisch treffsicher und mit geringem Zeitaufwand gefunden werden. Relevantere Suchergebnisse werden auch dadurch erzielt, dass das PAN-Klassifikationssystem mit Datenfeldern der Sacherschließung, Aspekten und freien Deskriptoren in Beziehung steht. Weiterhin werden relevante Orte, Personen und Geografika anhand von Regeln identifiziert.
Das dio:semanic Textmining-System bildet diese Inhaltsstruktur vollständig ab. Um einen Artikel im PAN-Klassifikationssystem vollständig zuzuordnen, werden vier Wissensmodelle pro Sprache verwendet.
Bei vier unterstützten Sprachen im PAN-System werden insgesamt 16 Klassifizierung-Wissensmodelle eingesetzt, um eine optimale Analyse der Presseartikel zu gewährleisten.
Trotz der komplexen Aufgabe ist die notwendige Infrastruktur für die Anbindung des picturesafe-Textmining-Systems verhältnismäßig einfach gehalten, was zur Kostensenkung beiträgt. Das speicher- und performanceoptimierte Verfahren ermöglicht es dem dio:sematic pro Stunde über 300.000 Artikel zu analysieren oder in der Wissensbasis zu trainieren.
Die Ergebnisqualität des Textmining-Systems ist von zentraler
Wichtigkeit. Schon im Vorfeld wurden die Pressedaten des PAN vom Fraunhofer Institut wissenschaftlich analysiert, und damit die Qualitätsstandards für die Auftragsvergabe festgelegt. picturesafe erfüllte diese Standards und konnte sie im Produktivbetrieb nochmals steigern.
"Besonders erfreulich ist die produktive und angenehme Zusammenarbeit zwischen den Mitarbeitern des PAN und dem picturesafe Team" sagt Entwicklungsleiter Gerhard Wendorf. "Neben der technischen Leistungsfähigkeit des Systems, ist es wichtig das wir in allen Bereichen einen guten Draht zum Kunden haben. Auch im dokumentarischen Umfeld funktioniert die Abstimmung reibungslos. Unsere Diplom-Bibliothekare und Dokumentare sprechen die gleiche Sprache wie die Mitarbeiter in den Fachabteilungen des Kunden."
Apropos Sprache: dio:semantic beinhaltet mehrsprachige Linguistikmodule zur Analyse und Aufbereitung unstrukturierter Dokumente, welche die Basis für Klassifizierung, Clusterung, Ähnlichkeitsanalyse und zur Generierung von Tag Clouds und Textsummarys bilden.
http://www.copyclick.de
picturesafe media/data/bank
Simon-von-Utrecht-Str. 31-37 20359 Hamburg
Pressekontakt
http://www.jansass.com
jansass GmbH
Lemsahler Dorfstr. 4 22397 Hamburg
Diese Pressemitteilung wurde über PR-Gateway veröffentlicht.
Für den Inhalt der Pressemeldung/News ist allein der Verfasser verantwortlich. Newsfenster.de distanziert sich ausdrücklich von den Inhalten Dritter und macht sich diese nicht zu eigen.
Weitere Artikel von Jan Sass
23.10.2013 | Jan Sass
Urlaub in St. Peter-Ording an der Nordsee
Urlaub in St. Peter-Ording an der Nordsee
11.09.2013 | Jan Sass
Private Ferienwohnung im Haus Nis Randers in St. Peter-Ording
Private Ferienwohnung im Haus Nis Randers in St. Peter-Ording
28.05.2013 | Jan Sass
GETTINGS und BrandCapture starten strategische Kooperation
GETTINGS und BrandCapture starten strategische Kooperation
27.01.2012 | Jan Sass
Picturesafe bringt den FOCUS auf den Amazon Kindle
Picturesafe bringt den FOCUS auf den Amazon Kindle
14.12.2011 | Jan Sass
Hamburger FanGator liefert maßgeschneiderte Fangates auf Facebook
Hamburger FanGator liefert maßgeschneiderte Fangates auf Facebook
Weitere Artikel in dieser Kategorie
16.01.2025 | Saupe Communication GmbH
Saupe Communication gewinnt zum dritten Mal den German Web Award und zählt zu Deutschlands Top 250 Agenturen
Saupe Communication gewinnt zum dritten Mal den German Web Award und zählt zu Deutschlands Top 250 Agenturen
13.01.2025 | moderatorenpool-deutschland
Der Podcast ist die neue Webseite
Der Podcast ist die neue Webseite
09.01.2025 | Urlaubsbox
Urlaubsbox als Erlebnis-Geschenkidee im Jahr 2025
Urlaubsbox als Erlebnis-Geschenkidee im Jahr 2025
06.01.2025 | Digitale Erfahrungen
Optimus Online: Die führende Plattform für maßgeschneiderte Online-Marketing-Lösungen
Optimus Online: Die führende Plattform für maßgeschneiderte Online-Marketing-Lösungen
06.01.2025 | A. Engelhardt Markenkonzepte GmbH
Der Ballermann "Partyoscar" 2025
Der Ballermann "Partyoscar" 2025