Das PDF Format ist ein hervorragendes Format um Dokumente nicht nur per Email zu transportieren, sondern auch zum Drucken oder Archivieren. Die Unterstützung dieses Formats ist inzwischen so ziemlich überall verfügbar. Daher ist es naheliegend, dass auch Symolo dieses Format vollständig unterstützt. Intern wird zum Beispiel jeder einzelne Druckauftrag zuerst als PDF abgebildet und dann an den Drucker weitergereicht. Das bedeutet, dass immer die Möglichkeit zur Verfügung steht, dass gegebenenfalls das Dokument auch nur gespeichert wird oder zusätzlich als Archiveintrag hinterlegt werden kann. Zudem ist das zu erwartende Druckbild immer schon vorher ersichtlich. C# bietet hier schon seit langem Bibliotheken, die aus Java übernommen wurden. Jetzt ist es immer recht aufwendig in C# einfache Aufgaben mit PDFs zu erledigen, da dann immer erstmal ein komplettes Projekt aufgemacht werden muss und wir die ganzen großartigen Typenprüfungen haben. Mit Python kann man meistens schneller ein Prototyp entwickeln und die Logik grundsätzlich mal prüfen, bevor das Ganze dann sauber als C# in den Symoloserver wandert. Alternativ kann man natürlich auch das Python in de Server verfrachten und nutzen. Dazu ist gar nicht so viel notwendig.
Wie immer geht es mit entsprechenden Bibliotheken los:
Plumber wird hierbei für die Analyse verwendet und PyPDF2 für die Verwaltung der Datei.
Fangen wir mal mit der Verwaltung an. Möchte man z.B. die Dateien in einzelne Seiten splitten ist das jetzt ganz einfach:
Die Analyse des Inhaltes kann, mithilfe von pdfplumber, genauso einfach erfolgen:
Und schon kann man die Text zum Beispiel mithilfe von Regex einfach analysieren und Informationen aus den Dateien gewinnen.
Hier sollte vielleicht noch erwähnt werden, dass das Verfahren so nicht auf Bilder in PDFs anwendbar ist. Entweder ist die PDF Datei einen elektronisch erstellte Datei oder es wurde nachträglich entsprechende OCR Daten angefügt. Für einen schnellen Test ist dieses Verfahren aber mehr als ausreichend. Wenn eine OCR Analyse benötigt wird, bringt der Symoloserver dafür bereits passende Funktionen mit. Da der Server ja unkompliziert via Python angesprochen werden kann, ist auch dann immer noch ein schnelles Prototypen unkompliziert realisierbar.
Wenn man mit dem Symolo Server kommunizieren will, ist nicht einfacher als mit einem Websocket darauf zuzugreifen. Das Protokoll ist einfach und lässt sich schnell umsetzten. Keine kompizierten XML Querys oder umfangreiche Anmeldung ist erforderlich. Lediglich ein Autentifizierungstoken muss vorliegen und kann im Vorfeld angefragt werden. Oder, wenn es komplizierter sein soll, kann man auch eine Sitzung anfordern und ist da sogar mit einer Benutzerkennung unterwegs. Mithilfe dieses Verfahrens lassen sich kleinere Anforderungen schnell umsetzten und der Websocket ist inzwischen in den meisten höheren Programmiersprachen Out-of-the-Box verfügbar. Zumindest in den Programmiersprachen in denen Symolo am meisten unterwegs ist. Inzwischen gehört auch Python dazu, da getreu dem Motto, "the right tool for the job", Python bestimmte Aufgaben deutlich eleganter oder effektiver erledigen kann als eine andere höhere Programmiersprache.
Um nun mit dem Symoloserver in Kontakt zu treten ist lediglich das websocket-client paket erforderlich.
Um die Kommunikation zu vereinfachen können wir noch die JSON Bibliothek importieren, die unser Nachrichtenerstellen nochmal vereinfacht.
Nun ist es uns zum Beispiel möglich ein einfaches Dateihochladen zu realisieren:
Damit kann nun eine Datei im Server hinterlegt werden. Wir verzichten hier auf die Auswertung der Antwort, weil diese hier nicht relevant ist. Wenn das schief geht, kann das im Serverlog eingesehen werden.
Natürlich kann man den Server auch nach Informationen fragen und bekommt sogar Antwort. Auch hier ist das Protokoll einfach gehalten:
Hier ist die Interpretation der Antwort von der Frage abhängig, der Server versucht immer den einfachsten Datentypen zu senden. Kompliziertere Strukturen werden in JSON abgebildet. Das lässt sich in Python aber auch wieder einfach laden:
Mithilfe dieser Werkzeuge wird die Kommunikation mit dem Symoloserver einfach möglich und sämtliche Funktionen des Servers können nun verwendet werden. Hierzu zählen z.B. dynamicszugriff via SQL, erstellen und drucken von PDFs unter Windows wie Linux, Zugriff auf verschiedenste objektrelationale Datenbanken, Dateiverwaltung oder Nachrichtenverteilsystem. Darüber sollte ich mal was schreiben.
Nachdem das jetzt geklärt ist, bin ich mal gespannt, was in Python damit alles angestellt wird.
Arraylist ist der tollste Datentyp überhaupt. Ich mag normale Arrays. Wie machen wir da jetzt ein draus. Ganz einfach:
ArrayList newList = new ArrayList();
newList.Add("1");
newList.Add("2");
string[] ParamNameListArray = (string[])newList.ToArray(typeof(string));
object[] ParamDataListArray = (object[])newList.ToArray(typeof(object));
Console.WriteLine(ParamNameListArray);
Console.WriteLine(ParamDataListArray);
C# und die Typen. Wenn man fast nur noch in JavaScript unterwegs ist, ist das schon fast eine Tortur.
Jetzt gibt es soviele verschiedene Betriebssysteme und so viele unterschiedliche Musikplayerprogramme von VLC über mplayer oder der im Windows integrierte Grooveplayer. Nur sind die meisten Programme entweder nicht direkt installiert oder umständlich einzurichten, wollen ins Internet um irgendwas runterzuladen oder erstmal die ganze Festplatte durchsuchen. Ich will doch einfach nur ein paar mp3 Dateien anhören. Aber es gibt ja glücklicherweise den Browser, der das Abspielen von Musikdateien im HTML5 Standard ja bereits unterstützt. Super, also schnell die mp3 Datei gesucht und via Drag und Drop in den Browser ziehen und schon wird sie abgespielt. Nach 5 Minuten dann die nächste Datei draufziehen. Und dann nach 5 Min.? Genau: nächste Datei draufziehen. Nach 20 Min. war mir das dann zu doof und zu zeitaufwändig. Aber bis ich jetzt im Grooove mir was zusammengezogen habe und das Ganze dann noch für mein Linux und mein Androiden zusammengstellt habe, kam mir die Idee, warum nicht alles einmal fertig machen und auf jeder Plattform genießen. Also hab ich das Ganze mal in eine Website gepackt:
Ok, das war easy. Jetzt kann ich eine Datei abspielen. Die Datei muss im selben Ordner liegen und das Ganze kann, in zusammenarbeit mit einem einfachen Webserver, sogar schon gestreamt werden. Ist aber nur eine Datei, brauchen wir noch eine Playlist:
Ok, jetzt haben wir eine Playlist. Wenn ich die aber anklicke, dann navigiert der Browser und ich bin soweit wie vorher. Dann packen wir doch einfach noch ein bisschen oldskool Javascript dazu:
So, jetzt kann ich mir in der Playlist aussuchen was ich will und die ganze Liste läuft solange ich nicht stoppe. Ich kann ich der Playlist entweder lokale Einträge verwenden oder Quellen aus dem Internet. Das Ganze lässt sich mithilfe eines Webservers bequem bedienen und funktioniert sogar mit der Xbox. Was will man mehr. Kein generve vom VLC für Updates oder das Verhalten des mplayers unter windows. Man muss nur seinen Browser aktuell halten und das war's schon.
Das Javascript in diesem Beispiel kann zweifelsohne noch deutlich verbessert werden. Ist aber für den vorliegenden Fall vollkommen ausreichend. Denn sonst hätt ich ja auch einen Player installieren können.