python | blog.symolo.de

PythonDF

PDF hacking in Python

Juni 20, 2022 - Lesezeit: 11 Minuten

Das PDF Format ist ein hervorragendes Format um Dokumente nicht nur per Email zu transportieren, sondern auch zum Drucken oder Archivieren. Die Unterstützung dieses Formats ist inzwischen so ziemlich überall verfügbar. Daher ist es naheliegend, dass auch Symolo dieses Format vollständig unterstützt. Intern wird zum Beispiel jeder einzelne Druckauftrag zuerst als PDF abgebildet und dann an den Drucker weitergereicht. Das bedeutet, dass immer die Möglichkeit zur Verfügung steht, dass gegebenenfalls das Dokument auch nur gespeichert wird oder zusätzlich als Archiveintrag hinterlegt werden kann. Zudem ist das zu erwartende Druckbild immer schon vorher ersichtlich. C# bietet hier schon seit langem Bibliotheken, die aus Java übernommen wurden. Jetzt ist es immer recht aufwendig in C# einfache Aufgaben mit PDFs zu erledigen, da dann immer erstmal ein komplettes Projekt aufgemacht werden muss und wir die ganzen großartigen Typenprüfungen haben. Mit Python kann man meistens schneller ein Prototyp entwickeln und die Logik grundsätzlich mal prüfen, bevor das Ganze dann sauber als C# in den Symoloserver wandert. Alternativ kann man natürlich auch das Python in de Server verfrachten und nutzen. Dazu ist gar nicht so viel notwendig.

Wie immer geht es mit entsprechenden Bibliotheken los:

import pdfplumber
from PyPDF2 import PdfFileWriter, PdfFileReader  # pip install PyPDF2

Plumber wird hierbei für die Analyse verwendet und PyPDF2 für die Verwaltung der Datei.

Fangen wir mal mit der Verwaltung an. Möchte man z.B. die Dateien in einzelne Seiten splitten ist das jetzt ganz einfach:

infile = "<myFile>.pdf"

input_pdf = PdfFileReader(open(infile, "rb"))

counter = 0

for p in input_pdf.pages:
    outfile = "data/Output_" + str(counter) + ".pdf"
    output_file = open(outfile, "wb")
    output = PdfFileWriter()
    output.addPage(p)
    counter += 1
    output.write(output_file)

Die Analyse des Inhaltes kann, mithilfe von pdfplumber, genauso einfach erfolgen:

FileToUse = "<myFileToUse>.pdf"  # sys.argv[1]

pdfText = ""

with pdfplumber.open(FileToUse) as pdf:

    for page in pdf.pages:
        pdfText += page.extract_text()

print(pdfText)

Und schon kann man die Text zum Beispiel mithilfe von Regex einfach analysieren und Informationen aus den Dateien gewinnen.

Hier sollte vielleicht noch erwähnt werden, dass das Verfahren so nicht auf Bilder in PDFs anwendbar ist. Entweder ist die PDF Datei einen elektronisch erstellte Datei oder es wurde nachträglich entsprechende OCR Daten angefügt. Für einen schnellen Test ist dieses Verfahren aber mehr als ausreichend. Wenn eine OCR Analyse benötigt wird, bringt der Symoloserver dafür bereits passende Funktionen mit. Da der Server ja unkompliziert via Python angesprochen werden kann, ist auch dann immer noch ein schnelles Prototypen unkompliziert realisierbar.

Websocket in Python

Kommunikation ist alles

Juni 14, 2022 - Lesezeit: 10 Minuten

Wenn man mit dem Symolo Server kommunizieren will, ist nicht einfacher als mit einem Websocket darauf zuzugreifen. Das Protokoll ist einfach und lässt sich schnell umsetzten. Keine kompizierten XML Querys oder umfangreiche Anmeldung ist erforderlich. Lediglich ein Autentifizierungstoken muss vorliegen und kann im Vorfeld angefragt werden. Oder, wenn es komplizierter sein soll, kann man auch eine Sitzung anfordern und ist da sogar mit einer Benutzerkennung unterwegs. Mithilfe dieses Verfahrens lassen sich kleinere Anforderungen schnell umsetzten und der Websocket ist inzwischen in den meisten höheren Programmiersprachen Out-of-the-Box verfügbar. Zumindest in den Programmiersprachen in denen Symolo am meisten unterwegs ist. Inzwischen gehört auch Python dazu, da getreu dem Motto, "the right tool for the job", Python bestimmte Aufgaben deutlich eleganter oder effektiver erledigen kann als eine andere höhere Programmiersprache.

Um nun mit dem Symoloserver in Kontakt zu treten ist lediglich das websocket-client paket erforderlich.

from websocket import create_connection # pip install websocket-client

Um die Kommunikation zu vereinfachen können wir noch die JSON Bibliothek importieren, die unser Nachrichtenerstellen nochmal vereinfacht.

import json

Nun ist es uns zum Beispiel möglich ein einfaches Dateihochladen zu realisieren:

ws = create_connection("<myWebsocketEndpoint>")
ws.send(json.dumps({
    "sid": "<mySecretCode>",
    "cmd": "dsf.cmd.verwaltung.FileManager.WriteFileBase64",
    "par": [
        '<myFilename>',
        '<myBase64Data>'
    ]
}))
ws.close()

Damit kann nun eine Datei im Server hinterlegt werden. Wir verzichten hier auf die Auswertung der Antwort, weil diese hier nicht relevant ist. Wenn das schief geht, kann das im Serverlog eingesehen werden.

Natürlich kann man den Server auch nach Informationen fragen und bekommt sogar Antwort. Auch hier ist das Protokoll einfach gehalten:

ws = create_connection("<myWebsocketEndpoint>")

ws.send(json.dumps({
    "sid": "<mySecretCode>",
    "cmd": "dsf.server.Info.GetInstanceName",
    "par": []
}))

result = ws.recv()

print(result)

ws.close()

Hier ist die Interpretation der Antwort von der Frage abhängig, der Server versucht immer den einfachsten Datentypen zu senden. Kompliziertere Strukturen werden in JSON abgebildet. Das lässt sich in Python aber auch wieder einfach laden:

data = json.loads(result)

Mithilfe dieser Werkzeuge wird die Kommunikation mit dem Symoloserver einfach möglich und sämtliche Funktionen des Servers können nun verwendet werden. Hierzu zählen z.B. dynamicszugriff via SQL, erstellen und drucken von PDFs unter Windows wie Linux, Zugriff auf verschiedenste objektrelationale Datenbanken, Dateiverwaltung oder Nachrichtenverteilsystem. Darüber sollte ich mal was schreiben.

Nachdem das jetzt geklärt ist, bin ich mal gespannt, was in Python damit alles angestellt wird.

Node und Python - Heute CLI

Erstellen einer CLI Applikation

November 15, 2020 - Lesezeit: 9 Minuten

Es ist toll, dass man sobald man die entsprchenden Umgebungen installiert hat, man sowohl in Python als auch in Node.js einfach so kleine und große Skripte ausführen kann. Gerade bei Linux ist das durch die Paketmanager sehr einfach gestaltet. Und da viele andere Installationen ja teilweise schon die Hälfte der benötigten Pakete mitbringen, muss auch meistens nicht mehr viel installiert werden.

Wie ist es aber jetzt, wenn ich ein kleines Skript einem Kunden zukommen lassen will ohne dem Kunden eine komplette installation zuzumuten. Nicht jeder möchte ein komplettes Enticklungsystem auf seinem Rechner haben oder als Admin auch noch diese Installationen supporten. Im schlimmsten Fall müssen gegebenenfalls auch noch zusätzliche Installationen druchgeführt werden, die nicht ganz so unkompliziert sind.

Es gibt in Python wie auch in Node.js die Möglichkeit die Skripte in eine CLI Applikation zu verpacken und somit unter Windows, Linux und macOS die Möglichkeit zu schaffen ohne komplizierte Installationen das Ausführen von Skripten zu ermöglichen. Hierbei konnen kleine 2 Zeiler verwendet werden als auch ganze, vollwertige Programme erstellt und weitergegeben werden.

Zwischen Node und Python gibt es bei kleinen Anwendungen, wie z.B. Auflisten und Vergelichen eines Verzichnisinhaltes kaum einen Unterschied in der Implementierung. Hierbei entscheidet die persönliche Preferenz und der persönliche Entwicklungstand des Entwicklers wohl am meisten über die Wahl der Umgebung. Aber es gibt noch weitere Fakten, die in die Überlegung mit einfließen sollten. Um mir hier einen Überblick zu verschaffen und weitere objektive Kriterien für eine Entschidung zu sammeln, habe ich ein kleines Testprojekt sowohl in Python als auch in Node erstellt, diese in eine CLI Applikation gepackt und verglichen. Eins vorweg, es gibt keinen Sieger, da auch hier die Entschidung immer vom Anwendungsfall abhängig ist. Mein Test kann hier nur grob in eine Richtung zeigen und vielleicht im Vorfeld Impulse liefern.

Der Test

Um die komplexität der Aufgabe nicht unnötig zu steigern und eventuell das Ergebnis unnötig zu verzerren habe ich absichtlich ein sehr einfaches Problem genommen.

Node	Python
const readline = require('readline'); console.log("Hello World"); const rl = readline.createInterface({ input: process.stdin, output: process.stdout }); rl.question('Press Enter to continue...', (answer) => { rl.close(); });	print("Hello, World!") input("Press Enter to continue...")

Die Auswertung

Wie zu erwarten lies sich das Problem mit beiden Umgebungen lösen. In keiner der Umgebungen habe ich unnötige Klimzüge durchführen müssen um die Aufgabe zu lösen. Es haben sich allerdings ein paar Unterschiede gezeigt, die ich hier kurz besprechen möchte:

Die Dateigröße

Hier zeigt sich ein großer unterschied, der beachtung finden sollte. Die erstellte Datei ist in Node um einvielfaches großer als das Gegenstück in Python. Dieser Unterschied sollte im Hinblick auf ein Deploy beachtung finden. Klar Speicherplatz kostet nix und ein paar MB hat man immer frei. Aber Bandbreite ist immer noch ein Thema. Es kann also durchaus Sinn machen, je nach Projektumgebung zu prüfen ob kleinere Dateien hilfreicher sind.

Startgeschwindigkeit

Wenn die Applikation gestartet wird ist es in Python so, dass der Quelltest kompiliert wird. Das dauert einen kleinen Moment. Die Nodeapplikation hingegen interpretiert auch beim Start ganz normal. Es ist anzunehmen, dass die Ausführgeschwindigkeit eines Pythonprogramms damit deutlich performanter ausfällt als bei Node. Im vorliegenden einfache Fall ist es allerdings so, dass die Nodeapplikation schon wieder beendet ist, da ist Python noch nicht einmal richtig gestartet. Auch hier gilt wieder, dass es vom Anwendungfall abhängig ist ob dieses Verhalten erwünscht ist.

Portabilität

Während sich Nodeapplikationen auf einem Windowssystem auch für Linux und macOS erstellen lassen ist dies bei Python leider nicht möglich. Obwohl beide Systeme hier ein vorgefertigtes Kompilat runterladen und den eigenen Quelltest einfach núr einbetten. Wenn also Python auch für Linux laufen soll, muss man das Ganze auch unter Linux erstellen. Das ist, wenn man das Programm weiterreichen möchte und nicht dasselbe Betriebssytem wie das Ziel hat, etwas umständlich. Wenn man dann möglichst viele Ziele abdecken möchte ist das dann eher ein bisschen hinderlich.

Fazit

Wie schon erwähnt, so richtig sticht hier keine der Umgebungen hervor. Beide haben Stärken und Schwächen, auch wenn beide einfache Aufgaben erfüllen können. Trotzdem sollten die hier vorgestellten Punkte nicht außer Acht gelassen werden, da diese einem das Leben unter Umständen schwermachen können.

PythonDF

Websocket in Python

Node und Python - Heute CLI

PythonDF

PDF hacking in Python

Juni 20, 2022 - Lesezeit: 11 Minuten

Websocket in Python

Kommunikation ist alles

Juni 14, 2022 - Lesezeit: 10 Minuten

Node und Python - Heute CLI

Erstellen einer CLI Applikation

November 15, 2020 - Lesezeit: 9 Minuten

Der Test

Die Auswertung

Die Dateigröße

Startgeschwindigkeit

Portabilität

Fazit

Kategorien

Navigation

Tags