November 6, 2023

Text To Hex

Hex Hex

Weiterlesen
Juli 17, 2023

Animate this

Simple Js Animation

Weiterlesen
Juli 6, 2023

Node js und der fetch

IpV4 vs IPV6

Weiterlesen
Juni 20, 2022

PythonDF

PDF hacking in Python

Weiterlesen
Cover Image

Text To Hex

Hex Hex

November 6, 2023 - Lesezeit: 14 Minuten

Manchmal kann es sinnvoll sein, sich Text in Hex anzeigen zu lassen. Besonders bevor man mit ihm weiterarbeitet, da es wirklich vorkommen kann, dass intern mit anderen Werten gearbeitet wird und diese Info dann im weiteren Verlauf fort ist, was zu Problemen führen kann. Dafür hab ich mal ne Funktion geschrieben:

function utf8ToHex(str) {
return Array.from(str).map(c =>
c.charCodeAt(0) < 128 ? c.charCodeAt(0).toString(16) :
encodeURIComponent(c).replace(/\%/g,'').toLowerCase()
).join('-');
}

Mithilfe dieser Funktion kann man einen String leicht analysieren. So geschehen mit folgender Funktion:

utf8ToHex(new Intl.NumberFormat('de-DE', {
style: 'currency',
currency: 'EUR',
}).format(20))

Das Ergebnis war sehr intressant:

32-30-2c-30-30-c2a0-e282ac

An der Stelle, wo ich ein Leerzeichen "20" vermutete war ein "c2a0". Sieht man beim Ausgeben nicht und ist beim Kopieren weg. Folgende Funktion funktionierte dann nicht wie gewünscht:

new Intl.NumberFormat('de-DE', {
style: 'currency',
currency: 'EUR',
}).format(20).match(new RegExp("0 €", 'gi'))

-> null

Ich erwartete, dass das geht. Weil ich ja nur ein Leerzeichen gesehen habe. Da war aber ein NOBREAK.

So geht es jetzt:

new Intl.NumberFormat('de-DE', {
style: 'currency',
currency: 'EUR',
}).format(20).replace('\xa0',' ').match(new RegExp('0 €','gi'))

2 Stunden testen und suchen, nur weil ich es nicht gesehen haben und es beim Kopieren verloren gegangen ist...


Cover Image

Animate this

Simple Js Animation

Juli 17, 2023 - Lesezeit: ~1 Minute

Wenn man mal schnell eine Idee ausprobieren will ist js immernoch am besten dafür geeignet. Hier mal schnell eine kleine Idee für einen lustigen Zeitvertreib. Einfach mit der Maus klicken und sich überraschen lassen:

Animation

Die ganzen Animationen sind mit ein wenig Mathe und einer grundsätzlichen Engine einfach implementiert.


Cover Image

Node js und der fetch

IpV4 vs IPV6

Juli 6, 2023 - Lesezeit: ~1 Minute

Wenn man in Node JS schnell mal nen fetch absetzten will und der dann auf einen lokalen Server geht, kann man ja schnell mal Localhost einsetzen. Das ist aber tricky, wenn der Server nur auf IPV4 hört, da NodeJS dann versucht über IPV6 zu verbinden.

Einfache Lösung: 0.0.0.0 eintragen, dann nimmt NodeJS auch die IPV4 Adresse. Nett.


Cover Image

PythonDF

PDF hacking in Python

Juni 20, 2022 - Lesezeit: 11 Minuten

Das PDF Format ist ein hervorragendes Format um Dokumente nicht nur per Email zu transportieren, sondern auch zum Drucken oder Archivieren. Die Unterstützung dieses Formats ist inzwischen so ziemlich überall verfügbar. Daher ist es naheliegend, dass auch Symolo dieses Format vollständig unterstützt. Intern wird zum Beispiel jeder einzelne Druckauftrag zuerst als PDF abgebildet und dann an den Drucker weitergereicht. Das bedeutet, dass immer die Möglichkeit zur Verfügung steht, dass gegebenenfalls das Dokument auch nur gespeichert wird oder zusätzlich als Archiveintrag hinterlegt werden kann. Zudem ist das zu erwartende Druckbild immer schon vorher ersichtlich. C# bietet hier schon seit langem Bibliotheken, die aus Java übernommen wurden. Jetzt ist es immer recht aufwendig in C# einfache Aufgaben mit PDFs zu erledigen, da dann immer erstmal ein komplettes Projekt aufgemacht werden muss und wir die ganzen großartigen Typenprüfungen haben. Mit Python kann man meistens schneller ein Prototyp entwickeln und die Logik grundsätzlich mal prüfen, bevor das Ganze dann sauber als C# in den Symoloserver wandert. Alternativ kann man natürlich auch das Python in de Server verfrachten und nutzen. Dazu ist gar nicht so viel notwendig.

Wie immer geht es mit entsprechenden Bibliotheken los:

import pdfplumber
from PyPDF2 import PdfFileWriter, PdfFileReader  # pip install PyPDF2

Plumber wird hierbei für die Analyse verwendet und PyPDF2 für die Verwaltung der Datei.

Fangen wir mal mit der Verwaltung an. Möchte man z.B. die Dateien in einzelne Seiten splitten ist das jetzt ganz einfach:

infile = "<myFile>.pdf"

input_pdf = PdfFileReader(open(infile, "rb"))

counter = 0

for p in input_pdf.pages:
    outfile = "data/Output_" + str(counter) + ".pdf"
    output_file = open(outfile, "wb")
    output = PdfFileWriter()
    output.addPage(p)
    counter += 1
    output.write(output_file)

Die Analyse des Inhaltes kann, mithilfe von pdfplumber, genauso einfach erfolgen:

FileToUse = "<myFileToUse>.pdf"  # sys.argv[1]

pdfText = ""

with pdfplumber.open(FileToUse) as pdf:

    for page in pdf.pages:
        pdfText += page.extract_text()

print(pdfText)

Und schon kann man die Text zum Beispiel mithilfe von Regex einfach analysieren und Informationen aus den Dateien gewinnen.

Hier sollte vielleicht noch erwähnt werden, dass das Verfahren so nicht auf Bilder in PDFs anwendbar ist. Entweder ist die PDF Datei einen elektronisch erstellte Datei oder es wurde nachträglich entsprechende OCR Daten angefügt. Für einen schnellen Test ist dieses Verfahren aber mehr als ausreichend. Wenn eine OCR Analyse benötigt wird, bringt der Symoloserver dafür bereits passende Funktionen mit. Da der Server ja unkompliziert via Python angesprochen werden kann, ist auch dann immer noch ein schnelles Prototypen unkompliziert realisierbar.