13.07.2020 17:21 zuletzt bearbeitet am 13.07.2020 17:57
Als Datenprüfer im WP-Bereich erhalte ich wie schon an anderer Stelle beschrieben oftmals mehr oder weniger gut strukturierte Rohdaten aus ERP-Systemen die ich zusätzlich vorab analysieren möchte (z.B. Artikellisten, Warenausgänge-Kopfzeilen, Wareneingänge-Kopzeilen, Lieferscheinpositionen oder Rechnungspostionen) um dann eine eigentliche Datenanforderung zu formulieren. Manchmal ist aber auch eine gezieltere Datenanforderung gar nicht möglich und man muss selbst die Spalten reduzieren oder anpassen, auf die man sich in der Prüfung konzentrieren möchte - schon aus Effizienz-Gründen und um "**bleep**-In/**bleep**-Out" zu vermeiden.
Die automatische Datentyperkennung nach Spalte von DATEV Datenprüfung ist sicher gut gemeint und soll hier unterstützen, z.B. auch den "nicht so fitten" Datenprüfer zu befähigen, die Datentypen für jede Spalte effizient halbautomatisch zuzuordnen. Hierfür analysiert diese die ersten 50 Treffer, interpretiert die Inhalte (kommen Ziffern, auch Buchstaben oder z.B. bekannte Datumsformate vor) und ordnet dann einen möglichst passenden Datentyp zu.
Leider liegt diese Automatik in der Praxis aber (zumindest bei größeren Exporten aus ERP-Systemen) zunächst mit nur 50 Zeilen bei der Interpretation oftmals und reproduzierbar in der Praxis völlig daneben. Wenn eine Spalte bspsw. in den ersten 50 Zeilen nur leere Inhalte liefert und dann erst in Zeile 238.231 überhaupt etwas vorkommt, ordnet sie meistens "unbekannt" o.ä. zu. Wenn in einem Feld in den ersten 50 Zeilen nur Ziffern vorkommen, haut sie sogar richtig daneben und ordnet "Zahl" vor, obwohl dann bereits in der 51.Zeile eine Artikelnummer mit Buchstaben existiert, o.ä.
Meine Vorschläge hier wäre, die Anzahl der Zeilen die für die Automatik herangezogen werden einstellbar zu machen. Darüber hinaus wären zumindest min. 1.000 Zeilen als Vorbelegung hilfreich, um die gröbsten Fehlgriffe der bisherigen Erkennung zu reduzieren. Noch besser wäre es, wenn man die Automatik in Sonderfällen ausschalten kann und alle Felder dann als TEXT oder UNBEKANNT (aka Datentyp "VARIANT") zugeordnet werden könnten. Dann könnte man wenigstens erstmal importieren und sich dann in berechneten Feldern oder nachträgliche Umwandlung in ZAHL o.ä. um kniffligere Tabellen und Feldern kümmern.
Mir ist klar, dass die Begrenzung auf 50 Zeilen seitens DATEV aus Performancegründen erfolgt ist. Aber: 1.000 Zeilen sollten kein so großer Unterschied für die Automatik sein, und: wenn ich es selbst im Bedarfsfall abändern kann, weiß ich und nehme es dann auch bewusst in Kauf, dass die automatische Erkennung etwas länger dauert (kann aber dafür dann Zeit sparen, die ansonsten bei der "unnötigen" manuellen Spaltenzuordnung drauf geht - zu der Effizienz der manuellen Zuordnung über die GUI an sich habe ich ja bereits eine gesonderte "Idea" eingestellt: https://t1p.de/4et9 ).
So wie die Automatik jetzt funktioniert, ist sie in vielen Fällen bei ERPs mit Exporten bei vielen Spalten sogar hinderlich, da sie den Anwender ja zwingt, fast jede zweite Spalte einmal anzufassen und neu zuzuordnen, wenn man in 50 Zeilen nicht rein zufällig ein repräsentatives Beispiel für den Tabellenaufbau hat.
Grüße, Bernd Wettstein.
Hallo Herr Wettstein,
mit der Programmversion 3.1 (DATEV-Programme 14.0, voraussichtliche Bereitstellung Anfang September) werden Sie beim Import einer TXT- oder CSV-Datei die Anzahl der in der Vorschau angezeigten (und damit gleichzeitig für den vorgeschlagenen Datentyp ausgewerteten) Datensätze frei vergeben können.
Viele Grüße,
Jochen Scheer
DATEV eG
14.07.2020 08:48
Hallo Herr Wettstein,
mit der Programmversion 3.1 (DATEV-Programme 14.0, voraussichtliche Bereitstellung Anfang September) werden Sie beim Import einer TXT- oder CSV-Datei die Anzahl der in der Vorschau angezeigten (und damit gleichzeitig für den vorgeschlagenen Datentyp ausgewerteten) Datensätze frei vergeben können.
Viele Grüße,
Jochen Scheer
DATEV eG
14.07.2020 10:43
Dann sind wir doch mal sehr auf die kommenden Updates im August & dann schließlich im September gespannt. 🙂
Viele Grüße, Bernd Wettstein.
31.10.2020 18:26
Hallo Herr @Jochen_Scheer , super dass auch diese Funktion umgesetzt werden konnte. Das wird sicher helfen die automatische Erkennung bei unbekannten Datenstrukturen und bei Fremddaten zu verbessern und fehlerhafte Typenerkennungen reduzieren. Vielen Dank.
Grüße, Bernd Wettstein.