Im Rahmen dieser Untersuchung sollen eindeutige Zuordnungen von EDEKA-Filialen zu Filialgruppen erfolgen. Diese Gruppen sollen sich dazu eignen, in nachfolgenden Untersuchungen mit unterschiedlicher Preisdi_erenzierung versehen zu werden, dementsprechend ist eine Anforderung an die Klassi_kation, dass die Gruppen disjunkt sind. Jedes Untersuchungsobjekt – in diesem Fall jede EDEKA-Filiale – soll genau einem Cluster zugeordnet sein, also muss ein uberlappungsfreies Verfahren gewahlt werden.

Da das Vorgehen im Kontext von Big Data steht, kommen hierarchische Clusteranalyseverfahren kaum in Frage, sie sind schlichtweg nicht fur gro_e Datenmengen geeignet (vgl. [Hair et al., 2018], S. 219). Das k-Means-Verfahren im Allgemeinen ist ein bewahrtes Verfahren dafur, zu uberprufen “ob eine Klassi_kation (Clusterstruktur) vorliegt und wie die Objekte diesen zugeordnet sind” ([Bacher et al., 2010], S. 153), au_erdem es resultiert in uberlappungsfreien Clustern. Zudem ist es Teil der Predictive Analysis Library, wodurch bereits performante Funktionen zur Analyse zur Verfugung stehen. Das k-Means-Verfahren wird in Abschnitt 4.1.7 genauer beschrieben, zusammengefasst gruppiert der Algorithmus eine Menge von n Beobachtungen in k Cluster, wobei jede Beobachtung dem Cluster mit dem nachsten11 Clusterzentrum zugeordnet wird. Daraufhin werden diese Beobachtungen iterativ den neu entstandenen Clusterzentren zugeordnet, bis ein Abbruchkriterium erfullt ist (vgl. [Hair et al., 2018], S. 218). Dieses Kriterium setzt das Ziel, Ahnlichkeit innerhalb eines Clusters zu maximieren und Ahnlichkeit zwischen verschiedenen Clustern zu maximieren. Das k-Means-Verfahren ist ein heuristisches Verfahren (vgl. [Singh et al., 2013]) und konvergiert hiermit gegen eine optimale Losung (vgl. [Bacher et al., 2010], S. 301). Allerdings setzt das Verfahren metrische Daten voraus (vgl. [Hair et al., 2018]). Einer der Nachteile, die mit der Nutzung dieses Verfahrens einhergehen, ist die Tendenz des k-Means-Verfahrens, spharische Cluster mit gleicher Gro_e zu erzeugen (vgl. [de Craen et al., 2006]).

Da die Datenmatrix erst fur den Zweck der Clusteranalyse de_niert und gefullt wird, werden in Abschnitt 3.4 und 3.5 bereits im Vorfeld die verschiedenen Probleme, die in diesem Schritt zu losen waren, angegangen. Die Variablen be_nden sich alle auf selbem Messniveau, demselben Skalenniveau und besitzen auch dieselben Ma_einheiten, wodurch an dieser Stelle keine Transformation und Gewichtung mehr notwendig ist.

Teils ist durch das Verfahren bereits ein solches Ma_ vorgegeben, anderenfalls muss ein solches (Un-)Ahnlichkeitsma_ ausgewahlt werden. Singh et al. stellen in [Singh et al., 2013] dar, dass die euklidische Distanz sich bei der Nutzung des k- Means-Verfahrens am besten anbietet, verglichen mit der Manhattan-Distanz und der Minkowski-Distanz12 (vgl. [Singh et al., 2013]), daher wird zunachst nur die euklidische Distanz berucksichtigt.