Today’s scientific and industrial data-sets often cover all aspects of the well-known big data characteristics (value, velocity, variety, veracity, volume). Especially in astronomy, data analysis methods with big data compatibility are key to solve the problem statements of this field. Based on pre-processed data dedicated features are extracted. In most cases a model-driven approach is chosen to generate those features. Both, the extracted features as well as the uncertainties of the model-fitting are stored in relational databases with the original data aside. Therefore scientists have to define selection criteria explicitly in order to retrieve the objects of interest. Instead of working on the original data the analysis is limited to the pre-extracted features only. This requires to have according features in the database and an a-priori knowledge of the nature of the requested objects. Rare and odd objects are hard to be detected or filtered for follow-up analysis. To allow for a more explorative access to the scientific data, unsupervised methods like clustering and outlier-detection are helpful. Clustering in scientific environments is a challenging task caused by the complexity and size of the data. Already current data-sets can no longer be analyzed efficiently with the current scheme. New upcoming projects will increase exponentially in size and complexity, e.g. the Square Kilometre Array (SKA) archive will be limited to 1 Exabyte caused by the costs projected in 2011. The aim of this project is to provide an powerful method to analyze large data-sets based on similarities of items in high-dimensions. In this research project the science case is analyzing unlabeled data-sets from the Sloan Digital Sky Survey 3, Data Release 10 (SDSS3 DR10) with a focus on similarity/dissimilarity relationship of two objects. Each object is represented by a feature vector of approx. 5000 dimensions. Those vectors display a numeric value of a captured spectrum with uncorrelated noise for all specific wavelengths. The whole data-set consists of 3 million objects with 60 GBytes of raw data, total. As all objects have to be compared with each other the resulting complexity is O(n2) in computation and storage.
Reflecting the science-case mentioned, a naive full analysis with distance- , density clustering algorithms would end in 542 days of processing time using a single similarity measure on a 128 cores computing-cluster. This assumes a time of 2 ms per comparison including loading and saving data. Effectively the 9 × 1012 comparisons would produce between 24 TByte and 120 PByte of resulting data depending on the level of detail. This project aims at developing a method analyzing this data in an acceptable timeframe.
This project develops a method for efficient clustering of large high dimensional data-sets in astronomy. Important aspects are:
Astroinformatics Group (AIN)
Data Mining and Uncertainty Quantification Group (DMQ)
Diese Seite ist nur auf deutsch verfügbar
Zur englischen Seite wechseln oder auf dieser Seite bleiben.
Wir nutzen Cookies auf unserer Website. Einige von ihnen sind essenziell, während andere uns helfen, diese Website und Ihre Erfahrung zu verbessern.
Hier finden Sie eine Übersicht über alle verwendeten Cookies. Sie können Ihre Einwilligung zu ganzen Kategorien geben oder sich weitere Informationen anzeigen lassen und so nur bestimmte Cookies auswählen.
Essenzielle Cookies ermöglichen grundlegende Funktionen und sind für die einwandfreie Funktion der Website erforderlich.
Cookie-Informationen anzeigen Cookie-Informationen ausblenden
Name | |
---|---|
Anbieter | Eigentümer dieser Website |
Zweck | Speichert die Einstellungen der Besucher, die in der Cookie Box von Borlabs Cookie ausgewählt wurden. |
Cookie Name | borlabs-cookie |
Cookie Laufzeit | 1 Jahr |
Statistik Cookies erfassen Informationen anonym. Diese Informationen helfen uns zu verstehen, wie unsere Besucher unsere Website nutzen.
Cookie-Informationen anzeigen Cookie-Informationen ausblenden
Akzeptieren | |
---|---|
Name | |
Anbieter | HITS gGmbH |
Zweck | Cookie von Matomo für Website-Analysen. Erzeugt statistische Daten darüber, wie der Besucher die Website nutzt. |
Cookie Name | _pk_*.* |
Cookie Laufzeit | 13 Monate |
Inhalte von Videoplattformen und Social-Media-Plattformen werden standardmäßig blockiert. Wenn Cookies von externen Medien akzeptiert werden, bedarf der Zugriff auf diese Inhalte keiner manuellen Einwilligung mehr.
Cookie-Informationen anzeigen Cookie-Informationen ausblenden
Akzeptieren | |
---|---|
Name | |
Anbieter | |
Zweck | Wird verwendet, um Facebook-Inhalte zu entsperren. |
Datenschutzerklärung | https://www.facebook.com/privacy/explanation |
Host(s) | .facebook.com |
Akzeptieren | |
---|---|
Name | |
Anbieter | |
Zweck | Wird zum Entsperren von Google Maps-Inhalten verwendet. |
Datenschutzerklärung | https://policies.google.com/privacy |
Host(s) | .google.com |
Cookie Name | NID |
Cookie Laufzeit | 6 Monate |
Akzeptieren | |
---|---|
Name | |
Anbieter | |
Zweck | Wird verwendet, um Instagram-Inhalte zu entsperren. |
Datenschutzerklärung | https://www.instagram.com/legal/privacy/ |
Host(s) | .instagram.com |
Cookie Name | pigeon_state |
Cookie Laufzeit | Sitzung |
Akzeptieren | |
---|---|
Name | |
Anbieter | OpenStreetMap Foundation |
Zweck | Wird verwendet, um OpenStreetMap-Inhalte zu entsperren. |
Datenschutzerklärung | https://wiki.osmfoundation.org/wiki/Privacy_Policy |
Host(s) | .openstreetmap.org |
Cookie Name | _osm_location, _osm_session, _osm_totp_token, _osm_welcome, _pk_id., _pk_ref., _pk_ses., qos_token |
Cookie Laufzeit | 1-10 Jahre |
Akzeptieren | |
---|---|
Name | |
Anbieter | |
Zweck | Wird verwendet, um Twitter-Inhalte zu entsperren. |
Datenschutzerklärung | https://twitter.com/privacy |
Host(s) | .twimg.com, .twitter.com |
Cookie Name | __widgetsettings, local_storage_support_test |
Cookie Laufzeit | Unbegrenzt |
Akzeptieren | |
---|---|
Name | |
Anbieter | Vimeo |
Zweck | Wird verwendet, um Vimeo-Inhalte zu entsperren. |
Datenschutzerklärung | https://vimeo.com/privacy |
Host(s) | player.vimeo.com |
Cookie Name | vuid |
Cookie Laufzeit | 2 Jahre |
Akzeptieren | |
---|---|
Name | |
Anbieter | YouTube |
Zweck | Wird verwendet, um YouTube-Inhalte zu entsperren. |
Datenschutzerklärung | https://policies.google.com/privacy |
Host(s) | google.com |
Cookie Name | NID |
Cookie Laufzeit | 6 Monate |