| Sobre o SDSS | ||
![]() | ||
| Os Telescópios | ||
| Os Instrumentos | ||
| Os Dados | ||
| - Imagens | ||
| - Termos | ||
| - Espectros | ||
| - Bases de Dados | ||
| Primeiras Descobertas | ||
| Data Releases | ||
| Detalhes dos Dados | ||
| www.sdss.org | ||
Processando os Dados
Em uma noite limpa e escura, a luz que viajou através do espaço durante bilhões de anos, chega ao topo das montanhas do sul do Novo México e entra na sofisaticada instrumentação do telescópio de 2,5 metros do SDSS. A luz deixa de existir como fótons, mas a informação nela contida persiste sob a forma de imagens digitais gravadas em fitas magnéticas. Cada imagem é composta de uma miríade de pixels (elementos de imagem); cada pixel captura o brilho de de cada pequeno ponto do céu. Mas o céu não é feito de pixels. A tarefa dos gerenciadores de dados do Sloan Digital Sky Survey é transformar dados digitais - os pixels eletronicamente gravados no topo da montanha no Novo México - e transformá-los em informações reais sobre objetos reais. Os astrônomos processam os dados para produzir informações que eles possam usar para identificar e medir propriedades de estrelas e galáxias. Os astrônomos devem ser capazes de encontrar, distingüir e medir o brilho de objetos celestes e então organizar as estrelas, galáxias e quasares em um catálogo. Os experts em computação comparam o projeto a algo como criar uma lista telefônica de Manhattan dos céus. Cada estrela é como uma pessoa na lista telefônica, com um nome e endereço. Existem até páginas amarelas neste catálogo celeste: o levantamento espectroscópico, uma seção contendo um número menor de itens com informações mais detalhadas. Os dados digitalizados dos espectros dão informações a respeito das velocidades com as quais as galáxias se afastam da Terra, permitindo-nos calcular as suas distâncias. Os cientistas precisam primeiro processar os dados rapidamente (em menos de uma semana) porque os astrônomos do SDSS necessitam das informações para configurar os telescópios para funcionar da forma mais eficiente durante a próxima fase escura da lua. Se passar muito tempo, os objetos alvo irão se por, conforme as estações mudam.
Os cientistas do Fermilab têm liderado o desenvolvimento daquilo que o SDSS chama de "pipelines" de processamento de dados. Um pipeline é um programa de computador que processa automaticamente dados digitalizados para extrair certos tipos de informação. O termo "pipeline" [encanamento] denota a natureza automatizada deste processamento; os dados "fluem" através dos "encanamentos" com pouca intervenção humana. Por exemplo, o pipeline astrométrico, construído por cientistas da computação do U.S. Naval Observatory, determina as exatas posições bidimensionais de estrelas e galáxias no céu. Neste caso, dodos digitalizados de fótons que atingem o telescópio de 2,5 m entram em um lado do pipeline astrométrico e posições de objetos saem do outro lado. Entre uma ponta e outra, ao longo do caminho do pipeline, os programas convertem pixels em informações reais. Os pipelines de dados são resultado de uma colaboração. A Princeton University scientists construiu o pipeline fotométrico e os cientistas da University of Chicago criaram o pipeline espectroscópico. A contribuição do Fermilab inclui inclui o pipeline do telescópio de monitoramento e o que seleciona candidatos para o levantamento espectroscópico. O Fermilab também coordena a boa operação de todos os pipelines. O processamento de informação no SDSS começa quando os CCDs coletam a luz. "Pacotes" de carga são convertidos em sinais digitalizados e escritos em fitas no próprio observatório. As fitas viajam do Apache Point até o Fermilab por carregamento expresso. As fitas vão para o Feynman Computing Center do Fermilab, onde seus dados são lidos e enviados para vários pipelines: dados espectroscópicos para o pipeline espectroscópico, dados de monitoramento do telescópio para o pipeline de monitoramento, e dados de imageamento para os pipelines de astrometria, fotometria, seleção de alvos e dois outros. Desses pipelines saem infomações sobre estrelas, galáxias e quasares. Essa informção é inserida na Base de Dados de Operações, escrita no Fermilab e no Naval Observatory, que coletam as informações necessárias para manter o projeto funcionando. Finalmente, as informações da Base de Dados de Operações serão passadas para a base de dados científica desenvolvida pelos cientistas da Johns Hopkins University. Esta base de dados científica tornará os dados prontamente disponíveis aos cientistas do projeto. Terminologia no SDSSPara entender como as informações são processadas, convém entender os termos usados pelos cientistas do SDSS para descrever os dados: Um scanline ["linha de varredura"] são os dados de um único conjunto de CCDs que varrem
a mesma área do céu. Cada conjunto de 5 CCDs é acomodado em uma câmara
refrigerada, sendo que cada uma delas contém 6 conjuntos de CCDs separados por
80% da largura do CCD. A área do céu varrida pelas 6 colunas de CCDs, ou
"camcols", é chamada de strip [faixa]. Uma dada área do céu é imageada
realizando-se duas varreduras sucessivas, deslocadas entre si por aproximadamente
uma largura do CCD, para preencher um stripe [listra].
O fluxo de dados de cada CCD em uma scanline é cortado em uma série de
frames [quadros] que medem 2048 x 1489 pixels e se sobrepõem em 10% com os
frames adjacentes. Os frames dos 5 filtros para uma dada parte do céu são chamados
de field [campo].
Um run ["corrida"] é o conjunto de dados coletados por uma passagem contínua do
telescópio de 2,5 m pelo céu, cobrindo uma strip. Tipicamente, um run leva algumas
horas para ser feito.
As Imagens
Calibrações astrométricas (que designam coordenadas precisas a cada objeto)
são executadas pelo pipeline astrométrico (Astrom). As calibrações fotométricas
(que medem as condições da atmosfera durante cada run) são produzidas pelo
pipeline do telescópio de monitoramento (MT). Já que as estrelas usadas nesta
calibração são muito brilhantes para serem observadas pelo telescópio
principal de 2,5 m, algumas áreas de céu que se sobrepõem às varreduras do
2,5 m são observadas com o Telescópio de Monitoramento. Essas áreas secundárias
são usadas para fazer a ligação entre o sistema fotométrico MT e as
observações principais do 2,5 m.
O pipeline fotométrico (Photo) converte os dados de imageamento em informações sobre os objetos celestes. O Photo consiste de três pipelines sucessivos. O último deles, o pipeline dos Frames, opera em um certo conjunto de cinco frames que cobrem um field. O Photo corrige alguns dos artefatos (colunas ruins, raios cósmicos, etc), compensa pelo fundo do detector e por variações de sensibilidade, encontra objetos em dois estágios (brilhante e fraco), busca objetos de baixo brilho superficial e combina os objetos nos cinco filtros. Em seguida, os objetos são medidos (posição, tamanho, formato, contagens) e classificados; objetos compostos são resolvidos para se obter informações sobre os membros individuais, e são recortadas imagens para o atlas. Finalmente, é impressa uma série de saídas: tabelas com os parâmetros medidos, frames corrigidos, frames quadrados de quatro pixels do céu com objetos subtraídos, imagens de atlas, frames de máscara (para cobrir erros tais como pixels saturados ou interpolados) e resumos estatísticos de cada frame.
Para executar esses cálculos, o pipeline Frames precisa conhecer as propriedades
dos detectores e do fundo de céu. Essas propriedades são calculadas pelo
Postage Stamp Pipeline (PSP) [Pipeline de "Selos de Correio"], que calcula
essas quantidades para todo um run e as interpola ao centro de cada frame.
O PSP utiliza recortes de imagens de estrelas brilhantes (mas não saturadas),
rejeita estrelas impróprias (binárias, etc) e calcula os parâmetros de uma simples
point spread function (PSF) ["função de espalhamento de um ponto"] - o formato
da imagem de uma estrela. Esses recortes são feitos pelo Serial Stamp Collecting
Pipeline (SSC) [Pipeline "Coletor de Selos em Série"], que também alinha os frames
em um field. Abaixo, mostramos exemplos de alguns passos do processamento
executado em parte de um frame. Clique na figura para uma imagem maior.
Uma vez que os dados do imageamento tenham passadp poe estes pipelines, as imagens dos cinco filtros podem ser combinadas para fazer belas imagens coloridas. acessíveis por este site. Além disso, os parâmetros medidos de todos os objetos são armazenados em uma base de dados onde os astrônomos podem fazer buscas para encontrar os objetos que eles têm interesse em estudar. Espectros
As observações espectroscópicas têm três objetivos:
O pipeline de dados espectroscópicos é feito para gerar essas importantes quantidades.
Assim como os dados de imageamento, os dados espectroscópicos também são
processados por um grande pipeline, que recebe informação do CCD e devolve
espectros completamente processados. A primeira parte do pipeline aplica
correções devidas a problemas e características do detector. Estas correções
requerem certos outros tipos de informação:
Além de tudo isso, são feitas correções para compensar pela
absorção da atmosfera da Terra (correção telúrica) e pelo
desvio Doppler causado pelo movimento da Terra ao redor do Sol
(correção heliocêntrica).
Uma vez que todas estas correções tenham sido aplicadas,
o pipeline extrai espectros individuais dos objetos e então
produz um espectro unidimensional (fluxo em função do comprimento
de onda) para cada objeto. Estes espectro unidimensionais devem ser
calibrados em comprimento de onda, as partes vermelha e azul juntadas,
e o espectro identificado.
A última tarefa, identificação espectral, é importante e complexa.
OS espectros de galáxias podem variar muito, e os espectros de estrelas,
quasares e outros tipos de objetos são diferentes entre si. Não apenas as
propriedades intrínsecas destes objetos variam, como eles podem estar em
diferentes redshifts, o que faz com que nós vejamos uma parte diferente do
espectro. Para que esses espectros façam sentido, o programa tenta encontrar
primeiro todas as linhas de emissão (características espectrais devidas à
emissão de comprimentos de onda de luz específicos pelos átomos ou moléculas)
e identificá-las. Então, o espectro todo é comparado com uma série de "templates"
[modelos] - certos espectros-padrão de diferentes tipos de objetos - que verificam quão
bem um dado espectro se relaciona com cada template em diferentes redshifts.
A melhor associação nos diz qual é o tipo de objeto que estamos observando
e, ainda, qual seu redshift.
As Bases de Dados
O Projeto LógicoAs informações processadas são armazenados em bases de dados. O "logical database design" [projeto lógico da base de dados] consiste de objetos fotográficos e espectroscópicos. Eles são organizados em um par de "snowflake schemas" ["esquemas floco-de-neve"]. Existem modos de visualização e vários índices que dão acesso de forma conveniente aos subconjuntos convencionais (tais como estrelas e galáxias). Há procedimentos e índices definidos para tornar buscas espaciais convenientes e rápidas.
Como os programas de processamento de dados passaram por mudanças substanciais desde o início do projeto, estamos mantendo duas versões diferentes das nossas imagens processadas. Primeiramente, armazenamos a versão dos dados processados como eles estavam no momento em que os alvos para observação espectroscópica foram selecionados. A esta base de dados chamamos TARGDR1, onde DR1 designa o número da versão: Data Release 1. Depois de os dados terem sido processados com a melhor versão disponível do programa, esses objetos são armazenados na base de dados BESTDR1. O "schema" das duas bases de dados é idêntico e muitos dos objetos aparecem em ambas, mas devido à melhor manipulação do ruído, o número de objetos em BESTDR1 é um pouco maior.
O Projeto FísicoO SkyServer inicialmente adotou uma abordagem simples para o projeto da base de dados - e já que funcionou, paramos por aí. Este projeto conta com mecanismo de armazenamento SQL [Structured Query Language] e com um otimizador de buscas para tomar todas as decisões inteligentes sobre a disposição e o acesso aos dados. A quantidade total de dados em ambas as bases é de 818GB e o número total de linhas excede 3,4 bilhões.
As tabelas de dados são todas criadas em vários grupos de arquivos. Os arquivos da base de dados estão distribuídos em um único volume RAIDO. Cada grupo de arquivos contém vários arquivos que estão limitados a 50Gb cada. Os arquivos de log e dados temporários também estão espalhados por esses discos. O servidor SQL cobre as tabelas percorrendo todos os arquivos e portanto, todos os discos. Ele detecta acesso sequencial, cria caminhos de acesso paralelos e utiliza múltiplos processadores para analisar os dados tão rápido quanto os discos os produzem. Ao ler ou escrever, isso automaticamente fornece a soma das larguras de banda dos discos (mais de 400 MBps no pico, 180 MBps tipicamente) sem precisar de nenhuma programação a mais por parte do usuário. Além dessa leitura ["striping"] de grupos de arquivos, o SkyServer usa todos os valores padrão do servidor SQL. Sem nenhum ajuste especial. Essa é a principal característica do servidor SQL - o sistema prentende ser suficientemente "sem nós" para que seja fácil de usar e tenha boa performance. O SkyServer demonstra esse objetivo. SkyServer Pessoal
Um subconjunto de 1% da base de dados do SkyServer
(cerca de 1,3 GB de dados do servidor SQL) pode ser
comprimido para caber em um CD ou para baixar
da rede. Isso inclui o website e todos os objetos fotométricos
e espectroscópicos em uma área de cerca de 6º de céu.
Esse SkyServer pessoal cabe em um computador pessoal.
E é útil para se fazer experimentos de buscas, para
desenvolver o website e para realizar demonstrações.
Essencialmente, qualquer sala de aula pode ter um mini-SkyServer
para cada estudante.
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||