limpar_nomes {nomesbr}R Documentation

Limpa e Analisa Nomes em um data.table

Description

Processa uma coluna de nomes em um 'data.table', aplicando uma série de regras de limpeza para identificar e corrigir/marcar problemas comuns como menções a "FALECIDO", "CARTORIO", erros de digitação, espaços indevidos, etc.

Usage

limpar_nomes(d, s)

find_and_clean_NAnames_and_extra_spaces(d, s)

Arguments

d

Um objeto 'data.table'.

s

O nome da coluna (em string) dentro de 'd' que contém os nomes a serem processados.

Details

A função executa os seguintes passos principais:

  1. Cria uma cópia da coluna de nomes para limpeza.

  2. Detecta e trata menções a "FALECIDO(A)".

  3. Detecta e trata menções a "CARTORIO" e nomes de cidades comuns em registros.

  4. Corrige espaçamento perto de caracteres especiais com 'limpa_espaco_acento_til_apostrofe'.

  5. Identifica e trata nomes contendo termos problemáticos como "PAI", "MAE", "SEM", "NAO", exceto em contextos aceitáveis.

  6. Identifica e trata casos de "NADA CONSTA" e variações.

  7. Corrige E, DA, DE e variantes com caracter prévio indevido (ex: "EDAS" para "DAS" se aplicável).

  8. Remove saudações como "SR.", "SRA.".

  9. Remove termos como "IGNORADO", "DESCONHECIDO".

  10. Remove repetições de partículas de ligação (ex: "DE DE").

  11. Limpa letras repetidas no início ou meio de palavras.

Value

Um 'data.table' modificado, contendo a coluna original, uma nova coluna com sufixo "_clean" com os nomes limpos, e colunas booleanas indicando a detecção de cada tipo de problema (ex: 'falecido', 'cartorio').

Examples

# Supondo que 'meu_DT' é um data.table com uma coluna 'nome_sujo'
DT_exemplo <- data.table::data.table(
id = 1:3,
nome_sujo = c("MARIA FALECIDA SSILVA", "CARTORIO DE PAZ", "JOAO D ARC")
)
DT_limpo <- limpar_nomes(DT_exemplo, "nome_sujo")
print(DT_limpo)


[Package nomesbr version 0.0.7 Index]