Домашняя страница Undo Do New Save Карта сайта Обратная связь Поиск по форуму
МИР MS EXCEL - Гость.xls

Вход

Регистрация

Напомнить пароль

 

= Мир MS Excel/Не совсем дубликаты - Мир MS Excel

Старая форма входа
  • Страница 1 из 1
  • 1
Модератор форума: китин, _Boroda_  
Мир MS Excel » Вопросы и решения » Вопросы по Excel » Не совсем дубликаты
Не совсем дубликаты
lelelik Дата: Вторник, 10.04.2012, 12:35 | Сообщение № 1
Группа: Пользователи
Ранг: Прохожий
Сообщений: 9
Репутация: 0 ±
Замечаний: 0% ±

Уважаемые форумчане, помогите, натолкните на мысль - как можно решить проблему с дубликатами, которые не совсем дубликаты ))
Некорректно созданная база данных, с которой теперь приходится мучаться мне. Компания ООО Авангард Лизинг в базе может встречаться несколько раз как: ООО Авангард-Лизинг, Авангард лизинг ООО, АВАНГАРД ЛИЗИНГ 000 и другие вариации. Естественно, данные по этой одной компании нужно суммировать. Вопрос: как произвести поиск и суммирование дубликатов, которые с точки зрения Excel не дубликаты вовсе?
К сообщению приложен файл: 7450336.xlsx (9.7 Kb)
 
Ответить
СообщениеУважаемые форумчане, помогите, натолкните на мысль - как можно решить проблему с дубликатами, которые не совсем дубликаты ))
Некорректно созданная база данных, с которой теперь приходится мучаться мне. Компания ООО Авангард Лизинг в базе может встречаться несколько раз как: ООО Авангард-Лизинг, Авангард лизинг ООО, АВАНГАРД ЛИЗИНГ 000 и другие вариации. Естественно, данные по этой одной компании нужно суммировать. Вопрос: как произвести поиск и суммирование дубликатов, которые с точки зрения Excel не дубликаты вовсе?

Автор - lelelik
Дата добавления - 10.04.2012 в 12:35
Serge_007 Дата: Вторник, 10.04.2012, 12:54 | Сообщение № 2
Группа: Админы
Ранг: Местный житель
Сообщений: 16475
Репутация: 2749 ±
Замечаний: ±

Excel 2016
Сто раз обсуждалось.
Создавайте вручную список всех возможных названий одной и той же компании.
Остальное - дело пяти минут


ЮMoney:41001419691823 | WMR:126292472390
 
Ответить
СообщениеСто раз обсуждалось.
Создавайте вручную список всех возможных названий одной и той же компании.
Остальное - дело пяти минут

Автор - Serge_007
Дата добавления - 10.04.2012 в 12:54
Alex_ST Дата: Вторник, 10.04.2012, 15:42 | Сообщение № 3
Группа: Друзья
Ранг: Участник клуба
Сообщений: 3209
Репутация: 609 ±
Замечаний: 0% ±

2003
Серега, а ты представляешь себе сколькими возможными вариантами можно записать то же самое ООО Авангард-Лизинг ? А если ещё и пробелы не по одному наставлены?
А если контрагентов хотя бы несколько десятков?
Это абсолютно нереально!
Тут надо нечёткий поиск применять. А это мы ещё с Володей не докрутили до конца. Хотя наработки уже есть в топике Простая метрика сходства текстовых строк (Нечеткий поиск - варианты решения)
Ну, на крайний случай можно еще попробовать заюзать мой Удобный автофильтр и руками фильтровать-править.



С уважением,
Алексей
MS Excel 2003 - the best!!!
 
Ответить
СообщениеСерега, а ты представляешь себе сколькими возможными вариантами можно записать то же самое ООО Авангард-Лизинг ? А если ещё и пробелы не по одному наставлены?
А если контрагентов хотя бы несколько десятков?
Это абсолютно нереально!
Тут надо нечёткий поиск применять. А это мы ещё с Володей не докрутили до конца. Хотя наработки уже есть в топике Простая метрика сходства текстовых строк (Нечеткий поиск - варианты решения)
Ну, на крайний случай можно еще попробовать заюзать мой Удобный автофильтр и руками фильтровать-править.

Автор - Alex_ST
Дата добавления - 10.04.2012 в 15:42
Serge_007 Дата: Вторник, 10.04.2012, 15:47 | Сообщение № 4
Группа: Админы
Ранг: Местный житель
Сообщений: 16475
Репутация: 2749 ±
Замечаний: ±

Excel 2016
Привет, Лёш, что-то тебя совсем редко стало видно smile
Quote (Alex_ST)
Серега, а ты представляешь себе сколькими возможными вариантами можно записать то же самое ООО Авангард-Лизинг ?
Да

Quote (Alex_ST)
Тут надо нечёткий поиск применять.

А ты поручишься, что результат будет 100%? wink
Думаю нет.
Мой вариант долгий, но абсолютно точный smile


ЮMoney:41001419691823 | WMR:126292472390
 
Ответить
СообщениеПривет, Лёш, что-то тебя совсем редко стало видно smile
Quote (Alex_ST)
Серега, а ты представляешь себе сколькими возможными вариантами можно записать то же самое ООО Авангард-Лизинг ?
Да

Quote (Alex_ST)
Тут надо нечёткий поиск применять.

А ты поручишься, что результат будет 100%? wink
Думаю нет.
Мой вариант долгий, но абсолютно точный smile

Автор - Serge_007
Дата добавления - 10.04.2012 в 15:47
Hugo Дата: Вторник, 10.04.2012, 16:30 | Сообщение № 5
Группа: Друзья
Ранг: Участник клуба
Сообщений: 3255
Репутация: 707 ±
Замечаний: 0% ±

2019
У меня по работе что-то подобное используется - есть список, который загоняю в словарь, из которого извлекаю правильную пару, или пишу "не найдено".
В принципе, можно использовать ВПР(), но у меня там данные из сложного текста макросом тянутся.
У кого "не найдено", тех оператор оперативно (потому и оператор smile ) добавляет в список с нужной парой.
В итоге со временем "не найдено" встречается всё реже.


excel@nxt.ru
webmoney: E265281470651 Z422237915069
 
Ответить
СообщениеУ меня по работе что-то подобное используется - есть список, который загоняю в словарь, из которого извлекаю правильную пару, или пишу "не найдено".
В принципе, можно использовать ВПР(), но у меня там данные из сложного текста макросом тянутся.
У кого "не найдено", тех оператор оперативно (потому и оператор smile ) добавляет в список с нужной парой.
В итоге со временем "не найдено" встречается всё реже.

Автор - Hugo
Дата добавления - 10.04.2012 в 16:30
Формуляр Дата: Вторник, 10.04.2012, 16:33 | Сообщение № 6
Группа: Друзья
Ранг: Ветеран
Сообщений: 832
Репутация: 255 ±
Замечаний: 0% ±

Excel 2003, 2013
Согласен с Сергеем: 100% гарантию от ошибок дает только вручную составленная таблица перекодировки наименований.

Но если цена ошибки не очень велика, а вариантов - туча, то вполне можно использовать нечёткий поиск с ограничением минимального сходства, скажем, 90%. В этом случае, существенным недостатком моей методы может оказаться игнорирование цифровых символов - различия в наименованиях, содержащих разные цифры определяться не будут.


Excel 2003 EN, 2013 EN
 
Ответить
СообщениеСогласен с Сергеем: 100% гарантию от ошибок дает только вручную составленная таблица перекодировки наименований.

Но если цена ошибки не очень велика, а вариантов - туча, то вполне можно использовать нечёткий поиск с ограничением минимального сходства, скажем, 90%. В этом случае, существенным недостатком моей методы может оказаться игнорирование цифровых символов - различия в наименованиях, содержащих разные цифры определяться не будут.

Автор - Формуляр
Дата добавления - 10.04.2012 в 16:33
_Boroda_ Дата: Вторник, 10.04.2012, 16:48 | Сообщение № 7
Группа: Модераторы
Ранг: Местный житель
Сообщений: 16675
Репутация: 6481 ±
Замечаний: 0% ±

2003; 2007; 2010; 2013 RUS
Я обычно пользуюсь таким простеньким вариантом. Конечно, всего-всего не находит, но почти всегда меня устраивает.
Плюс - простота и возможность ручной корректировки.
Минус - ищет только одну организацию (или две) за один раз.

Это не для проверки, это для составления списка соответствий (как говорится - день потерять, зато потом за 5 минут долететь). А по этому списку потом обычным ВПРом. А если где не нашел - значит, новая организация или новое написание старой.
К сообщению приложен файл: Poisk.xls (46.5 Kb)


Скажи мне, кудесник, любимец ба’гов...
Платная помощь:
Boroda_Excel@mail.ru
Яндекс-деньги: 41001632713405 | Webmoney: R289877159277; Z102172301748; E177867141995
 
Ответить
СообщениеЯ обычно пользуюсь таким простеньким вариантом. Конечно, всего-всего не находит, но почти всегда меня устраивает.
Плюс - простота и возможность ручной корректировки.
Минус - ищет только одну организацию (или две) за один раз.

Это не для проверки, это для составления списка соответствий (как говорится - день потерять, зато потом за 5 минут долететь). А по этому списку потом обычным ВПРом. А если где не нашел - значит, новая организация или новое написание старой.

Автор - _Boroda_
Дата добавления - 10.04.2012 в 16:48
lelelik Дата: Вторник, 10.04.2012, 17:43 | Сообщение № 8
Группа: Пользователи
Ранг: Прохожий
Сообщений: 9
Репутация: 0 ±
Замечаний: 0% ±

Quote (Alex_ST)
Серега, а ты представляешь себе сколькими возможными вариантами можно записать то же самое ООО Авангард-Лизинг ?


Alex_ST, Вы меня поняли как никто другой! Более 7 тыщ. строк...
Вариант справочника для меня не универсален, поскольку я только выгружаю данные из базы, каждый раз отсортированные, мне не отследить появления новых компаний или старых, забитых еще одной позицией...
Буду вникать в "нечеткий способ"!
 
Ответить
Сообщение
Quote (Alex_ST)
Серега, а ты представляешь себе сколькими возможными вариантами можно записать то же самое ООО Авангард-Лизинг ?


Alex_ST, Вы меня поняли как никто другой! Более 7 тыщ. строк...
Вариант справочника для меня не универсален, поскольку я только выгружаю данные из базы, каждый раз отсортированные, мне не отследить появления новых компаний или старых, забитых еще одной позицией...
Буду вникать в "нечеткий способ"!

Автор - lelelik
Дата добавления - 10.04.2012 в 17:43
Serge_007 Дата: Вторник, 10.04.2012, 17:46 | Сообщение № 9
Группа: Админы
Ранг: Местный житель
Сообщений: 16475
Репутация: 2749 ±
Замечаний: ±

Excel 2016
Quote (lelelik)
я только выгружаю данные из базы

Что же это за база такая, в которую что хочешь и как хочешь можно вносить?!


ЮMoney:41001419691823 | WMR:126292472390
 
Ответить
Сообщение
Quote (lelelik)
я только выгружаю данные из базы

Что же это за база такая, в которую что хочешь и как хочешь можно вносить?!

Автор - Serge_007
Дата добавления - 10.04.2012 в 17:46
RAN Дата: Вторник, 10.04.2012, 18:20 | Сообщение № 10
Группа: Друзья
Ранг: Экселист
Сообщений: 5660
Репутация: 1163 ±
Замечаний: 0% ±

2010
Это база, в которой ленивый разработчик не сделал проверку на наличие в списке и добавление в список.


Быть или не быть, вот в чем загвоздка!
 
Ответить
СообщениеЭто база, в которой ленивый разработчик не сделал проверку на наличие в списке и добавление в список.

Автор - RAN
Дата добавления - 10.04.2012 в 18:20
nerv Дата: Среда, 11.04.2012, 09:34 | Сообщение № 11
Группа: Редакторы
Ранг: Обитатель
Сообщений: 431
Репутация: 193 ±
Замечаний: 0% ±

Можно регами почистить, привести к единому регистру и т.д. Бюджет предусмотрен?


Чебурашка стал символом олимпийских игр. А чего достиг ты?
Тишина - самый громкий звук


YM 41001156540584 / WM WMR R21924176233

https://github.com/nervgh/vba
 
Ответить
СообщениеМожно регами почистить, привести к единому регистру и т.д. Бюджет предусмотрен?

Автор - nerv
Дата добавления - 11.04.2012 в 09:34
Alex_ST Дата: Среда, 11.04.2012, 11:17 | Сообщение № 12
Группа: Друзья
Ранг: Участник клуба
Сообщений: 3209
Репутация: 609 ±
Замечаний: 0% ±

2003
К стати, ИМХО, главный вопрос - цель, которой добивается lelelik:
1. Продолжать пользоваться так коряво заполненной базой данных и соответственно и далее допускать ввод данных "абы как".
2. Потратить некоторое время на обработку и коррекцию информации, а потом уже вести базу данных корректно, не допуская ручного ввода чего попало.



С уважением,
Алексей
MS Excel 2003 - the best!!!
 
Ответить
СообщениеК стати, ИМХО, главный вопрос - цель, которой добивается lelelik:
1. Продолжать пользоваться так коряво заполненной базой данных и соответственно и далее допускать ввод данных "абы как".
2. Потратить некоторое время на обработку и коррекцию информации, а потом уже вести базу данных корректно, не допуская ручного ввода чего попало.

Автор - Alex_ST
Дата добавления - 11.04.2012 в 11:17
_Boroda_ Дата: Среда, 11.04.2012, 11:41 | Сообщение № 13
Группа: Модераторы
Ранг: Местный житель
Сообщений: 16675
Репутация: 6481 ±
Замечаний: 0% ±

2003; 2007; 2010; 2013 RUS
Предположу, что описанная ситуация очень похожа на ту, что у меня на работе творится. Есть довольно древняя система учета, в которую можно ручками вводить любые наименования организации. Что диспетчера, сверяясь с накладными, и делают. А вот тут уже, сами понимаете, может быть все, что угодно. Как-то, ради интереса, посмотрел - максимум разночтений названия одной организации - 210!!! различных наименований. Сам я поправить алгоритм проверки ввода не могу - не моя это работа, я не разработчик. Диспетчеров наказывать - тоже не в моей власти, поэтому приходится работать с тем, что есть. Да, забыл сказать, количество - не какие-то 7000 записей, а несколько миллионов. Так вот, есть таблица соответствия, по которой все различные названия одной организации приводятся к одному. А если название в таблице не встречается, то оно выводится в отдельную таблицу, ему вручную ищется правильное название и эти данные добавляются в таблицу соответствия. Я считаю, что только так можно добиться 100%-ого определения. Забыл добавить, что все это делается SQL-запросами, база соответствия и промежуточные базы в Access, а выход всего этого безобразия - в Excel.


Скажи мне, кудесник, любимец ба’гов...
Платная помощь:
Boroda_Excel@mail.ru
Яндекс-деньги: 41001632713405 | Webmoney: R289877159277; Z102172301748; E177867141995
 
Ответить
СообщениеПредположу, что описанная ситуация очень похожа на ту, что у меня на работе творится. Есть довольно древняя система учета, в которую можно ручками вводить любые наименования организации. Что диспетчера, сверяясь с накладными, и делают. А вот тут уже, сами понимаете, может быть все, что угодно. Как-то, ради интереса, посмотрел - максимум разночтений названия одной организации - 210!!! различных наименований. Сам я поправить алгоритм проверки ввода не могу - не моя это работа, я не разработчик. Диспетчеров наказывать - тоже не в моей власти, поэтому приходится работать с тем, что есть. Да, забыл сказать, количество - не какие-то 7000 записей, а несколько миллионов. Так вот, есть таблица соответствия, по которой все различные названия одной организации приводятся к одному. А если название в таблице не встречается, то оно выводится в отдельную таблицу, ему вручную ищется правильное название и эти данные добавляются в таблицу соответствия. Я считаю, что только так можно добиться 100%-ого определения. Забыл добавить, что все это делается SQL-запросами, база соответствия и промежуточные базы в Access, а выход всего этого безобразия - в Excel.

Автор - _Boroda_
Дата добавления - 11.04.2012 в 11:41
Формуляр Дата: Среда, 11.04.2012, 12:00 | Сообщение № 14
Группа: Друзья
Ранг: Ветеран
Сообщений: 832
Репутация: 255 ±
Замечаний: 0% ±

Excel 2003, 2013
Quote (_Boroda_)
А если название в таблице не встречается, то оно выводится в отдельную таблицу, ему вручную ищется правильное название

А вот тут процедура нечёткого поиска была бы вполне полезна. smile

Quote (lelelik)
Естественно, данные по этой одной компании нужно суммировать.

Quote (lelelik)
Вариант справочника для меня не универсален

Что касается исходной задачи, то независимо от способа сравнения, она в принципе не имеет устойчивого решения, т.к. при отсутствии постоянного справочника результат кластеризации наименований по степени сходства будет зависеть от наличия/отсутствия тех или иных конкретных наименований в общем списке.


Excel 2003 EN, 2013 EN

Сообщение отредактировал Формуляр - Среда, 11.04.2012, 12:04
 
Ответить
Сообщение
Quote (_Boroda_)
А если название в таблице не встречается, то оно выводится в отдельную таблицу, ему вручную ищется правильное название

А вот тут процедура нечёткого поиска была бы вполне полезна. smile

Quote (lelelik)
Естественно, данные по этой одной компании нужно суммировать.

Quote (lelelik)
Вариант справочника для меня не универсален

Что касается исходной задачи, то независимо от способа сравнения, она в принципе не имеет устойчивого решения, т.к. при отсутствии постоянного справочника результат кластеризации наименований по степени сходства будет зависеть от наличия/отсутствия тех или иных конкретных наименований в общем списке.

Автор - Формуляр
Дата добавления - 11.04.2012 в 12:00
_Boroda_ Дата: Среда, 11.04.2012, 12:07 | Сообщение № 15
Группа: Модераторы
Ранг: Местный житель
Сообщений: 16675
Репутация: 6481 ±
Замечаний: 0% ±

2003; 2007; 2010; 2013 RUS
Quote (Формуляр)
Цитата, _Boroda_ писал(а):
А если название в таблице не встречается, то оно выводится в отдельную таблицу, ему вручную ищется правильное название

А вот тут процедура нечёткого поиска была бы вполне полезна. smile

Зачем? Я выше положил простенький макрос, который вполне меня удовлетворяет. Ведь основная работа была именно при составлении таблицы соответствия, а потом уже раз в месяц добавить десяток новых очепяток - это дело 5-и минут.


Скажи мне, кудесник, любимец ба’гов...
Платная помощь:
Boroda_Excel@mail.ru
Яндекс-деньги: 41001632713405 | Webmoney: R289877159277; Z102172301748; E177867141995
 
Ответить
Сообщение
Quote (Формуляр)
Цитата, _Boroda_ писал(а):
А если название в таблице не встречается, то оно выводится в отдельную таблицу, ему вручную ищется правильное название

А вот тут процедура нечёткого поиска была бы вполне полезна. smile

Зачем? Я выше положил простенький макрос, который вполне меня удовлетворяет. Ведь основная работа была именно при составлении таблицы соответствия, а потом уже раз в месяц добавить десяток новых очепяток - это дело 5-и минут.

Автор - _Boroda_
Дата добавления - 11.04.2012 в 12:07
lelelik Дата: Четверг, 12.04.2012, 11:09 | Сообщение № 16
Группа: Пользователи
Ранг: Прохожий
Сообщений: 9
Репутация: 0 ±
Замечаний: 0% ±

Quote (_Boroda_)
Как-то, ради интереса, посмотрел - максимум разночтений названия одной организации - 210!!! различных наименований.

Quote (_Boroda_)
Да, забыл сказать, количество - не какие-то 7000 записей, а несколько миллионов.


Известная пословица про беды в России... Кто-то не додумал, не доделал...
Была бы у меня шляпа, немедленно бы сняла в почтении!
Разгребать мусор, созданный другими - то еще занятие!
 
Ответить
Сообщение
Quote (_Boroda_)
Как-то, ради интереса, посмотрел - максимум разночтений названия одной организации - 210!!! различных наименований.

Quote (_Boroda_)
Да, забыл сказать, количество - не какие-то 7000 записей, а несколько миллионов.


Известная пословица про беды в России... Кто-то не додумал, не доделал...
Была бы у меня шляпа, немедленно бы сняла в почтении!
Разгребать мусор, созданный другими - то еще занятие!

Автор - lelelik
Дата добавления - 12.04.2012 в 11:09
Мир MS Excel » Вопросы и решения » Вопросы по Excel » Не совсем дубликаты
  • Страница 1 из 1
  • 1
Поиск:

Яндекс.Метрика Яндекс цитирования
© 2010-2024 · Дизайн: MichaelCH · Хостинг от uCoz · При использовании материалов сайта, ссылка на www.excelworld.ru обязательна!