Здравствуйте! Возникла ужасная проблемулина: Есть столбец с данными, на 50 000 примерно строк, и в этом столбце английские слова. И эти английские слова отсортированы по алфавиту. Однако, есть много однокоренных слов, чукча подтвердит. А нужно выделить только корни.
Соответственно, есть несколько иерархически связанных между собой задач:
1) Нужно изъять в соседний столбец только корни слов. Для тех, кто в танке, стоит пояснить, что корни слов - это та часть слова, которая повторяется, да. А тем, что корни в процессе словообразования изменяются, в рамках данной задачи можно пренебречь. И нужно отметить, что есть слова с единственным корнем, а есть слова с несколькими корнями, а также есть слова с приставками, суффиксами и окончаниями. А также есть слова с уникальным корнем в единственном экземпляре. И, между прочим, корни слов - это уникальные сочетания букафф в рамках данных из столбца, и это тоже, наверно, можно использовать. Если это не получится сделать программно, то переходим к задаче (2)
2) Выделить повторяющиеся части слов. Например, нужно все -s, которые находятся в конце слова, выделить цветом. В ячейке, ага. А потом выделить цветом, например, приставку any-. Ну, например. Если и это не получитсо, тагда остается перейти к задаче (3).
3) Выделить слова, совпадающие с предыдущими на 80%, допустим. Таким образом первое однокоренное слово останется не выделенным, а остальные выделятся. В результате будет наглядно видно, в каком слове есть уникальный корень.
А если и это не выйдет, то я куплю себе бутылку вискаря и упьюсь вусмерть, поскольку тогда (если это не получится решить аппаратно), мне придется заниматься этим всем вручную, ибо мне нужно по заданию кафедры лингвистического университета для докторской диссертации моего научного руководителя составить словарь корней английского языка, и это и есть тот самый ад и израиль, о котором шла речь в заголовке (надеюсь, у ваших модераторов есть чувство юмора). Спасите, помогите, в общем. Очень жду, очень надеюсь, сижу на телеграфе, плиз, жду ваших советов.
Здравствуйте! Возникла ужасная проблемулина: Есть столбец с данными, на 50 000 примерно строк, и в этом столбце английские слова. И эти английские слова отсортированы по алфавиту. Однако, есть много однокоренных слов, чукча подтвердит. А нужно выделить только корни.
Соответственно, есть несколько иерархически связанных между собой задач:
1) Нужно изъять в соседний столбец только корни слов. Для тех, кто в танке, стоит пояснить, что корни слов - это та часть слова, которая повторяется, да. А тем, что корни в процессе словообразования изменяются, в рамках данной задачи можно пренебречь. И нужно отметить, что есть слова с единственным корнем, а есть слова с несколькими корнями, а также есть слова с приставками, суффиксами и окончаниями. А также есть слова с уникальным корнем в единственном экземпляре. И, между прочим, корни слов - это уникальные сочетания букафф в рамках данных из столбца, и это тоже, наверно, можно использовать. Если это не получится сделать программно, то переходим к задаче (2)
2) Выделить повторяющиеся части слов. Например, нужно все -s, которые находятся в конце слова, выделить цветом. В ячейке, ага. А потом выделить цветом, например, приставку any-. Ну, например. Если и это не получитсо, тагда остается перейти к задаче (3).
3) Выделить слова, совпадающие с предыдущими на 80%, допустим. Таким образом первое однокоренное слово останется не выделенным, а остальные выделятся. В результате будет наглядно видно, в каком слове есть уникальный корень.
А если и это не выйдет, то я куплю себе бутылку вискаря и упьюсь вусмерть, поскольку тогда (если это не получится решить аппаратно), мне придется заниматься этим всем вручную, ибо мне нужно по заданию кафедры лингвистического университета для докторской диссертации моего научного руководителя составить словарь корней английского языка, и это и есть тот самый ад и израиль, о котором шла речь в заголовке (надеюсь, у ваших модераторов есть чувство юмора). Спасите, помогите, в общем. Очень жду, очень надеюсь, сижу на телеграфе, плиз, жду ваших советов.ursapuh
"Я здесь не для того, чтобы соответствовать вашим ожиданиям" (с)