Студенческий сайт КФУ - ex ТНУ » Учебный раздел » Учебные файлы »ПРОГРАММИРОВАНИЕ

Дослідження засобів контролю присутності запозичень у текстових документах та створення програмного забезпечення для електронних бібліотек регіональних навчальних закладів

Тип: магистерская работа
Категория: ПРОГРАММИРОВАНИЕ
Скачать
Купить
Проблема порушення авторських прав в Інтернеті. Системи та сервіси пошуку плагіату. Захист електронних видань від плагіату в Інтернеті. Алгоритми аналізу, подання і порівняння текстової інформації. Вибір методу пошуку текстових документів з запозиченнями.
Краткое сожержание материала:

Размещено на

СХІДНОУКРАЇНСЬКИЙ НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ

імені Володимира Даля

МІЖНАРОДНИЙ ФАКУЛЬТЕТ

КАФЕДРА КОМП'ЮТЕРНИХ НАУК

Пояснювальна записка

до дипломної роботи

(освітньо-кваліфікаційний рівень)

на тему: Дослідження засобів контролю присутності запозичень у текстових документах та створення програмного забезпечення для електронних бібліотек регіональних навчальних закладів

Луганськ - 2013 року

Реферат

Кількість сторінок - _____

Таблиць - 1

Ілюстрацій - 11

Бібліографічних джерел - 17

Ключові слова: авторське право, запозичення, система, алгоритм, шингл, мегашингл, супершингл.

З кожним роком все більше видань переводиться в електронну форму. Одні з них публікуються на компакт-дисках, інші - в глобальній мережі Інтернет. При цьому практично будь-яке електронне видання, в тому числі і опубліковане в мережі Інтернет, є об'єктом авторського права.

В даний час у світі існує значна кількість систем, що дозволяють здійснювати пошук запозичень (огляд систем представлений в четвертому розділі першої глави дисертаційної роботи), проте в Україні розробки в даному напрямку ведуться не так давно. Актуальність дослідження полягає в необхідності створення методів та автоматизованого інструментарію, що дозволяють здійснювати ефективний і адекватний пошук запозичень в текстових документах, розміщених в електронній бібліотеці регіональних навчальних закладах.

Зміст

  • Реферат
  • Перелік скорочень
  • Вступ
  • Розділ 1. Аналіз стану питання і постановка задач дослідження
  • 1.1 Витоки авторського права і відповідальності за його порушення
  • 1.2 Види порушення авторських прав
  • 1.3 Проблема порушення авторських прав
  • 1.4 Дії щодо припинення порушення авторських прав
  • 1.5 Огляд систем і сервісів пошуку плагіату
  • 1.6 Способи захисту електронних видань від плагіату в Інтернеті
  • 1.6.1 Електронне видання
  • 1.6.2 Види текстової інформації
  • 1.6.3 Способи захисту
  • 1.7 Автоматизація обробки текстової інформації
  • 1.8 Постановка завдання
  • Розділ 2. Методи і алгоритми аналізу, подання і порівняння текстової інформації
  • 2.1 Методи аналізу текстової інформації
  • 2.2 Методи захисту від копіювання текстової інформації в Інтернеті
  • 2.3 Алгоритми пошуку точного збігу
  • 2.4 Алгоритми пошуку спільних підпослідовностей
  • 2.6 Алгоритми обчислення відстані між рядками
  • 2.7 Алгоритми нечіткого пошуку
  • Розділ 3. Вибір методу пошуку текстових документів з запозиченнями
  • 3.1 Локальні методи
  • 3.1.1 LongSent
  • 3.1.2 Методи на основі заходи TF
  • 3.1.3 Методи, які використовують поняття шинглів
  • 3.1.4 MinHash метод
  • 3.1.5 Методи, які використовують семантичні мережі
  • 3.2 Глобальні методи
  • 3.2.1 Методи на основі з TF-IDF
  • 3.2.2 I-Match метод
  • 3.2.3 Метод опорних слів
  • 3.3 Порівняння методів знаходження нечітких дублікатів
  • Розділ 4. Розробка програмного забезпечення
  • 4.1 Етап роботи алгоритму шинглів для веб-документів
  • 4.1 Обгрунтування вибору засобів розробки
  • 4.3 Реалізація алгоритму шинглів
  • 4.4 Інтерфейс взаємодії з користувачем
  • Розділ 5. Охорона праці та безпека в надзвичайних ситуаціях
  • Висновки
  • Список літератури
  • Додатки

Перелік скорочень

АРМ - автоматизоване робоче місце

АОТ - автоматизована обробка текстів

ЕВ - електронне видання

ІПС - інформаційно-пошукова система

ЛА - лінгвістичний автомат

МП - машинний переклад

ПЗ - програмне забезпечення

Вступ

Актуальність теми дослідження

Проблемою дослідження текстових творів займаються багато століття, але лише в 1851 році англійський логік Серпень де Морган вперше запропонував використовувати математичний апарат для вирішення завдання встановлення авторства. Тим самим Морган породив безперервну дискусію про застосовність математичних методів для задач аналізу текстової інформації.

Актуальність автоматизації пошуку запозичень в електронних виданнях обумовлена проблемою порушення авторських прав. В даний час нелегальне розповсюдження творів, що є об'єктом авторського права - явище буденне. Однак Інтернет дозволив максимально спростити саму процедуру порушення до буквально двох-трьох натискань клавіш. Одні й ті ж матеріали багаторазово копіюються на різних сайтах, що неможливо без порушення норм авторського права. Крім того, проблема незаконного запозичення текстових матеріалів зачіпає і систему вищої освіти. Завдяки тому, що в глобальній мережі Інтернет опубліковані, в деяких випадках незаконно, багато електронні видання, а також в силу незнання чинного законодавства в галузі авторського права, багато хто вважає можливим копіювати фрагменти опублікованих у мережі Інтернет електронних видань, з подальшим присвоєнням авторства. За даними, опублікованими Education Week (http://www.plagiarism.org/plagiarismstats.html), заснованим на національному дослідженні (USA) випливає, що 54% студентів незаконно використовують у своїх роботах матеріали, опубліковані в мережі Інтернет. Варто також відзначити, що 47% студентів вважають, що їхні викладачі часто ігнорують випадки плагіату в студентських роботах. Центр Академічної Чесності (The Center for Academic Integrity) виявив, що 80% студентів визнаються в плагіаті, скоєному хоча б одного разу.

плагіат інтернет текстовий документ

З кожним роком все більше видань переводиться в електронну форму. Одні з них публікуються на компакт-дисках, інші - в глобальній мережі Інтернет. При цьому практично будь-яке електронне видання, в тому числі і опубліковане в мережі Інтернет, є об'єктом авторського права.

В даний час, багато хто помилково вважає, що матеріали, опубліковані в глобальній мережі Інтернет можна копіювати, не піклуючись про виняткові права автора.

В даний час у світі існує значна кількість систем, що дозволяють здійснювати пошук запозичень (огляд систем представлений в четвертому розділі першої глави дисертаційної роботи), проте в Україні розробки в даному напрямку ведуться не так давно. Актуальність дослідження полягає в необхідності створення методів та автоматизованого інструментарію, що дозволяють здійснювати ефективний і адекватний пошук запозичень в текстових документах, розміщених в електронній бібліотеці регіональних навчальних закладах.

Мета і завдання дослідження

Метою магістерської роботи є створення автоматизованої системи, а також розробка методів і алгоритмів, що дозволяють проводити пошук запозичень в текстовій інформації, розміщених в електронній бібліотеці регіональних навчальних закладах. Для досягнення мети були вирішені наступні завдання:

огляд програмних систем, що дозволяють проводити пошук запозичень в мережі Інтернет;

аналіз методів і способів, що дозволяють захищати електронні документи від несанкціонованого копіювання;

розробка методів і алгоритмів, що дозволяють здійснювати пошук запозичень в ЕВ;

програмна реалізація розроблених і запропонованих методів і алгоритмів пошуку запозичень в ЕВ;

Предмет і об'єкт дослідження. Об'єктом дослідження є системи, що дозволяють проводити пошук запозичень у текстовому матеріалі, опублікованому в глобальній мережі Інтернет. Предметом дослідження та розробки є безліч методів і алгоритмів, що дозволяють здійснювати пошук запозичень у текстовому матеріалі, а також алгоритмічне забезпечення систем пошуку запозичень в текстовій інформації.

Методи дослідження. У представленій роботі були використані: теорія множин, теорія фільтрів, теоретико-ймовірнісні методи і методи концептуального аналізу, а також позалінгвістичного контент-аналіз у поєднанні з елементами нечіткого порівняння, лексичного та синтаксичного аналізу.

При створенні програмного комплексу, а також при дослідженні алгоритмів порівняння текстової інформації застосовувалися методи об'єктно-орієнтованого програмування (ООП), об'єктно-компонентного програмування (ОКП), динамічного програмування, структурного і модульного програмування.

Оцінка теоретичної значущості результатів роботи. Отримані методи і алгоритми є теоретичною основою для створення автоматизованої системи пошуку запозичень в електронних виданнях, опублікованих в глобальній мережі Інтернет. Запропоновані методи дозволяють здійснювати порівняння текстового матеріалу, спираючись відразу на два ортогональних методу (позалінгвістичного і лінгвістичний). Комбінація позалінгвістичного контент-аналізу в п...

Другие файлы:

Аналіз стану формування фонду документообігу вищих навчальних закладів
Особливості формування фондів бібліотек вищих навчальних закладів, головні вимоги до даного процесу, нормативне забезпечення. Аналіз та оцінка місця б...

Захист програмного забезпечення
Основні поняття щодо захисту програмного забезпечення. Класифікація засобів дослідження програмного коду: відладчики, дизасемблери, діскомпілятори, тр...

Прикладні динамічні бібліотеки для системи Компас-3D
Підстава для створення системи Компас-3D. Характеристика розробленого програмного забезпечення. Призначення і характеристики систем автоматизації конс...

Електронні засоби навчання
Поняття та класифікація електронних засобів навчання. Психолого-ергономічні вимоги до їх застосування та значення. Особливості використання електронни...

Проект програмного забезпечення управління діяльністю станції швидкої допомоги
Автоматизація роботи диспетчера швидкої допомоги. Забезпечення контролю, обігу документів та створення карток хворих при занесенні інформації бригад ш...